AI赋能招投标：标书生成，告别复制粘贴地狱！

推荐语

AI助力标书制作，告别繁琐格式调整，让投标人重获自由！

核心内容：
1. 标书制作的痛点：格式调整与图片插入的繁琐流程
2. AI解决方案：智能解析招标文件，自动提取并精准插入附件
3. 实践案例：知识库管理与企业资质图片的自动化处理

杨芳贤

53AI创始人/腾讯云(TVP)最具价值专家

"投标人员的时间守恒定律：格式调整耗时&nbsp;=&nbsp;插入图片数&nbsp;×&nbsp;标书页数/10"&nbsp;⏰

在企业的日常经营中，经过投标判断助手确定标底后，就来到了让无数投标人闻风丧胆的标书撰写阶段。以算力领域为例，一份标书通常包含：

📑 10+个章节
📝 5万字+文本
🖼️ 100+张资质图片
😫 1位濒临崩溃的投标人员

📖 前言：当算力遇上格式强迫症

格式的执念：虽然算力招标对技术参数允许合理波动，但对标书格式却有着"像素级"要求。不同招标单位的格式模板差异，足以让最淡定的投标人抓狂。
图片的迷宫：如何在保证技术准确性的同时，把企业资质图片精准插入到标书指定位置？这不仅是技术问题，更是艺术！

📥 输入输出样例

graph&nbsp;LR&nbsp;&nbsp;&nbsp;&nbsp;A[招标文件]&nbsp;--&gt;&nbsp;B[智能解析]&nbsp;&nbsp;&nbsp;&nbsp;B&nbsp;--&gt;&nbsp;C[自动提取附件]&nbsp;&nbsp;&nbsp;&nbsp;C&nbsp;--&gt;&nbsp;D[精准插入图片]&nbsp;&nbsp;&nbsp;&nbsp;D&nbsp;--&gt;&nbsp;E[完美格式标书]

🎬 产品演示：眼见为实

温馨提示：观看时请勿羡慕到流泪&nbsp;😭

🤖 Agent搭建全解析

🎯 知识库：AI的"记忆宫殿"

数据是LLM的血液，没有数据的Agent就像没有汽油的超跑 —— 只能看不能开

我们采用"分治策略"管理企业资质：

将营业执照、纳税证明等图片存入docx
按材料类型分段存储，确保检索时能返回完整图片集
在dify平台通过URL分发图片资源

知识库：这里存放着价值百万的"数字房产证"🏠

💡 工作流：标书生成的"流水线"

温馨提示：本流程已通过ISO-9001"防加班"认证&nbsp;🕒

🛠️ 前处理三剑客

DOCX标题提取器 - 专业的"目录生成师"

import requests

招标文件分析 - LLM的"格式侦探"

你是一个招标文件分析助手，在招投标领域，乙方投标文件，必须按照甲方招标文件中规定的格式进行撰写#输入是招标文件的章节标题，请判断对于投标文件的格式要求，所在的章节，然后返回开始章节标题，和结束章节标题#符合条件的章节，一般包含有"附件"字样，即该章，附带了许多格式化的表格，投标人照此写标书#如果没有结束章节标题，则置为空参考输出格式：{"开始标题":”XXX“,”结束标题“:"XXX"}{{#投标文件的章节名称.result#}}/no_think

经过LLM后，去掉输出结果的think标签

import&nbsp;re,jsonfrom&nbsp;typing&nbsp;import&nbsp;Listimport&nbsp;jsondef&nbsp;main(arg1):&nbsp;&nbsp;&nbsp;&nbsp;tmp&nbsp;=&nbsp;re.sub(r"&lt;think&gt;[\s\S]*?&lt;/think&gt;",&nbsp;"",&nbsp;arg1,&nbsp;flags=re.DOTALL)&nbsp;&nbsp;&nbsp;&nbsp;tmp&nbsp;=&nbsp;re.sub(r'^\s*```(?:json)?\s*\n?',&nbsp;'',&nbsp;tmp,flags=re.IGNORECASE)&nbsp;&nbsp;&nbsp;&nbsp;tmp&nbsp;=&nbsp;re.sub(r'\n?```\s*$',&nbsp;'',&nbsp;tmp)&nbsp;&nbsp;&nbsp;&nbsp;tmp&nbsp;=&nbsp;tmp.replace(r'\n',&nbsp;'\n').replace(r'\"',&nbsp;'"').strip()&nbsp;&nbsp;&nbsp;&nbsp;result=tmp&nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;{&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'result':result&nbsp;&nbsp;&nbsp;&nbsp;}

DOCX章节提取器 - 精准的"文档外科医生"，代码逻辑如下:

#&nbsp;=====&nbsp;数据结构定义&nbsp;=====定义&nbsp;ElementInfo:&nbsp;&nbsp;元素类型:&nbsp;'paragraph'&nbsp;或&nbsp;'table'&nbsp;&nbsp;XML内容:&nbsp;字符串&nbsp;&nbsp;文本内容:&nbsp;字符串&nbsp;(用于预览)&nbsp;&nbsp;索引:&nbsp;整数&nbsp;&nbsp;分区格式:&nbsp;字典&nbsp;(可选)定义&nbsp;SectionInfo:&nbsp;&nbsp;标题:&nbsp;字符串&nbsp;&nbsp;元素列表:&nbsp;[ElementInfo]定义&nbsp;PageFormatInfo:&nbsp;&nbsp;页面宽度,&nbsp;高度,&nbsp;方向,&nbsp;四周边距:&nbsp;整数/字符串定义&nbsp;DocumentExtractResult:&nbsp;&nbsp;章节列表:&nbsp;[SectionInfo]&nbsp;&nbsp;页面格式:&nbsp;PageFormatInfo&nbsp;&nbsp;源文件路径:&nbsp;字符串&nbsp;&nbsp;元素总数:&nbsp;整数&nbsp;&nbsp;抽取信息:&nbsp;字典&nbsp;&nbsp;分区格式列表:&nbsp;[字典]&nbsp;(可选)&nbsp;&nbsp;样式XML:&nbsp;字符串&nbsp;(可选)&nbsp;&nbsp;编号XML:&nbsp;字符串&nbsp;(可选)#&nbsp;=====&nbsp;文档解析器类&nbsp;=====类&nbsp;DocxExtractor:&nbsp;&nbsp;初始化(文档路径):&nbsp;&nbsp;&nbsp;&nbsp;加载DOCX文档&nbsp;&nbsp;获取页面格式(章节索引=0):&nbsp;&nbsp;&nbsp;&nbsp;尝试从文档获取页面设置&nbsp;&nbsp;&nbsp;&nbsp;失败则返回默认A4格式&nbsp;&nbsp;查找单章节(开始标题,&nbsp;标题级别=1,&nbsp;结束标题=None):&nbsp;&nbsp;&nbsp;&nbsp;预处理标题(移除空格)&nbsp;&nbsp;&nbsp;&nbsp;收集所有文档元素(段落+表格)&nbsp;&nbsp;&nbsp;&nbsp;遍历元素:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-&nbsp;发现匹配的开始标题&nbsp;→&nbsp;创建新章节&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-&nbsp;继续收集元素直到:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;a)&nbsp;遇到结束标题&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;b)&nbsp;遇到同级标题(无结束标题时)&nbsp;&nbsp;&nbsp;&nbsp;返回找到的章节列表&nbsp;&nbsp;抽取单章节(开始标题,&nbsp;标题级别=1,&nbsp;结束标题=None):&nbsp;&nbsp;&nbsp;&nbsp;调用查找单章节&nbsp;&nbsp;&nbsp;&nbsp;收集分区格式信息&nbsp;&nbsp;&nbsp;&nbsp;确定最终页面格式:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;优先使用提取的分区格式&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;否则调用获取页面格式&nbsp;&nbsp;&nbsp;&nbsp;构建DocumentExtractResult对象&nbsp;&nbsp;&nbsp;&nbsp;返回结果#&nbsp;=====&nbsp;插件工具类&nbsp;=====类&nbsp;DocxExtractorTool&nbsp;(继承Tool):&nbsp;&nbsp;执行入口(参数):&nbsp;&nbsp;&nbsp;&nbsp;验证必要参数(文档文件,&nbsp;开始标题)&nbsp;&nbsp;&nbsp;&nbsp;下载DOCX文件&nbsp;→&nbsp;保存为临时文件&nbsp;&nbsp;&nbsp;&nbsp;创建DocxExtractor实例&nbsp;&nbsp;&nbsp;&nbsp;调用抽取单章节方法&nbsp;&nbsp;&nbsp;&nbsp;处理结果:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;添加成功元数据&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;转换为JSON格式&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;生成输出文件&nbsp;&nbsp;&nbsp;&nbsp;异常处理:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;值错误/通用错误&nbsp;→&nbsp;生成错误JSON文件&nbsp;&nbsp;&nbsp;&nbsp;返回处理结果(文件blob或错误信息)

🔄 迭代环节：图片与文字的"相亲大会"

遍历所有xml数据，查找对应的图片

//&nbsp;XML数据结构：标书的DNA{&nbsp;&nbsp;&nbsp;&nbsp;"element_type":&nbsp;"paragraph",&nbsp;&nbsp;&nbsp;&nbsp;"xml_content":&nbsp;"&lt;w:p&gt;7-2纳税证明&lt;/w:p&gt;",&nbsp;&nbsp;&nbsp;&nbsp;"text_content":&nbsp;"7-2纳税证明",&nbsp;&nbsp;&nbsp;&nbsp;"index":&nbsp;642}

智能匹配流程：a.文字："7-2纳税证明"发出相亲请求b.知识库：匹配到纳税证明图片集c.LLM媒人：生成"结婚证"（XML数据）d.输出：文字+图片的完美组合

大模型将图片转换为xml的prompt：

你是一个json数据处理专家，请将数据A，按照参考格式，进行构造，然后返回一个新的json数据#如果待处理数据只有文字，则生成element_type为paragraph。如果待处理数据还有图像，则生成element_type为picture。#index字段，与B保持一致，举例B为100，则输出的所有index都是100数据A:{{检索到的图片url.result#}}数据B：{{#当前数据索引#}}如果只有文字，输出格式参考&nbsp;{&nbsp;&nbsp;&nbsp;&nbsp;"element_type":&nbsp;"paragraph",&nbsp;&nbsp;&nbsp;&nbsp;"xml_content":&nbsp;"xxxx",&nbsp;&nbsp;&nbsp;&nbsp;"text_content":&nbsp;"xxx",&nbsp;&nbsp;&nbsp;&nbsp;"index":&nbsp;xxx,&nbsp;&nbsp;&nbsp;&nbsp;"section_format":&nbsp;null&nbsp;&nbsp;}如果是图像，输出格式参考{&nbsp;&nbsp;&nbsp;&nbsp;"element_type":&nbsp;"picture",&nbsp;&nbsp;&nbsp;"image_path":&nbsp;"XXX,&nbsp;&nbsp;&nbsp;"index":&nbsp;XXX}

🎉 后处理：标书诞生的"高光时刻"

函数 assemble_document(输入: 抽取结果, 输出路径, 是否清理分区属性):

使用xml标签，确保了生成标书的格式的正确性，而且自动插入图片，节省了投标人员一部分时间。

文章目录