开源AI公文助手:基于GB/T9704标准智能检测修复与润色
速览
该项目是一款基于GB/T9704-2012国家标准的开源公文智能优化助手。它提供本地运行的桌面应用,支持对.docx文件进行格式全量检测、问题定位及一键修复,解决人工校对效率低、易遗漏的痛点。同时集成多模型AI能力,支持公文内容的智能润色与优化,且数据全程本地化处理,保障隐私安全。
AI 深度解读
背景
在党政机关及企事业单位的日常办公中,公文写作是一项高频且严谨的工作。然而,绝大多数从业者(包括资深文秘)在撰写公文时,往往难以完全精准地记忆并执行复杂的格式规范。根据国家标准 GB/T 9704-2012《党政机关公文格式》,公文在字体、字号、行距、页边距、标题层级、版记位置等方面有着极为细致的规定。
传统的工作流程存在显著痛点:
- 规范记忆困难:标准细则繁多,人工对照效率极低。
- 审核成本高:人工逐页检查耗时耗力,且容易遗漏细节(如小标题层级、附件标注等)。
- 修改牵一发而动全身:手动调整 Word 文档时,修改一处样式常导致其他格式错乱,反复调整耗费大量时间。
- 现有 AI 工具局限:市面上的 AI 写作工具多侧重于内容生成,缺乏对公文特定格式规范的深度支持,且往往需要付费,生成的内容格式依然不合规。
在此背景下,Document-Ai-Assistant(AI 公文智能优化助手)应运而生。该项目旨在通过本地化运行的桌面应用,结合 GB/T 9704 标准规则引擎与 AI 多模型能力,实现公文格式的自动检测、定位与一键修复,同时提供内容智能润色服务,确保数据隐私安全与处理效率。
核心内容
Document-Ai-Assistant 是一个基于 GB/T 9704 国家标准开发的开源桌面应用,核心功能涵盖格式检测、修复及 AI 内容优化。项目强调“本地化”与“数据隐私”,所有文件处理均在用户本机完成,不依赖外部网络即可运行格式检测功能。
1. GB/T 9704 全标准规则引擎
项目预置了完整的国标格式检测规则,覆盖公文处理的全流程,并以 YAML 配置文件形式存在,支持三级优先级覆盖(官方标准 < 自定义规范 < 用户偏好),以适配不同单位的个性化要求。
- 版头检测:涵盖份号、密级、紧急程度、发文机关标志、发文字号、签发人等。
- 主体检测:包括标题格式(二号小标宋)、主送机关、正文字号(三号仿宋)、行距(28.95磅固定值)、各级小标题等。
- 版记检测:检查抄送机关、印发机关、印发日期的格式和位置。
- 页面设置:严格校验上边距37mm、下边距35mm、左边距28mm、右边距26mm以及页码格式(— X —)。
2. 八大公文文种专项适配
系统针对八种常见公文文种进行了专项规则适配,包括:通知、请示、报告、函、会议纪要、决定、通告、公告。
- 每种文种拥有独立的格式校验规则和模板。
- 支持自动识别文种类型,并应用对应的检测规则。
- 特别区分了上行文(请示/报告)和平行文(函)的格式差异。
3. AI 多模型可选换与内容优化
除了格式修复,项目还集成了 AI 能力以优化公文内容:
- 插件化设计:支持接入多个主流大语言模型,用户可零成本切换模型。
- 功能定位:主要辅助优化公文措辞、提升语句通顺度及逻辑连贯性。
- 隐私保护:API Key 采用 Fernet 加密本地存储,确保密钥安全。
4. 全链路自动化工作流
项目提供极简的操作闭环,用户只需上传 .docx 文件,系统即可自动完成后续步骤:
- 解析层:利用
python-docx深度解析文档 XML 结构,提取每个段落的完整样式信息。 - 检测层:
RuleEngine对DocumentModel执行全量规则检查,按优先级排序输出问题列表。 - 修复层:
RuleEngine.check_and_fix()一键修复所有可自动修复的格式问题。 - 输出层:
generator.generate_docx()生成符合标准的新文档,保持原文内容不变。
关键要点
- 完全本地化与隐私安全:格式检测和修复功能完全在本地运行,不依赖网络,数据不离开本机。API Key 加密存储,适合对保密性要求极高的公文处理场景。
- 规则驱动而非纯 AI 生成:核心格式修复基于确定的国家标准规则引擎,而非依赖 AI 的概率生成,从而保证了格式合规的准确性和稳定性。
- 灵活的配置体系:通过 YAML 配置规则,允许用户根据本单位的具体要求调整优先级,实现了标准化与个性化的平衡。
- 文种差异化处理:内置对八种主要公文文种的专项适配,解决了通用模板无法处理特定文种(如上行文与平行行文区别)的问题。
- 开源与社区驱动:项目开源,遵循 LINUX DO 社区推广规范,接受社区监督,并计划后续支持国产信创环境及更多红头文件样式。
意义与影响
Document-Ai-Assistant 的出现填补了公文处理领域中“格式自动化合规”工具的空白。它不仅仅是一个格式检查器,更是一个结合了传统规则引擎与现代 AI 能力的混合解决方案。
- 提升行政效率:将原本需要人工耗时半小时甚至更久的格式校对与修正过程,压缩至“一键”完成,极大降低了公文流转的时间成本。
- 降低专业门槛:通过自动化的规则引擎,使得非专业文秘人员也能轻松产出符合国标的规范公文,减少了因格式错误导致的退稿率。
- 保障数据安全:在数据安全日益重要的今天,提供本地化运行的选项,解决了用户对云端 AI 工具处理敏感公文数据的顾虑。
- 推动标准化落地:通过代码固化国家标准,有助于在组织内部统一公文格式标准,提升公文的专业性和严肃性。
该项目展示了如何利用开源技术解决垂直领域的具体痛点,为办公自动化工具的开发提供了“规则+AI”混合架构的良好实践案例。
