Agent SkillLINUX DO · AI·4 天前

求助：基于Dify构建JSA安全风险分析RAG系统的落地难题

原标题：RAG开发落地求助, 佬友们救我救我

速览

该帖讨论如何利用Dify Chatflow构建JSA工作安全风险分析助手，需处理数百份Excel数据并实现上下文隔离。开发者在父子分块策略、意图识别工作流设计及RAG基准测试方面遇到瓶颈，寻求技术优化建议。

AI 深度解读

背景

在工业安全与风险管理领域，JSA（Job Safety Analysis，工作安全分析）是识别和控制作业风险的核心工具。随着企业积累的大量 JSA 文档以 Excel 等非结构化或半结构化格式存储，如何高效检索、分析并生成新的风险分析建议，成为数字化转型中的痛点。

本文分享者正在尝试构建一个基于 RAG（检索增强生成）技术的“JSA 工作安全风险分析助手”。该助手旨在解决传统人工查阅数百份 Excel 文档效率低下的问题，通过大模型技术实现智能问答、缺失风险的建议生成以及自动化报告输出。分享者目前处于技术选型与流程设计的探索阶段，面临切块策略、工作流稳定性、上下文隔离及基准测试等多重挑战，寻求社区的技术建议与优化方案。

核心内容

分享者计划利用 Dify 平台的 Chatflow 功能构建 RAG 应用，其核心业务逻辑与技术架构如下：

1. 数据源与目标

数据基础：拥有数百份名为 jsa工作安全风险分析.xlsx 的 Excel 文件。
核心目标：
- 精准检索：能够稳定地回答基于已有文档内容的问题。
- 智能建议：当用户询问的内容在现有文档中不存在时，系统需基于已有知识库内容，利用大模型推理给出合理的安全建议。
- 闭环反馈：将生成的建议按照固定模板转换为 Excel 文件，并重新导入知识库，实现知识的迭代更新。
- 多租户隔离：支持不同用户会话的上下文隔离，确保数据隐私与逻辑独立。

2. 技术栈与工作流设计

平台选择：目前倾向于使用 Dify 的 Chatflow（聊天工作流）。
拟定流程：用户询问 -> 意图识别 -> 问题整理 -> RAG 检索 -> 大模型总结 -> 格式化输出。
知识库处理：采用“父子分块”（Parent-Child Chunking）策略。分享者自行编写脚本将 Excel 内容转换为 Markdown 格式，并按步骤切分子分块，但在 Dify 中展示的效果和召回逻辑尚不完美。

3. 面临的具体技术挑战

切块与召回优化：目前的父子切块脚本效果不佳，不确定如何更合理地设置父块与子块的粒度以优化检索召回率。
工作流边界控制：在 Dify 中，Chatflow 的控制粒度难以把握。控制过严会导致交互像“人机对话”般生硬，控制过松则导致输出不稳定。
意图识别与多轮对话：希望引入大模型进行意图识别和问题整理，但对于如何在 Chatflow 中实现大模型的多轮重入（Re-entry）以及具体的工作流连线逻辑缺乏头绪。
基准测试缺失：不清楚如何对该 RAG 系统进行有效的基准测试（Benchmark），缺乏推荐的测试方案。
技术栈疑虑：对是否继续坚持使用 Dify 存在犹豫，担心其边界控制能力不足，考虑是否需要切换其他技术栈。

关键要点

数据预处理是关键：Excel 数据转换为 Markdown 后，父子分块的策略直接决定 RAG 的检索质量。需平衡父块（提供上下文）与子块（提供精确匹配）的粒度，避免信息碎片化或上下文丢失。
工作流设计的平衡艺术：Dify 的 Chatflow 需要精细调试。意图识别节点应作为路由核心，将简单检索与复杂推理分流，避免所有请求都经过冗长的处理链路，从而提升响应速度与稳定性。
闭环知识库更新机制：项目不仅限于检索，还包含“生成建议 -> 转 Excel -> 回写知识库”的闭环。这要求系统具备稳定的结构化数据生成能力（如通过 LLM 输出 JSON 或 CSV 格式），并处理文件上传与解析的自动化流程。
上下文隔离的实现：在多用户场景下，必须依赖 Dify 的变量管理或会话 ID（Session ID）机制，确保每个用户的检索历史和建议生成互不干扰。
缺乏标准化评估体系：目前 RAG 系统的优化多依赖主观感受，亟需建立包含准确率（Precision）、召回率（Recall）及人工评估在内的基准测试方案，以量化改进效果。
技术选型的不确定性：虽然 Dify 降低了开发门槛，但在复杂逻辑（如多轮重入、精细控制）上可能遇到瓶颈。若 Chatflow 无法满足需求，可能需要考虑 LangChain/LangGraph 等更底层或更灵活的工作流框架。

意义与影响

该案例展示了 RAG 技术在垂直行业（工业安全）落地的典型路径与挑战，具有以下几方面的参考意义：

非结构化数据价值挖掘：证明了将大量静态 Excel 文档转化为动态、可交互的知识库是可行的，且能显著提升安全管理的效率。
RAG 工程化的复杂性：揭示了 RAG 不仅仅是“检索+生成”，还涉及复杂的数据清洗、分块策略、工作流编排及闭环反馈机制。简单的 Chatbot 模板无法直接解决此类业务问题。
低代码平台的局限性探索：通过分享者在 Dify 上的挣扎，反映了当前低代码/无代码 AI 平台在处理高度定制化、逻辑复杂的工作流时的边界。这促使开发者思考何时使用低代码工具，何时需要回归代码开发。
知识迭代的重要性：提出的“建议回写知识库”机制，体现了 RAG 系统从“静态问答”向“动态知识演进”转变的趋势，有助于构建持续生长的企业知识资产。

查看原文 →linux.do

求助：基于Dify构建JSA安全风险分析RAG系统的落地难题

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐