MM-BizRAG:重构多模态RAG以优化企业通用问答
原标题:MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&A
速览
针对多模态检索增强生成(MM-RAG)忽视复杂企业文档结构的问题,MM-BizRAG提出了一种直接提取文档结构的方法。该方法通过感知布局的拆分策略,动态将文档路由至垂直或水平处理管道,并结合LLM驱动的统一转换流水线保持阅读顺序。实验表明,该方法在多个基准测试中比现有视觉基线性能提升高达32个百分点,并引入了高效的评估指标FastRAGEval。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
