技术博客arXiv cs.AI·7 小时前

AgentFinVQA：支持本地部署的可审计金融图表问答多智能体系统

原标题：AgentFinVQA: A Deployable Multi-Agent Pipeline for Auditable Financial Chart QA

速览

针对金融图表问答在合规与数据隐私方面的需求，研究提出AgentFinVQA多智能体流水线。该系统将查询分解为规划、OCR、图例定位等步骤，并生成可追溯的评估包，支持本地部署以保障数据驻留。实验显示，其在FinMME数据集上相比基线精度显著提升，且验证器结果可作为置信度信号辅助人工审核。

AI 深度解读

AgentFinVQA：可审计、可本地部署的多智能体金融图表问答系统

背景

在受监管的金融环境中，图表问答（Chart QA）不仅仅是一个准确率问题，更是一个信任与合规问题。金融从业者必须在采取行动之前明确知道哪些答案是可信的。此外，许多金融机构出于数据隐私和安全考虑，无法将客户数据发送到外部模型提供商（如公共 API）。

然而，现有的图表问答智能体（Agents）主要关注准确率，且内部机制不透明（黑盒）。大多数现有方案假设可以使用专有 API，据我们所知，目前尚无方案能在不显著牺牲准确率的情况下，同时实现“可审计性”和“本地化部署（On-premise deployability）”。

针对这一痛点，本文提出了 AgentFinVQA，这是一个可部署的多智能体流水线，旨在解决金融图表问答中的透明度、数据主权和准确性平衡问题。

核心内容

AgentFinVQA 是一个多智能体协作系统，其核心设计理念是将复杂的金融图表问答任务分解为多个可追踪的子步骤，并记录每一步的执行过程，形成可审计的“模型评估包（Model Evaluation Packet, MEP）”。

1. 多智能体流水线架构

该系统将每个查询分解为以下五个关键阶段，每个阶段由特定的智能体或模块负责：

规划（Planning）：理解用户意图，制定解题策略。
OCR（光学字符识别）：从图表中提取文本信息。
图例接地（Legend Grounding）：将提取的文本与图表中的视觉元素（如颜色、线条）进行关联。
视觉检查（Visual Inspection）：分析图表的视觉结构（如趋势、极值）。
验证（Verification）：对生成的答案进行自我检查和纠错。

2. 可审计性机制

每个样本的处理过程都会生成一个可追溯的 MEP（Model Evaluation Packet）。这意味着不仅最终答案可见，整个推理链条（从 OCR 到最终结论）都是透明的。这种设计使得人类专家可以介入审查（Human-in-the-loop），特别是在验证器给出置信度信号时，可以决定哪些答案需要人工复核。

3. 性能表现与基准测试

研究者在 FinMME（一个金融图表问答基准数据集）上对 AgentFinVQA 进行了评估，结果如下：

对比专有模型（Gemini-3 Flash）：
- 使用专有骨干模型 Gemini-3 Flash 时，AgentFinVQA 相比零样本基线（Zero-shot baseline）准确率提升了 +7.68 个百分点。
- 具体数值：AgentFinVQA 达到 71.24%，而基线为 63.56%。
- 统计显著性：McNemar 检验 $p \approx 1.1 \times 10^{-16}$，表明提升具有极高的统计显著性。
对比开源本地模型（Qwen3.6-27B-FP8）：
- 使用本地部署的开源权重模型 Qwen3.6-27B-FP8 时，准确率提升了 +4.84 个百分点。
- 这表明即使在不依赖外部 API 的情况下，该方法依然能保持大部分性能增益。
验证器的置信度信号：
- 验证器的判决结果可以作为有用的置信度指标。
- 在验证器确认的答案中，精确准确率为 68.2%；而在需要修订的答案中，精确准确率为 55.6%。
- 这一差异使得系统能够自动路由需要人工审查的案例，提高整体工作流效率。

4. 错误分析

通过对失败案例的分析，研究发现导致错误的主要原因包括：

问题误解（Question misunderstanding）
图例混淆（Legend confusion）
提取错误（Extraction error）

这三类错误占据了失败案例的近三分之二。值得注意的是，验证器对这些类别的错误检测能力最弱，这为未来的改进指明了方向。

关键要点

双重优势：AgentFinVQA 是首个在保持高准确率的同时，兼顾“可审计性”和“本地化部署”的金融图表问答系统。
数据主权：通过支持本地部署（如使用 Qwen3.6-27B-FP8），金融机构可以在不将客户数据发送给外部提供商的情况下，获得接近专有模型的性能。
透明推理：通过生成可追溯的 MEP，系统提供了完整的推理链条，满足了金融监管对可解释性的严格要求。
人机协作：验证器提供的置信度分数有效区分了高置信度和低置信度答案，优化了人工审核的资源分配。
开源承诺：作者已发布代码，支持可复现的评估，促进了社区对该领域的进一步研究。

意义与影响

AgentFinVQA 的提出标志着金融 AI 应用的一个重要转折点。长期以来，金融领域在采用 AI 技术时面临着“准确性”与“合规性/隐私”之间的两难选择。专有模型虽然准确但黑盒且数据外泄风险高；开源模型虽然安全但往往在复杂任务上表现不足。

本研究证明，通过多智能体协作和细粒度的过程追踪，可以在本地部署的开源模型上实现接近专有模型的性能，同时提供必要的审计轨迹。这对于银行、投资机构等对数据隐私和合规性有极高要求的行业具有重大实用价值。

此外，研究指出的错误类型（图例混淆、提取错误）为后续多模态大模型（MLLM）在金融垂直领域的优化提供了明确的技术路线图。随着开源模型能力的持续提升，这类可审计、本地化的智能体流水线有望成为金融数据分析的标准基础设施。

查看原文 →arxiv.org