← 返回信息流
技术博客arXiv cs.AI·2 小时前

FinAcumen:利用自进化经验记忆提升金融多模态推理能力

原标题:FinAcumen: Financial Multimodal Reasoning via Self-Evolving Experience Memory Harness

速览

FinAcumen是一种面向金融领域的多模态推理智能体框架,旨在解决现有工具增强智能体在跨场景推理中状态缺失、重复试错及幻觉频发的问题。该框架通过从历史轨迹中提炼成功策略与失败教训,构建持久经验记忆库,并在推理时基于语义相关性选择性激活记忆,同时抑制无关信息。实验表明,FinAcumen在多个金融基准测试中显著优于冻结的8B视觉语言模型,其表现接近领先的专有通用模型,有效提升了检索不确定性下的推理可靠性。

AI 深度解读

FinAcumen:通过自进化经验记忆库实现金融多模态推理

背景

金融领域的多模态推理是一项极具挑战性的任务,要求智能体(Agent)能够协调数值计算、信息检索、视觉解释以及时间定位等多种能力,以处理来自异构证据源(如财务报表、新闻文本、K线图、宏观数据等)的复杂信息。

现有的基于工具增强(Tool-augmented)的智能体虽然在执行保真度上有所提升,但存在一个根本性缺陷:它们在跨会话(across episodes)中基本是无状态的。这意味着智能体在每次面对新任务时,都会重复发现相同的推理策略和失败模式,无法从历史交互中积累经验。

在高 stakes(高利害)的金融场景中,这种“无状态”特性会导致严重后果:

  1. 不可靠的工具路由:智能体可能错误地选择工具,导致效率低下或错误。
  2. 嘈杂的检索结果:无法有效过滤无关信息,引入噪声。
  3. 易产生幻觉的推理:缺乏历史经验约束,容易生成看似合理但事实错误的结论。

为了解决这一问题,研究人员提出了 FinAcumen,这是一个以“选择性经验记忆”为核心的金融推理智能体框架,旨在通过持久化的记忆库来增强工具增强型多模态推理的可靠性。

核心内容

FinAcumen 的核心创新在于构建了一个自进化的经验记忆库(Self-Evolving Experience Memory Harness)。该框架不再让智能体“从零开始”思考,而是从过去的推理轨迹中积累金融相关的推理经验,并将成功的策略和从失败中推导出的警示规则提炼出来,存入持久化的记忆库中。

1. 经验积累与提炼

FinAcumen 在训练或历史交互过程中,会分析之前的推理轨迹(trajectories)。它不仅仅存储原始数据,而是进行“蒸馏”(distillation):

  • 成功策略:识别并存储那些导致正确结果的推理路径和工具使用模式。
  • 警示规则:从失败案例中提取教训,形成避免特定错误模式的规则。

2. 推理过程中的选择性激活

在推理(Inference)阶段,FinAcumen 并非盲目地检索所有记忆,而是采用了一种条件触发机制

  • 语义相关性阈值:只有当检索到的经验与当前任务的语义相关性超过一个经过校准的阈值时,这些经验才会被用来引导推理。
  • 无关记忆抑制:如果检索到的经验与当前任务不相关,系统会通过一个**回退机制(fallback mechanism)**明确地抑制这些记忆,防止其干扰当前的推理过程。这种选择性激活机制显著提高了在检索不确定性下的推理可靠性。

3. 确定性的金融工具环境

为了 grounding(落地/锚定)数值计算、检索、视觉解码和答案生成,FinAcumen 使用了一个确定性的金融工具环境。这确保了智能体在处理数字和结构化数据时的准确性,减少了因工具执行不确定性带来的误差。

4. 实验结果

研究人员在四个金融多模态推理基准测试中对 FinAcumen 进行了评估。结果显示:

  • FinAcumen 能够显著提升一个冻结的 8B 参数视觉语言模型(frozen 8B vision-language model)的性能。
  • 其表现优于专门的金融模型,并接近领先的专有通用模型(proprietary general-purpose models)。
  • 进一步的分析证实,选择性经验激活确实提高了在检索不确定性下的推理可靠性。

关键要点

  • 解决无状态痛点:FinAcumen 通过引入持久化记忆库,解决了现有工具增强智能体在跨会话中重复犯错、无法积累经验的问题。
  • 双重经验提炼:记忆库不仅存储成功的推理策略,还专门提炼从失败中得出的“警示规则”,从而主动规避已知错误。
  • 选择性记忆激活:引入语义相关性阈值和回退机制,确保只有高度相关的经验才会影响当前推理,无关记忆被明确抑制,提升了鲁棒性。
  • 确定性工具环境:使用确定的金融工具环境来锚定数值计算和视觉解码,增强了推理过程的准确性和可解释性。
  • 小模型大性能:仅通过微调/增强一个冻结的 8B 视觉语言模型,FinAcumen 就在多个基准测试中超越了专门的金融模型,并逼近顶级专有通用模型的水平。
  • 开源与可复现:代码已匿名提供,便于社区验证和进一步研究。

意义与影响

FinAcumen 的提出标志着金融 AI 智能体从“单次执行”向“持续学习”迈进的重要一步。

  1. 提升金融 AI 的可靠性:在金融这一对准确性要求极高的领域,减少幻觉和错误决策至关重要。FinAcumen 通过记忆机制降低了重复错误的发生率,提高了系统的可信度。
  2. 降低大模型依赖:研究表明,通过优秀的记忆和推理框架设计,较小的开源模型(如 8B 参数)可以媲美甚至超越大型专有模型在特定垂直领域(如金融)的表现。这降低了企业部署专用金融 AI 的门槛和成本。
  3. 推动 Agent 架构演进:FinAcumen 验证了“选择性记忆”在复杂多模态推理中的有效性。这种架构思路可以推广到其他需要长期记忆和复杂决策的领域,如医疗诊断、法律分析等。
  4. 促进可解释性与安全性:通过记录和分析推理轨迹中的成功与失败模式,FinAcumen 为审计和监控 AI 决策过程提供了潜在的数据基础,有助于发现系统性偏差或潜在风险。

总之,FinAcumen 不仅是一个新的金融推理框架,更是一种通过结构化记忆增强智能体认知能力的范式,为构建更可靠、更高效的垂直领域 AI 智能体提供了新的技术路径。

查看原文 →arxiv.org