FinPersona-Bench: A Benchmark for Longitudinal Psychometric Stability of Autonomous Financial Agents
AI 深度解读
背景
随着大型语言模型(LLM)能力的不断增强,它们正越来越多地被部署为自主金融智能体。在实际应用中,这些智能体在初始化时通常会被赋予明确的行为指令(Mandates),例如“保本”或“避免投机”,旨在让这些规则约束智能体在部署周期内的每一个决策。然而,金融市场的复杂性与长周期交互对智能体的稳定性提出了严峻挑战。在实际运行中,随着市场上下文的不断累积,这些初始设定的行为指令往往会逐渐失去其原本的行为影响力。这种偏移现象不仅可能导致智能体做出违背其初衷的决策,更在风控要求极高的金融领域埋下了巨大隐患。
核心内容
为了客观衡量这种行为偏移,研究团队提出了 FinPersona-Bench,一个专门用于评估自主金融智能体纵向心理测量稳定性的模拟基准。该研究将上述行为偏移现象形式化为指令显著性衰减(Mandate Salience Decay, MSD)。
FinPersona-Bench 的核心设计在于构建了一个合成市场,该市场将可观察的市场价格与隐藏的基本面价值进行解耦。这种设计使得研究人员能够在三种特定的失败模式下对智能体进行可证伪的评估:
- 在平静市场中无信号过度交易;
- 在市场崩盘时恐慌性抛售;
- 在投机泡沫期间忽略基本面价值。
在该基准上,研究团队评估了 18 个前沿及开源 LLM,并为每个智能体分配了三种不同的行为画像(从严格保本到激进增长)。实验结果揭示了 MSD 的复杂性与危险性:
首先,MSD 的影响是随时间累积的,且表现出显著的模型依赖性。其次,在市场崩盘场景中,未接受任何干预的静态智能体与定期接受指令
查看原文 →arxiv.org
