技术博客arXiv cs.AI·3 小时前

InvestPhilBench：评估大模型专家级投资推理能力的动态基准

原标题：InvestPhilBench: A Multi-Layer Dynamic Benchmark for Evaluating Large Language Model Procedural Reasoning in Expert Investment Philosophy

速览

该研究提出InvestPhilBench，这是一个涵盖八个认知层级的多层动态基准，旨在测试大语言模型能否准确重构和应用专家投资者的决策框架。基准包含118条投资原则卡片、25个决策框架卡片及243道问答题目，并引入了BASP自动化评分管道。实验显示，尽管综合评分可能掩盖缺陷，但程序推理准确率（GRA）仍暴露出前沿模型在复杂推理上的不足。

AI 深度解读

InvestPhilBench：评估大语言模型在专家级投资哲学中程序性推理能力的多层动态基准

背景

随着大型语言模型（LLMs）被越来越多地部署为投资研究助手，业界对其能力的评估往往停留在通用的知识问答或文本生成层面。然而，现有的基准测试并未真正检验模型是否能够准确重构并应用专家投资者特有的程序性决策框架（Procedural Decision Frameworks）。

传统的评估方法难以区分模型是仅仅“背诵”了投资原则，还是真正理解了这些原则背后的逻辑拓扑结构和推理步骤。为了解决这一空白，研究人员引入了 InvestPhilBench，这是一个专为评估 LLM 在专家级投资哲学中程序性推理能力而设计的多层动态基准测试。

核心内容

InvestPhilBench 是一个涵盖八个认知层级（从 L1 的“原则识别”到 L8 的“新框架外推”）的多层动态基准。其 v0.6 版本构成了本次发布的核心，主要包含以下组成部分及评估方法论：

1. 数据集构成

v0.6 版本的数据集经过严格验证，具体包括：

118 张投资原则卡片：均经过原始来源验证（Primary-source-verified）。
25 张决策框架卡片：带有明确的拓扑元数据（Topology metadata），用于描述决策逻辑的结构。
243 个问答对（QA Questions）：其中 197 个用于开发集（Dev），46 个作为保留测试集（Held-out test）。

2. 自动化评分管道 (BASP)

为了实现大规模的可复现评分，研究团队引入了 Benchmark Automated Scoring Pipeline (BASP)。该管道包含五个算法指标：

OGRS
KCCS
SAP@k
IVP
CKCA

此外，还引入了 Failure Mode Detection Protocol (FMDP)，该协议包含用于检测六种失败模式的计算规则。对于包含黄金推理程序（Gold reasoning programs）的问题，还使用了 Gate Reconstruction Accuracy (GRA) 作为每门（Per-gate）指标，以精确衡量推理步骤的重构能力。

3. 初步实验结果与发现

在对 188 个问题开发集进行的四模型“健全性测试”（Sanity wave）中，观察到了显著的现象：

提供商层级分裂：不同模型提供商的表现存在巨大差异（BASP 得分分别为 0.906 和 0.438）。
混合裁判分数的局限性：这些混合裁判分数（Mixed-judge numbers）实际上是混淆后的上限（Confounded upper bounds），可能高估了模型的真实能力。
核心发现：
- BASP 综合得分在前端模型处饱和：例如 Claude L4 的 BASP 得分高达 0.932。
- GRA 暴露程序性缺陷：尽管综合得分很高，但 GRA 指标显示前端 L4 模型的 GRA 约为 0.77，L7 模型仅为 0.57-0.62。
- 结论：综合评分奖励流畅的散文式回答，从而掩盖了模型在程序性推理上的差距。

4. 自动化与人工评估的一致性

在一个由专家标注的 100 项黄金集（Gold set）上，自动化的 BASP 综合得分与人工参考得分的相关性为 Pearson r = 0.72（平均绝对误差 MAE = 0.10）。

子指标弱点：归因指标（SAP@3）是最弱的子指标。
失败模式检测器：运行结果表现为敏感但存在过度标记（Sensitive-but-over-flagging）的问题。

5. 未来版本规划

v0.6 版本主要实现了统一的裁判机制以及真实的模型内循环检索/预言机条件（Model-in-the-loop retrieval/oracle conditions）。去混淆的多模型排行榜和完整的三条件运行结果将是 v1.0 版本的交付物。

关键要点

填补评估空白：InvestPhilBench 是首个专门针对 LLM 重构和应用专家投资者程序性决策框架能力的基准测试，超越了传统的知识检索评估。
多层级认知评估：通过八个认知层级（L1-L8），从基础的原则识别到复杂的新框架外推，全面覆盖投资推理的深度。
揭示“流利度陷阱”：研究发现，现有的综合评分指标（如 BASP）倾向于奖励流畅的语言生成，从而掩盖了模型在逻辑推理步骤上的实质性缺陷。GRA 指标更能揭示这种程序性差距。
算法化评分体系：引入了 BASP 管道和五种算法指标，旨在提供比传统人工评分更具可扩展性和可复现性的评估方式。
失败模式检测：FMDP 协议能够识别六种特定的推理失败模式，尽管目前存在过度标记的问题，但这为改进评估提供了方向。
版本迭代路径：v0.6 侧重于基准和方法论的贡献，而 v1.0 将致力于解决评分混淆问题，提供更纯净的多模型排行榜。

意义与影响

InvestPhilBench 的发布对金融 AI 和大模型评估领域具有深远意义：

重新定义“专家级”AI 助手：它表明，仅仅拥有庞大的知识库或流畅的表达不足以胜任复杂的投资研究工作。模型必须能够遵循并重构严谨的决策逻辑，而 InvestPhilBench 提供了量化这一能力的新标准。
警示过度依赖综合评分：研究结果警示业界，当前的自动化评估指标可能存在“虚假繁荣”。如果仅依赖综合得分，可能会误判模型在关键推理任务上的能力。GRA 等细粒度指标的重要性由此凸显。
推动评估方法论的精细化：通过引入拓扑元数据和程序性推理指标，该基准推动了 AI 评估从“结果导向”向“过程导向”的转变。这对于需要高可靠性和可解释性的垂直领域（如医疗、法律、金融）尤为重要。
为后续研究奠定基础：v0.6 版本虽然主要作为方法论贡献，但其构建的数据集和评估管道为未来更复杂的模型测试提供了坚实基础。随着 v1.0 版本的推出，去混淆的排行榜将更准确地反映各模型在真实投资推理场景中的相对实力。

查看原文 →arxiv.org