← 返回信息流
技术博客美团技术团队·1 小时前

美团LongCat开源VitaBench 2.0:定义长期动态智能体评测新标杆

原标题:LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆

速览

美团LongCat团队发布VitaBench 2.0,这是首个针对长期动态用户建模的智能体评测基准。该基准包含56名真实特征用户和超2000个动态偏好,旨在系统性评测大模型在长期互动中的个性化与主动性能力。评测揭示了当前AI在长期记忆、主动沟通及偏好应用方面的显著短板,为下一代智能体评测提供了新范式。

AI 深度解读

背景

随着大语言模型(LLM)能力的提升,AI 助手在理解用户指令方面取得了显著进步,但在面对真实生活场景中复杂、动态且隐含的需求时,往往显得力不从心。传统的智能体评测多关注单次任务的完成度,难以衡量 AI 在长期互动中是否具备“情商”,即能否记住并适应用户随时间演变的偏好。

美团 Longcat 团队于去年 10 月发布了 VitaBench 1.0,首次定义了生活场景下智能体任务的复杂度。在此基础上,团队再次推出 VitaBench 2.0。该基准不再仅仅关注任务本身的难度,而是将焦点转向更深层次的挑战:在长期、真实、动态的用户互动中,系统性地评测大语言模型的个性化理解能力与主动性。它是首个面向真实生活场景、针对长期动态用户建模的智能体评测基准。

核心内容

VitaBench 2.0 构建了一个前所未有的评测体系,其核心设计围绕三大创新展开,旨在真实还原用户偏好的演进与漂移,并统一评测智能体的记忆策略。

1. 搭建“人生副本”:真实用户轨迹模拟 不同于一次性问答,VitaBench 2.0 为 56 位虚拟用户构建了涵盖送餐、到店、差旅等多个真实领域的生活轨迹。这一数据生态具有极高的真实性与复杂性:

  • 拟真用户:56 个用户拥有基于真实世界统计数据构建的独特身份、习惯和需求。
  • 复杂任务:包含 819 个可执行任务,贯穿用户生命周期。
  • 动态偏好:用户的偏好并非静态标签,而是随时间和事件动态演变。平均每位用户的偏好会发生超过 48 次动态变化,这些变化被嵌入到碎片化的互动历史(如对话记录、浏览、搜索、下单日志)中,要求智能体从混杂的“信号”与“噪音”中持续理解用户。

2. 引入“时间标尺”:超长跨度动态追踪 VitaBench 2.0 将评测的时间轴拉长至前所未有的尺度,以考核智能体对动态用户的持续理解能力:

  • 交互规模:平均每位用户包含 2093 个交互事件。
  • 时间跨度:平均时间跨度长达 1580 天(约 4.3 年),最长甚至达到 2,974 天。
  • 评测机制:严格按时间线向 Agent 暴露信息,迫使智能体不断提取、利用并更新对用户偏好的理解,从而做出正确决策。

3. 设立“记忆擂台”:统一评测生态 为了探究记忆在长期用户建模中的作用,VitaBench 2.0 搭建了首个真实用户场景下的统一长期智能体评测平台,通过可扩展接口让两种代表性记忆机制进行对决:

  • 智能体记忆(Agentic Memory):AI 自主决定记住什么、忘记什么,主动维护精炼的用户档案。
  • RAG 记忆:类似外部搜索引擎,根据当前任务检索最相关的历史片段。 此外,平台还设计了主动性任务,考验 AI 在信息不足时主动提问的能力,而非盲目决策。

关键要点

通过对主要模型在不同记忆设置下的性能分析,VitaBench 2.0 揭示了当前 AI 智能体在长期用户建模中的五大核心洞察:

  • 时间越长,AI 忘得越快:随着任务序列索引增加(即时间推移),所有模型的平均性能均呈下降趋势。这表明无论是处理超长上下文的能力,还是记忆模块的累积误差,都严重限制了 AI 的长期服务能力。
  • 记忆并非万能解药:对比实验发现,大部分模型在接入 Agentic Memory 或 RAG Memory 后,性能反而低于直接使用全历史记录的场景。记忆模块的安装并非终点,如何正确更新、检索和利用记忆才是真正挑战。
  • 高“智商”不等于高“情商”:开启模型的“思考模式”(Chain-of-Thought)在个性化任务上并不总是有帮助。实验数据显示,开启思考模式的模型在性能与效率上并未稳定优于关闭模式,说明深度推理并不直接转化为对用户偏好的更好理解。
  • AI 普遍缺乏“主动沟通”意愿:在需要主动提问的任务中,所有模型家族的得分均出现“断崖式”下跌。例如,Claude 家族的平均分从 46.0 骤降至 27.4。这反映出 AI 倾向于“想当然”而非在不确定时“多问一句”,缺乏主动获取信息的意识。
  • 瓶颈从“工具失误”转移至“情商不足”:早期模型主要犯工具使用错误(如选错 API),而更强模型(如 DeepSeek-V4-Pro)虽然工具使用更精准,但在偏好理解和应用上的失败成为主要矛盾。随着基础能力提升,个性化理解已成为当前 Agent 的最大瓶颈。
  • 即便“喂到嘴边”,AI 也未必会吃:当直接将真实用户偏好告知模型时,性能虽有提升,但多数模型仍无法在高压、多约束的决策中正确应用这些偏好,说明“提取偏好”与“利用偏好”是两个截然不同的难题。

意义与影响

VitaBench 2.0 的发布标志着智能体评测范式的重大演进。其核心价值在于推动了评测从单点任务向长期陪伴、从被动执行向主动沟通、从黑盒操作向透明可量化方向的转变。

  1. 定义下一代评测标准:作为首个针对长期动态用户建模的基准,VitaBench 2.0 为衡量 AI 的“情商”提供了科学依据,回答了“我的 AI 为什么不够好用”这一关键问题。
  2. 指明技术改进方向:通过揭示模型在记忆策略、主动性及偏好应用上的具体短板,VitaBench 2.0 为开发者指明了优化路径,特别是在如何平衡记忆容量与检索效率、以及如何激发 AI 的主动性方面。
  3. 推动 AI 进化:该基准旨在激发更多研究关注智能体的个性化、记忆和主动性,共同推动 AI 从一个强大的“工具”进化为一个有温度、能长期陪伴的“伙伴”。

目前,VitaBench 2.0 已全面开源,欢迎各大模型和研究团队前来接受“情商”大考,共同推动 AI 技术在真实生活场景中的应用落地。

查看原文 →tech.meituan.com