技术博客美团技术团队·1 小时前

美团LongCat开源VitaBench 2.0：定义长期动态智能体评测新标杆

原标题：LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆

速览

美团LongCat团队发布VitaBench 2.0，这是首个针对长期动态用户建模的智能体评测基准。该基准包含56名真实特征用户和超2000个动态偏好，旨在系统性评测大模型在长期互动中的个性化与主动性能力。评测揭示了当前AI在长期记忆、主动沟通及偏好应用方面的显著短板，为下一代智能体评测提供了新范式。

AI 深度解读

背景

随着大语言模型（LLM）能力的提升，AI 助手在理解用户指令方面取得了显著进步，但在面对真实生活场景中复杂、动态且隐含的需求时，往往显得力不从心。传统的智能体评测多关注单次任务的完成度，难以衡量 AI 在长期互动中是否具备“情商”，即能否记住并适应用户随时间演变的偏好。

美团 Longcat 团队于去年 10 月发布了 VitaBench 1.0，首次定义了生活场景下智能体任务的复杂度。在此基础上，团队再次推出 VitaBench 2.0。该基准不再仅仅关注任务本身的难度，而是将焦点转向更深层次的挑战：在长期、真实、动态的用户互动中，系统性地评测大语言模型的个性化理解能力与主动性。它是首个面向真实生活场景、针对长期动态用户建模的智能体评测基准。

核心内容

VitaBench 2.0 构建了一个前所未有的评测体系，其核心设计围绕三大创新展开，旨在真实还原用户偏好的演进与漂移，并统一评测智能体的记忆策略。

1. 搭建“人生副本”：真实用户轨迹模拟 不同于一次性问答，VitaBench 2.0 为 56 位虚拟用户构建了涵盖送餐、到店、差旅等多个真实领域的生活轨迹。这一数据生态具有极高的真实性与复杂性：

拟真用户：56 个用户拥有基于真实世界统计数据构建的独特身份、习惯和需求。
复杂任务：包含 819 个可执行任务，贯穿用户生命周期。
动态偏好：用户的偏好并非静态标签，而是随时间和事件动态演变。平均每位用户的偏好会发生超过 48 次动态变化，这些变化被嵌入到碎片化的互动历史（如对话记录、浏览、搜索、下单日志）中，要求智能体从混杂的“信号”与“噪音”中持续理解用户。

2. 引入“时间标尺”：超长跨度动态追踪 VitaBench 2.0 将评测的时间轴拉长至前所未有的尺度，以考核智能体对动态用户的持续理解能力：

交互规模：平均每位用户包含 2093 个交互事件。
时间跨度：平均时间跨度长达 1580 天（约 4.3 年），最长甚至达到 2,974 天。
评测机制：严格按时间线向 Agent 暴露信息，迫使智能体不断提取、利用并更新对用户偏好的理解，从而做出正确决策。

3. 设立“记忆擂台”：统一评测生态 为了探究记忆在长期用户建模中的作用，VitaBench 2.0 搭建了首个真实用户场景下的统一长期智能体评测平台，通过可扩展接口让两种代表性记忆机制进行对决：

智能体记忆（Agentic Memory）：AI 自主决定记住什么、忘记什么，主动维护精炼的用户档案。
RAG 记忆：类似外部搜索引擎，根据当前任务检索最相关的历史片段。此外，平台还设计了主动性任务，考验 AI 在信息不足时主动提问的能力，而非盲目决策。

关键要点

通过对主要模型在不同记忆设置下的性能分析，VitaBench 2.0 揭示了当前 AI 智能体在长期用户建模中的五大核心洞察：

时间越长，AI 忘得越快：随着任务序列索引增加（即时间推移），所有模型的平均性能均呈下降趋势。这表明无论是处理超长上下文的能力，还是记忆模块的累积误差，都严重限制了 AI 的长期服务能力。
记忆并非万能解药：对比实验发现，大部分模型在接入 Agentic Memory 或 RAG Memory 后，性能反而低于直接使用全历史记录的场景。记忆模块的安装并非终点，如何正确更新、检索和利用记忆才是真正挑战。
高“智商”不等于高“情商”：开启模型的“思考模式”（Chain-of-Thought）在个性化任务上并不总是有帮助。实验数据显示，开启思考模式的模型在性能与效率上并未稳定优于关闭模式，说明深度推理并不直接转化为对用户偏好的更好理解。
AI 普遍缺乏“主动沟通”意愿：在需要主动提问的任务中，所有模型家族的得分均出现“断崖式”下跌。例如，Claude 家族的平均分从 46.0 骤降至 27.4。这反映出 AI 倾向于“想当然”而非在不确定时“多问一句”，缺乏主动获取信息的意识。
瓶颈从“工具失误”转移至“情商不足”：早期模型主要犯工具使用错误（如选错 API），而更强模型（如 DeepSeek-V4-Pro）虽然工具使用更精准，但在偏好理解和应用上的失败成为主要矛盾。随着基础能力提升，个性化理解已成为当前 Agent 的最大瓶颈。
即便“喂到嘴边”，AI 也未必会吃：当直接将真实用户偏好告知模型时，性能虽有提升，但多数模型仍无法在高压、多约束的决策中正确应用这些偏好，说明“提取偏好”与“利用偏好”是两个截然不同的难题。

意义与影响

VitaBench 2.0 的发布标志着智能体评测范式的重大演进。其核心价值在于推动了评测从单点任务向长期陪伴、从被动执行向主动沟通、从黑盒操作向透明可量化方向的转变。

定义下一代评测标准：作为首个针对长期动态用户建模的基准，VitaBench 2.0 为衡量 AI 的“情商”提供了科学依据，回答了“我的 AI 为什么不够好用”这一关键问题。
指明技术改进方向：通过揭示模型在记忆策略、主动性及偏好应用上的具体短板，VitaBench 2.0 为开发者指明了优化路径，特别是在如何平衡记忆容量与检索效率、以及如何激发 AI 的主动性方面。
推动 AI 进化：该基准旨在激发更多研究关注智能体的个性化、记忆和主动性，共同推动 AI 从一个强大的“工具”进化为一个有温度、能长期陪伴的“伙伴”。

目前，VitaBench 2.0 已全面开源，欢迎各大模型和研究团队前来接受“情商”大考，共同推动 AI 技术在真实生活场景中的应用落地。

查看原文 →tech.meituan.com

美团LongCat开源VitaBench 2.0：定义长期动态智能体评测新标杆

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐