技术博客arXiv cs.AI·3 天前

SCALE框架：通过认知感知探索实现Web智能体自我进化

原标题：Learning to Adapt: Self-Improving Web Agent via Cognitive-Aware Exploration

速览

针对现有Web智能体适应性差的问题，研究提出SCALE框架，通过选择器、预测器和评判器三个对抗角色自主发现局限并拓展认知边界。同时引入SCALE-Hop图探索策略以优化全局规划并避免局部陷阱。基于此构建的SCALE-20k数据集显著提升了多模态大模型在复杂Web环境中的性能与泛化能力。

近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）的快速发展为 Web 智能体（Web Agents）的研究带来了显著进展。Web 智能体旨在自动执行复杂的网页交互任务，如信息检索、表单填写和在线购物等。

然而，现有的 Web 智能体方法通常存在两个主要局限性：

这些局限性导致现有智能体在面对复杂、动态变化的 Web 环境时，适应能力不足，泛化性能受限。为了突破这一瓶颈，研究者提出了一种新的自我改进机制，旨在让智能体通过自主探索来发现自身局限并扩展认知边界。

本文提出了一种名为 SCALE（Self-Cognitive-Aware Learning and Exploration，自我认知感知学习与探索）的新框架。该框架的核心思想是让 Web 智能体通过自主的环境探索，利用对抗性的角色分工来识别自身的不足，从而实现自我改进。

SCALE 引入了三个关键的对抗性角色（Adversarial Roles），通过它们之间的互动来驱动智能体的学习和适应：

通过这三个角色的协作与对抗，SCALE 能够自主发现智能体在特定场景下的能力边界，并通过探索行为不断扩展这些边界，而无需依赖预先标注的专家数据。

为了解决局部探索陷阱（Local Exploration Traps）并提升全局规划能力，研究团队提出了 SCALE-Hop 策略。

图结构建模：将网页交互过程建模为图结构，其中节点代表网页状态，边代表用户操作。
全局规划：SCALE-Hop 允许智能体在图中进行“跳跃”式探索，即不仅仅局限于当前页面的局部优化，而是能够回溯或跳转到之前的关键状态，从而构建更完整的全局任务路径。
避免局部最优：这种机制有效防止了智能体陷入反复执行无效操作或无法跳出死胡同的困境，显著提升了在复杂多步骤任务中的成功率。

为了支持 SCALE 框架的学习和评估，研究团队构建了一个名为 SCALE-20k 的大规模数据集。

数据来源：数据收集自 19 个真实的网站，涵盖了多样化的任务类型（如搜索、预订、比较等）。
数据结构：包含由 SCALE 探索轨迹生成的结构化演示（Structured Demonstrations）。这些演示不仅记录了最终结果，还包含了智能体在探索过程中的中间状态、决策依据和错误反馈，为模型提供了丰富的学习信号。

在多个主流 MLLMs 上的实验表明，SCALE 框架显著提升了智能体在不同 Web 环境中的性能和泛化能力。与依赖人工流水线或专家轨迹的传统方法相比，SCALE 能够在更少的人工干预下，实现更鲁棒的任务执行。

SCALE 框架的提出标志着 Web 智能体研究从“依赖人工规则”向“自主认知适应”的重要转变。其意义主要体现在以下几个方面：

降低部署成本：通过减少对昂贵专家轨迹的依赖，SCALE 降低了构建高性能 Web 智能体的门槛，使得更多开发者能够利用通用 MLLMs 快速构建定制化智能体。
提升鲁棒性：面对 Web 环境的动态变化（如页面布局更新、反爬虫机制等），SCALE 的自适应探索机制使智能体具有更强的鲁棒性和容错能力。
推动通用人工智能（AGI）发展：自主探索和自我改进是通用智能的重要特征。SCALE 框架为研究智能体如何在复杂环境中通过试错和学习来优化行为提供了新的范式，对推动 Web 智能体向更高级的自主智能迈进具有深远影响。
开源贡献：SCALE-20k 数据集的公开为学术界和工业界提供了宝贵的资源，有助于推动 Web 智能体评估标准的统一和技术的进一步创新。

总之，SCALE 不仅是一个技术框架，更是一种新的智能体设计哲学，强调了“认知感知”和“自主探索”在构建下一代 Web 智能体中的核心地位。