技术博客arXiv cs.AI·3 小时前

利用小模型代码重构实现高效技能落地

原标题：Efficient Skill Grounding via Code Refactoring with Small Language Models

速览

论文提出RECENT框架，旨在解决具身智能体在动态环境中依赖大模型不切实际、小模型能力不足的问题。该方法通过将技能表示为可执行代码，利用局部重构修改执行绑定，而非从头生成代码，从而高效实现技能落地。实验表明，RECENT在小模型代码即策略方法中表现最佳，并达到了与大模型相当的任务性能。

AI 深度解读

高效技能落地：利用小语言模型进行代码重构

背景

在具身智能（Embodied AI）领域，将通用的“技能”（Skills）部署到具体的机器人实体中是一个核心挑战。所谓“技能落地”（Skill Grounding），是指将高层的语义意图转化为底层可执行的物理动作。然而，即使机器人实体或环境发生微小的变化，原本通用的技能也可能完全失效。

这一挑战在具身设置中尤为突出，因为机器人必须在动态、部分可观测的环境中运行，且通常无法访问大型语言模型（LLMs）。虽然 LLM 具备强大的推理能力，但其高昂的计算成本和延迟使其难以直接部署在资源受限的机器人端。相比之下，小语言模型（Small Language Models, sLMs）虽然轻量且适合边缘部署，但在处理复杂的技能落地任务时，往往缺乏足够的理解和生成能力，难以实现可靠的长时程控制。

现有的基于代码的策略（Code-as-Policies, CaP）方法试图通过生成代码来控制机器人，但在面对环境变化时，传统方法通常需要从头重新生成代码，这不仅效率低下，而且对模型能力要求极高。因此，如何在资源受限的 sLM 环境下，高效、鲁棒地完成技能落地，成为亟待解决的技术瓶颈。

核心内容

针对上述挑战，研究团队提出了 RECENT 框架。这是一个以代码重构（Refactoring）为中心的代理框架，旨在利用小语言模型（sLMs）实现高效的技能落地。

1. 核心理念：解耦语义与执行绑定

RECENT 的核心创新在于将技能的语义意图（Semantic Intent）与特定于实体和环境的执行绑定（Execution Binding）解耦。

技能表示：RECENT 将技能表示为可执行的代码。这种表示方式保留了技能控制结构中编码的语义意图。
落地机制：当环境或机器人实体发生变化时，RECENT 并不要求模型从头生成新的代码，而是通过局部重构（Localized Refactoring）来修改执行绑定。这意味着模型只需要调整代码中与具体硬件或环境交互的部分，而保留核心的逻辑结构不变。

2. 工作流程

初始代码生成：利用 sLM 生成初始的控制代码，该代码包含了通用的控制逻辑和针对当前环境的执行绑定。
环境/实体变化检测：当检测到机器人实体或环境参数发生变化时，系统识别出需要调整的执行绑定部分。
局部重构：sLM 仅针对受影响的代码片段进行重构，更新执行绑定，而保持其他部分的语义逻辑不变。
执行与反馈：更新后的代码被部署到机器人上执行，实现长时程的任务控制。

3. 实验评估

研究团队在多种技能落地场景中评估了 RECENT，涵盖多个机器人实体和动态环境。实验结果表明：

鲁棒性：在部署 sLM 的情况下，RECENT 展现了强大的长时程性能。
性能对比：在所有测试场景中，RECENT 在基于 sLM 的 Code-as-Policies (CaP) 方法中取得了最佳性能。
对标 LLM：更重要的是，RECENT 的任务完成性能达到了基于 LLM 的 CaP 方法的水平。这表明，通过高效的代码重构策略，sLM 可以在不依赖 LLM 强大生成能力的情况下，实现同等水平的任务表现。

关键要点

问题定义：具身智能中，技能落地面临环境动态性和部分可观测性的挑战，且机器人端难以部署 LLM。
技术瓶颈：现有的 sLM 能力不足以直接支持可靠的长时程控制，而从头生成代码效率低且对模型要求过高。
解决方案 RECENT：
- 提出了一种以代码重构为中心的代理框架。
- 将技能表示为可执行代码，解耦语义意图与执行绑定。
- 通过局部重构修改执行绑定，而非从头生成代码，从而降低对 sLM 能力的要求。
性能优势：
- 在基于 sLM 的 CaP 方法中性能最佳。
- 任务表现匹配基于 LLM 的 CaP 方法。
适用场景：适用于资源受限、需要动态适应环境和实体变化的具身智能系统。

意义与影响

RECENT 框架的提出具有重要的理论和实践意义：

降低具身智能部署门槛：通过证明 sLM 结合代码重构策略可以达到 LLM 级别的性能，RECENT 使得在资源受限的边缘设备上部署高性能具身智能成为可能。这解决了 LLM 延迟高、成本高、隐私风险大等问题。
提升系统鲁棒性与适应性：局部重构机制使得系统能够快速适应环境和实体的变化，而无需重新训练或重新生成整个控制策略。这提高了具身智能在动态现实世界中的鲁棒性。
推动 Code-as-Policies 范式发展：RECENT 为 CaP 范式提供了一种新的优化思路，即通过结构化代码和局部修改来提高效率和适应性，而非单纯依赖模型的生成能力。这可能启发后续研究探索更高效的代码生成和修改策略。
促进小模型在机器人领域的应用：研究结果鼓励开发者更多地关注和优化 sLM 在特定任务（如代码生成、重构）上的能力，而非一味追求大模型，有助于构建更高效、更可持续的 AI 系统。

总之，RECENT 展示了如何通过巧妙的算法设计（代码重构）来弥补小模型能力的不足，为具身智能的实用化部署提供了一条可行且高效的路径。

查看原文 →arxiv.org