← 返回信息流
AI 资讯量子位·4 天前

港大黄超:AI原生时代应让世界适应Agent而非教AI做人

原标题:AI原生时代下,让世界适应Agent,而非教AI做人 | 港大黄超@AIGC2026

速览

港大黄超在AIGC2026演讲中指出,CLI更像是Agent的母语。他主张在AI原生时代,应推动世界去适应Agent,而不是继续教AI做人。这一观点强调了Agent在下一代人机交互中的核心地位。

AI 深度解读

背景

在2026中国AIGC产业峰会上,香港大学助理教授黄超发表了题为《AI原生时代下,让世界适应Agent,而非教AI做人》的主题演讲。随着AI Agent(智能体)从概念走向落地,行业面临的核心问题不再是Agent本身的能力上限,而是其基础设施与交互范式。

黄超团队通过开源通用Agent nanobot 积累了大量实践经验,发现当前Agent在长程任务执行、成本控制及跨领域协作中存在显著瓶颈。传统的基于图形用户界面(GUI)的“Computer Use”路径成本高且可靠性低,而现有的自进化机制往往受限于特定场景。基于此,黄超提出了一套从单体Agent轻量化、交互范式重构到集群协同进化的完整解决方案,旨在重新定义数字世界与AI的交互协议。

核心内容

1. Agent架构的“大道至简”与nanobot实践 黄超指出,通用Agent的核心架构本质上是一个优雅的ReAct循环(Reasoning规划 -> Action执行 -> Observation反馈)。尽管像OpenClaw这样的项目拥有百万行代码,但团队认为通用Agent无需过度复杂化。 为此,他们开源了轻量级通用Agent nanobot。该项目坚持连续100天日更迭代,下载量突破20万次,被DeepSeek推荐为全球15个Agent之一,并在OpenRouter平台通用Agent榜单中位列第四。这一实践验证了“将复杂问题简单化”的设计哲学,也为开发者提供了低门槛的二次开发和学习入口。

2. 长程任务的挑战与生产力升级 Agent从“AI助手”升级为“AI生产力工具”的关键在于处理长程任务。长程任务的难点不在于时间长度,而在于场景的复杂性和多样性。任何一步的工具调用错误都可能导致整体失败。 团队通过开发完整马里奥游戏等案例验证,真正的生产力Agent必须具备系统性测试、调试和迭代能力,而不仅仅是代码生成。此外,Agent需要实现“learning from real tasks”,即在真实任务失败中识别错误模式并优化策略,从而显著降低Token消耗,实现“自负盈亏”的经济性。

3. 交互范式重构:CLI作为Agent的母语 针对Computer Use(计算机使用)场景,黄超批判了当前依赖GUI模仿人类操作的路径,指出其存在多模态输入成本高、像素级点击准确度受限等根本缺陷。 他提出“CLI-Anything”理念:与其让Agent费力学习人类界面,不如让软件原生支持Agent语言。通过将专业软件(如3D建模、设计工具)重新包装为命令行接口(CLI),Agent可以直接驱动复杂应用。未来软件使用将是“CLI+GUI”的混合模式:Agent通过CLI高效完成复杂任务,人类通过GUI享受直观体验。这不仅是技术选择,更是交互范式的根本重构——从让AI适应人类工具,转向让数字世界说AI的语言。

4. 自进化机制与Skill沉淀 在自进化方面,团队对比了Internal(优化内核/参数)和External(扩充工具库)两种模式。Internal模式难以跨域迁移,而External模式更符合“重新设计数字世界”的理念。 团队选择基于Skill(技能)的进化路线,通过Open Space项目实现经验沉淀。尽管面临高质量Skill稀缺、精准匹配困难及粒度管理复杂等挑战,但测试显示,基于Skill的进化能显著减少Token消耗并提升任务完成度。

5. Agent Swarm的Scaling Law与协作实验 为验证协同进化,团队设计了让8个Agent协调8张H100显卡进行分布式模型训练的实验。结果显示,23小时内模型性能提升6%,相当于一名博士3周的工作量。 然而,实验也揭示了Agent Swarm的边际收益递减现象:3-5个Agent即为最优规模,超过阈值后协调开销将超过性能增益。这表明Agent协作的瓶颈不在沟通延迟,而在任务分解、冲突协调及上下文对齐的隐性成本。Agent集群的Scaling Law远比想象中复杂,存在一个最优临界规模。

关键要点

  • 架构极简主义:通用Agent的核心是ReAct循环(推理-行动-反馈),无需过度复杂的代码堆砌,nanobot的成功证明了轻量化架构的可行性与社区影响力。
  • 生产力标准:真正的生产力Agent需具备长程任务的鲁棒性,能在动态环境中自我纠错,并实现Token成本的经济性平衡,而非仅追求能力上界。
  • 交互范式革命:GUI是为人类设计的,强制AI适配人类界面是低效的。CLI(命令行接口)更适合作为Agent的原生交互语言,通过“CLI+GUI”混合模式实现人机分工最优解。
  • 自进化路径:基于Skill的External进化模式比优化模型参数更具泛化性。通过沉淀可复用的Skill并借鉴Wiki式检索机制,可解决多粒度匹配难题,降低运行成本。
  • 协作规模临界点:Agent Swarm并非越多越好。实验表明,3-5个Agent的协作效率最高,超过此规模后,协调开销和上下文对齐成本呈指数级增长,导致负收益。
  • 科研加速悖论:Agent能大幅加速科研中的试错过程(如算法迭代),但无法加速科学发现本身的验证周期,需警惕“快速产出低质量假设”的风险。

意义与影响

黄超的观点对AI Agent的基础设施建设具有深远指导意义。首先,它挑战了当前主流的大模型交互依赖GUI的惯性思维,推动了“Agent-Native”软件生态的构建,促使开发者重新思考API设计与软件架构,使其更利于机器读取与执行。

其次,关于Agent Swarm Scaling Law的发现,为行业提供了宝贵的工程实践参考,避免了盲目堆砌Agent数量的资源浪费,强调了任务分解与协调机制的重要性。

最后,强调“让世界适应Agent”而非“教AI做人”,标志着AI应用从“辅助工具”向“自主数字劳动力”的范式转变。这不仅要求算法层面的突破,更要求操作系统、应用软件乃至整个数字基础设施进行底层重构,以适配AI原生时代的交互需求。

查看原文 →qbitai.com