AI 资讯量子位·4 天前

港大黄超：AI原生时代应让世界适应Agent而非教AI做人

原标题：AI原生时代下，让世界适应Agent，而非教AI做人 | 港大黄超@AIGC2026

速览

港大黄超在AIGC2026演讲中指出，CLI更像是Agent的母语。他主张在AI原生时代，应推动世界去适应Agent，而不是继续教AI做人。这一观点强调了Agent在下一代人机交互中的核心地位。

AI 深度解读

背景

在2026中国AIGC产业峰会上，香港大学助理教授黄超发表了题为《AI原生时代下，让世界适应Agent，而非教AI做人》的主题演讲。随着AI Agent（智能体）从概念走向落地，行业面临的核心问题不再是Agent本身的能力上限，而是其基础设施与交互范式。

黄超团队通过开源通用Agent nanobot 积累了大量实践经验，发现当前Agent在长程任务执行、成本控制及跨领域协作中存在显著瓶颈。传统的基于图形用户界面（GUI）的“Computer Use”路径成本高且可靠性低，而现有的自进化机制往往受限于特定场景。基于此，黄超提出了一套从单体Agent轻量化、交互范式重构到集群协同进化的完整解决方案，旨在重新定义数字世界与AI的交互协议。

核心内容

1. Agent架构的“大道至简”与nanobot实践 黄超指出，通用Agent的核心架构本质上是一个优雅的ReAct循环（Reasoning规划 -> Action执行 -> Observation反馈）。尽管像OpenClaw这样的项目拥有百万行代码，但团队认为通用Agent无需过度复杂化。为此，他们开源了轻量级通用Agent nanobot。该项目坚持连续100天日更迭代，下载量突破20万次，被DeepSeek推荐为全球15个Agent之一，并在OpenRouter平台通用Agent榜单中位列第四。这一实践验证了“将复杂问题简单化”的设计哲学，也为开发者提供了低门槛的二次开发和学习入口。

2. 长程任务的挑战与生产力升级 Agent从“AI助手”升级为“AI生产力工具”的关键在于处理长程任务。长程任务的难点不在于时间长度，而在于场景的复杂性和多样性。任何一步的工具调用错误都可能导致整体失败。团队通过开发完整马里奥游戏等案例验证，真正的生产力Agent必须具备系统性测试、调试和迭代能力，而不仅仅是代码生成。此外，Agent需要实现“learning from real tasks”，即在真实任务失败中识别错误模式并优化策略，从而显著降低Token消耗，实现“自负盈亏”的经济性。

3. 交互范式重构：CLI作为Agent的母语 针对Computer Use（计算机使用）场景，黄超批判了当前依赖GUI模仿人类操作的路径，指出其存在多模态输入成本高、像素级点击准确度受限等根本缺陷。他提出“CLI-Anything”理念：与其让Agent费力学习人类界面，不如让软件原生支持Agent语言。通过将专业软件（如3D建模、设计工具）重新包装为命令行接口（CLI），Agent可以直接驱动复杂应用。未来软件使用将是“CLI+GUI”的混合模式：Agent通过CLI高效完成复杂任务，人类通过GUI享受直观体验。这不仅是技术选择，更是交互范式的根本重构——从让AI适应人类工具，转向让数字世界说AI的语言。

4. 自进化机制与Skill沉淀 在自进化方面，团队对比了Internal（优化内核/参数）和External（扩充工具库）两种模式。Internal模式难以跨域迁移，而External模式更符合“重新设计数字世界”的理念。团队选择基于Skill（技能）的进化路线，通过Open Space项目实现经验沉淀。尽管面临高质量Skill稀缺、精准匹配困难及粒度管理复杂等挑战，但测试显示，基于Skill的进化能显著减少Token消耗并提升任务完成度。

5. Agent Swarm的Scaling Law与协作实验 为验证协同进化，团队设计了让8个Agent协调8张H100显卡进行分布式模型训练的实验。结果显示，23小时内模型性能提升6%，相当于一名博士3周的工作量。然而，实验也揭示了Agent Swarm的边际收益递减现象：3-5个Agent即为最优规模，超过阈值后协调开销将超过性能增益。这表明Agent协作的瓶颈不在沟通延迟，而在任务分解、冲突协调及上下文对齐的隐性成本。Agent集群的Scaling Law远比想象中复杂，存在一个最优临界规模。

关键要点

架构极简主义：通用Agent的核心是ReAct循环（推理-行动-反馈），无需过度复杂的代码堆砌，nanobot的成功证明了轻量化架构的可行性与社区影响力。
生产力标准：真正的生产力Agent需具备长程任务的鲁棒性，能在动态环境中自我纠错，并实现Token成本的经济性平衡，而非仅追求能力上界。
交互范式革命：GUI是为人类设计的，强制AI适配人类界面是低效的。CLI（命令行接口）更适合作为Agent的原生交互语言，通过“CLI+GUI”混合模式实现人机分工最优解。
自进化路径：基于Skill的External进化模式比优化模型参数更具泛化性。通过沉淀可复用的Skill并借鉴Wiki式检索机制，可解决多粒度匹配难题，降低运行成本。
协作规模临界点：Agent Swarm并非越多越好。实验表明，3-5个Agent的协作效率最高，超过此规模后，协调开销和上下文对齐成本呈指数级增长，导致负收益。
科研加速悖论：Agent能大幅加速科研中的试错过程（如算法迭代），但无法加速科学发现本身的验证周期，需警惕“快速产出低质量假设”的风险。

意义与影响

黄超的观点对AI Agent的基础设施建设具有深远指导意义。首先，它挑战了当前主流的大模型交互依赖GUI的惯性思维，推动了“Agent-Native”软件生态的构建，促使开发者重新思考API设计与软件架构，使其更利于机器读取与执行。

其次，关于Agent Swarm Scaling Law的发现，为行业提供了宝贵的工程实践参考，避免了盲目堆砌Agent数量的资源浪费，强调了任务分解与协调机制的重要性。

最后，强调“让世界适应Agent”而非“教AI做人”，标志着AI应用从“辅助工具”向“自主数字劳动力”的范式转变。这不仅要求算法层面的突破，更要求操作系统、应用软件乃至整个数字基础设施进行底层重构，以适配AI原生时代的交互需求。

查看原文 →qbitai.com

港大黄超：AI原生时代应让世界适应Agent而非教AI做人

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐