AI 资讯雷峰网·4 小时前

Multi-Agent实测：不会带团队，模型干到死

原标题：Multi-Agent 实测：不会带团队，模型干到死

速览

文章实测了 Kimi K2.6 的 Multi-Agent 能力，通过让多个 Agent 协作完成浏览器版 macOS 开发任务，展示了任务拆解、并行处理和结果合成的优势。K2.6 采用 1T 级 MoE 架构，支持 256K 上下文窗口，专为 Agent Swarm 场景优化。测试中，K2.6 先规划任务架构，再分配给六个 Agent 分别负责基础架构、核心 UI、应用开发和代码审查，最终形成完整开发闭环。这表明 AI 模型正从单纯生成答案向承担完整工程链路转变，组织能力与智能水平的叠加将成为复杂任务的关键。

AI 深度解读

背景

当单个 Agent 被赋予越来越复杂的任务时，一个根本性的瓶颈逐渐暴露：上下文窗口的容量是有限的，而复杂任务对记忆和推理链条的需求几乎是无限的。开发者们发现，让一个 Agent 从头到尾线性执行一项大型工程，往往会导致上下文爆炸、幻觉累积、步骤遗漏，最终交付质量剧烈波动。

Multi-Agent 系统正是为了解决这一困境而生。通过将复杂任务拆解为多个子任务，分配给不同的 Agent 并行或串行执行，系统既能缓解单个 Agent 的上下文压力，又能通过角色分工和相互审查来提升整体输出质量。从 CrewAI、AutoGen 到打出"三省六部制"旗号的 Edict，各类框架都在试图回答同一个问题：如何让多个 Agent 像一个组织一样协同工作？

进入 2025 年末至今，Multi-Agent 生态经历了飞速成长。框架层逐渐成熟，但底层模型是否真正具备了支撑多 Agent 协作的能力，仍是悬而未决的问题。这正是本次实测试图回答的核心命题。

核心内容

为什么是 Kimi K2.6

本次测试选择 Kimi K2.6 作为底层模型，并非偶然。在当下众多模型中，K2.6 的定位极为少见——它是一款针对 Multi-Agent 场景做了针对性优化的开源模型。

官方将其描述为具备 SOTA Coding、Long-Horizon Execution 和 Agent Swarm capabilities 的开源模型。值得注意的是最后一点：300 sub-agents、4000-step coordination 以及 multi-agent swarm orchestration 被直接写进了 Kimi 官方论文，这在业界至今仍是独一份。

从架构层面看，K2.6 采用 1T 级 MoE 架构，每次推理激活约 32B 参数，支持 256K 上下文窗口。MoE 架构为模型提供了内部"专业化分工"的基础——面对代码、推理、工具调用、视觉理解和复杂任务拆解等不同场景时，模型可以通过专家路由机制调动不同的"专家"能力。而 256K 长上下文，则为长程 Agent 任务提供了关键的"工作记忆"，使模型能够在长链路执行中保留任务目标、代码上下文、工具输出和多轮迭代历史。

更能说明问题的是 Kimi 官方此前披露的两个长程工程案例：

案例一：本地模型推理优化。 K2.6 在本地 Mac 上自主下载并部署 Qwen3.5-0.8B 模型，用 Zig 语言实现和优化推理。整个过程持续 12 小时以上，累计 4000 多次工具调用，经历 14 轮迭代，最终将吞吐从约 15 tokens/s 提升至约 193 tokens/s，比 LM Studio 快约 20%。

案例二：金融撮合引擎改造。 K2.6 对已有 8 年历史的开源金融撮合引擎 exchange-core 进行自主改造。模型连续执行 13 小时，迭代 12 种优化策略，发起 1000 多次工具调用，修改 4000 多行代码，并通过分析 CPU 与内存分配火焰图定位隐藏瓶颈。最终将核心线程拓扑从 4ME+2RE 调整为 2ME+1RE，实现中等吞吐提升 185%、性能吞吐提升 133%。

这两个案例共同指向一个判断：模型不再仅仅负责生成答案，而是开始承担规划、执行、调用工具、接受反馈、修正路线并最终交付结果的完整链路。

测试任务：浏览器版 macOS

为了验证 K2.6 的 Agent Swarm 能力，测试团队设计了一项极具挑战性的任务：创建一个精美的、浏览器版 macOS 系统，并要求使用多个 Agent 协作完成，整体遵循"计划-开发-反思反驳-意见汇总-再开发"的流程。

这项任务的复杂度极高。macOS 的视觉、交互、状态管理、动效、应用生态、Window Manager、Menu Bar、Dock 等子系统全部要在浏览器中实现。仅靠单 Agent 顺序写代码，几乎注定会在半途中遭遇上下文爆炸。这决定了它天然需要多 Agent 并行协作——一个 Agent 写基础架构，另一个写核心 UI，第三个写内置应用，它们之间必须有清晰的接口契约和风格约定，否则最后拼出来的产物会四分五裂。

此外，能否遵循"反思-反驳-汇总-再开发"的循环，也是这项任务隐含的考验。这几乎等同于 K2.6 所强调的 Multi-Agent Orchestration：避免多个 Agent 自说自话，而是让它们彼此质询、综合意见、再迭代交付。

实测过程

先搭组织，再写代码。 K2.6 没有直接进入代码生成，而是先进入计划模式，对任务进行了结构化拆解。它首先给出了一份完整的开发计划，将浏览器版 macOS 拆成几个核心模块：Desktop 环境、Dock 栏、Menu Bar、Window Manager、内置应用、视觉效果。在正式开发前，先定义了技术栈、组件目录、状态结构和验证标准。这一步相当于先搭了一个组织架构，有过团队协作经验的开发者都清楚这一步对多 Agent 实践有多关键。

多 Agent 分工形成闭环。 随后 K2.6 将任务交给六个 Agent 执行，模拟出清晰的多 Agent 协作流程：

基础架构搭建：由 Agent A 负责初始化 Vite、React、TypeScript

查看原文 →leiphone.com