Sakana AI发布Fugu:基于进化算法的零样本代码生成模型
速览
Sakana AI发布了名为Fugu的新型代码生成模型。该模型采用进化算法而非传统的预训练方法,能够在零样本场景下生成高质量代码。其性能表现可与大型语言模型相媲美,为代码生成领域提供了新的技术路径。
AI 深度解读
Sakana AI 的 Fugu-Ultra:多智能体协作如何超越单一前沿模型
背景
在大型语言模型(LLM)和人工智能代理(AI Agents)迅速发展的今天,一个核心问题日益凸显:是依赖单体模型的极致优化,还是通过编排多个模型来实现更复杂的任务?Sakana AI 发布了一项名为 Fugu-Ultra 的实验性研究,旨在回答这一问题。
该研究基于 AutoResearch 框架(由 Karpathy 等人提出),展示了一个 AI 代理如何自主改进小型 GPT 模型的训练配方。通过迭代编辑训练代码、运行实验并仅保留能降低验证集 bits-per-byte (BPB) 的变更,该代理在单张 H100 GPU 上进行了约 14 小时、123 次实验。结果显示,Fugu-Ultra 在多项基准测试中均超越了三个被标记为“前沿模型”(Model A、Model B、Model C)的基线。
这项研究的核心论点在于:通过编排多个强大模型进行协作(Orchestration),在代理型机器学习(Agentic ML)研究中,可以超越任何单一的单体前沿模型。
核心内容
Sakana AI 通过六个截然不同的案例研究,全面评估了 Fugu-Ultra 的能力,涵盖从底层模型训练到高层逻辑推理、创意生成及金融决策的广泛领域。
1. 自主机器学习研究:AutoResearch / LLM 学习
这是 Fugu-Ultra 的“出身”证明。实验目标是让 AI 代理自主改进一个小规模 GPT 模型的训练配方。
- 方法:使用 AutoResearch 框架,代理迭代地修改训练代码,运行实验,并根据验证集 BPB(越低越好)指标筛选有效变更。
- 过程:在单张 H100 GPU 上运行 123 次实验,耗时约 14 小时。代理自主发现了包括批量大小(batch size)、模型深度、学习率和优化器设置在内的多项改进。
- 结果:Fugu-Ultra 最终取得了最佳平均 BPB(0.9774 ± 0.0019),优于 Model C(0.9781)、Model B(0.9793)和 Model A(0.9822)。其最佳单次运行 BPB 达到 0.9748,领先所有基线。
2. 历史文献解读:假名消息的读取顺序推断
此案例测试模型处理非结构化、高难度视觉-文本混合数据的能力。
- 挑战:目标对象是“假名消息”(古典日语信件),采用“散らし書き”(散写)布局,文字散布在纸面上,即使对于精通古文的专家来说,还原阅读顺序也极具挑战性。
- 方法:向模型提供字符的边界框(bounding boxes)以及大致的阅读规则,要求模型输出代码以推断字符的阅读顺序。
- 评估:使用 1610 年芳春院(Hōshun'in)的一封书信作为测试集,通过 NED(基于专家真实顺序的归一化编辑距离)评分,1.0 为完美匹配。
- 结果:
- Fugu-Ultra:NED 得分 0.80,生成的路径几乎完美重合于专家标注的绿色真值路径。
- Model A:NED 得分仅 0.24,路径在页面上杂乱跳跃。
- Model B:表现与 Model A 相近。
- Model C:未能生成任何有效的预测代码。
3. 算法与逻辑:Rubik's Cube 求解器
测试模型从零开始编写复杂算法并处理逻辑约束的能力。
- 任务:仅使用纯 Python(禁止使用现成求解库),从零编写一个魔方求解器。
- 评估:在 300 个随机打乱的魔方数据集上运行生成的程序。评价指标为求解所需的步数(越少越好)。
- 结果:
- Fugu-Ultra 与 Model A:均成功生成能解决全部 300 个魔方的代码。Fugu-Ultra 平均需 19.72 步,Model A 需 19.76 步。在任意单个魔方上,Fugu-Ultra 的步数从未多于 Model A(7 次更优,293 次持平,0 次落后)。
- Model B 与 Model C:虽然生成了看似复杂的代码,但在执行时全部崩溃,未能返回任何有效解(0/300)。
4. 工程与几何建模:CAD 机械光圈
测试模型将自然语言指令转化为精确几何结构的能力。
- 任务:创建类似相机光圈的机械式光圈(Iris),其中多个叶片联动以开闭中心孔。
- 评估:对比生成的详细 CAD 模型和简化视图。
- 结果:
- Fugu-Ultra:生成的叶片围绕外销轴旋转,能够清晰、正确地开闭光圈,结构完整。
- 其他模型:生成的 CAD 存在明显缺陷,如叶片间出现间隙、连杆机构薄弱、光圈无法完全闭合等。
5. 记忆与策略:盲棋对弈
测试模型在缺乏视觉反馈情况下的长期记忆和策略规划能力。
- 任务:进行四场连续的盲棋对弈。模型不显示棋盘,需完全依靠内存保持游戏状态。
- 对手:三个领先的前沿模型以及一个 2100-Elo 的 Stockfish 引擎。
- 结果:Fugu-Ultra 在四场对弈中均战胜了对手。当其他模型出现失误或偏离最佳路径时,Fugu-Ultra 保持了准确性,并最终将每一局都导向将死(Checkmate)。
6. 金融决策:股票交易模拟
测试模型在动态、反馈驱动环境下的序列决策能力。
- 任务:基于匿名化股票 STOCK_X 过去 50 周的周度数据(开盘、最高、最低、收盘价、成交量、回报率、移动平均线、波动率、回撤、投资组合状态及 prior feedback),进行在线交易决策。
- 约束:禁止使用未来信息(No-look-ahead)。初始资金 $10,000,每次决策需决定买卖或持有,以及交易比例。
- 结果:
- Fugu-Ultra:经过 5 次相同管道的运行,投资组合增长至 $11,943.22 ± $633.86,平均回报率为 +19.43%。
- 其他前沿模型:回报率均低于 +15%。
- 注:该基准旨在比较序列决策能力,而非证明可泛化的交易性能,过往业绩不代表未来结果。
关键要点
- 多智能体编排优于单体:Fugu-Ultra 并非指代某个单一的超大参数模型,而是代表了一种通过编排多个模型进行协作的研究范式。在 ML 研究、代码生成、逻辑推理等任务中,这种协作模式超越了当前最强的单体前沿模型。
- 自主性(Autonomy)是关键:在 AutoResearch 实验中,AI 代理自主发现了人类可能忽略的训练超参数调整(如学习率、优化器设置),证明了 AI 在优化 AI 方面的潜力。
- 鲁棒性与一致性:在魔方求解器和 CAD 生成任务中,Fugu-Ultra 展现了极高的稳定性。相比之下,其他前沿模型(Model B/C)经常生成看似合理但无法执行或结构错误的代码/模型。
- 长程记忆与逻辑保持:在盲棋任务中,Fugu-Ultra 证明了其在无视觉辅助下维持复杂状态空间的能力,能够识别对手的失误并转化为胜利。
- 数据驱动的决策优势:在金融模拟中,Fugu-Ultra 利用历史反馈进行自适应决策,其表现显著优于基线模型,显示出在处理序列决策
