AI 资讯Hacker News·1 小时前

Sakana AI发布Fugu：基于进化算法的零样本代码生成模型

原标题：Sakana Fugu

速览

Sakana AI发布了名为Fugu的新型代码生成模型。该模型采用进化算法而非传统的预训练方法，能够在零样本场景下生成高质量代码。其性能表现可与大型语言模型相媲美，为代码生成领域提供了新的技术路径。

AI 深度解读

Sakana AI 的 Fugu-Ultra：多智能体协作如何超越单一前沿模型

背景

在大型语言模型（LLM）和人工智能代理（AI Agents）迅速发展的今天，一个核心问题日益凸显：是依赖单体模型的极致优化，还是通过编排多个模型来实现更复杂的任务？Sakana AI 发布了一项名为 Fugu-Ultra 的实验性研究，旨在回答这一问题。

该研究基于 AutoResearch 框架（由 Karpathy 等人提出），展示了一个 AI 代理如何自主改进小型 GPT 模型的训练配方。通过迭代编辑训练代码、运行实验并仅保留能降低验证集 bits-per-byte (BPB) 的变更，该代理在单张 H100 GPU 上进行了约 14 小时、123 次实验。结果显示，Fugu-Ultra 在多项基准测试中均超越了三个被标记为“前沿模型”（Model A、Model B、Model C）的基线。

这项研究的核心论点在于：通过编排多个强大模型进行协作（Orchestration），在代理型机器学习（Agentic ML）研究中，可以超越任何单一的单体前沿模型。

核心内容

Sakana AI 通过六个截然不同的案例研究，全面评估了 Fugu-Ultra 的能力，涵盖从底层模型训练到高层逻辑推理、创意生成及金融决策的广泛领域。

1. 自主机器学习研究：AutoResearch / LLM 学习

这是 Fugu-Ultra 的“出身”证明。实验目标是让 AI 代理自主改进一个小规模 GPT 模型的训练配方。

方法：使用 AutoResearch 框架，代理迭代地修改训练代码，运行实验，并根据验证集 BPB（越低越好）指标筛选有效变更。
过程：在单张 H100 GPU 上运行 123 次实验，耗时约 14 小时。代理自主发现了包括批量大小（batch size）、模型深度、学习率和优化器设置在内的多项改进。
结果：Fugu-Ultra 最终取得了最佳平均 BPB（0.9774 ± 0.0019），优于 Model C（0.9781）、Model B（0.9793）和 Model A（0.9822）。其最佳单次运行 BPB 达到 0.9748，领先所有基线。

2. 历史文献解读：假名消息的读取顺序推断

此案例测试模型处理非结构化、高难度视觉-文本混合数据的能力。

挑战：目标对象是“假名消息”（古典日语信件），采用“散らし書き”（散写）布局，文字散布在纸面上，即使对于精通古文的专家来说，还原阅读顺序也极具挑战性。
方法：向模型提供字符的边界框（bounding boxes）以及大致的阅读规则，要求模型输出代码以推断字符的阅读顺序。
评估：使用 1610 年芳春院（Hōshun'in）的一封书信作为测试集，通过 NED（基于专家真实顺序的归一化编辑距离）评分，1.0 为完美匹配。
结果：
- Fugu-Ultra：NED 得分 0.80，生成的路径几乎完美重合于专家标注的绿色真值路径。
- Model A：NED 得分仅 0.24，路径在页面上杂乱跳跃。
- Model B：表现与 Model A 相近。
- Model C：未能生成任何有效的预测代码。

3. 算法与逻辑：Rubik's Cube 求解器

测试模型从零开始编写复杂算法并处理逻辑约束的能力。

任务：仅使用纯 Python（禁止使用现成求解库），从零编写一个魔方求解器。
评估：在 300 个随机打乱的魔方数据集上运行生成的程序。评价指标为求解所需的步数（越少越好）。
结果：
- Fugu-Ultra 与 Model A：均成功生成能解决全部 300 个魔方的代码。Fugu-Ultra 平均需 19.72 步，Model A 需 19.76 步。在任意单个魔方上，Fugu-Ultra 的步数从未多于 Model A（7 次更优，293 次持平，0 次落后）。
- Model B 与 Model C：虽然生成了看似复杂的代码，但在执行时全部崩溃，未能返回任何有效解（0/300）。

4. 工程与几何建模：CAD 机械光圈

测试模型将自然语言指令转化为精确几何结构的能力。

任务：创建类似相机光圈的机械式光圈（Iris），其中多个叶片联动以开闭中心孔。
评估：对比生成的详细 CAD 模型和简化视图。
结果：
- Fugu-Ultra：生成的叶片围绕外销轴旋转，能够清晰、正确地开闭光圈，结构完整。
- 其他模型：生成的 CAD 存在明显缺陷，如叶片间出现间隙、连杆机构薄弱、光圈无法完全闭合等。

5. 记忆与策略：盲棋对弈

测试模型在缺乏视觉反馈情况下的长期记忆和策略规划能力。

任务：进行四场连续的盲棋对弈。模型不显示棋盘，需完全依靠内存保持游戏状态。
对手：三个领先的前沿模型以及一个 2100-Elo 的 Stockfish 引擎。
结果：Fugu-Ultra 在四场对弈中均战胜了对手。当其他模型出现失误或偏离最佳路径时，Fugu-Ultra 保持了准确性，并最终将每一局都导向将死（Checkmate）。

6. 金融决策：股票交易模拟

测试模型在动态、反馈驱动环境下的序列决策能力。

任务：基于匿名化股票 STOCK_X 过去 50 周的周度数据（开盘、最高、最低、收盘价、成交量、回报率、移动平均线、波动率、回撤、投资组合状态及 prior feedback），进行在线交易决策。
约束：禁止使用未来信息（No-look-ahead）。初始资金 $10,000，每次决策需决定买卖或持有，以及交易比例。
结果：
- Fugu-Ultra：经过 5 次相同管道的运行，投资组合增长至 $11,943.22 ± $633.86，平均回报率为 +19.43%。
- 其他前沿模型：回报率均低于 +15%。
- 注：该基准旨在比较序列决策能力，而非证明可泛化的交易性能，过往业绩不代表未来结果。

关键要点

多智能体编排优于单体：Fugu-Ultra 并非指代某个单一的超大参数模型，而是代表了一种通过编排多个模型进行协作的研究范式。在 ML 研究、代码生成、逻辑推理等任务中，这种协作模式超越了当前最强的单体前沿模型。
自主性（Autonomy）是关键：在 AutoResearch 实验中，AI 代理自主发现了人类可能忽略的训练超参数调整（如学习率、优化器设置），证明了 AI 在优化 AI 方面的潜力。
鲁棒性与一致性：在魔方求解器和 CAD 生成任务中，Fugu-Ultra 展现了极高的稳定性。相比之下，其他前沿模型（Model B/C）经常生成看似合理但无法执行或结构错误的代码/模型。
长程记忆与逻辑保持：在盲棋任务中，Fugu-Ultra 证明了其在无视觉辅助下维持复杂状态空间的能力，能够识别对手的失误并转化为胜利。
数据驱动的决策优势：在金融模拟中，Fugu-Ultra 利用历史反馈进行自适应决策，其表现显著优于基线模型，显示出在处理序列决策

查看原文 →sakana.ai