← 返回信息流
AI 资讯Hacker News·10 天前

Qwen3.7-Max在未知硬件上运行35小时,实现10倍加速

原标题:Qwen3.7-Max Ran for 35 Hours on Unknown Hardware and Achieved a 10× Speedup

速览

Qwen3.7-Max模型在未知硬件环境下连续运行35小时,成功实现了10倍的性能加速。这一成果展示了模型在复杂或未知计算环境下的强大适应性与优化潜力。该突破为未来大模型的高效部署与硬件兼容性提供了重要参考。

AI 深度解读

Qwen3.7-Max 在未知硬件上自主运行 35 小时,实现 10 倍加速:深度解读

背景

近期,阿里巴巴发布了一项关于其最新模型 Qwen3.7-Max 的技术评估结果,该结果在 Hacker News 等科技社区引发了广泛关注。这次评估的核心并非传统的基准测试(Benchmark),而是一项极具挑战性的“内核优化任务”。

任务设定如下:阿里巴巴将 Qwen3.7-Max 置于一个它从未见过的硬件平台上,要求其对一段代码进行内核优化。在这个场景中,模型既没有相关的文档说明,也没有性能剖析数据(Profiling Data),甚至没有任何针对该架构的示例内核代码。模型仅凭任务描述、现有的参考实现以及评估脚本,开始了长达 35 小时的自主工作。

这一实验旨在测试模型在缺乏先验知识、无人工干预的情况下,面对开放式优化问题时的持续策略执行能力、工具调用能力以及自我纠错能力。

核心内容

1. 任务细节与执行过程

此次优化的目标是 SGLang(一个广泛使用的推理框架)中的一个生产级组件:Extend Attention(扩展注意力机制)。该组件负责处理新生成 Token 与最多 32K 条目的前缀 KV-cache 之间的注意力计算。这是一个内存带宽受限、对延迟极其敏感的操作,直接决定了大语言模型(LLM)响应生成的速度。

  • 硬件环境:使用的硬件是 T-Head ZW-M890 PPUs(平头哥处理器架构)。该架构未出现在模型的训练数据中,模型对其行为特性一无所知,属于“冷启动”状态。
  • 自主迭代:在 35 小时内,模型执行了 1,158 次工具调用,完成了 432 次内核评估
  • 工作流程:模型经历了“编写代码 -> 编译 -> 运行 -> 读取性能剖析输出 -> 诊断失败 -> 修复 Bug -> 重新设计架构”的完整闭环。
  • 持续优化:即使在运行 30 小时后,模型仍在发现并实施有意义的改进。它通过运行时反馈而非先验知识来识别性能瓶颈,并在增量改进失效时多次重新设计内核架构。

2. 性能对比与竞品表现

最终,Qwen3.7-Max 实现了比参考实现快 10 倍 的加速效果。这一结果在同类模型中表现突出:

  • Qwen3.7-Max:10x 加速。
  • GLM 5.1:7.3x 加速。
  • Kimi K2.6:5x 加速。
  • DeepSeek V4 Pro:3.3x 加速。

值得注意的是,其他模型之所以未能达到同等水平,是因为它们在连续五个回合中未发出任何工具调用,从而判定无法进一步改进并停止运行。而 Qwen3.7-Max 展现了极强的韧性,没有中途放弃。

3. 基准测试表现

根据阿里巴巴的自有评估数据,Qwen3.7-Max 在各类基准测试中表现如下:

  • 编码智能体(Coding Agents):与 Opus 4.6DeepSeek 互有胜负,但在 Terminal Bench 上领先。
  • 推理能力:差距更为明显。在 GPQA DiamondHLEHMMT 等测试中,Qwen3.7-Max 的表现处于或优于当前最强的对比模型。

4. 训练方法的革新:环境缩放(Environment Scaling)

Qwen3.7-Max 的提升并非单纯依靠增加文本数据量,而是采用了阿里巴巴提出的“环境缩放”策略。

  • 多样化体验:模型通过在大量且多样化的智能体训练环境中进行训练来提升能力,这些环境包含不同的任务、工具和框架。
  • 跨框架泛化:这种训练方式使得模型学会了“解决问题”而非“记忆特定脚手架的模式”。因此,Qwen3.7-Max 在通过 Claude CodeQwen Code 或自定义工具使用框架运行时,都能保持一致的性能。大多数智能体模型容易在训练用的评估设置上过拟合,而 Qwen3.7-Max 克服了这一常见缺陷。

5. 局限性与注意事项

尽管表现优异,但 Qwen3.7-Max 仍存在以下限制:

  • 专有 API 模型:目前未开源权重,不支持本地部署或自托管。对于有数据隐私要求或希望自建基础设施的团队来说,这是一个硬性门槛。
  • 指令遵循差距:在 IFBench 测试中得分为 79.1,虽然表现强劲,但在复杂的多步指令遵循方面略低于部分竞争对手。对于需要严格格式或长会话中精准输出结构的工作流,建议在实际部署前进行测试。
  • 数据自报性质:目前的基准测试数据均由阿里巴巴自行评估,独立复现的结果尚待验证。

关键要点

  • 自主性强:模型在未知硬件(T-Head ZW-M890 PPUs)上,无文档、无先验知识的情况下,自主运行 35 小时,完成 1,158 次工具调用,展现了极强的自主探索和纠错能力。
  • 性能卓越:在 Extend Attention 内核优化任务中实现 10 倍加速,显著优于 GLM 5.1(7.3x)、Kimi K2.6(5x)和 DeepSeek V4 Pro(3.3x)。
  • 训练范式转变:从“文本数据缩放”转向“环境缩放”,通过多样化智能体训练环境提升跨框架泛化能力,避免了传统智能体模型容易出现的过拟合问题。
  • 推理能力突出:在 GPQA Diamond、HLE、HMMT 等高难度推理基准测试中,表现处于行业顶尖水平。
  • 适用场景明确:适合构建智能体工作流且可接受专有 API 的团队;不适合需要开源权重、本地部署或对指令遵循有极端严格要求的场景。

意义与影响

这项实验的意义远超出了单纯的基准测试分数。它证明了 Qwen3.7-Max 具备一种更为高级的能力:在开放、动态且缺乏指导的环境中,维持连贯策略并持续优化结果的能力。

大多数模型评估仅测试模型在定义明确的问题中能否给出正确答案,而本次实验测试的是模型在超过一千次工具调用中,如何诊断未知错误、识别性能瓶颈并重新设计架构。这种“在压力下持续工作”的能力,是构建真正自主智能体(Autonomous Agents)的关键基石。

对于 AI 开发者而言,Qwen3.7-Max 的出现表明,智能体模型正在从“被动响应”向“主动探索与优化”演进。尽管其专有 API 的性质限制了部分用户的使用,但其背后的“环境缩放”训练理念和在复杂任务中展现出的韧性,为下一代 AI 模型的开发提供了重要的参考方向。如果开源权重未来得以发布,它极有可能成为智能体工作流领域的标杆模型。

查看原文 →firethering.com