← 返回信息流
AI 资讯Hacker News·2 小时前

Subquadratic发布SubQ 1.1 Small模型

原标题:Subquadratic – Introducing SubQ 1.1 Small

速览

Subquadratic公司正式发布了其最新模型SubQ 1.1 Small。该模型专注于优化计算效率,旨在为开发者提供更轻量级且高性能的解决方案。此举进一步丰富了Subquadratic在高效AI模型领域的布局。

AI 深度解读

Subquadratic 发布 SubQ 1.1 Small:突破注意力机制瓶颈,重新定义长上下文推理

背景

企业级 AI 应用中最具挑战性的问题往往具有一个共同特征:它们需要对完整的“工件”(artifacts)进行推理。这些工件包括整个代码库、文档集合、合同文本或财务报表。

长期以来,行业通过构建检索管道(retrieval pipelines)、分块策略(chunking strategies)以及代理式架构(agentic scaffolding)来规避这一问题。虽然这些工具实用,但它们本质上只是对模型架构上下文限制的一种权宜之计。其底层约束在于“注意力机制”(Attention):计算量随上下文长度呈二次方增长($O(n^2)$),这使得直接对大型工件进行推理变得极其昂贵且不可行。

Subquadratic 公司旨在消除这一约束。2026年6月16日,该公司发布了 SubQ 1.1 Small 的模型卡片。这是其 Subquadratic Sparse Attention(SSA,亚二次方稀疏注意力)模型的第二个迭代版本,也是目前最小的尺寸。目前,SubQ 1.1 Small 正在与部分设计合作伙伴(design partners)进行部署,并计划在今年晚些时候部署一系列更广泛的模型,上下文长度范围从 200万 到 1200万 tokens。

核心内容

SubQ 1.1 Small 的核心突破在于其采用的 SSA 机制,该机制通过替换传统的密集注意力计算,实现了线性扩展的上下文处理能力。

1. 性能基准测试 SubQ 1.1 Small 在五个维度上进行了评估,涵盖长上下文检索、上下文长度泛化、知识、编码以及长周期代理任务。

  • 长上下文检索与泛化(Needle-In-A-Haystack & RULER):

    • NIAH 测试(精度测试): 该测试要求模型在长上下文中精确找回一个被埋没的事实。SubQ 1.1 Small 在 100万、200万、600万和 1200万 tokens 的长度下均取得了近乎完美的分数。尽管模型主要在 100万 tokens 长度上进行训练,但在 12倍于此长度的情况下,检索能力依然保持近乎完美,尽管其注意力关系被压缩到了仅 0.13%。这种泛化能力直接归功于 SSA 基于内容相关性而非固定位置模式来路由注意力的机制。
    • RULER 测试(能力测试): 包含 13 项任务,超越了单一事实查找,涵盖多跳变量追踪、频率提取以及跨完整上下文的聚合,这些是完整工件工作负载实际所需的推理类型。SubQ 1.1 Small 在 128K 长度下得分高达 99.12%。
  • 通用知识与推理:

    • 模型在优化长上下文的同时,未牺牲通用推理能力。
    • GPQA Diamond: 得分 85.4%,略低于中层前沿模型,但远高于较小规模的基线模型。
    • LiveCodeBench: pass@4 得分为 89.7%,接近绝对前沿水平。
    • AutomationBench Finance: 得分 13%,在该基准测试中接近最强模型,优于中层和小型基线(尽管该基准所有模型的绝对得分普遍较低)。

2. 效率优势 SSA 用一种随上下文长度线性扩展的学习稀疏公式,替换了 $O(n^2)$ 的密集注意力过程。随着上下文长度的增加,SSA 相对于密集注意力的优势愈发显著。

  • 在 100万 tokens 上下文长度下,SubQ 1.1 Small 所需的计算量比密集注意力少 64.5倍
  • 在单个注意力层上,其运行速度比 FlashAttention-2 快 56倍
  • 这种效率提升从根本上改变了长上下文训练和推理的经济模型。

3. 训练方法

  • 基础架构: 团队基于现有的开源前沿模型,将密集注意力替换为 SSA。
  • 上下文扩展: 通过分阶段扩展上下文(262K, 512K, 1M, 2M)来构建长上下文能力。
  • 持续预训练: 随后在自然长工件(书籍、文档、仓库级代码)上进行了约一万亿 tokens 的持续预训练。
  • 关键发现: 提高长上下文检索能力的最强杠杆是长上下文持续预训练,而这得益于 SSA 算法的效率。1200万 tokens 的泛化结果反映了两个因素:SSA 的选择标准与绝对位置无关,且通过训练长数据,模型能够可靠地利用这种泛化能力。
  • 实验迭代: 团队进行了超过 100 次实验,跨越 6 到 7 个模型代际,以平衡长上下文和短上下文任务的能力。SSA 使得运行数百万 tokens 的实验成为常规操作而非罕见事件,从而提高了研究循环的效率。

关键要点

  • 技术突破: SubQ 1.1 Small 基于 Subquadratic Sparse Attention (SSA) 技术,解决了传统 Transformer 架构中注意力计算随上下文长度呈二次方增长的性能瓶颈。
  • 极致效率: 在 100万 tokens 上下文下,计算量仅为密集注意力的 1/64.5,速度比 FlashAttention-2 快 56 倍。
  • 超长上下文支持: 在 Needle-In-A-Haystack 测试中,模型在 1200万 tokens 长度下仍保持近乎完美的检索精度,且训练数据主要集中在 100万 tokens 级别,展现了极强的泛化能力。
  • 全能型表现: 在保持长上下文优势的同时,未牺牲通用推理、编码和金融分析能力,在 GPQA、LiveCodeBench 等基准测试中表现接近或达到前沿水平。
  • 训练策略: 采用“开源前沿模型 + SSA 替换 + 分阶段上下文扩展 + 万亿级长文本持续预训练”的组合策略,证明了长上下文持续预训练是提升长上下文检索能力的关键。
  • 部署计划: 目前正与部分设计合作伙伴部署 SubQ 1.1 Small,计划年内发布从 200万 到 1200万 tokens 的更广泛模型阵容。

意义与影响

SubQ 1.1 Small 的发布标志着企业级 AI 应用从“检索增强”向“原生长上下文推理”的重要转变。

1. 解决企业核心痛点 许多高价值企业场景(如金融尽职调查、法律合同审查、软件工程)依赖于对完整工件的整体理解,而非孤立的信息片段。

  • 金融分析: 财报、合同和内部记录只有组合在一起才有意义。SubQ 能够直接对整个集合进行推理,而非单独总结每份文档。
  • 法律工作: 合同中的定义、限定和例外条款可能分散在不同页面。传统检索容易丢失条款间的逻辑关系,而 SubQ 能够保持文档整体性并进行直接推理。
  • 软件工程: 代码逻辑分布在文件、模块和依赖项中。SubQ 可以将整个代码库加载到单个上下文窗口中,实现架构级推理、跨文件重构和依赖追踪。

2. 改变经济模型 通过大幅降低长上下文处理的计算成本(64.5倍计算量减少),SubQ 使得在常规生产中处理超长上下文变得经济可行。这为需要处理海量数据的企业应用铺平了道路,降低了部署复杂代理系统和长上下文模型的门槛。

3. 推动架构演进 SubQ 的成功验证了稀疏注意力机制(SSA)在平衡效率与能力方面的潜力。它证明了通过基于内容相关性的注意力路由,而非依赖固定位置模式,可以实现更高效的长上下文泛化。这为未来 AI 模型架构的设计提供了新的方向,即不再单纯依赖增加参数或堆砌算力,而是通过更高效的注意力机制来突破上下文长度的限制。

随着 SubQ 1.1 Small 及其后续更大规模模型的逐步部署,我们有望看到更多能够真正“理解”完整文档、代码库和复杂数据集

查看原文 →subq.ai