AI 资讯Hacker News·2 小时前

Subquadratic发布SubQ 1.1 Small模型

原标题：Subquadratic – Introducing SubQ 1.1 Small

速览

Subquadratic公司正式发布了其最新模型SubQ 1.1 Small。该模型专注于优化计算效率，旨在为开发者提供更轻量级且高性能的解决方案。此举进一步丰富了Subquadratic在高效AI模型领域的布局。

AI 深度解读

Subquadratic 发布 SubQ 1.1 Small：突破注意力机制瓶颈，重新定义长上下文推理

背景

企业级 AI 应用中最具挑战性的问题往往具有一个共同特征：它们需要对完整的“工件”（artifacts）进行推理。这些工件包括整个代码库、文档集合、合同文本或财务报表。

长期以来，行业通过构建检索管道（retrieval pipelines）、分块策略（chunking strategies）以及代理式架构（agentic scaffolding）来规避这一问题。虽然这些工具实用，但它们本质上只是对模型架构上下文限制的一种权宜之计。其底层约束在于“注意力机制”（Attention）：计算量随上下文长度呈二次方增长（$O(n^2)$），这使得直接对大型工件进行推理变得极其昂贵且不可行。

Subquadratic 公司旨在消除这一约束。2026年6月16日，该公司发布了 SubQ 1.1 Small 的模型卡片。这是其 Subquadratic Sparse Attention（SSA，亚二次方稀疏注意力）模型的第二个迭代版本，也是目前最小的尺寸。目前，SubQ 1.1 Small 正在与部分设计合作伙伴（design partners）进行部署，并计划在今年晚些时候部署一系列更广泛的模型，上下文长度范围从 200万到 1200万 tokens。

核心内容

SubQ 1.1 Small 的核心突破在于其采用的 SSA 机制，该机制通过替换传统的密集注意力计算，实现了线性扩展的上下文处理能力。

1. 性能基准测试 SubQ 1.1 Small 在五个维度上进行了评估，涵盖长上下文检索、上下文长度泛化、知识、编码以及长周期代理任务。

长上下文检索与泛化（Needle-In-A-Haystack & RULER）：
- NIAH 测试（精度测试）： 该测试要求模型在长上下文中精确找回一个被埋没的事实。SubQ 1.1 Small 在 100万、200万、600万和 1200万 tokens 的长度下均取得了近乎完美的分数。尽管模型主要在 100万 tokens 长度上进行训练，但在 12倍于此长度的情况下，检索能力依然保持近乎完美，尽管其注意力关系被压缩到了仅 0.13%。这种泛化能力直接归功于 SSA 基于内容相关性而非固定位置模式来路由注意力的机制。
- RULER 测试（能力测试）： 包含 13 项任务，超越了单一事实查找，涵盖多跳变量追踪、频率提取以及跨完整上下文的聚合，这些是完整工件工作负载实际所需的推理类型。SubQ 1.1 Small 在 128K 长度下得分高达 99.12%。
通用知识与推理：
- 模型在优化长上下文的同时，未牺牲通用推理能力。
- GPQA Diamond： 得分 85.4%，略低于中层前沿模型，但远高于较小规模的基线模型。
- LiveCodeBench： pass@4 得分为 89.7%，接近绝对前沿水平。
- AutomationBench Finance： 得分 13%，在该基准测试中接近最强模型，优于中层和小型基线（尽管该基准所有模型的绝对得分普遍较低）。

2. 效率优势 SSA 用一种随上下文长度线性扩展的学习稀疏公式，替换了 $O(n^2)$ 的密集注意力过程。随着上下文长度的增加，SSA 相对于密集注意力的优势愈发显著。

在 100万 tokens 上下文长度下，SubQ 1.1 Small 所需的计算量比密集注意力少 64.5倍。
在单个注意力层上，其运行速度比 FlashAttention-2 快 56倍。
这种效率提升从根本上改变了长上下文训练和推理的经济模型。

3. 训练方法

基础架构： 团队基于现有的开源前沿模型，将密集注意力替换为 SSA。
上下文扩展： 通过分阶段扩展上下文（262K, 512K, 1M, 2M）来构建长上下文能力。
持续预训练： 随后在自然长工件（书籍、文档、仓库级代码）上进行了约一万亿 tokens 的持续预训练。
关键发现： 提高长上下文检索能力的最强杠杆是长上下文持续预训练，而这得益于 SSA 算法的效率。1200万 tokens 的泛化结果反映了两个因素：SSA 的选择标准与绝对位置无关，且通过训练长数据，模型能够可靠地利用这种泛化能力。
实验迭代： 团队进行了超过 100 次实验，跨越 6 到 7 个模型代际，以平衡长上下文和短上下文任务的能力。SSA 使得运行数百万 tokens 的实验成为常规操作而非罕见事件，从而提高了研究循环的效率。

关键要点

技术突破： SubQ 1.1 Small 基于 Subquadratic Sparse Attention (SSA) 技术，解决了传统 Transformer 架构中注意力计算随上下文长度呈二次方增长的性能瓶颈。
极致效率： 在 100万 tokens 上下文下，计算量仅为密集注意力的 1/64.5，速度比 FlashAttention-2 快 56 倍。
超长上下文支持： 在 Needle-In-A-Haystack 测试中，模型在 1200万 tokens 长度下仍保持近乎完美的检索精度，且训练数据主要集中在 100万 tokens 级别，展现了极强的泛化能力。
全能型表现： 在保持长上下文优势的同时，未牺牲通用推理、编码和金融分析能力，在 GPQA、LiveCodeBench 等基准测试中表现接近或达到前沿水平。
训练策略： 采用“开源前沿模型 + SSA 替换 + 分阶段上下文扩展 + 万亿级长文本持续预训练”的组合策略，证明了长上下文持续预训练是提升长上下文检索能力的关键。
部署计划： 目前正与部分设计合作伙伴部署 SubQ 1.1 Small，计划年内发布从 200万到 1200万 tokens 的更广泛模型阵容。

意义与影响

SubQ 1.1 Small 的发布标志着企业级 AI 应用从“检索增强”向“原生长上下文推理”的重要转变。

1. 解决企业核心痛点 许多高价值企业场景（如金融尽职调查、法律合同审查、软件工程）依赖于对完整工件的整体理解，而非孤立的信息片段。

金融分析： 财报、合同和内部记录只有组合在一起才有意义。SubQ 能够直接对整个集合进行推理，而非单独总结每份文档。
法律工作： 合同中的定义、限定和例外条款可能分散在不同页面。传统检索容易丢失条款间的逻辑关系，而 SubQ 能够保持文档整体性并进行直接推理。
软件工程： 代码逻辑分布在文件、模块和依赖项中。SubQ 可以将整个代码库加载到单个上下文窗口中，实现架构级推理、跨文件重构和依赖追踪。

2. 改变经济模型 通过大幅降低长上下文处理的计算成本（64.5倍计算量减少），SubQ 使得在常规生产中处理超长上下文变得经济可行。这为需要处理海量数据的企业应用铺平了道路，降低了部署复杂代理系统和长上下文模型的门槛。

3. 推动架构演进 SubQ 的成功验证了稀疏注意力机制（SSA）在平衡效率与能力方面的潜力。它证明了通过基于内容相关性的注意力路由，而非依赖固定位置模式，可以实现更高效的长上下文泛化。这为未来 AI 模型架构的设计提供了新的方向，即不再单纯依赖增加参数或堆砌算力，而是通过更高效的注意力机制来突破上下文长度的限制。

随着 SubQ 1.1 Small 及其后续更大规模模型的逐步部署，我们有望看到更多能够真正“理解”完整文档、代码库和复杂数据集

查看原文 →subq.ai