Subquadratic发布SubQ 1.1 Small模型,支持1200万超长上下文
速览
Subquadratic推出全球首个全亚线性大模型SubQ 1.1 Small,采用次二次稀疏注意力(SSA)架构,将上下文长度扩展至1200万Token。该模型在超长文本检索中实现近乎完美精准,计算量减少近1000倍,同时保持强大的通用推理能力。该模型专为财报、合同及代码库等需要跨文本综合推理的场景设计,旨在解决传统模型处理长文本成本高昂的瓶颈。
AI 深度解读
背景
长期以来,企业级 AI 应用面临着一个显著的技术瓶颈:难以对完整的庞大资产(如整个代码库、大型文档集或财务报表)进行直接且连贯的推理。传统的大语言模型受限于底层的密集注意力机制(Dense Attention),其计算复杂度随上下文长度呈二次方增长($O(n^2)$)。这意味着,当处理超长文本时,算力成本和延迟会急剧上升,导致开发者不得不依赖信息检索增强生成(RAG)或分块(Chunking)等“权宜之计”来规避这一限制。然而,这种碎片化的处理方式往往会导致逻辑关联丢失,无法实现全局性的综合推理。
为了打破这一计算瓶颈,Subquadratic 推出了全球首个全亚线性大模型 SubQ,并正式发布了采用次二次稀疏注意力(Subquadratic Sparse Attention, SSA)架构的 SubQ 1.1 Small 模型。该模型旨在解决超长上下文处理中的效率与精度问题,支持高达 1200 万(12M)Token 的上下文长度。
核心内容
SubQ 1.1 Small 的核心突破在于其架构革新与训练策略,具体体现在以下几个方面:
1. 架构创新:次二次稀疏注意力(SSA) SubQ 基于现有的开源前沿模型,将其核心的密集注意力机制替换为 SSA 架构。SSA 机制用呈线性扩展的稀疏形式取代了传统的 $O(n^2)$ 密集注意力,从而从根本上降低了计算复杂度。
- 计算效率提升:在处理 1M Token 时,SubQ 的计算需求比传统密集注意力低 64.5 倍。
- 运行速度优势:其运行速度比目前主流的 FlashAttention-2 快 56 倍。
- 整体优化:相比传统方法,注意力计算量减少了近 1000 倍。
2. 训练策略:阶段性上下文扩展与持续预训练 模型并非直接从头训练,而是通过以下策略进行优化:
- 阶段性扩展:上下文长度从 262K 逐步扩展至 2M。
- 超长数据预训练:在书籍、长文档、完整代码库等超长数据上进行了约 1 万亿 Token 的持续预训练。
- 实验平衡:得益于 SSA 的高效性,团队能够将百万级 Token 的实验作为常规流程,通过上百次实验精准平衡了模型在短上下文和长上下文任务上的能力。
3. 性能表现:精度与通用能力的双重保障
- 超长上下文检索能力:在“大海捞针”(Needle In A Haystack)测试中,该模型在 1M、2M、6M 甚至高达 12M Token 的长度下,均实现了近乎完美的精准检索。
- 通用推理能力:在保留长上下文处理能力的同时,模型并未牺牲通用智能。在 GPQA Diamond 基准测试中得分达到 85.4%,在 LiveCodeBench 中得分达到 89.7%。这两个分数紧逼顶级前沿模型,并远超同级别的中小型模型。
4. 产品定位与应用场景 SubQ 1.1 Small 是该系列中体量最小的模型,专为需要跨文本综合推理且不容碎片化的工作流设计。其典型应用场景包括:
- 全局财务与法律推理:能同时处理财报、合同和内部记录,进行全局推理,而非孤立地总结单个文档。
- 长文档逻辑追踪:直接在单一上下文中保留整份长达数十页的合同,精准追踪前后文的条款定义与例外说明,避免传统检索丢失逻辑关联的问题。
- 代码库级重构:将整个代码库(包括逻辑、模块和依赖关系)一次性加载到上下文窗口中,实现架构级别的推理、跨文件重构和依赖追踪。
关键要点
- 技术突破:SubQ 1.1 Small 是全球首个采用全亚线性架构的大模型,通过 SSA 机制将注意力计算量降低近 1000 倍。
- 上下文长度:支持高达 1200 万(12M)Token 的上下文长度,且在 1M-12M 范围内保持高精度检索能力。
- 效率对比:相比传统密集注意力,计算需求降低 64.5 倍;相比 FlashAttention-2,运行速度快 56 倍。
- 基准测试:在 GPQA Diamond(85.4%)和 LiveCodeBench(89.7%)等通用基准测试中表现优异,紧追顶级前沿模型。
- 训练数据:基于开源前沿模型改造,经过 1 万亿 Token 的超长数据持续预训练。
- 未来规划:SubQ 1.1 Small 为当前最小版本,官方计划在未来几周内与首批设计合作伙伴合作,并将于今年晚些时候正式推出支持 2M 到 12M Token 的全线模型产品。
意义与影响
SubQ 1.1 Small 的发布标志着大模型在处理超长上下文任务上迈出了从“可用”到“高效且精准”的关键一步。
首先,它解决了企业级 AI 落地中的一个核心痛点:数据完整性与推理全局性的矛盾。传统 RAG 或分块技术虽然缓解了上下文长度限制,但往往以牺牲文档内部的逻辑连贯性为代价。SubQ 允许将完整的代码库、大型合同或财务报表直接输入模型,使得 AI 能够像人类专家一样进行跨章节、跨文件的综合推理,这对于法律合规、金融审计和软件工程等高精度领域具有革命性意义。
其次,亚线性注意力机制(SSA)的成熟应用证明了降低 Transformer 架构计算复杂度的可行性。通过线性扩展的稀疏形式替代二次方增长的密集注意力,SubQ 不仅降低了推理成本,还提升了处理速度,使得百万级 Token 的处理从“实验性特性”变为“常规工作流”。这为后续更大规模、更长上下文的模型商业化铺平了道路。
最后,Subquadratic 提出的“全亚线性”愿景,预示着 AI 基础设施正在向更高效、更经济的方向演进。随着 2M 到 12M Token 全线模型的推出,未来我们将看到更多能够直接理解“整体”而非“片段”的 AI 应用,从而彻底改变知识密集型行业的工作方式。
