ICML 2026:LLM发明机器语言符号体系,推理Token消耗降低3-6倍
速览
ICML 2026收录论文CLSR提出一种机制,使多智能体系统能自主生成和演化离散符号通信协议(LSF),替代自然语言作为中间推理表示。实验表明,该方法在多种开源骨干模型上可将生成Token减少3-6倍,同时保持与原始思维链相当的准确率。这一成果揭示了通过提高单位Token信息密度来优化推理效率的新范式,为多智能体协作提供了更高效的带宽受限状态传输机制。
AI 深度解读
ICML 2026 | 深度解读 CLSR:当大模型开始发明自己的语言
背景
当前,大语言模型(LLM)在复杂推理任务中广泛采用思维链(Chain-of-Thought, CoT)技术,即通过显式生成中间推理步骤来提高答案的稳定性。然而,这种基于自然语言的长推理链存在一个结构性成本:它默认中间状态必须以自然语言散文(prose)的形式展开。
对于人类读者而言,自然语言具有良好的可读性和解释性;但对于机器(LLM)而言,自然语言中大量的修辞连贯性、解释性冗余(如“首先我们考虑……”、“因此可以看出……”)构成了额外的带宽成本。在自回归解码(autoregressive decoding)过程中,生成端的 token 数量不仅直接关联推理成本,还严重影响延迟和吞吐量。
现有的缓解方法主要包括三类:
- Prompt 优化:优化自然语言指令的表面形式,但优化对象多为临时指令字符串,而非持久可用的符号协议。
- 短推理提示:如 Chain-of-Draft、Sketch-of-Thought 等,让模型少写或写草稿式推理。但这往往导致关键中间状态(如变量绑定、证据链接)丢失,从而降低准确率。
- 程序辅助推理:如 PoT、PAL,将推理转为程序由外部解释器执行。这依赖人类预设的语言和外部执行器,且未解决“LLM 自身能否发现适合自身的中间符号系统”这一核心问题。
在此背景下,ICML 2026 接收了一篇来自中国科学院计算技术研究所和国科大的论文,提出 CLSR (Communicative Language Symbolism Routing)。该研究提出一个更底层的问题:LLM 是否一定要用自然语言来组织推理?
核心内容
CLSR 的核心观点是:在正确性与推理成本的选择压力下,多个 LLM agent 可以自主生成、演化得到各式各样的机器语言符号体系,即 Language Symbolism Frameworks (LSFs)。CLSR 旨在管理这些语言符号体系,使推理效率的关键从“让模型少说话”转向“让模型使用更高信息密度、更可复用、更可路由的中间语言”。
1. LSF:一种操作意义上的离散符号通信协议
LSF 并非人类自然语言,也不是声称 LLM 获得了人类式的语言能力,而是一种操作意义上的离散符号通信协议。与普通 prompt 不同,LSF 更像一张“协议卡”,具备以下特征:
- 持久性与复用性:可以被多次调用,在样例分布上评估。
- 结构化:包含符号、语法、推理操作、有效性约束和经验 profile。
- 可演化性:可以由 router 选择、组合、淘汰,并在后续任务中继承、变异。
例如,数学类 LSF 倾向于保留变量绑定、子目标、变形操作和校验标签;科学问答类 LSF 强调证据等级和候选排除;多跳检索类 LSF 则保留证据桥和 support status。其形态示意如下:
[bind] x=..., y=...
[sub] need: eliminate distractor B/C
[op] evidence(A) > evidence(D); constraint: mechanism match
[chk] no contradiction with condition-2
[ans] A
这种表达不追求文学性或对人类完全自解释,而是追求在最少 token 中保留足以让模型继续推理、验证或输出答案的结构化状态。
2. CLSR 的三阶段工作流程
CLSR 将测试时推理形式化为一个受约束的随机控制问题,主要包含三个阶段:
-
LSF Synthesis(LSF 合成): 给定 benchmark 的训练样例,CLSR 采样一批 exemplars 作为上下文,要求 LLM 设计一种能在保持推理能力的同时减少 token 的 LSF。默认流程中不对符号表或语法进行人工编辑,仅给出高层目标(正确且 token-efficient)。通过较高采样温度,生成从 strict LSF(接近机器式压缩协议)到 soft LSF(保留较多自然语言结构)的多样化初始语言池。
-
LSF Evolution(LSF 演化): 使用迭代 bootstrapping 过程逐代改进 LSF pool:
- 用当前 LSF 回答新的训练/验证问题。
- 记录答案正确性与 completion token 成本。
- 选择同时正确且短的 high-leverage traces。
- 将这些 trace、父代 LSF 和失败信息反馈给 LLM,生成下一代 LSF。
这一过程类似机器语言体系的演化:正确性是“通信成功”,token 长度是“生产成本”。能反复被采用的符号被保留,不能稳定支持答案的压缩方式被淘汰。这里的“agent”并非独立的神经模块,而是由 backbone、随机种子和生成上下文定义的 black-box LLM 提案/批评/变异工作器。
-
Test-time Routing(测试时路由): 在测试阶段,CLSR 不固定使用某一个 LSF,而是由 LLM-router 根据问题和 LSF profile 实时生成协议计划。主要有三类推理模式:
- 简单题:使用单个低成本 LSF。
- 难题:Router 主动分配更多 token 进行分解、交叉检查和多轮组合。
- 混合任务:动态决定何时压缩、何时冗余、何时验证。
这种机制使得系统能够在预算约束下,动态决定推理深度,而非单纯追求最短长度。
3. 实验评估与结果
论文在七类 benchmark(MMLU-Pro, GPQA-main, GSM8K, MATH500, AIME21–24, ScienceQA, HotpotQA)上评估了 CLSR,backbone 包括 LLaMA3-8B、DeepSeek-R1-Distill-Qwen3-8B、Qwen3-8B、Qwen3-32B 等。
- 核心指标:Accuracy(准确率)和 Completion tokens(生成端 token)。
- 主要发现:
- CLSR 通常能将面向延迟的生成端 completion tokens 降低约 3–6 倍,同时基本维持 Raw CoT 的准确率水平。
- 在若干设置中,CLSR 获得了更好的 accuracy–token Pareto frontier。
- 收益不仅来自小模型或简单任务,在强推理模型或长推理任务上,自然语言 CoT 中仍存在大量对机器非必要的表述。
- 与短推理 baseline 相比,CLSR 并非只是“更短”,而是通过更紧凑的符号保留了关键中间状态。
4. 关键机制解析
-
多轮数 $T$ 的作用: 实验表明,对于 GSM8K、MATH500、GPQA 等难题,$T=3$ 比 $T=1$ 使用更多 token,却显著提高准确率,且总 token 仍少于 Raw CoT。这说明针对高强度推理,原则不是“少说”,而是将 token 从自然语言叙述转移到结构化验证、分解和纠错上。
-
与程序化推理(PoT/PAL)的关系: CLSR 不依赖外部 executor,但通过多轮 LSF 协议,在一定条件下可以近似一种“模型内部的程序化状态更新”。在 interpreter-realizability 前提下,多轮 LSF protocol 可以条件性地 subsume program-execution pipeline。CLSR 扩展了“自然语言 CoT”和“外部程序执行”之间的表示空间。
-
可解释性与双层 Trace: LSF 比普通 CoT 更短、更结构化,但不一定更容易被非专业读者理解。因此,合理的系统设计可能是双层 trace:内部用 LSF 高效推理,外部在需要时生成自然语言解释,并保留 LSF card、route plan、raw trace、parsed answer 和 verifier log 以便审计。
关键要点
- 范式转变:推理效率的关键不仅是减少字数,而是提高单位 token 的有效信息密度,将推理链从“文本”重新定义为“带宽受限的状态传输机制”。
- LSF 的定义:LSF
