AI 资讯雷峰网·3 小时前

ICML 2026：LLM发明机器语言符号体系，推理Token消耗降低3-6倍

原标题：ICML 2026 | 当大模型开始发明自己的语言：如何让 LLM 用更少 Token 完成高强度推理

速览

ICML 2026收录论文CLSR提出一种机制，使多智能体系统能自主生成和演化离散符号通信协议（LSF），替代自然语言作为中间推理表示。实验表明，该方法在多种开源骨干模型上可将生成Token减少3-6倍，同时保持与原始思维链相当的准确率。这一成果揭示了通过提高单位Token信息密度来优化推理效率的新范式，为多智能体协作提供了更高效的带宽受限状态传输机制。

AI 深度解读

ICML 2026 | 深度解读 CLSR：当大模型开始发明自己的语言

背景

当前，大语言模型（LLM）在复杂推理任务中广泛采用思维链（Chain-of-Thought, CoT）技术，即通过显式生成中间推理步骤来提高答案的稳定性。然而，这种基于自然语言的长推理链存在一个结构性成本：它默认中间状态必须以自然语言散文（prose）的形式展开。

对于人类读者而言，自然语言具有良好的可读性和解释性；但对于机器（LLM）而言，自然语言中大量的修辞连贯性、解释性冗余（如“首先我们考虑……”、“因此可以看出……”）构成了额外的带宽成本。在自回归解码（autoregressive decoding）过程中，生成端的 token 数量不仅直接关联推理成本，还严重影响延迟和吞吐量。

现有的缓解方法主要包括三类：

Prompt 优化：优化自然语言指令的表面形式，但优化对象多为临时指令字符串，而非持久可用的符号协议。
短推理提示：如 Chain-of-Draft、Sketch-of-Thought 等，让模型少写或写草稿式推理。但这往往导致关键中间状态（如变量绑定、证据链接）丢失，从而降低准确率。
程序辅助推理：如 PoT、PAL，将推理转为程序由外部解释器执行。这依赖人类预设的语言和外部执行器，且未解决“LLM 自身能否发现适合自身的中间符号系统”这一核心问题。

在此背景下，ICML 2026 接收了一篇来自中国科学院计算技术研究所和国科大的论文，提出 CLSR (Communicative Language Symbolism Routing)。该研究提出一个更底层的问题：LLM 是否一定要用自然语言来组织推理？

核心内容

CLSR 的核心观点是：在正确性与推理成本的选择压力下，多个 LLM agent 可以自主生成、演化得到各式各样的机器语言符号体系，即 Language Symbolism Frameworks (LSFs)。CLSR 旨在管理这些语言符号体系，使推理效率的关键从“让模型少说话”转向“让模型使用更高信息密度、更可复用、更可路由的中间语言”。

1. LSF：一种操作意义上的离散符号通信协议

LSF 并非人类自然语言，也不是声称 LLM 获得了人类式的语言能力，而是一种操作意义上的离散符号通信协议。与普通 prompt 不同，LSF 更像一张“协议卡”，具备以下特征：

持久性与复用性：可以被多次调用，在样例分布上评估。
结构化：包含符号、语法、推理操作、有效性约束和经验 profile。
可演化性：可以由 router 选择、组合、淘汰，并在后续任务中继承、变异。

例如，数学类 LSF 倾向于保留变量绑定、子目标、变形操作和校验标签；科学问答类 LSF 强调证据等级和候选排除；多跳检索类 LSF 则保留证据桥和 support status。其形态示意如下：

[bind] x=..., y=...
[sub] need: eliminate distractor B/C
[op] evidence(A) > evidence(D); constraint: mechanism match
[chk] no contradiction with condition-2
[ans] A

这种表达不追求文学性或对人类完全自解释，而是追求在最少 token 中保留足以让模型继续推理、验证或输出答案的结构化状态。

2. CLSR 的三阶段工作流程

CLSR 将测试时推理形式化为一个受约束的随机控制问题，主要包含三个阶段：

LSF Synthesis（LSF 合成）：给定 benchmark 的训练样例，CLSR 采样一批 exemplars 作为上下文，要求 LLM 设计一种能在保持推理能力的同时减少 token 的 LSF。默认流程中不对符号表或语法进行人工编辑，仅给出高层目标（正确且 token-efficient）。通过较高采样温度，生成从 strict LSF（接近机器式压缩协议）到 soft LSF（保留较多自然语言结构）的多样化初始语言池。
LSF Evolution（LSF 演化）：使用迭代 bootstrapping 过程逐代改进 LSF pool：
1. 用当前 LSF 回答新的训练/验证问题。
2. 记录答案正确性与 completion token 成本。
3. 选择同时正确且短的 high-leverage traces。
4. 将这些 trace、父代 LSF 和失败信息反馈给 LLM，生成下一代 LSF。
这一过程类似机器语言体系的演化：正确性是“通信成功”，token 长度是“生产成本”。能反复被采用的符号被保留，不能稳定支持答案的压缩方式被淘汰。这里的“agent”并非独立的神经模块，而是由 backbone、随机种子和生成上下文定义的 black-box LLM 提案/批评/变异工作器。
Test-time Routing（测试时路由）：在测试阶段，CLSR 不固定使用某一个 LSF，而是由 LLM-router 根据问题和 LSF profile 实时生成协议计划。主要有三类推理模式：
- 简单题：使用单个低成本 LSF。
- 难题：Router 主动分配更多 token 进行分解、交叉检查和多轮组合。
- 混合任务：动态决定何时压缩、何时冗余、何时验证。
这种机制使得系统能够在预算约束下，动态决定推理深度，而非单纯追求最短长度。

3. 实验评估与结果

论文在七类 benchmark（MMLU-Pro, GPQA-main, GSM8K, MATH500, AIME21–24, ScienceQA, HotpotQA）上评估了 CLSR，backbone 包括 LLaMA3-8B、DeepSeek-R1-Distill-Qwen3-8B、Qwen3-8B、Qwen3-32B 等。

核心指标：Accuracy（准确率）和 Completion tokens（生成端 token）。
主要发现：
- CLSR 通常能将面向延迟的生成端 completion tokens 降低约 3–6 倍，同时基本维持 Raw CoT 的准确率水平。
- 在若干设置中，CLSR 获得了更好的 accuracy–token Pareto frontier。
- 收益不仅来自小模型或简单任务，在强推理模型或长推理任务上，自然语言 CoT 中仍存在大量对机器非必要的表述。
- 与短推理 baseline 相比，CLSR 并非只是“更短”，而是通过更紧凑的符号保留了关键中间状态。

4. 关键机制解析

多轮数 $T$ 的作用：实验表明，对于 GSM8K、MATH500、GPQA 等难题，$T=3$ 比 $T=1$ 使用更多 token，却显著提高准确率，且总 token 仍少于 Raw CoT。这说明针对高强度推理，原则不是“少说”，而是将 token 从自然语言叙述转移到结构化验证、分解和纠错上。
与程序化推理（PoT/PAL）的关系： CLSR 不依赖外部 executor，但通过多轮 LSF 协议，在一定条件下可以近似一种“模型内部的程序化状态更新”。在 interpreter-realizability 前提下，多轮 LSF protocol 可以条件性地 subsume program-execution pipeline。CLSR 扩展了“自然语言 CoT”和“外部程序执行”之间的表示空间。
可解释性与双层 Trace： LSF 比普通 CoT 更短、更结构化，但不一定更容易被非专业读者理解。因此，合理的系统设计可能是双层 trace：内部用 LSF 高效推理，外部在需要时生成自然语言解释，并保留 LSF card、route plan、raw trace、parsed answer 和 verifier log 以便审计。

关键要点

范式转变：推理效率的关键不仅是减少字数，而是提高单位 token 的有效信息密度，将推理链从“文本”重新定义为“带宽受限的状态传输机制”。
LSF 的定义：LSF

查看原文 →leiphone.com