技术博客arXiv cs.CL·14 小时前

利用概率程序训练大语言模型的归纳推理能力

原标题：Using Probabilistic Programs to Train Inductive Reasoning in Large Language Models

速览

针对大模型在归纳推理任务中缺乏高质量标注数据和处理分布性目标的难题，研究提出概率后验训练（PPT）方法。该方法利用大模型生成概率程序模拟开放世界场景，并通过概率推理产生分布性目标响应进行微调。实验表明，PPT显著提升了模型在未见归纳任务上的估计准确性及与人类判断的一致性，且其校准增益无法通过后处理温度缩放完全复现，证明模型已内化不确定性。

AI 深度解读

使用概率程序训练大语言模型的归纳推理能力

背景

当前，针对大语言模型（LLMs）的后训练（Post-training）研究主要集中在演绎推理任务上，例如数学解题和代码生成。这类任务的特点是答案具有确定性，且正确性易于验证。然而，现实世界中的许多推理问题本质上是归纳性的：智能体必须从稀疏、模糊的观察中推断出不确定的信念。

尽管归纳推理在现实应用中至关重要，但使用标准的微调方法来训练模型的归纳推理能力面临显著挑战。主要难点包括：难以构建大规模、高质量的人工标注数据集，以及难以处理那些本质上具有分布特性的目标变量。现有的微调方法往往依赖于精确的标签，这在处理概率性、模糊性的归纳任务时显得力不从心。

核心内容

为了解决上述局限性，研究团队提出了一种名为“基于程序的后验训练”（Program-based Posterior Training, 简称 PPT）的新方法。该方法的核心思想是利用概率程序来生成训练数据，从而引导模型学习如何处理不确定性。

PPT 的具体工作流程如下：

场景生成：利用大语言模型生成多样化的开放世界场景，并将这些场景表示为概率程序（Probabilistic Programs）。
概率推理：运行概率推理引擎，针对查询生成具有分布特性的目标响应（Distributional Target Responses）。这意味着目标不再是单一的确定值，而是一个概率分布。
软标签微调：使用这些概率软标签（Probabilistic Soft Labels）对大语言模型进行微调。

在实验部分，研究团队使用这种方法在 10,000 个程序生成的场景上对大语言模型进行了微调，并在以下三个维度进行了评估：

保留的动机（Held-out Motifs）：未见过的推理模式。
人工标注的判断（Human-labeled Judgments）：人类专家对推理结果的评估。
外部基准测试（External Benchmarks）：用于评估估计和校准能力的标准测试集。

关键要点

显著提升估计准确性：PPT 方法在保留的归纳推理任务上显著提高了模型的估计准确性。
增强与人类判断的一致性：经过 PPT 微调的模型，其输出与人类判断的对齐程度更高，表明模型更好地理解了人类在不确定情境下的推理逻辑。
具备泛化能力：该方法在用于估计和校准的外部基准测试中也表现良好，显示出良好的迁移能力。
内化了不确定性：模型在原始校准（Raw Calibration）方面的提升无法通过事后的温度缩放（Post-hoc Temperature Scaling）完全解释。这表明模型不仅仅是调整了输出的置信度，而是更深层次地内化了不确定性信息。
解决数据瓶颈：通过程序化生成场景和概率推理，该方法有效规避了大规模高质量标注数据稀缺的问题，为处理分布性目标提供了可行的解决方案。

意义与影响

这项研究揭示了概率程序介导的微调（Probabilistic-program-mediated fine-tuning）是后训练大语言模型以可靠方式执行近似归纳推理的一种有前景的方法。

其重要意义在于：

拓展 LLM 的能力边界：将 LLM 的训练重点从单一的演绎推理扩展到更贴近现实的归纳推理，使模型能够处理模糊、不确定和稀疏信息。
提升模型的可靠性与可解释性：通过内化不确定性而非简单调整输出比例，模型在面对未知情况时能提供更符合概率逻辑的响应，这对于医疗、金融等高风险领域的应用至关重要。
创新数据生成范式：证明了利用 LLM 生成概率程序并结合概率推理引擎生成训练数据的有效性，为未来解决其他缺乏标注数据的复杂推理任务提供了新的技术路径。

总之，PPT 方法不仅在技术指标上取得了进步，更在方法论上为构建具备真正“常识性”和“不确定性处理能力”的智能体开辟了新方向。

查看原文 →arxiv.org