技术博客arXiv cs.AI·7 天前

具有学习弃权与实时引导的可审计决策模型

原标题：Auditable Decision Models with Learned Abstention and Real-Time Steering

速览

针对生产环境中AI证据不足或冲突的问题，提出EvaluatorDPT模型，将弃权作为学习结果而非事后规则。该模型通过变压器编码器预测是、否或待定，支持推理时的实时路由与审计。研究展示了其在验证集上的高精度及校准证据，为AI决策控制提供了可解释且可审计的边界执行接口。

在生产环境中运行的 AI 系统经常面临证据不完整、相互冲突或不足的情况。传统的分类器在面对这些模糊案例时，往往被迫将其坍缩为确定的行动标签（如“是”或“否”），这掩盖了模型的不确定性。另一方面，生成式系统虽然灵活，但其输出的自由文本形式难以被解读为可审计的执行决策。

当前的痛点在于，AI 系统的不确定性通常被隐藏在其强制性的预测结果或自由形式的生成内容中，缺乏显式的、受策略治理的、可审计的路由机制。为了解决这一问题，我们需要一种能够明确处理不确定性、并允许在推理阶段进行实时调控的决策控制接口。

本文提出了一种名为 EvaluatorDPT 的有界决策控制模型（bounded decision-control model）。该模型旨在为 AI 系统提供一个领域无关的部署接口，使得不确定性可以被显式路由，并支持实时调控和审计。

EvaluatorDPT 基于 Transformer 编码器构建，其核心创新在于引入了“学习到的弃权”（Learned Abstention）机制。模型预测三种结果之一：

与传统方法仅在事后添加置信度规则不同，TBD 在此模型中是作为学习到的结果直接输出的。这意味着模型学会了在证据不足或冲突时主动“举手”而非强行猜测。

此外，模型还包含结构化的辅助通道，用于处理价值观（values）和情感/情绪（emotions/sentiments），为行为控制提供额外的语义信号。

EvaluatorDPT 提供了一个领域无关的接口形式：

这种设计允许在推理时通过记录的运行阈值来控制决策。当模型输出 TBD 时，系统可以根据预设策略将其路由给人类操作员或其他更高级别的决策模块，从而实现“实时调控”（Real-Time Steering）。

在保留的测试集（n=44,597）上，该模型版本的表现如下：

值得注意的是，本次评估中禁用了情感头（emotion head），因此未报告辅助情感指标。

除了性能指标，评估记录还包括了校准证据（验证集上的 ECE = 0.0338）、阈值扫描输出、多种子稳定性检查、混淆矩阵以及复现命令。这些证据支持外部审查，确保了决策过程的透明度。

EvaluatorDPT 的主要贡献在于提出了一种有界执行接口，解决了生产环境中 AI 决策“黑盒”与“强制二选一”之间的矛盾。

提升可审计性：通过将不确定性显式化为 TBD 类别，并辅以情感/价值观等辅助信号，使得 AI 的决策路径变得可解释、可追踪。这对于金融、医疗、法律等高风险领域至关重要。
增强人机协作：TBD 输出为人类介入提供了自然的切入点。当模型不确定时，系统可以自动将案例路由给人工审核，既保证了效率，又降低了错误风险。
标准化决策控制：该框架提供了一种标准化的方式来整合政策约束和实时调控，使得 AI 系统的行为不仅取决于数据，还取决于可配置的策略阈值，从而更好地适应复杂的业务规则。

总之，这项工作为构建更可靠、更透明、更可控的生产级 AI 系统提供了一条可行的技术路径。