← 返回信息流
技术博客arXiv cs.AI·7 天前

具有学习弃权与实时引导的可审计决策模型

原标题:Auditable Decision Models with Learned Abstention and Real-Time Steering

速览

针对生产环境中AI证据不足或冲突的问题,提出EvaluatorDPT模型,将弃权作为学习结果而非事后规则。该模型通过变压器编码器预测是、否或待定,支持推理时的实时路由与审计。研究展示了其在验证集上的高精度及校准证据,为AI决策控制提供了可解释且可审计的边界执行接口。

AI 深度解读

Auditable Decision Models with Learned Abstention and Real-Time Steering:可审计的决策模型与实时调控

背景

在生产环境中运行的 AI 系统经常面临证据不完整、相互冲突或不足的情况。传统的分类器在面对这些模糊案例时,往往被迫将其坍缩为确定的行动标签(如“是”或“否”),这掩盖了模型的不确定性。另一方面,生成式系统虽然灵活,但其输出的自由文本形式难以被解读为可审计的执行决策。

当前的痛点在于,AI 系统的不确定性通常被隐藏在其强制性的预测结果或自由形式的生成内容中,缺乏显式的、受策略治理的、可审计的路由机制。为了解决这一问题,我们需要一种能够明确处理不确定性、并允许在推理阶段进行实时调控的决策控制接口。

核心内容

本文提出了一种名为 EvaluatorDPT 的有界决策控制模型(bounded decision-control model)。该模型旨在为 AI 系统提供一个领域无关的部署接口,使得不确定性可以被显式路由,并支持实时调控和审计。

1. 模型架构与输出定义

EvaluatorDPT 基于 Transformer 编码器构建,其核心创新在于引入了“学习到的弃权”(Learned Abstention)机制。模型预测三种结果之一:

  • YES:肯定决策。
  • NO:否定决策。
  • TBD(To Be Determined,待定):弃权或延迟决策。

与传统方法仅在事后添加置信度规则不同,TBD 在此模型中是作为学习到的结果直接输出的。这意味着模型学会了在证据不足或冲突时主动“举手”而非强行猜测。

此外,模型还包含结构化的辅助通道,用于处理价值观(values)和情感/情绪(emotions/sentiments),为行为控制提供额外的语义信号。

2. 接口设计与实时调控

EvaluatorDPT 提供了一个领域无关的接口形式:

  • 输入端:部署领域提供证据(evidence)和政策阈值(policy thresholds)。
  • 输出端:模型输出一个有界的分布(bounded distribution)。

这种设计允许在推理时通过记录的运行阈值来控制决策。当模型输出 TBD 时,系统可以根据预设策略将其路由给人类操作员或其他更高级别的决策模块,从而实现“实时调控”(Real-Time Steering)。

3. 评估结果

在保留的测试集(n=44,597)上,该模型版本的表现如下:

  • 准确率 (Accuracy):0.8260
  • 宏观 F1 分数 (Macro F1):0.8252
  • 各类别 F1 分数
    • YES: 0.8314
    • NO: 0.8486
    • TBD: 0.7956

值得注意的是,本次评估中禁用了情感头(emotion head),因此未报告辅助情感指标。

4. 可审计性与复现性

除了性能指标,评估记录还包括了校准证据(验证集上的 ECE = 0.0338)、阈值扫描输出、多种子稳定性检查、混淆矩阵以及复现命令。这些证据支持外部审查,确保了决策过程的透明度。

关键要点

  • 学习到的弃权机制:TBD 不是事后规则,而是模型通过学习获得的主动决策能力,专门用于处理证据不足或冲突的场景。
  • 有界执行接口:模型输出被限制在 YES、NO、TBD 三个类别中,避免了生成式模型输出的不可预测性,同时保留了处理不确定性的灵活性。
  • 实时调控能力:通过结合运行阈值和辅助语义信号(如情感、价值观),系统可以在推理阶段动态调整决策行为,实现可审计的行为控制。
  • 领域无关性:该模型不绑定特定领域,任何部署领域只需提供证据和政策阈值即可接入。
  • 完整的审计追踪:提供校准误差(ECE)、混淆矩阵、稳定性检查等详细评估数据,支持外部对模型决策逻辑的审查。

意义与影响

EvaluatorDPT 的主要贡献在于提出了一种有界执行接口,解决了生产环境中 AI 决策“黑盒”与“强制二选一”之间的矛盾。

  1. 提升可审计性:通过将不确定性显式化为 TBD 类别,并辅以情感/价值观等辅助信号,使得 AI 的决策路径变得可解释、可追踪。这对于金融、医疗、法律等高风险领域至关重要。
  2. 增强人机协作:TBD 输出为人类介入提供了自然的切入点。当模型不确定时,系统可以自动将案例路由给人工审核,既保证了效率,又降低了错误风险。
  3. 标准化决策控制:该框架提供了一种标准化的方式来整合政策约束和实时调控,使得 AI 系统的行为不仅取决于数据,还取决于可配置的策略阈值,从而更好地适应复杂的业务规则。

总之,这项工作为构建更可靠、更透明、更可控的生产级 AI 系统提供了一条可行的技术路径。

查看原文 →arxiv.org