← 返回信息流
技术博客arXiv cs.AI·3 小时前

DEMM-Bench:评估智能体运行时治理证据充分性的跨制度基准

原标题:DEMM-Bench: A Cross-Regime Benchmark for Agent-Runtime Governance-Evidence Sufficiency

速览

该研究提出DEMM-Bench,这是一个基于决策证据成熟度模型(DEMM)的跨制度基准,旨在评估智能体运行时系统发出的各类记录(如追踪、账本、策略日志等)是否足以重构决策层面的属性。基准通过适配器标准化八种证据制度,并应用确定性退化条件进行测试。结果显示,现有基线在多数情况下高估了证据充分性,而经过属性级筛选的候选评分器实现了零高估和56.25%的平均属性充分性准确率。该基准支持在异构智能体运行时证据底物上进行可复现的决策证据成熟度评估。

AI 深度解读

AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org