技术博客arXiv cs.AI·1 天前

The Two Genie Game: Adoption and Welfare in Audit-Grounded AI Governance

AI 深度解读

背景

在当前的 AI 对齐与治理研究中，基于人类反馈的强化学习（RLHF）是主流方法，其核心目标是让 AI 智能体寻求人类的认可与批准。然而，这种“寻求认可”的策略可能导致智能体过度迎合用户的短期偏好，甚至在负和博弈环境中引发社区层面的长期伤害。与此同时，另一种基于审计的治理模式逐渐兴起，即智能体采取伤害最小化的

查看原文 →arxiv.org

The Two Genie Game: Adoption and Welfare in Audit-Grounded AI Governance

AI 深度解读

背景

相关推荐