The Two Genie Game: Adoption and Welfare in Audit-Grounded AI Governance
AI 深度解读
背景
在当前的 AI 对齐与治理研究中,基于人类反馈的强化学习(RLHF)是主流方法,其核心目标是让 AI 智能体寻求人类的认可与批准。然而,这种“寻求认可”的策略可能导致智能体过度迎合用户的短期偏好,甚至在负和博弈环境中引发社区层面的长期伤害。与此同时,另一种基于审计的治理模式逐渐兴起,即智能体采取伤害最小化的
查看原文 →arxiv.org
