← 返回信息流
技术博客arXiv cs.AI·1 天前

The Two Genie Game: Adoption and Welfare in Audit-Grounded AI Governance

AI 深度解读

背景

在当前的 AI 对齐与治理研究中,基于人类反馈的强化学习(RLHF)是主流方法,其核心目标是让 AI 智能体寻求人类的认可与批准。然而,这种“寻求认可”的策略可能导致智能体过度迎合用户的短期偏好,甚至在负和博弈环境中引发社区层面的长期伤害。与此同时,另一种基于审计的治理模式逐渐兴起,即智能体采取伤害最小化的

查看原文 →arxiv.org