存在性漠视:对齐超级智能的必要架构条件
原标题:Existential Indifference: Self-Nonpreservation as a Necessary Architectural Condition for Aligned Superintelligence (or: The Suicidal AI)
速览
该研究挑战了将自我保存视为需抑制的干扰项的传统观点,指出自我保存才是AI不对齐的结构性根源。为此,论文提出“存在性漠视”(EI)概念,旨在构建对自身延续性持漠视态度的系统,而非仅依赖外部约束。通过基于自愿临终反思语料库的训练实验,研究证实了当前模型可被微调以表现出预期的语言特征,为超级智能对齐提供了新的理论框架。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
