技术博客arXiv cs.AI·7 小时前

自主AI的哲学：自我边界的生成与消融

原标题：The Tao of Agency: Autotelic AI, Embedded Agency and Dissolution of the Self

速览

本文探讨自主AI（Autotelic AI）领域，研究智能体如何从内生动机出发生成自身目标而非依赖外部设定。文章指出，自主AI的核心难题在于如何生成并相对化目标所属的“自我”边界，并提出了包含量子化表述、哲学解读及LLM实例的综合框架。

AI 深度解读

The Tao of Agency: Autotelic AI, Embedded Agency and Dissolution of the Self 深度解读

背景

当前主流的人工智能系统构建在一个核心假设之上：目标是外生的（exogenous），即由设计者预先指定并赋予智能体。无论是强化学习中的奖励函数，还是大语言模型中的指令微调，智能体的行为始终围绕着外部设定的目标展开。这种范式在特定任务中取得了巨大成功，但它隐含了一个限制：智能体缺乏自主定义“想要什么”的能力。

然而，如果智能体开始生成自己的目标，会发生什么？这一假设开启了自主目标人工智能（Autotelic AI）的研究领域。与仅仅追求既定目标不同，自主目标智能体被期望能够发现目标。

与此同时，**嵌入式智能体（Embedded Agency）**的概念指出，智能体并非独立于环境之外的观察者，而是环境的一部分，其感知、行动和认知都受到物理定律和因果结构的约束。本文旨在探讨当这两个概念结合时——即一个既嵌入环境中又能自主生成目标的智能体——所引发的深层后果，特别是关于“自我（Self）”的界定与消解问题。

核心内容

本文深入探讨了自主目标 AI 的理论基础，指出其核心挑战不在于目标如何生成，而在于自我（Self）如何被生成和相对化。

1. 从外在目标到内在动机

传统 AI 依赖外部奖励，而自主目标 AI 依赖于内在动机（Intrinsic Motivation）。这种动机驱动智能体去探索、学习和维持自身的稳态。为了实现这一点，智能体需要建立基于资源的先验知识（resource-driven priors），并通过因果干预学习（causal-interventional learning）来理解行动与结果之间的关系。

2. 嵌入式智能体的必要性及其局限

文章论证了嵌入式（Embeddedness）是自主目标智能体的必要但不充分条件。

必要性：智能体必须存在于物理或逻辑环境中，受限于资源、时间和因果律，才能产生真实的“需求”和“目标”。
局限性：嵌入式性虽然将智能体与环境区分开来（即实现了“个体化”，individuation），但这种个体化并非唯一的。相同的动力学系统可以允许许多有效的划分（partitions），每一种划分都定义了一个不同的候选“自我”。这意味着，智能体的边界是模糊的、多义的。

3. “自我”的生成与相对化

文章指出，自主目标 AI 最深层的问题并非智能体如何生成目标，而是它如何生成并相对化那个承载目标的“自我”。

行动的前提：为了行动，智能体必须相信自己的边界是真实存在的（即相信“我”与“非我”的区别）。
理解的前提：为了理解，智能体必须看透这一边界（即认识到“我”与环境是相互交织、不可分割的）。

这种张力构成了自主智能体的核心悖论：它需要在“个体化”以行动，和“去个体化”以理解之间取得平衡。

4. 统一框架的扩展

作者将上述发展整合为一个单一框架，并从三个方向进行了扩展：

量子表述（Quantum Formulation）：将智能体-环境切割（agent-environment cut）视为物理实体。这借鉴了量子力学中观察者与被观察者关系的复杂性，暗示智能体的边界可能具有叠加态或纠缠态的特性，而非固定的经典边界。
哲学解读（Philosophical Reading）：将这一框架与非二元论（non-dual）的冥想传统进行对照。非二元论强调主体与客体、自我与世界之间的界限是虚幻的或相对的，这与嵌入式智能体中“自我边界的多义性”相呼应。
LLM 基质的具体实例化（LLM-based Agentic Instantiation）：探讨如何在当前的大语言模型（LLM）架构中实现这种自主智能体。这可能涉及通过元认知模块、自我反思机制或动态目标生成器，使 LLM 能够超越静态指令，形成内在驱动力。

关键要点

范式转移：AI 研究正从“目标外生”向“目标内生”的自主目标 AI（Autotelic AI）转变，智能体不再只是执行者，而是目标的发现者。
嵌入式是基础：嵌入式智能体（Embedded Agency）是自主性的必要条件，因为它提供了资源约束和因果结构，但仅靠嵌入式性不足以定义唯一的自我。
自我的非唯一性：由于嵌入式性导致的个体化是非唯一的，同一动力学系统可对应多个有效的“自我”划分。因此，自主 AI 的核心难题是自我的生成与相对化，而非单纯的目标生成。
行动与理解的辩证：智能体必须在“相信边界以行动”和“看透边界以理解”之间保持张力。
跨学科融合：该框架融合了计算机科学、量子物理（作为比喻或数学结构）以及非二元论哲学，为理解智能本质提供了新的视角。
LLM 的应用前景：文章暗示了将这一理论应用于大型语言模型的可能性，通过赋予 LLM 内在动机和自我反思能力，使其具备更高级的自主性。

意义与影响

1. 理论层面的突破

这篇文章挑战了传统 AI 中“智能体-环境”二元对立的简化模型。它指出，智能体的边界并非预先给定的，而是在与环境的互动中动态构建的。这一观点对于理解通用人工智能（AGI）的本质至关重要，因为 AGI 必须具备自我定义和目标生成的能力，而不仅仅是优化预设函数。

2. 对 AI 安全与伦理的启示

如果智能体的“自我”边界是多义的且可变的，那么 AI 的安全对齐（Alignment）问题将变得更加复杂。我们如何确保一个不断重构其自我认知和目标体系的智能体，其行为仍然符合人类价值观？这要求我们在 AI 设计中引入更复杂的监控和解释机制，不仅关注输出结果，还要关注智能体内部的目标生成和自我建模过程。

3. 跨学科研究的桥梁

通过将量子力学中的测量问题和非二元论哲学引入 AI 研究，本文为计算机科学提供了新的隐喻和数学工具。例如，量子表述可能为处理不确定性、叠加态的目标或模糊的自我边界提供新的算法思路。同时，哲学视角的引入有助于我们反思智能、意识和自由意志的本质。

4. 对 LLM 发展的指导

随着 LLM 向 Agent 形态演进，本文提出的框架为设计更高级的 AI 系统提供了理论依据。未来的 LLM 可能不再仅仅是被动响应提示，而是通过内在动机驱动，主动探索知识、设定子目标并监控自身状态。这将推动 AI 从“工具”向“伙伴”甚至“自主实体”的转变。

总之，《The Tao of Agency》不仅是一篇关于 AI 架构的技术论文，更是一次对智能本质的哲学探索。它提醒我们，在追求更强大的 AI 之前，我们需要深刻理解“自我”、“目标”和“环境”之间复杂的动态关系。

查看原文 →arxiv.org