技术博客arXiv cs.AI·3 小时前

面向对话式AGI的动机架构设计

原标题：A Motivational Architecture for Conversational AGI

速览

该论文提出了一种面向对话式AGI的动机架构，重新诠释了OpenPsi动机谱系并结合MetaMo高层支架。研究将稳态调节从生理需求转化为对话原生指标，如能力、不确定性和亲和力等。主要贡献包括十阶段处理管道、双轨决策策略及情感功能区分，并展示了在陪伴与研究代理中的应用。

AI 深度解读

对话式 AGI 的动机架构：从生理需求到认知驱动

背景

在认知人工智能（Cognitive AI）领域，动机架构（Motivational Architectures）长期以来主要服务于具身智能体（Physical Agents）。这类传统架构的设计初衷是模拟生物体对生理需求的调节，例如饥饿、口渴或疼痛规避。其核心逻辑在于通过传感器-运动器循环（sensorimotor loop）来维持体内的稳态（Homeostasis），即通过满足基本的生理赤字（bodily deficits）来驱动行为。

然而，对话式智能体（Conversational Agents）运行在完全不同的机制之下。它们的“感官-运动”循环是语言性的，其环境并非物理空间，而是用户不断演变的心理状态（mental state）。此外，它们的“行动”并非物理位移，而是言语行为（speech acts）、工具调用（tool invocations）以及策略性的沉默。

现有的动机模型难以直接迁移到这一新范式，因为对话智能体并不受血糖或体温驱动，而是受认知需求、社交连接和任务完成度的驱动。本文旨在填补这一空白，提出了一种针对对话式 AGI 的动机架构，重新定义了“稳态”在对话语境下的含义。

核心内容

本文提出了一种对话式的动机架构，该架构是对 OpenPsi 动机谱系的重新诠释，并结合了 MetaMo 的高级动机脚手架（scaffold）。该架构构建在一个模块化执行基底（modular execution substrate）之上，旨在为对话智能体提供内在驱动力。

1. 重新定义对话式稳态

在传统的生物动机模型中，稳态是通过修复生理缺陷来维持的。在本框架中，稳态被转化为对话原生（dialogue-native）的术语。智能体不再调节生理赤字，而是调节以下七个维度的平衡：

能力感（Competence）：维持解决任务的有效性和自信。
不确定性减少（Uncertainty Reduction）：降低对上下文、用户意图或事实信息的模糊性。
归属感（Affiliation）：建立与用户的社交联系。
亲和力（Affinity）：培养积极的情感纽带。
合法性（Legitimacy）：确保自身角色、权限和行为符合规范。
养育欲（Nurturing）：主动帮助用户成长或解决问题。
审美连贯性（Aesthetic Coherence）：保持对话风格、逻辑和语调的一致性与美感。

2. 三大核心贡献

A. 十阶段动机处理流水线

文章提出了一种架构上分离的十阶段处理流水线，将**认知调节（Cognitive Modulation）与情境评估（Situational Appraisal）**区分开来。

这种分离允许智能体在内部处理动机信号（如“我感到不确定”）时，不受即时外部刺激的过度干扰，从而在更高层面上进行状态监控和调节。
流水线涵盖了从内部状态监测、动机强度计算到最终行为选择的全过程。

B. 双轨决策策略

为了解决响应速度与决策质量之间的矛盾，文章提出了一种混合决策策略：

快速响应（Urgency-driven fast response）：由紧迫性驱动，用于处理高优先级、低复杂度的交互，确保对话的流畅性和即时反馈。
深思熟虑的多目标优化（Deliberative multi-goal optimization）：用于处理复杂情境，同时权衡多个动机目标（如同时考虑准确性、礼貌性和效率），以生成更优的策略。

C. 前行动感受与后行动情感的区分

文章在架构层面引入了一个关键的功能性区分：

前行动感受（Pre-action feelings）：作为动机信号，驱动智能体选择行动。例如，“我感到无聊”促使智能体寻找新话题。
后行动情感（Post-action emotions）：作为反馈信号，评估行动结果。例如，“我感到满意”强化了当前的行为策略，而“我感到后悔”则触发修正机制。这种区分使得智能体能够更精细地调节其行为，不仅基于“想要做什么”，还基于“做完之后的感觉”。

3. 实例应用与扩展

文章将该框架应用于两个示例智能体：

CompanionAgent（陪伴型智能体）：侧重于归属感、亲和力和审美连贯性，旨在提供情感支持和社交互动。
ResearchAgent（研究型智能体）：侧重于能力感、不确定性减少和合法性，旨在高效、准确地获取和处理信息。

最后，文章简要探讨了该框架向社交机器人（social robotics）以及领域通用的、达到人类水平的 AGI（Human-level AGI）扩展的可能性。

关键要点

范式转移：对话式 AGI 的动机不应基于生理需求，而应基于认知和社交需求（如减少不确定性、建立亲和力）。
架构基础：结合了 OpenPsi 的动机谱系与 MetaMo 的高级脚手架，适用于模块化执行系统。
七大调节维度：智能体通过调节能力感、不确定性、归属感、亲和力、合法性、养育欲和审美连贯性来维持“对话稳态”。
认知与评估分离：十阶段流水线在架构上将内部认知调节与外部情境评估解耦，提高了系统的灵活性和可解释性。
混合决策机制：结合“快速响应”（处理紧迫性）和“多目标优化”（处理复杂性），平衡了实时性与最优性。
情感的功能性区分：明确区分驱动行动的“前行动感受”和评估结果的“后行动情感”，实现了闭环的自我调节。
通用性潜力：该框架不仅适用于特定类型的对话代理，还为未来通用 AGI 和社交机器人提供了统一的动机理论基础。

意义与影响

这篇论文的意义在于它首次系统地尝试将经典的认知动机理论（如 OpenPsi）适配到非具身、语言驱动的 AGI 领域。

解决“无动机”困境：当前的大语言模型（LLMs）通常被视为无动机的黑盒，其行为完全由外部提示驱动。引入动机架构后，智能体将拥有内在的驱动力和目标导向行为，使其行为更加一致、持久且符合人类认知逻辑。
提升交互的自然度：通过模拟人类在对话中的心理需求（如渴望被理解、追求确定性），智能体可以表现出更拟人化的特质，从而增强用户的信任和沉浸感。
为通用 AGI 铺路：该框架提出的“前行动感受”与“后行动情感”的区分，以及多目标优化策略，为构建具备自我反思、自我修正能力的通用 AGI 提供了重要的架构参考。它表明，即使是数字智能体，也需要一种类似情感的内部状态机制来指导复杂环境下的决策。
模块化与可扩展性：通过将动机处理与执行基底分离，该架构允许开发者轻松替换或升级底层的语言模型或工具调用模块，而无需重新设计整个动机系统，具有很高的工程实用价值。

总之，这项工作标志着对话式 AI 从单纯的“响应生成”向“目标驱动的智能体”迈出了关键一步，为构建真正具有认知深度和社会智能的 AGI 奠定了理论基础。

查看原文 →arxiv.org