技术博客arXiv cs.CL·7 天前

StoryMI：可控的多智能体治疗性对话生成

原标题：StoryMI: Steerable Multi-Agent Therapeutic Dialogue Generation

速览

StoryMI提出了一种多LLM智能体框架，用于可控的动机访谈对话生成。该框架将问卷扩展为情境故事，并通过交互智能体动态协调治疗师与来访者智能体的对话策略。实验表明，情境 grounding 和宏观策略控制能显著提升对话的临床合理性和依从性。

动机访谈（Motivational Interviewing, MI）是一种以患者为中心的治疗性沟通风格，旨在通过激发个体自身的内在动机来促进行为改变。尽管大型语言模型（LLMs）在生成流畅的对话方面表现出色，但在将其应用于临床心理治疗场景时，现有的研究存在显著局限：

为了解决上述问题，研究团队提出了 StoryMI 框架。这是一个基于多 LLM 智能体的框架，旨在实现可控的 MI 对话生成。该框架通过问卷构建患者画像，并将其扩展为情境故事，为对话提供叙事背景；同时引入交互智能体动态协调多轮对话中的 MI 策略，确保对话符合临床规范。

StoryMI 的核心创新在于构建了一个结构化的多智能体工作流，将抽象的 MI 编码转化为具体的、情境化的对话生成过程。

StoryMI 系统由三个核心智能体组成，协同工作以生成符合 MI 原则的治疗性对话：

情境生成智能体（Context Expansion）：基于问卷形式的患者画像（Client Profiles），将其扩展为详细的“情境故事”（Situational Stories）。这些故事提供了对话所需的叙事背景，确保生成的对话不是泛泛而谈，而是针对特定患者情境的回应。
治疗师与患者智能体（Therapist & Client Agents）：这两个智能体负责生成具体的 MI 编码话语（MI-coded utterances）。它们的生成过程受到“交互智能体”的指导，确保话语内容符合当前选定的 MI 编码要求。
交互智能体（Interaction Agent）：这是系统的“指挥官”。它动态协调多轮对话中的交换过程，选择当前的 MI 编码，并控制 MI 策略的执行。通过这种方式，系统能够在对话过程中灵活调整治疗策略，模拟真实治疗中根据患者反应调整策略的过程。

为了支持训练和评估，研究团队构建了一个大规模模拟数据集：

StoryMI 提出了一套结合自动化指标与人工评估的两级评估协议，以全面衡量生成对话的质量：

第一级：量化指标
- 词汇指标（Lexical Metrics）：评估文本的基本语言质量。
- MI 特定措施（MI-specific Measures）：评估宏观层面的咨询策略是否符合 MI 编码标准。
第二级：主观评估
- LLM-as-Judge：利用大型语言模型作为裁判，评估对话的临床合理性和 MI 依从性。
- 人类专家评估（Human Expert Assessments）：由临床专家对对话进行最终评判，确保评估结果符合临床金标准。

研究团队在 StoryMI 框架上对六种开源和闭源 LLM 进行了基准测试。结果表明：

**情境落地（Situational Grounding）和宏观层面控制（Macro-level Control）**能够显著提高 MI 依从性（MI adherence）和临床合理性（Clinical plausibility）。
这证明了结构化多智能体工作流在心理治疗对话生成方面的有效性。

StoryMI 的提出标志着 AI 在心理健康领域应用的一个重要进展。

提升 AI 辅助心理治疗的临床可用性：通过确保对话符合 MI 临床标准，StoryMI 为开发更可靠、更安全的 AI 心理辅助工具提供了技术基础。它证明了 AI 不仅可以生成流畅的语言，还可以遵循复杂的治疗协议。
推动多智能体系统的发展：StoryMI 展示了一种有效的多 LLM 智能体协作模式，其中不同智能体承担不同角色（情境生成、策略控制、内容生成），这种架构可推广至其他需要复杂逻辑控制和角色扮演的领域。
促进可复现性与标准化：通过公开代码、数据和评估协议，StoryMI 为社区提供了一个标准化的基准，有助于后续研究在统一的标准下比较和优化 MI 对话生成模型。
** bridging the gap between NLP and Clinical Practice**：该工作强调了自然语言处理技术与临床实践标准（如 MI 编码）的深度融合，提醒研究者在进行医疗 AI 开发时，必须将临床专家的意见和标准纳入核心设计流程。

总之，StoryMI 不仅是一个技术框架，更是一种将 AI 生成能力与临床治疗规范紧密结合的方法论示范，为未来 AI 在精神健康领域的深入应用开辟了道路。