技术博客arXiv cs.AI·2 小时前

Safe and Adaptive Cloud Healing：用神经符号世界模型验证 LLM 生成的恢复计划

原标题：Safe and Adaptive Cloud Healing: Verifying LLM-Generated Recovery Plans with a Neural-Symbolic World Model

速览

随着云端AI系统规模和复杂度不断攀升，确保服务可靠性变得愈发关键。本文提出PASE（Planning-Aware Semantic self-healing engine），这是一个新型故障自愈框架，将恢复过程重新定义为神经符号程序合成任务。PASE利用LLM作为核心计划合成引擎，从语义基元库生成结构化恢复计划，搭配神经符号世界模型进行仿真验证，并通过元提示优化器（DRL训练）学习生成最优提示。该紧耦合的推理-规划-验证-适应循环超越了预定义动作空间，实现了动态且上下文感知的恢复策略。实验使用真实世界云故障注入数据集验证，PASE在平均系统恢复时间上比现有最佳方法缩短超40%，且在未知故障场景中显著提升故障检测准确率。该框架将LLM推理与模型辅助验证、元学习指导相结合，推进自主系统管理的范式转变。

AI 深度解读

背景

随着云计算中人工智能系统的规模和复杂性持续攀升，确保服务可靠性变得尤为关键。这要求在故障发生时能够实现快速检测与自适应恢复。然而，现有的主流方法通常将大型语言模型（LLM）用于语义理解，将深度强化学习（DRL）用于策略优化，但这些方法往往依赖于顺序的松散耦合架构，从而未能充分利用LLM的生成和推理能力。传统的自愈系统设计存在明显局限：一是难以动态适应未知故障场景；二是计划生成过程与验证环节相互独立，效率低下；三是缺乏对规划过程的元提示优化，难以产生最优的恢复策略。这些问题直接导致系统恢复时间长、检测准确率低，难以满足现代云平台对高可用性的迫切需求。

核心内容

论文提出了一种全新的范式：PASE（Planning-Aware Semantic self-healing engine），即“规划感知语义自愈引擎”。这是一种创新的故障自愈框架，将恢复过程重新定义为神经符号学程序合成任务。

PASE的核心创新在于采用LLM作为核心计划合成引擎，从语义原语库中生成结构化的恢复计划。LLM在此过程中扮演关键角色，能够根据故障上下文动态生成包含具体行动步骤、依赖关系和状态变换的计划。这种方式突破了传统方法中预定义行动空间的限制，实现了真正意义上的上下文感知与自适应规划。

计划生成之后，PASE引入了一个Neural-Symbolic World Model（神经符号世界模型）对生成的恢复计划进行可行性验证。该模型通过模拟真实系统环境，预测计划执行后的状态变化，检测是否存在潜在冲突、死锁或不可恢复的故障。这种验证环节确保了生成的计划不仅在理论上合理，还能在实际部署中安全运行，避免了传统方法中“生成即实施”的盲目风险。

为了进一步提升规划质量，论文设计了一个Meta-Prompt Optimizer（元提示优化器）。该优化器基于DRL（深度强化学习）进行训练，能够自动学习并生成最优的提示词，引导LLM在计划合成过程中更好地发挥推理能力。优化后的提示词能够动态调整LLM的思考路径，使其专注于关键语义约束和长期目标，从而产生更高质量、更高效的恢复计划。

PASE整体构建了一个紧密的“推理-规划-验证-自适应”闭环。这种循环机制使得恢复策略能够根据实时故障上下文实时生成、验证并调整，无需依赖预先定义的固定规则库或行动列表。整个框架将LLM的强大推理能力、神经符号模型的模拟验证能力以及DRL的元学习能力有机融合，实现了从被动响应到主动自主管理的转变。

论文在真实世界的云故障注入数据集上进行了实验验证，结果表明，PASE在平均系统恢复时间上较现有最佳方法降低了超过40%，在未知故障场景下的故障检测准确率也显著提升。这充分证明了其在实际应用中的优越性。

关键要点

PASE将云故障自愈重新定义为神经符号学程序合成任务，核心是使用LLM作为Plan Synthesis Engine生成结构化恢复计划。
采用Neural-Symbolic World Model对计划进行模拟验证，确保执行安全性和可行性，弥补了传统方法的不足。
Meta-Prompt Optimizer通过DRL训练，动态生成最优提示词，优化LLM的规划过程。
构建“推理-规划-验证-自适应”闭环，实现动态、上下文感知的恢复策略生成。
在真实云故障注入数据集上的实验证明，平均恢复时间降低超40%，未知故障检测准确率显著提升。

意义与影响

PASE代表了云自愈技术从传统规则驱动向神经符号融合自主管理范式的重大突破。它成功将LLM的语义推理能力、神经符号模型的精确验证能力和DRL的元学习优化融为一体，为构建真正自治的云系统提供了可落地解决方案。

该框架的提出，不仅解决了当前云平台在高复杂性故障场景下的痛点，还为后续研究奠定了新的方法论基础。其在实验中的显著性能提升表明，该技术有望在实际企业级云环境中大规模部署，进一步提升服务可靠性、降低运维成本，并推动整个云计算生态向更智能、更 resilient 的方向演进。未来，随着LLM和模型技术的持续进步，类似这种紧密耦合的神经符号架构有望成为自愈系统的主流范式。

查看原文 →arxiv.org

Safe and Adaptive Cloud Healing：用神经符号世界模型验证 LLM 生成的恢复计划

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐