← 返回信息流
技术博客arXiv cs.AI·2 小时前

Mnemosyne:AI生成工作流的事务验证与修复

原标题:Mnemosyne: Agentic Transaction Processing for Validating and Repairing AI-generated Workflows

速览

Mnemosyne是arXiv论文arXiv:2607.00269v1提出的Agentic Transaction Processing(ATP)系统的核心运行时实现。它通过append-only过渡日志、有效状态投影、依赖安全补偿和主动承诺记录,解决LLM、求解器和代理团队生成的动作可能过时、不可行或冲突的问题。相比于C,提交状态的正确性独立于提议层的能力和诚信度。该系统证明了四项针对C的安全性质,并提供有界局部修复协议(LCRP),在九项违例测试中完全拒绝违规,同时保持在6%以内的投影验证开销,且局部修复操作量是全局重算的十分之一。它已开源,适用于构建可靠的AI代理工作流。

AI 深度解读

背景

随着大语言模型(LLMs)、求解器(solvers)和代理团队(agent teams)在复杂任务中的应用日益普及,它们正越来越多地生成工作流动作(workflow actions)、修复方案(repairs)和计划(plans)。然而,这些由AI生成的动作在语法上可能有效,但仍存在多种潜在问题:动作可能过时(stale)、不可行(infeasible)、相互冲突(conflicting),或破坏触发修复的证据基础。这种不信任的生成过程导致传统依赖完全信任AI输出的工作流系统难以稳定运行,尤其是在动态和意外中断频繁的环境中。

针对这一挑战,arXiv cs.AI类别下提交于2026年6月30日的研究论文《Mnemosyne: Agentic Transaction Processing for Validating and Repairing AI-generated Workflows》提出了一种全新的解决方案。它引入了Agentic Transaction Processing(ATP)事务模型,并构建了名为Mnemosyne的运行时系统。这一背景源于AI代理系统在实际部署中的痛点:生成的提案虽可执行,但无法预见所有可能的中断,因此需要一种既能验证提案,又能响应修复的机制,以确保工作流的可靠性和正确性。

核心内容

LLMs、求解器和代理团队正广泛生成工作流动作、修复和计划,但生成的动作在语法上虽有效,却可能出现过时、不可行、冲突,或破坏触发修复的证据。论文提出Agentic Transaction Processing(ATP),一种事务模型,将生成的动作视为未信任的提案,直到它们通过声明的可执行约束集C下的确定性准入(deterministic admission)过程才被接受。

ATP的原则是双向的:提案本身不是真相(a proposal is not truth),且无提案能预见所有可能的干扰(no proposal foresees every disruption)。任何事物都可以提出提案,但只有运行时(runtime)才能准入、提交(admit and commits)。当出现不可预见的干扰时,系统会反应性地在边界内进行修复,而不是依赖新的提案。相对于C,提交状态的正确性(committed-state correctness)独立于提案层的胜任力、诚实性或学习能力。

论文在Mnemosyne中实现了ATP,这是一个运行时系统,具备以下关键组件:

  • 追加式(append-only)过渡日志(transition log),记录所有状态变化;
  • 有效状态投影(effective-state projection),用于计算当前状态;
  • 依赖安全的补偿(dependency-safe compensation),确保修复不违反依赖关系;
  • 活跃提交记录(active commitment records),跟踪已提交的操作。

Mnemosyne通过四个安全性质证明了相对于C的可靠性:

  • 权限分离(authority separation);
  • 序列等效的生成准入(serial-equivalent generative admission);
  • 证据保留的修复(evidence-preserving repair);
  • 义务包含(obligation containment)。

此外,其本地化修复协议(Localized Repair Protocol,简称LCRP)具有有界反应修复保证(bounded-reactive-repair guarantee),即修复过程在可控范围内进行。

在可重现的artifact中,Mnemosyne拒绝了针对九种虚假测试的针对性违规,同时仍接受有效的操作,投影-验证开销小于6%,而局部修复编辑操作比全局重新计算少一个数量级。系统已开源,完整代码和数据可从论文提供的链接获取。

关键要点

  • ATP将AI生成的动作视为未信任提案,仅通过声明约束集C的确定性准入才提交,确保提交状态正确性与提案层无关;
  • 提案本身不等于真相,且无提案能预见所有中断,运行时负责提交和响应修复;
  • Mnemosyne运行时采用追加式日志、有效状态投影、依赖安全补偿和活跃提交记录实现ATP;
  • 四大安全性质:权限分离、序列等效生成准入、证据保留修复和义务包含;
  • LCRP提供有界反应修复保证,局部修复效率远高于全局重新计算;
  • 评估显示,Mnemosyne在九种虚假测试中拒绝违规,投影-验证开销低于6%,支持有效工作流运行。

意义与影响

Mnemosyne代表的ATP模型为AI代理生成的工作流提供了坚实的信任基础,标志着从“信任生成到后验证”向“运行时准入+反应修复”的范式转变。这在安全敏感领域(如金融、医疗或自动化控制)具有直接应用价值,能有效应对LLM代理的非确定性和潜在破坏性,避免因单一提案失败导致的系统崩溃。

其开源特性促进了社区进一步研究和部署,推动AI代理系统的实用化发展。同时,该工作为下一代可靠AI系统提供了理论框架和实现参考,预计将在多代理协作、动态计划生成等领域产生广泛影响,助力构建更透明、可验证的AI工作流生态系统。

查看原文 →arxiv.org