COMFYCLAW:图像生成工作流中技能进化的智能代理
速览
COMFYCLAW针对图像生成工作流构建问题,采用带图编辑的框架管理工作流并自动修正错误。它引入区域级VLM验证器,将视觉失败转化为修复建议,并通过轨迹、错误和反馈数据逐步演化技能库。实验显示其在四个基准上平均表现最佳,优于无技能进化的基线,并获人类偏好支持。这一方法为AI代理在重复视觉任务中的可靠性提供有效机制,推动自动化图像生成技术的进步。
AI 深度解读
背景
在计算机视觉与图形生成领域,ComfyUI已成为最流行的自动化图像生成工作流平台。它允许用户通过拖拽节点组合管道,实现从文本提示到最终图片的高效生成。传统上,这依赖于人类专家手动构建工作流,过程复杂且易出错。随着AI代理(Agents)越来越多地被用于辅助人类完成重复性任务,工作流构建和执行效率显著提升。然而,随着工作流重复出现并针对特定领域定制,代理的记忆能力和可复用技能变得至关重要:代理需要回忆先前运行中的工作流模式、执行约束以及用户偏好。为此,研究者们将问题聚焦于基于工作流的图像生成场景,提出了COMFYCLAW这一自演化技能 harness,用于控制ComfyUI工作流。
核心内容
COMFYCLAW将工作流构建形式化为typed graph editing(带类型图编辑),即通过图结构编辑实现节点与边的类型约束。系统会按构建阶段组织工具,并自动撤销无效编辑(invalid edits)。当出现视觉失败时,利用区域级视觉语言模型(region-level vision-language model, VLM)验证器,将视觉失败转化为可操作的修复建议。框架进一步通过自演化机制,逐步揭示技能库:将先前运行的轨迹、执行错误以及验证器反馈提炼为可复用的Agent Skills。
实验设置包括四个基准分割、三个代理模型以及两种图像骨干网络。在六个代理配置中,COMFYCLAW在平均图像生成评估分数上表现最佳,超越了不具备技能演化机制的验证器-only baseline。人类标注结果表明,参与者更倾向于使用COMFYCLAW,而非无技能演化变体。总体而言,技能演化机制有效提升了代理在重复视觉工作流构建中的可靠性和性能。
关键要点
- COMFYCLAW将图像生成工作流构建建模为带类型的图编辑过程,暴露按构建阶段组织的工具,并自动撤销无效编辑。
- 系统引入区域级VLM验证器,将视觉失败直接转化为可操作的修复建议。
- 框架通过自演化机制,持续更新技能库:先前运行的轨迹、执行错误和验证器反馈被提炼为可复用的Agent Skills。
- 在四个基准分割、三个代理模型和两种图像骨干网络上,COMFYCLAW在六个配置的平均图像生成评估分数中位居首位。
- 人类标注显示,使用COMFYCLAW的标注者更偏好该系统,而非无技能演化变体。
- 研究结论:技能演化是提升代理可靠性和性能的有效机制,特别适用于重复的视觉工作流构建任务。
意义与影响
COMFYCLAW为AI代理在图像生成等视觉工作流中的应用提供了可扩展且高效的技能演化框架。它不仅解决了传统代理记忆不足的问题,还通过区域级VLM验证器实现了视觉反馈的精准转化,大幅提高了工作流构建的可靠性与用户满意度。这一成果为未来智能工作流系统(如自动化设计、内容创作管道)的发展奠定了基础。未来,COMFYCLAW的理念有望被扩展到更多领域,助力代理从“一次性执行”向“持续进化学习”转变,推动人机协作的智能化升级。
