← 返回信息流
Agent SkillLINUX DO · AI·2 小时前

开源无限画布更新:支持Agent自主操作与局部遮罩编辑

原标题:【开源无限画布】重磅更新!支持 Agent 在画布中自主执行操作

速览

开源无限画布项目迎来重磅更新,核心亮点是支持Agent在画布中自主执行操作,用户可通过连接本地Codex实现双向互通。此外,新增自定义工具栏以增强单图创作灵活性,并引入类似ChatGPT的局部遮罩编辑功能。该项目兼容OpenAI接口生态,支持多Agent协同工作。

AI 深度解读

背景

在 AI 辅助创作领域,传统的交互模式往往局限于“生成即交付”的单向流程,用户提出需求,AI 输出结果,缺乏对创作过程的深度介入和精细化控制。随着多模态大模型和 Agent(智能体)技术的成熟,创作者对于“可控性”和“自动化工作流”的需求日益增长。

在此背景下,开源项目 infinite-canvas 近期发布了重磅更新。该项目定位为“面向 AI 创作的开源无限画布工作台”,旨在打破传统工具的限制,通过集成 AI 生图、参考图编辑、视频生成及 Agent 智能助手等能力,构建一个支持可视化创作流程与多 Agent 协同工作的平台。此次更新的核心突破在于引入了 Agent 自主操作能力,并增强了局部编辑与自定义工具栏功能,标志着从“辅助生成”向“自主执行与精细操控”的演进。

核心内容

本次更新主要围绕 Agent 自主操作、自定义工具栏以及局部遮罩编辑三大核心功能展开,同时提供了详细的本地部署与连接指南。

1. Agent 自主操作(Agent Autonomous Operation) 这是本次更新的重头戏。无限画布现在支持 Agent 在画布中自主执行操作,实现了从“指令输入”到“动作执行”的闭环。目前支持两种连接形式:

  • 网页版 Agent:功能尚在开发中,官方建议暂勿使用。
  • 本地 Codex 连接:这是目前推荐且可用的主要方式。通过连接本地的 Codex 模型,Agent 能够直接操控画布元素。

2. 自定义工具栏(Customizable Toolbar) 针对单张图片的创作场景,系统增加了更多的创作工具。用户可以根据个人习惯自由选择快捷工具,并且该工具栏具备可扩展性,用户若有新的工具需求,可以继续进行扩展开发,极大地提升了创作的灵活性。

3. 局部遮罩编辑(Local Mask Editing) 画布工具现在支持局部编辑功能,其交互逻辑参考了 ChatGPT 官方的编辑体验。用户可以在画布上选择特定区域进行遮罩,随后针对该区域进行独立的编辑操作,实现了像素级或区域级的精细化控制,解决了以往全局重绘导致画面风格或结构不一致的问题。

4. 连接与部署流程 为了实现 Agent 与画布的联动,用户需要完成以下本地环境配置:

  • 前置条件:确保本地已安装 npmcodex
  • 安装桥接服务:通过命令行安装网页端与本地 Codex 之间的桥接服务:
    npm i -g @basketikun/canvas-agent
    
  • 启动服务:运行命令启动服务:
    canvas-agent
    
  • 建立连接:回到网页版,在画布助手右侧选择“本机模式”,填入服务提供的 URL 和 Token 完成连接。

连接成功后,用户既可以在 codex app 中直接操作画布,也可以在网页右侧的对话界面中通过自然语言指令操作画布,两者双向互通,无缝衔接。

5. 项目生态与访问

  • 开源地址:GitHub - basketikun/infinite-canvas
  • 在线访问:https://canvas.best(前端直连用户自己的 AI 和 Codex 服务)
  • 兼容性:兼容 OpenAI 接口生态,支持接入 chatgpt2api、grok2api、flow2api、newapi 等多种渠道。

关键要点

  • Agent 自主执行:实现了 Agent 对画布元素的自主操控,特别是通过本地 Codex 连接实现了稳定的双向互通操作。
  • 精细化局部编辑:引入类似 ChatGPT 的局部遮罩编辑功能,允许用户对画布特定区域进行独立修改,提升了创作的可控性。
  • 高度可扩展性:自定义工具栏支持自由选择和扩展,满足个性化创作需求。
  • 本地化部署优势:通过 @basketikun/canvas-agent 桥接服务,用户可以将本地强大的 Codex 模型能力接入云端或本地画布,保护数据隐私的同时利用本地算力。
  • 多模态集成:项目不仅限于图像,还集成了视频生成、参考图编辑、提示词库与素材管理等能力,是一个综合性的 AI 创作工作台。
  • 接口兼容性强:广泛兼容 OpenAI 接口生态,支持多种第三方 API 渠道接入,降低了用户的接入门槛。

意义与影响

1. 推动 AI 创作从“生成”向“工作流”转型 infinite-canvas 的更新不仅仅是功能的堆砌,更是创作范式的转变。通过 Agent 自主操作和多 Agent 协同工作,AI 不再仅仅是一个被动的绘图工具,而是成为了能够理解复杂指令、自主规划并执行多步操作的“创作助手”。这为构建复杂的、自动化的 AI 内容生产流水线奠定了基础。

2. 提升创作的可控性与精细度 局部遮罩编辑功能的引入,解决了 AI 生成内容中常见的“全局扰动”痛点。创作者可以像使用 Photoshop 一样,对画面的特定部分进行微调,而无需重新生成整个画面。这种“粗调+精修”的模式更符合专业创作者的工作习惯,有助于 AI 工具真正进入专业工作流。

3. 降低本地大模型的使用门槛 通过提供标准化的桥接服务(canvas-agent),该项目巧妙地将本地部署的 Codex 等强大模型与 Web 端画布连接起来。这使得普通用户无需深入理解复杂的 API 调用和后端架构,即可利用本地模型的优势,既保证了数据隐私,又享受了本地模型的高性能与低成本。

4. 促进开源生态的繁荣 作为开源项目,infinite-canvas 提供了完整的代码和部署指南,并支持自定义工具扩展。这种开放性鼓励开发者社区参与贡献,共同完善工具链。同时,其兼容多种 API 渠道的策略,使得不同技术栈的用户都能找到适合自己的接入方式,有助于扩大 AI 创作工具的用户基数。

综上所述,infinite-canvas 的此次更新,通过强化 Agent 自主性、精细化编辑能力和本地化部署支持,为 AI 辅助创作提供了一个更加强大、灵活且可控的平台,对推动 AI 创作工具的专业化和自动化具有重要意义。

查看原文 →linux.do