← 返回信息流
Agent SkillLINUX DO · AI·1 小时前

开源多模态Skill让DeepSeek具备视觉理解并赋予Claude Code生图能力

原标题:我给 CC 写了个多模态SKILL——让DeepSeek 能“看图”、Claude Code 能“生图”

速览

该开源项目Hello-Multimodal通过Skill机制解决了特定大模型的能力短板。它主要为DeepSeek等文本大模型补充视觉理解能力,同时为Claude Code增加图片生成支持。系统支持多渠道配置与自动降级路由,即使本地代理映射模型名也能正确识别实际能力并调用GPT多模态模型处理。

AI 深度解读

背景

在当前的 AI 开发工作流中,开发者经常面临模型能力与工具链不匹配的痛点。以 Claude Code 为例,尽管其作为强大的代码代理工具表现优异,但其原生支持存在两个显著局限:一是接入 DeepSeek 等纯文本大模型时,缺乏对图像/截图的视觉理解能力(Vision);二是无论底层挂载何种模型,Claude Code 本身并不直接支持图片生成任务。

此外,本地路由或代理配置(如将 DeepSeek 映射为 claude-opus 以欺骗模型名称)往往导致“名不副实”的情况——工具层认为模型具备视觉能力,但实际后端无法处理,从而导致报错或功能失效。为了解决这些断点,社区开发者 hellowind777 开源了 Hello-Multimodal SKILL,旨在通过技能插件的形式,为 Claude Code 补齐视觉理解和图片生成的短板。

核心内容

Hello-Multimodal SKILL 是一个开源插件,主要解决两大核心问题:赋予无视觉能力的文本模型以视觉理解力,以及为 Claude Code 补充图片生成能力。其核心机制在于“自动路由”与“能力探测”,而非依赖模型名称的伪装。

1. 视觉理解增强(给 DeepSeek 等模型补上 Vision)

当用户在 Claude Code 中要求分析截图或 UI 布局时,如果当前配置的模型(如 DeepSeek)不支持视觉输入,该技能会自动介入。

  • 流程Claude Code 检测到当前模型无 Vision 能力 → 自动调用 Hello-Multimodal 技能 → 将图片发送至配置的 GPT 多模态模型(如 GPT-5.4)进行处理 → 将结果返回给用户。
  • 体验:用户全程无需切换模型或手动干预,系统无缝完成视觉解析。

2. 抗代理映射陷阱(基于实际能力而非模型名)

许多用户会通过本地路由将 DeepSeek 映射为 claude-opus 等名称,试图让 Claude Code 误以为其具备视觉能力。然而,这种“名称欺骗”在底层请求失败时依然会导致任务中断。

  • 解决方案Hello-Multimodal 不信任模型名称,而是通过实际请求来探测能力。
  • 机制:发送请求 → 若失败 → 自动降级并路由至具备视觉能力的模型。无论本地代理如何映射模型名,只要实际后端无视觉能力,技能就会自动接管并路由至正确的多模态模型,确保任务不中断。

3. 图片生成能力补充(给 Claude Code 补上生图)

Claude Code 原生不支持图片生成。该技能填补了这一空白。

  • 流程:当用户提出生图需求时,技能自动将任务委托给 gpt-image-2 等图像生成模型。
  • 引擎支持:底层引擎委托给 helloimage,并继承其全部的端点 fallback 机制,确保在主要服务不可用时仍能尝试其他路径。

4. 配置与安装

  • 安装方式:建议将仓库地址提供给 AI 助手,由 AI 辅助完成插件安装。

    • 仓库地址:https://github.com/hellowind777/hello-multimodal
  • 配置方法

    1. config.example.json 重命名为 config.json
    2. 配置 api-keybase_urlmodel
    3. 支持最多 3 个渠道按优先级进行 fallback。
    4. 生图功能可单独配置 image_api_keyimage_model,以适配独立的计费分组。

    配置示例:

    {
       "channels": [
         {
           "name": "GPT渠道",
           "base_url": "https://xxx.com",
           "api_key": "sk-xxx",
           "model": "gpt-5.4",
           "image_model": "gpt-image-2",
           "image_api_key": "sk-img-yyy"
         }
       ]
     }
    

关键要点

  • 自动路由机制:技能核心在于“探测-失败-降级/路由”的逻辑,确保在底层模型能力不足时自动切换至具备相应能力(Vision 或生图)的模型。
  • 无视模型名称伪装:解决了本地路由映射带来的“名不副实”问题,基于实际 API 响应能力而非模型字符串名称进行决策。
  • 多通道 Fallback:支持配置多个 API 渠道,并允许文本模型和图像生成模型使用独立的 API Key 和 Base URL,便于成本控制和故障转移。
  • 无缝集成:用户无需在 Claude Code 中手动切换模型或执行额外命令,安装配置后通过自然语言对话即可触发视觉分析和图片生成。
  • 开源合规:项目已声明符合 LINUX DO 社区的开源推广要求,代码完全开源,且明确声明不含盗取 API 的代码,使用者需自行对 API 安全负责。

意义与影响

Hello-Multimodal SKILL 的出现,反映了当前 AI 开发工具链中“模型能力碎片化”与“工具链标准化”之间的矛盾。

  1. 提升开发效率:通过插件形式补齐 Claude Code 的能力短板,使得开发者可以在统一的代码代理界面中完成文本、视觉分析和图像生成任务,减少了上下文切换和手动调用不同 API 的繁琐操作。
  2. 增强鲁棒性:针对本地路由和代理映射常见的配置陷阱,提供了基于实际能力的容错机制,降低了因配置错误导致工作流中断的风险。
  3. 推动生态兼容:通过标准化的技能接口,使得不同厂商的模型(如 DeepSeekGPT 系列)能够在 Claude Code 这一统一入口下协同工作,促进了多模型混合使用的工作流普及。
查看原文 →linux.do