Agent SkillLINUX DO · AI·1 小时前

开源多模态Skill让DeepSeek具备视觉理解并赋予Claude Code生图能力

原标题：我给 CC 写了个多模态SKILL——让DeepSeek 能“看图”、Claude Code 能“生图”

速览

该开源项目Hello-Multimodal通过Skill机制解决了特定大模型的能力短板。它主要为DeepSeek等文本大模型补充视觉理解能力，同时为Claude Code增加图片生成支持。系统支持多渠道配置与自动降级路由，即使本地代理映射模型名也能正确识别实际能力并调用GPT多模态模型处理。

AI 深度解读

背景

在当前的 AI 开发工作流中，开发者经常面临模型能力与工具链不匹配的痛点。以 Claude Code 为例，尽管其作为强大的代码代理工具表现优异，但其原生支持存在两个显著局限：一是接入 DeepSeek 等纯文本大模型时，缺乏对图像/截图的视觉理解能力（Vision）；二是无论底层挂载何种模型，Claude Code 本身并不直接支持图片生成任务。

此外，本地路由或代理配置（如将 DeepSeek 映射为 claude-opus 以欺骗模型名称）往往导致“名不副实”的情况——工具层认为模型具备视觉能力，但实际后端无法处理，从而导致报错或功能失效。为了解决这些断点，社区开发者 hellowind777 开源了 Hello-Multimodal SKILL，旨在通过技能插件的形式，为 Claude Code 补齐视觉理解和图片生成的短板。

核心内容

Hello-Multimodal SKILL 是一个开源插件，主要解决两大核心问题：赋予无视觉能力的文本模型以视觉理解力，以及为 Claude Code 补充图片生成能力。其核心机制在于“自动路由”与“能力探测”，而非依赖模型名称的伪装。

1. 视觉理解增强（给 DeepSeek 等模型补上 Vision）

当用户在 Claude Code 中要求分析截图或 UI 布局时，如果当前配置的模型（如 DeepSeek）不支持视觉输入，该技能会自动介入。

流程：Claude Code 检测到当前模型无 Vision 能力 → 自动调用 Hello-Multimodal 技能 → 将图片发送至配置的 GPT 多模态模型（如 GPT-5.4）进行处理 → 将结果返回给用户。
体验：用户全程无需切换模型或手动干预，系统无缝完成视觉解析。

2. 抗代理映射陷阱（基于实际能力而非模型名）

许多用户会通过本地路由将 DeepSeek 映射为 claude-opus 等名称，试图让 Claude Code 误以为其具备视觉能力。然而，这种“名称欺骗”在底层请求失败时依然会导致任务中断。

解决方案：Hello-Multimodal 不信任模型名称，而是通过实际请求来探测能力。
机制：发送请求 → 若失败 → 自动降级并路由至具备视觉能力的模型。无论本地代理如何映射模型名，只要实际后端无视觉能力，技能就会自动接管并路由至正确的多模态模型，确保任务不中断。

3. 图片生成能力补充（给 Claude Code 补上生图）

Claude Code 原生不支持图片生成。该技能填补了这一空白。

流程：当用户提出生图需求时，技能自动将任务委托给 gpt-image-2 等图像生成模型。
引擎支持：底层引擎委托给 helloimage，并继承其全部的端点 fallback 机制，确保在主要服务不可用时仍能尝试其他路径。

4. 配置与安装

安装方式：建议将仓库地址提供给 AI 助手，由 AI 辅助完成插件安装。
- 仓库地址：https://github.com/hellowind777/hello-multimodal
配置方法：
1. 将 config.example.json 重命名为 config.json。
2. 配置 api-key、base_url 和 model。
3. 支持最多 3 个渠道按优先级进行 fallback。
4. 生图功能可单独配置 image_api_key 和 image_model，以适配独立的计费分组。
配置示例：
```
{
   "channels": [
     {
       "name": "GPT渠道",
       "base_url": "https://xxx.com",
       "api_key": "sk-xxx",
       "model": "gpt-5.4",
       "image_model": "gpt-image-2",
       "image_api_key": "sk-img-yyy"
     }
   ]
 }
```

关键要点

自动路由机制：技能核心在于“探测-失败-降级/路由”的逻辑，确保在底层模型能力不足时自动切换至具备相应能力（Vision 或生图）的模型。
无视模型名称伪装：解决了本地路由映射带来的“名不副实”问题，基于实际 API 响应能力而非模型字符串名称进行决策。
多通道 Fallback：支持配置多个 API 渠道，并允许文本模型和图像生成模型使用独立的 API Key 和 Base URL，便于成本控制和故障转移。
无缝集成：用户无需在 Claude Code 中手动切换模型或执行额外命令，安装配置后通过自然语言对话即可触发视觉分析和图片生成。
开源合规：项目已声明符合 LINUX DO 社区的开源推广要求，代码完全开源，且明确声明不含盗取 API 的代码，使用者需自行对 API 安全负责。

意义与影响

Hello-Multimodal SKILL 的出现，反映了当前 AI 开发工具链中“模型能力碎片化”与“工具链标准化”之间的矛盾。

提升开发效率：通过插件形式补齐 Claude Code 的能力短板，使得开发者可以在统一的代码代理界面中完成文本、视觉分析和图像生成任务，减少了上下文切换和手动调用不同 API 的繁琐操作。
增强鲁棒性：针对本地路由和代理映射常见的配置陷阱，提供了基于实际能力的容错机制，降低了因配置错误导致工作流中断的风险。
推动生态兼容：通过标准化的技能接口，使得不同厂商的模型（如 DeepSeek、GPT 系列）能够在 Claude Code 这一统一入口下协同工作，促进了多模型混合使用的工作流普及。

查看原文 →linux.do