我给 CC 写了个多模态SKILL——让DeepSeek 能“看图”、Claude Code 能“生图”

编辑部 2026-06-12T13:14:28+08:00 tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社...

我给 CC 写了个多模态SKILL——让DeepSeek 能“看图”、Claude Code 能“生图”

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 是
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出

大家在用入Claude Code时，如果接入DeepSeek等文本大模型无法视觉理解，使用原生 Claude大模型也不支持图片生成。

闲来无事，做了个Hello-Multimodal SKILL解决了这个问题：给没有 vision 的模型补上视觉理解，给 Claude Code 补上生图能力。

它做了什么

两件事：给 DeepSeek 等文本大模型补上视觉理解能力，给 Claude Code 补上图片生成能力。主模型不支持时自动路由到 GPT 多模态模型处理。

适用场景

1. DeepSeek 视觉理解

 你："请分析这张截图的 UI 布局"
 Claude Code 发现当前模型没有 vision → 自动调 Hello-Multimodal 技能 → GPT-5.4 看图 → 返回结果
 全程你没有切换模型，也没有报错。

2. 代理映射陷阱

如果使用了本地路由把 DeepSeek 映射成 claude-opus模型，Claude Code 看到模型名以为有 vision，实际没有依然会无法识图。

Hello-Multimodal 技能不认模型名，只认实际能力。发请求 → 失败 → 自动降级。无论本地路由代理怎么映射都不影响。

3. Claude Code 生图

Claude Code 不管用哪个模型，本身都不支持图片生成。Hello-Multimodal 补上了这个缺口——生图需求自动交给 gpt-image-2，引擎委托给 helloimage，继承其全部端点 fallback。

如何配置

把技能目录的config.example.json改名为config.json，然后把其中的api-key和base_url、model配置好。

 {
   "channels": [
     {
       "name": "GPT渠道",
       "base_url": "https://xxx.com",
       "api_key": "sk-xxx",
       "model": "gpt-5.4",
       "image_model": "gpt-image-2",
       "image_api_key": "sk-img-yyy"
     }
   ]
 }

支持最多 3 个渠道按优先级 fallback。生图可以单独配置 api_key 和 base_url，适配独立计费分组。

安装方法

建议把仓库地址扔给AI，让AI帮你安装插件。

https://github.com/hellowind777/hello-multimodal

配置完成后正常使用 Claude Code，视觉和生图任务会自动路由。

如何使用

安装好本技能后，并配置好对应的gpt模型API信息，然后新开claude code窗口直接使用自然语言对话就可以识别图片和生成图片。

声明：本技能由AI生成且公开开源，不含有任何盗取API的代码和功能，如果使用后导致API被盗与本技能无关。请自行斟酌。

使用效果图如下：

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

CC 模态 SKILL DeepSeek Claude 帖子参与者阅读

我给 CC 写了个多模态SKILL——让DeepSeek 能“看图”、Claude Code 能“生图”

如何看待某媒体报道的:在全世界不知道大模型为何物的时候，华为就发布了盘古大模型

关于 codex 拉新邀请的实际测试情况

它做了什么

适用场景

如何配置

安装方法

如何使用

相关推荐