我给 CC 写了个多模态SKILL——让DeepSeek 能“看图”、Claude Code 能“生图”

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社...
我给 CC 写了个多模态SKILL——让DeepSeek 能“看图”、Claude Code 能“生图”
我给 CC 写了个多模态SKILL——让DeepSeek 能“看图”、Claude Code 能“生图”
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


大家在用入Claude Code时,如果接入DeepSeek等文本大模型无法视觉理解,使用原生 Claude大模型也不支持图片生成。

闲来无事,做了个Hello-Multimodal SKILL解决了这个问题:给没有 vision 的模型补上视觉理解,给 Claude Code 补上生图能力。


它做了什么

两件事:给 DeepSeek 等文本大模型补上视觉理解能力,给 Claude Code 补上图片生成能力。主模型不支持时自动路由到 GPT 多模态模型处理。


适用场景

1. DeepSeek 视觉理解

 你:"请分析这张截图的 UI 布局"
 Claude Code 发现当前模型没有 vision → 自动调 Hello-Multimodal 技能 → GPT-5.4 看图 → 返回结果
 全程你没有切换模型,也没有报错。

2. 代理映射陷阱

如果使用了本地路由把 DeepSeek 映射成 claude-opus模型,Claude Code 看到模型名以为有 vision,实际没有依然会无法识图。

Hello-Multimodal 技能不认模型名,只认实际能力。发请求 → 失败 → 自动降级。无论本地路由代理怎么映射都不影响。

3. Claude Code 生图

Claude Code 不管用哪个模型,本身都不支持图片生成。Hello-Multimodal 补上了这个缺口——生图需求自动交给 gpt-image-2,引擎委托给 helloimage,继承其全部端点 fallback。


如何配置

把技能目录的config.example.json改名为config.json,然后把其中的api-key和base_url、model配置好。

 {
   "channels": [
     {
       "name": "GPT渠道",
       "base_url": "https://xxx.com",
       "api_key": "sk-xxx",
       "model": "gpt-5.4",
       "image_model": "gpt-image-2",
       "image_api_key": "sk-img-yyy"
     }
   ]
 }

支持最多 3 个渠道按优先级 fallback。生图可以单独配置 api_key 和 base_url,适配独立计费分组。


安装方法

建议把仓库地址扔给AI,让AI帮你安装插件。

https://github.com/hellowind777/hello-multimodal

配置完成后正常使用 Claude Code,视觉和生图任务会自动路由。

如何使用

安装好本技能后,并配置好对应的gpt模型API信息,然后新开claude code窗口直接使用自然语言对话就可以识别图片和生成图片。


声明:本技能由AI生成且公开开源,不含有任何盗取API的代码和功能,如果使用后导致API被盗与本技能无关。请自行斟酌。


使用效果图如下:

3b0edcdba6588c0c65c7cc327f551b79
bdca2b42f6a232ddbde2c26bd0c93273
32c38df24206505d3e22b871cf7fcd74

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文