分享下自用的视频解说skill,自动识别画面和语音,写解说词和调用ffmpeg合成

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI 生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受...
分享下自用的视频解说skill,自动识别画面和语音,写解说词和调用ffmpeg合成
分享下自用的视频解说skill,自动识别画面和语音,写解说词和调用ffmpeg合成
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI 生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI 生成、润色内容已使用截图方式发出


github.com

GitHub - worldwonderer/video-recap: 视频自动解说 skill。输入视频,输出带中文旁白的解说视频。适配 Claude Code。

视频自动解说 skill。输入视频,输出带中文旁白的解说视频。适配 Claude Code。

项目里放了 demo 视频。

使用焚决:

claude code 用 glm-5.1 就行

画面识别 Doubao-Seed-2.0-pro,有中转站可以薅

ASR 用 Qwen3-ASR 0.6B 或者 1.7B均可,macos apple 芯片本地部署

TTS 我用了 edge-TTS 的 yunxi

整体四舍五入完全没成本 :blush:

3 个帖子 - 3 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文