- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
github.com
GitHub - XimilalaXiang/DeLive: System audio capture + multi-provider ASR +...
System audio capture + multi-provider ASR + local-first AI review workspace. Floating live captions, 6 ASR backends, 60+ languages, AI summary/chat/mindmap, Open API, MCP server, and Agent Skill.

前言: 【开源】1.0.11 Delive 把 Windows 系统音频实时转文字 + 悬浮字幕(支持 Soniox/火山引擎,导出 TXT/SRT)
上次发了 1.011,这几个月一直在迭代。
到现在2.0.1 ,基本上是重写了。也更新了很多额外我认为比较必要的功能
为啥做这个
起点还是那个痛点:看视频/直播/课程,平台不让导出字幕。
但 1.0 解决完「能转录」之后,我发现下一个卡点是: 转录完了,怎么用?
每次都要手动复制文本,切到 AI对话窗口,粘贴,问问题。太割裂了。
2.0 的核心思路:捕获 → 转录 → AI 处理 → 对外开放MCP/Skill 接口调用,全在一个地方,拒绝数据孤岛
2.0 的核心变化
① 跨平台了
Windows (稳定版)
macOS (测试版) / Linux (测试版)
小声bb (点击了解更多详细信息)
② 6 个 ASR 后端
后端 特点 Soniox 流式顶尖,支持翻译+说话人识别 火山引擎 中文最强,延迟低,送 20h Groq Whisper 便宜免费 SiliconFlow 国内多模态,佬们手上也有资源 本地 whisper.cpp 完全离线,零费用 OpenAI-compatible 接 Ollama、OpenAI兼容 等服务
③ AI 回顾 复盘 工作台
转录完直接在软件里处理,不需要离开这个窗口:
Overview:AI 自动生成摘要、行动项、关键词、章节 (点击了解更多详细信息) Chat:多线程 AI 问答,Markdown 渲染 (点击了解更多详细信息) Mind Map:一键生成思维导图,实时编辑,导出 SVG/PNG (点击了解更多详细信息)
④ 悬浮字幕升级
字幕部分演示 (点击了解更多详细信息)
⑤ S3、WebDAV 备份
备份部分截图 (点击了解更多详细信息)
这次最想说的:MCP + Agent Skill
这是 2.0 里最独特的部分
1.
MCP Server
DeLive 内置了一个 MCP Server,可以直接接入 Cherry Studio、Cursor、Claude Code。配置完之后,你可以直接问 AI :
“把今天下午的讲座转录内容,提炼成提纲”
“这段转录稿里,最终决定用哪个方案?整个框架思路是什么?”
如图
Agent 会直接调用 DeLive 的工具( search_transcripts / get_session / get_session_summary ),从本地拉取数据,完全不需要手动操作。
2.
Agent Skill
安装Skill到claude code
DeLive/skills at main · XimilalaXiang/DeLive
System audio capture + multi-provider ASR + local-first AI review workspace. Floating live captions, 6 ASR backends, 60+ languages, AI summary/chat/mindmap, Open API, MCP server, and Agent Skill. -...
内置 SKILL.md ,给 Claude Code / Cursor 等 Agent 读,让它们知道怎么和 DeLive 配合工作
Agent Skill
项目信息
- GitHub: github.com/XimilalaXiang/DeLive
- 文档: docs.delive.me
- 落地页: delive.me
觉得有用的佬可以点个 star
,有问题欢迎沟通~
1 个帖子 - 1 位参与者

