【开源自荐】DeLive 2.0 —— 从「字幕转录工具」到「AI 转录工作台」

编辑部 2026-05-04T13:36:53.027775 31294 阅读 tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社...

【开源自荐】DeLive 2.0 —— 从「字幕转录工具」到「AI 转录工作台」

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 是
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出

github.com

GitHub - XimilalaXiang/DeLive: System audio capture + multi-provider ASR +...

System audio capture + multi-provider ASR + local-first AI review workspace. Floating live captions, 6 ASR backends, 60+ languages, AI summary/chat/mindmap, Open API, MCP server, and Agent Skill.

前言：【开源】1.0.11 Delive 把 Windows 系统音频实时转文字 + 悬浮字幕（支持 Soniox/火山引擎，导出 TXT/SRT）

上次发了 1.011，这几个月一直在迭代。
到现在2.0.1 ，基本上是重写了。也更新了很多额外我认为比较必要的功能

为啥做这个

起点还是那个痛点：看视频/直播/课程，平台不让导出字幕。

但 1.0 解决完「能转录」之后，我发现下一个卡点是： 转录完了，怎么用？

每次都要手动复制文本，切到 AI对话窗口，粘贴，问问题。太割裂了。

2.0 的核心思路：捕获 → 转录 → AI 处理 → 对外开放MCP/Skill 接口调用，全在一个地方，拒绝数据孤岛

2.0 的核心变化

① 跨平台了
Windows （稳定版）

macOS （测试版） / Linux （测试版）

小声bb （点击了解更多详细信息）

② 6 个 ASR 后端

后端特点 Soniox 流式顶尖，支持翻译+说话人识别火山引擎中文最强，延迟低，送 20h Groq Whisper 便宜免费 SiliconFlow 国内多模态，佬们手上也有资源本地 whisper.cpp 完全离线，零费用 OpenAI-compatible 接 Ollama、OpenAI兼容等服务

③ AI 回顾复盘工作台

转录完直接在软件里处理，不需要离开这个窗口：
Overview：AI 自动生成摘要、行动项、关键词、章节（点击了解更多详细信息） Chat：多线程 AI 问答，Markdown 渲染（点击了解更多详细信息） Mind Map：一键生成思维导图，实时编辑，导出 SVG/PNG （点击了解更多详细信息）

④ 悬浮字幕升级

字幕部分演示（点击了解更多详细信息）

⑤ S3、WebDAV 备份

备份部分截图（点击了解更多详细信息）

这次最想说的：MCP + Agent Skill

这是 2.0 里最独特的部分

1. MCP Server

DeLive 内置了一个 MCP Server，可以直接接入 Cherry Studio、Cursor、Claude Code。配置完之后，你可以直接问 AI ：

“把今天下午的讲座转录内容，提炼成提纲”
“这段转录稿里，最终决定用哪个方案？整个框架思路是什么？”

如图

Agent 会直接调用 DeLive 的工具（ search_transcripts / get_session / get_session_summary ），从本地拉取数据，完全不需要手动操作。

2. Agent Skill

安装Skill到claude code

github.com

DeLive/skills at main · XimilalaXiang/DeLive

main/skills

System audio capture + multi-provider ASR + local-first AI review workspace. Floating live captions, 6 ASR backends, 60+ languages, AI summary/chat/mindmap, Open API, MCP server, and Agent Skill. -...

内置 SKILL.md ，给 Claude Code / Cursor 等 Agent 读，让它们知道怎么和 DeLive 配合工作

Agent Skill

项目信息

GitHub： github.com/XimilalaXiang/DeLive
文档： docs.delive.me
落地页： delive.me

觉得有用的佬可以点个 star ，有问题欢迎沟通~

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文

开源自荐 DeLive 字幕转录一个帖子现在