【开源自荐】DeLive 2.0 —— 从「字幕转录工具」到「AI 转录工作台」

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社...
【开源自荐】DeLive 2.0 —— 从「字幕转录工具」到「AI 转录工作台」
【开源自荐】DeLive 2.0 —— 从「字幕转录工具」到「AI 转录工作台」
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


github.com

GitHub - XimilalaXiang/DeLive: System audio capture + multi-provider ASR +...

System audio capture + multi-provider ASR + local-first AI review workspace. Floating live captions, 6 ASR backends, 60+ languages, AI summary/chat/mindmap, Open API, MCP server, and Agent Skill.


image


前言: 【开源】1.0.11 Delive 把 Windows 系统音频实时转文字 + 悬浮字幕(支持 Soniox/火山引擎,导出 TXT/SRT)

上次发了 1.011,这几个月一直在迭代。
到现在2.0.1 ,基本上是重写了。也更新了很多额外我认为比较必要的功能

为啥做这个

起点还是那个痛点:看视频/直播/课程,平台不让导出字幕。

但 1.0 解决完「能转录」之后,我发现下一个卡点是: 转录完了,怎么用?

每次都要手动复制文本,切到 AI对话窗口,粘贴,问问题。太割裂了。

2.0 的核心思路:捕获 → 转录 → AI 处理 → 对外开放MCP/Skill 接口调用,全在一个地方,拒绝数据孤岛


image


2.0 的核心变化


① 跨平台了
Windows (稳定版)

macOS (测试版) / Linux (测试版)

小声bb (点击了解更多详细信息)

② 6 个 ASR 后端

后端 特点 Soniox 流式顶尖,支持翻译+说话人识别 火山引擎 中文最强,延迟低,送 20h Groq Whisper 便宜免费 SiliconFlow 国内多模态,佬们手上也有资源 本地 whisper.cpp 完全离线,零费用 OpenAI-compatible 接 Ollama、OpenAI兼容 等服务

image


③ AI 回顾 复盘 工作台

转录完直接在软件里处理,不需要离开这个窗口:

Overview:AI 自动生成摘要、行动项、关键词、章节 (点击了解更多详细信息) Chat:多线程 AI 问答,Markdown 渲染 (点击了解更多详细信息) Mind Map:一键生成思维导图,实时编辑,导出 SVG/PNG (点击了解更多详细信息)

④ 悬浮字幕升级

字幕部分演示 (点击了解更多详细信息)

⑤ S3、WebDAV 备份

备份部分截图 (点击了解更多详细信息)

这次最想说的:MCP + Agent Skill

这是 2.0 里最独特的部分

1. :electric_plug:MCP Server

image

DeLive 内置了一个 MCP Server,可以直接接入 Cherry Studio、Cursor、Claude Code。配置完之后,你可以直接问 AI :

“把今天下午的讲座转录内容,提炼成提纲”
“这段转录稿里,最终决定用哪个方案?整个框架思路是什么?”

如图

image

Agent 会直接调用 DeLive 的工具( search_transcripts / get_session / get_session_summary ),从本地拉取数据,完全不需要手动操作。

2. :hammer_and_wrench: Agent Skill

安装Skill到claude code

github.com

DeLive/skills at main · XimilalaXiang/DeLive

main/skills

System audio capture + multi-provider ASR + local-first AI review workspace. Floating live captions, 6 ASR backends, 60+ languages, AI summary/chat/mindmap, Open API, MCP server, and Agent Skill. -...

内置 SKILL.md ,给 Claude Code / Cursor 等 Agent 读,让它们知道怎么和 DeLive 配合工作

:hammer_and_wrench: Agent Skill

image
image

项目信息

觉得有用的佬可以点个 star :star: ,有问题欢迎沟通~

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文