[分享创造] [开源]写了一个本地模型的实时字幕工具😂

编辑部 2026-06-03T05:44:18.196589 36491 阅读 tech

虽然实时字幕工具已经很多了，不过目前没看到一个免费开源的实时语音翻译工具能满足我的需求：完全本地推理，可以离线使用，隐私安全。转录质量。个人体感 whisper 等国外的开源模型和系统自带 asr 工具其实对亚洲语言支持并不好，个人认为要处理中日韩语 asr ，现在能用的唯一开源模型就是 qwe...

虽然实时字幕工具已经很多了，不过目前没看到一个免费开源的实时语音翻译工具能满足我的需求：

完全本地推理，可以离线使用，隐私安全。
转录质量。个人体感 whisper 等国外的开源模型和系统自带 asr 工具其实对亚洲语言支持并不好，个人认为要处理中日韩语 asr ，现在能用的唯一开源模型就是 qwen3-asr 。翻译用的 Hy-MT2-1.8B 。
低延迟。在不牺牲质量使用原始权重的条件下优化了推理速度，在 rtx4090 上能够 500ms 左右实时看到结果

所以我做了这样一个本地运行的实时字幕工具。它基于 Qwen3-ASR-1.7B ，后端在本机启动 ASR WebSocket 服务，桌面端用 Tauri 做轻量字幕窗口。目标是本地单用户看直播、视频、会议等场景。

目前支持：

本地语音转文字 / 实时字幕
Windows/macOS 桌面客户端
后端在 Linux 或 WSL + NVIDIA CUDA GPU 上跑
可选翻译目标语言
系统音频和麦克风采集

项目地址及演示 demo:

https://github.com/vauxe/funyi

https://github.com/vauxe/funyi#demo

来源: v2ex查看原文

分享创造开源一个本地帖子参与者阅读

[分享创造] [开源]写了一个本地模型的实时字幕工具😂

computer use 问题求助

大佬们 vibe coding 的项目怎么样了

相关推荐