[分享创造] [开源]写了一个本地模型的实时字幕工具😂

虽然实时字幕工具已经很多了,不过目前没看到一个免费开源的实时语音翻译工具能满足我的需求: 完全本地推理,可以离线使用,隐私安全。 转录质量。个人体感 whisper 等国外的开源模型和系统自带 asr 工具其实对亚洲语言支持并不好,个人认为要处理中日韩语 asr ,现在能用的唯一开源模型就是 qwe...
[分享创造] [开源]写了一个本地模型的实时字幕工具😂
[分享创造] [开源]写了一个本地模型的实时字幕工具😂

虽然实时字幕工具已经很多了,不过目前没看到一个免费开源的实时语音翻译工具能满足我的需求:

  1. 完全本地推理,可以离线使用,隐私安全。
  2. 转录质量。个人体感 whisper 等国外的开源模型和系统自带 asr 工具其实对亚洲语言支持并不好,个人认为要处理中日韩语 asr ,现在能用的唯一开源模型就是 qwen3-asr 。翻译用的 Hy-MT2-1.8B 。
  3. 低延迟。在不牺牲质量使用原始权重的条件下优化了推理速度,在 rtx4090 上能够 500ms 左右实时看到结果

所以我做了这样一个本地运行的实时字幕工具。它基于 Qwen3-ASR-1.7B ,后端在本机启动 ASR WebSocket 服务,桌面端用 Tauri 做轻量字幕窗口。目标是本地单用户看直播、视频、会议等场景。

目前支持:

  • 本地语音转文字 / 实时字幕
  • Windows/macOS 桌面客户端
  • 后端在 Linux 或 WSL + NVIDIA CUDA GPU 上跑
  • 可选翻译目标语言
  • 系统音频和麦克风采集

项目地址及演示 demo:

https://github.com/vauxe/funyi

https://github.com/vauxe/funyi#demo

来源: v2ex查看原文