有没有大佬,指导下会议系统的实现

Agent Meeting 项目:会议转录部分难题 要求: 一段会议音频,将各个说话人及其内容提取区分出来 所有模型本地运行,中英文 有什么实现方案、技术选型、建议和优化、文章和例子吗? 我当前的方案 VAD : pyannote ASR : Qwen3-ASR-1.7B diarization :...
有没有大佬,指导下会议系统的实现
有没有大佬,指导下会议系统的实现

Agent Meeting 项目:会议转录部分难题
要求:
一段会议音频,将各个说话人及其内容提取区分出来
所有模型本地运行,中英文

有什么实现方案、技术选型、建议和优化、文章和例子吗?

我当前的方案
VAD : pyannote
ASR : Qwen3-ASR-1.7B
diarization : pyannote/speaker-diarization-community-1
标点 : Qwen3-ASR
声纹识别 : SpeechBrain ECAPA-TDNN(192 维 embedding)+ pgvector 余弦距离匹配

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文