各位佬友,今天给大家分享一个我们团队最近刚中/刚放出来的硬核工作:Hive 一个用于通用声音分离(Universal Sound Separation, USS)的高纯度、语义一致性合成数据集。
一句话总结这个工作的含金量:用它训练的模型,仅用 ~0.2% 的数据量,在零样本(Zero-shot)通用声音分离任务上,硬刚并平替了 Meta 等大厂用 100 万小时数据堆出来的音频大模型(如 SAM-Audio)。
- 项目主页 & 试听 Demo: https://cslikai.cn/Hive/
- ArXiv 论文: https://arxiv.org/abs/2601.22599
为什么要做这个?
玩过 AI 音频分离(比如把一段视频里的环境音、狗叫、下雨声单独剥离出来)的佬友应该知道,目前主流的做法和 LLM 一样:大力出奇迹。把网上的油管视频、各种野外录音(In-the-wild)打包几个 T 直接喂给模型。
但这里面有一个巨大的上下文欺骗(Co-occurrence Bias):
比如下雨的音频里通常自带风声或雷声。模型没那么聪明,它会误以为“风声”也是“雨声”的一部分。当你让它单独分离“雨声”时,它就把风声也当作雨声给一起吐出来了,分离不干净。
既然大厂喜欢用百万小时的脏数据“力大砖飞”,那我们就决定走另一条路:把数据纯度做到极致。
我们是怎么做的?(自动化洗数据流水线)
我们设计了一套完全自动化的数据清洗和高保真合成管线(Pipeline),直接对 12 个主流开源音频数据集进行了“降维打击式”的清洗:
- 标签重构 (Ontology Pruning):基于 AudioSet 的 474 个类目,精简合并掉模糊的、纯环境描述的标签,提炼出 283 个真正物理可分离的声音类目。
- 多模态清洗 (Polyphony Detection):直接调用 Qwen3-Omni 等多模态大模型进行 Zero-shot 声音排他性审计,把含有杂音、多声源重叠的脏片段全部卡掉,只留绝对纯净的单声源(Single-event)。
- 超分辨率标准化 (Super-Resolution):利用 Apollo 模型,把各种参差不齐的低采样率音频全部无损重构放大到全局 44.1 kHz。
- 语义一致性混合 (Semantic Mixing):用大模型生成声音共存逻辑矩阵。绝对不干“让一条深海鱼在赛车场里叫”这种反逻辑的乱混,确保合成出来的多声源 Mixture 完全符合现实物理场景。
最终,我们整出了 2,442 小时的高纯度原始音频,并合成出了包含 2 到 5 种并发声音的 19.6M 个混合片段(总计 ~22.4k 小时数据集)。
我们把经典的判别式模型(AudioSep)和生成式模型(FlowSep)放在 Hive 上从头训练,然后去硬怼那些巨型大模型,结果非常震撼:
- 数据效率狂飙 500 倍:在三方盲测集(USS-Bench、MUSDB18-HQ 音乐分离)上,Hive 训练的模型指标不仅远超原版 AudioSep(14k小时训练),甚至在感知质量(FAD)和语义贴合度上打平或超越了用 1,000,000(100万)小时训练的 8B 参数地表最强模型 SAM-Audio。
- 打破“作弊码”:在密集的 5 种声音混杂极端场景下,Hive 模型依然有极强的鲁棒性,不会因为没有环境暗示就两眼一抹黑。
- 更低的部署成本:生成式模型虽然好,但推理动辄几万 MACs 还要吃 32G 显存。有了 Hive 的高质量监督信号,用极小的判别式网络(比如 200M 参数量级)就能跑出高品质音频,部署到软路由、Edge 设备或边缘 CPU 上实时跑完全成为了可能。
开源
代码、论文和数据集已经全线放出来了。
如果你是对 语音增强、智能音频剪辑、游戏音效提取、AR/VR 听觉渲染 感兴趣的技术佬,或者单纯想看热闹、听听分离对比效果的,欢迎去我们的 Demo 页面 踩踩。
欢迎各位佬友盖楼调戏、Star、提 Issue!有关于音频大模型、数据清洗管线、多模态音频打标技术的问题,随时在帖子里拍我,知无不言!
6 个帖子 - 6 位参与者