[开源/硬核] 2.4k小时干翻100万小时?我们开源了一个颠覆大规模硬怼的音频分离数据集 Hive

各位佬友,今天给大家分享一个我们团队最近刚中/刚放出来的硬核工作: Hive 一个用于通用声音分离(Universal Sound Separation, USS)的高纯度、语义一致性合成数据集。 一句话总结这个工作的含金量: 用它训练的模型,仅用 ~0.2% 的数据量,在零样本(Zero-shot...
[开源/硬核] 2.4k小时干翻100万小时?我们开源了一个颠覆大规模硬怼的音频分离数据集 Hive
[开源/硬核] 2.4k小时干翻100万小时?我们开源了一个颠覆大规模硬怼的音频分离数据集 Hive

各位佬友,今天给大家分享一个我们团队最近刚中/刚放出来的硬核工作:Hive 一个用于通用声音分离(Universal Sound Separation, USS)的高纯度、语义一致性合成数据集。

一句话总结这个工作的含金量:用它训练的模型,仅用 ~0.2% 的数据量,在零样本(Zero-shot)通用声音分离任务上,硬刚并平替了 Meta 等大厂用 100 万小时数据堆出来的音频大模型(如 SAM-Audio)。


为什么要做这个?

玩过 AI 音频分离(比如把一段视频里的环境音、狗叫、下雨声单独剥离出来)的佬友应该知道,目前主流的做法和 LLM 一样:大力出奇迹。把网上的油管视频、各种野外录音(In-the-wild)打包几个 T 直接喂给模型。

但这里面有一个巨大的上下文欺骗(Co-occurrence Bias)

比如下雨的音频里通常自带风声或雷声。模型没那么聪明,它会误以为“风声”也是“雨声”的一部分。当你让它单独分离“雨声”时,它就把风声也当作雨声给一起吐出来了,分离不干净。

既然大厂喜欢用百万小时的脏数据“力大砖飞”,那我们就决定走另一条路:把数据纯度做到极致


我们是怎么做的?(自动化洗数据流水线)

我们设计了一套完全自动化的数据清洗和高保真合成管线(Pipeline),直接对 12 个主流开源音频数据集进行了“降维打击式”的清洗:

  1. 标签重构 (Ontology Pruning):基于 AudioSet 的 474 个类目,精简合并掉模糊的、纯环境描述的标签,提炼出 283 个真正物理可分离的声音类目。
  2. 多模态清洗 (Polyphony Detection):直接调用 Qwen3-Omni 等多模态大模型进行 Zero-shot 声音排他性审计,把含有杂音、多声源重叠的脏片段全部卡掉,只留绝对纯净的单声源(Single-event)。
  3. 超分辨率标准化 (Super-Resolution):利用 Apollo 模型,把各种参差不齐的低采样率音频全部无损重构放大到全局 44.1 kHz
  4. 语义一致性混合 (Semantic Mixing):用大模型生成声音共存逻辑矩阵。绝对不干“让一条深海鱼在赛车场里叫”这种反逻辑的乱混,确保合成出来的多声源 Mixture 完全符合现实物理场景。

最终,我们整出了 2,442 小时的高纯度原始音频,并合成出了包含 2 到 5 种并发声音的 19.6M 个混合片段(总计 ~22.4k 小时数据集)。


我们把经典的判别式模型(AudioSep)和生成式模型(FlowSep)放在 Hive 上从头训练,然后去硬怼那些巨型大模型,结果非常震撼:

  • 数据效率狂飙 500 倍:在三方盲测集(USS-Bench、MUSDB18-HQ 音乐分离)上,Hive 训练的模型指标不仅远超原版 AudioSep(14k小时训练),甚至在感知质量(FAD)和语义贴合度上打平或超越了用 1,000,000(100万)小时训练的 8B 参数地表最强模型 SAM-Audio
  • 打破“作弊码”:在密集的 5 种声音混杂极端场景下,Hive 模型依然有极强的鲁棒性,不会因为没有环境暗示就两眼一抹黑。
  • 更低的部署成本:生成式模型虽然好,但推理动辄几万 MACs 还要吃 32G 显存。有了 Hive 的高质量监督信号,用极小的判别式网络(比如 200M 参数量级)就能跑出高品质音频,部署到软路由、Edge 设备或边缘 CPU 上实时跑完全成为了可能

开源

代码、论文和数据集已经全线放出来了。
如果你是对 语音增强、智能音频剪辑、游戏音效提取、AR/VR 听觉渲染 感兴趣的技术佬,或者单纯想看热闹、听听分离对比效果的,欢迎去我们的 Demo 页面 踩踩。

欢迎各位佬友盖楼调戏、Star、提 Issue!有关于音频大模型、数据清洗管线、多模态音频打标技术的问题,随时在帖子里拍我,知无不言!

6 个帖子 - 6 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文