[开源/硬核] 2.4k小时干翻100万小时？我们开源了一个颠覆大规模硬怼的音频分离数据集 Hive

编辑部 2026-05-20T20:44:12.830738 12105 阅读 tech

各位佬友，今天给大家分享一个我们团队最近刚中/刚放出来的硬核工作： Hive 一个用于通用声音分离（Universal Sound Separation, USS）的高纯度、语义一致性合成数据集。一句话总结这个工作的含金量：用它训练的模型，仅用 ~0.2% 的数据量，在零样本（Zero-shot...

[开源/硬核] 2.4k小时干翻100万小时？我们开源了一个颠覆大规模硬怼的音频分离数据集 Hive

各位佬友，今天给大家分享一个我们团队最近刚中/刚放出来的硬核工作：Hive 一个用于通用声音分离（Universal Sound Separation, USS）的高纯度、语义一致性合成数据集。

一句话总结这个工作的含金量：用它训练的模型，仅用 ~0.2% 的数据量，在零样本（Zero-shot）通用声音分离任务上，硬刚并平替了 Meta 等大厂用 100 万小时数据堆出来的音频大模型（如 SAM-Audio）。

项目主页 & 试听 Demo: https://cslikai.cn/Hive/
ArXiv 论文: https://arxiv.org/abs/2601.22599

为什么要做这个？

玩过 AI 音频分离（比如把一段视频里的环境音、狗叫、下雨声单独剥离出来）的佬友应该知道，目前主流的做法和 LLM 一样：大力出奇迹。把网上的油管视频、各种野外录音（In-the-wild）打包几个 T 直接喂给模型。

但这里面有一个巨大的上下文欺骗（Co-occurrence Bias）：

比如下雨的音频里通常自带风声或雷声。模型没那么聪明，它会误以为“风声”也是“雨声”的一部分。当你让它单独分离“雨声”时，它就把风声也当作雨声给一起吐出来了，分离不干净。

既然大厂喜欢用百万小时的脏数据“力大砖飞”，那我们就决定走另一条路：把数据纯度做到极致。

我们是怎么做的？（自动化洗数据流水线）

我们设计了一套完全自动化的数据清洗和高保真合成管线（Pipeline），直接对 12 个主流开源音频数据集进行了“降维打击式”的清洗：

标签重构 (Ontology Pruning)：基于 AudioSet 的 474 个类目，精简合并掉模糊的、纯环境描述的标签，提炼出 283 个真正物理可分离的声音类目。
多模态清洗 (Polyphony Detection)：直接调用 Qwen3-Omni 等多模态大模型进行 Zero-shot 声音排他性审计，把含有杂音、多声源重叠的脏片段全部卡掉，只留绝对纯净的单声源（Single-event）。
超分辨率标准化 (Super-Resolution)：利用 Apollo 模型，把各种参差不齐的低采样率音频全部无损重构放大到全局 44.1 kHz。
语义一致性混合 (Semantic Mixing)：用大模型生成声音共存逻辑矩阵。绝对不干“让一条深海鱼在赛车场里叫”这种反逻辑的乱混，确保合成出来的多声源 Mixture 完全符合现实物理场景。

最终，我们整出了 2,442 小时的高纯度原始音频，并合成出了包含 2 到 5 种并发声音的 19.6M 个混合片段（总计 ~22.4k 小时数据集）。

我们把经典的判别式模型（AudioSep）和生成式模型（FlowSep）放在 Hive 上从头训练，然后去硬怼那些巨型大模型，结果非常震撼：

数据效率狂飙 500 倍：在三方盲测集（USS-Bench、MUSDB18-HQ 音乐分离）上，Hive 训练的模型指标不仅远超原版 AudioSep（14k小时训练），甚至在感知质量（FAD）和语义贴合度上打平或超越了用 1,000,000（100万）小时训练的 8B 参数地表最强模型 SAM-Audio。
打破“作弊码”：在密集的 5 种声音混杂极端场景下，Hive 模型依然有极强的鲁棒性，不会因为没有环境暗示就两眼一抹黑。
更低的部署成本：生成式模型虽然好，但推理动辄几万 MACs 还要吃 32G 显存。有了 Hive 的高质量监督信号，用极小的判别式网络（比如 200M 参数量级）就能跑出高品质音频，部署到软路由、Edge 设备或边缘 CPU 上实时跑完全成为了可能。

开源

代码、论文和数据集已经全线放出来了。
如果你是对 语音增强、智能音频剪辑、游戏音效提取、AR/VR 听觉渲染 感兴趣的技术佬，或者单纯想看热闹、听听分离对比效果的，欢迎去我们的 Demo 页面 踩踩。

欢迎各位佬友盖楼调戏、Star、提 Issue！有关于音频大模型、数据清洗管线、多模态音频打标技术的问题，随时在帖子里拍我，知无不言！

6 个帖子 - 6 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

开源硬核小时干翻我们一个 AI 帖子

[开源/硬核] 2.4k小时干翻100万小时？我们开源了一个颠覆大规模硬怼的音频分离数据集 Hive

为什么要做这个？

[iPhone] 更新 26.5 以后，下滑搜索有 bug

[程序员] deepseek api

我们是怎么做的？（自动化洗数据流水线）

开源

相关推荐