讨论一下国产模型蒸馏问题

编辑部 2026-05-06T16:41:26.147815 5029 阅读综合

最近我因为说了一句国产模型蒸馏问题，就被举报删帖。在某音平台评论一句国产模型蒸馏，被追着骂，仿佛这种话题就是谈都不能谈的滑梯，但是我还是想在此聊一下关于模型蒸馏的问题，比如国产模型是否蒸馏了模型蒸馏比例经典洗白文案等首先，我们要明确一些事实 1、蒸馏是中性词 2、国产模型大都为开源模型 3...

最近我因为说了一句国产模型蒸馏问题，就被举报删帖。在某音平台评论一句国产模型蒸馏，被追着骂，仿佛这种话题就是谈都不能谈的滑梯，但是我还是想在此聊一下关于模型蒸馏的问题，
比如
国产模型是否蒸馏了
模型蒸馏比例
经典洗白文案等

首先，我们要明确一些事实
1、蒸馏是中性词
2、国产模型大都为开源模型
3、闭源模型大都禁止其他人或组织蒸馏数据
4、人工大量采集模型的数据集十分困难，需要巨大的人力成本和资金成本

ok，我们从以上事实进行推导
1、数据处理成本
首先，当年OPENAI雇了一大批人去做了数据处理和标注。
如：https://time.com/6247678/openai-chatgpt-kenya-workers/

OpenAI 这类公司不是只靠自家员工标注，而是会用外包/供应商。早期 ChatGPT 安全数据就被报道使用 Sama 的肯尼亚工人做有害内容标注；后来整个行业还大量使用 Scale AI、Mercor、Turing、Surge AI 这类 RLHF/专家标注供应链。

但是网络上并没有查找到 Deepseek 的数据标注团队人数和来源，仅仅能看到一些如医院数据这种的行业少量数据的标注招聘：https://www.scmp.com/tech/big-tech/article/3313335/deepseek-job-ads-call-interns-label-medical-data-improve-ai-use-hospitals
并且还有文章表示，Deepseek团队其团队仅有32名标注员，但是这篇文章有失偏颇所以我们只做参考：https://ideas.repec.org/p/hal/wpaper/hal-04952735.html

Deepseek 论文中，写有训练的数据量为：671B 总参数、每 token 激活 37B 参数，预训练用了 14.8T tokens。
https://arxiv.org/html/2412.19437v1

那么问题来了，仅靠 30 多人清洗14.8T tokens 有可能吗？
来一个假设：

假设每人每天处理 30 人总耗时精读标注 5万 token 约 2.7 万年快速审核 50万 token 约 2700 年极快抽检 500万 token 约 270 年每人每天看 5000 万 token 约 27 年

每人清洗五千万 tokens 要 27 年才能清洗完毕。
当然，“人数少还能做出来” 本身不能直接证明它蒸馏 OpenAI，只能说大概率使用了一些强大的模型，进行了数据处理和标注。但是无法直接证明蒸馏。
但是有一点，OPENAI 虽然允许第三方调用 API 进行数据标注，但是禁止用 GPT/ 输出训练通用大模型和禁止用GPT输出蒸馏竞品模型。
如果 DeepSeek 使用了 openai 进行标注，显然是违反了openai的条款。

2、幻觉
通过蒸馏的模型，基本上幻觉率都很高，原理是模型不了解某些知识只能靠编，而真正靠数据集训练出来的模型是不需要靠编的

我们可以在本文中看到
https://www.vectara.com/blog/why-does-deepseek-r1-hallucinate-so-much

模型幻觉率 GPT-4 约 1.8% GPT-4o 约 1.49% DeepSeek-V3 3.9%～6.1% DeepSeek-R1 14.3%

DeepSeek 的模型幻觉率比 GPT 同时期的模型要高上一倍。
3、模型自称
这就不用多说了，只要训练的数据集多了，就会认为自己是别人
如：https://techcrunch.com/2024/12/27/why-deepseeks-new-ai-model-thinks-its-chatgpt/
还有一些某国产模型说自己是 claude
https://linux.do/t/topic/1921500

4、模型蒸馏比例
claude 也说自己蒸馏过其他模型，但是比例呢，如果一个模型百分之 80 是蒸馏，和一个模型百分之 1 是蒸馏，那么肯定是有区别的。

以上我说的，均不能证明国产模型蒸馏，只是为大家开拓一下视野。目的是抵制非法蒸馏，尊重知识产权。

人都是自私的，便宜的 token 谁都想用，但是如果真的把认真搞模型的人搞死了，那就是劣币驱逐良币，最终都没 token 用了。

你们可以继续骂我了

3 个帖子 - 3 位参与者

阅读完整话题

来源: linux.do查看原文

讨论一下国产模型蒸馏问题一个分享 AI

讨论一下国产模型蒸馏问题

日抛Plus之后又一扛鼎之作

如果你失业了，你会消费吗？

相关推荐