看到一个帖子说Claude叫自己是Qwen、Deepseek,然后底下很多人包括该帖的主包都认为claude蒸馏了国模,之前Anthropic还发布一篇报告说国模大量蒸Claude,所以是双标行为,我想来说说我的看法,先叠个甲,我本身不是从业人员,只是以简单的逻辑出发。
目前台面上双方都没有实质的证据公开可见,板上钉钉的可证明谁蒸馏了谁。
Claude Opus系列模型能力全面比DeepSeek强(这应该没有什么争议吧)
先说国模方面的,毕竟这是被指控的重灾区
IT早报:0602:5 月汽车销量汇总:比亚迪、上汽、吉利前三;曝豆包在 6 月下旬上线付费内容;英伟达进军 PC 笔记本处理器;软银超丰田成日本市值最高公司..
黑客诱骗 Meta AI 客服,盗取多名 Instagram 用户账号
- 很有意思,第一张图已经解释了自我认同混淆这一部分,根本称不上蒸馏的证据。
- 第二张图就更有意思了,Anthropic给出了非常精确的数据说国模蒸馏了Opus,但一样没有给出证据。可是问题来了,为何一次连续指控了三家中国模型大厂,这些大厂没有一个做出回应的,按理来说这是非常严重的商业诽谤,如果是在事实不成立的情况,这些厂商大可以跟Anthropic直接开战,甚至站上法律攻防,不但可以声名大噪,还可以占据道德上的高地。
- 现在来引用一下从业人员的见解,你们可以在dy搜索"姚顺宇 蒸馏" 有视频,这是他接受国内媒体采访的原话 “中国的模型公司其实对蒸馏 就蒸馏别人很在行”,如果你不知道他是谁,可以参考https://baike.baidu.com/item/姚顺宇/23136709
现在来说Claude方面的
- 目前没有任何国产厂商指出Anthropic蒸馏他们,老实说这应该是一个比较小众的词吧
- 第一张图已经解释了我叫什么,这种自我身分认同,无法当作蒸馏的证据,连弱证据都称不上,更有可能是网络语料污染,之前codex不是常常跑出"娱乐城"等等的广告吗,如果蒸馏了国模,是不是内容敏感那一套也学走了呢?
- 强模型去蒸馏弱模型的输出等于负优化,如果国模的输出能比Claude更好,很简单那现在全世界都会转向使用国模,有时候不是你站哪一方,普通人只是想要最少的钱用到最好的东西罢了
可以看到底下的评论大部分的是情绪化输出,没逻辑没证据,随机抓个靶打,一口一个蒸馏,甚至还有人上升到民族自信虚荣心这些词汇了,说实话难道不是哪个好用就用哪个吗,国模又不是不收费,人家奥特曼还让你白嫖呢,搞这些宏大叙事还是过好自己比较重要吧。
10 个帖子 - 10 位参与者