小米的mimo-v2.5-pro可能是蒸馏的Claude?
参加MiMo Orbit 计划送的api,第一次的时候它告诉我是Claude,我确定是mimo返回的,因为我刚添加的apikey,就问了这两个问题,扣了1500的token; 但我后面再测试,它又没问题了; 11 个帖子 - 11 位参与者 阅读完整话题
蒸馏 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 35 篇相关文章 · 第 1 / 2 页
参加MiMo Orbit 计划送的api,第一次的时候它告诉我是Claude,我确定是mimo返回的,因为我刚添加的apikey,就问了这两个问题,扣了1500的token; 但我后面再测试,它又没问题了; 11 个帖子 - 11 位参与者 阅读完整话题
实验室有个项目需要蒸馏GPT到开源模型,需要GPT的思维链。但是用api或者官网好像都蒸不到GPT的思维链?网页的那个是总结过后的,也看不到具体思考过程。求有相关经验的pro指点 6 个帖子 - 6 位参与者 阅读完整话题
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺
以后再有人说「我们的模型是完全自主研发的」,大家都会会心一笑:哦,原来是自主「蒸馏」的啊 量子位更多趣味解读: http://m.163.com/mobile/article_cambrian/KRRN4I110511DSSR.html 新量两家在大家所有人的眼里似乎都不是什么好
IT之家 5 月 1 日消息,AI 行业一场备受关注的法律战正在升级。当地时间 4 月 30 日,埃隆 · 马斯克在加州联邦法院作证时承认,他旗下初创公司 xAI 曾使用 OpenAI 的模型,帮助训练自家聊天机器人 Grok。 这番证词出现在马斯克起诉 OpenAI 及其 CE
最近在实验室上部署了Jackrong大佬的Qwopus3.6-27B-v1-preview,测试了一下效果很惊艳啊,开启的200k上下文,多模态,测试下来有几个我觉得挺不错的点: 在写天气卡片这种前端代码时不会过度思考,平均思考时间在几秒钟左右,然后就开始库吃库吃写,写出来的效果
简单说一下我遇到的事。和老虎中转站交易前,对方明确说外接 max 没有任何限制。等我付款、实际跑起来之后,各种限制就都出来了:限流,封号,死号,最后还全算到我头上。说白了,你前面不限制客户端使用,后面号死了,却要我来替你背风险,这个逻辑根本站不住。风险来了让我承担,钱你赚了却一句
这次我想说的重点,不是这类业务有没有风险,而是对方收钱前一套话,出事后一套话。 大家自己看,看完再决定要不要继续和这个人交易。 对方后来的核心说法 你自己选的高风险玩法,出事了别全怪别人。 外接max本来就贵、风险也高,你不是不知道。 敢跑蒸馏,就要接受可能被打号的结果。 赚钱的
any大善人在社区里么?gpt5.5这么猛,opus4.7这么拉,能不能换个模型蒸馏啊? 搞七捻三 any站长在社区了么?快蒸馏一下gpt5.5吧,怎么还在蒸馏5.3啊?别光顾着蒸A/的啊? 昨天发了个帖子,今天就上了。哈雷佬,是你么? 可以爽蹬了。 @Haleclipse 5
https://www.stheadline.com/realtime-finance/3567043 在公司摸鱼蒸馏模型卖给国内公司是吧。 A/的想像力无敌了。 真这么怕被蒸馏就别拿出来卖了,这样就没人能蒸馏了 7 个帖子 - 7 位参与者 阅读完整话题
any站长在社区了么?快蒸馏一下gpt5.5吧,怎么还在蒸馏5.3啊?别光顾着蒸A/的啊? 5 个帖子 - 5 位参与者 阅读完整话题
国外那些闭源大模型,国内的大模型厂商想蒸馏还有点麻烦,会被各种限制.而国内开源的大模型,对方闭源大模型厂商下载回去自己搭建,就可以最低成本开始蒸馏了..主动一个你开源送我数据,我闭源不送数据.. 这种好像无解. 2 个帖子 - 2 位参与者 阅读完整话题
不过豆包这调调,是蒸馏了GPT么 15 个帖子 - 10 位参与者 阅读完整话题
仅个人猜测,我怀疑各大厂商之间在互相传蒸馏到的数据,至于为什么他们发布时间不一样,我觉得是在于如何使用蒸馏的数据吧,以上均为猜测,不代表官方! 3 个帖子 - 3 位参与者 阅读完整话题
AI蒸馏人类数据,AI再蒸馏AI生成的数据,而人类正大量消费这些AI生产的内容(最常见的是AI短剧、小说、图片)。现阶段我们还能大致分辨,但未来呢?那些当下还没有分辨能力的孩子呢?每天被这样的内容所环绕、所熏陶,会不会悄悄重塑我们的行为与认知? 1 个帖子 - 1 位参与者 阅读
先故意弄些黑话污染一下,再刷一下跑分,等着Claude蒸馏,等opus被污染后发布优化版的5.5 11 个帖子 - 9 位参与者 阅读完整话题
去年DeepSeek R1出的时候,还出了好几个蒸馏小模型,基座是qwen2.5和llama3,现在v4也有思维链,大概不会有R2了,正好前端时间qwen3.5和qwen3.6出了,不知道会不会继续搞蒸馏小模型,当然最好是直接拿v4 pro做个小模型 1 个帖子 - 1 位参与者
白宫科技政策办公室(OSTP)发布第四号国家科技备忘录(NSTM-4),标题为「美国 AI 模型的对抗性蒸馏」,由 OSTP 主任 Michael J. Kratsios 签署。备忘录称美国政府掌握证据,主要来自中国的外国实体正在对美国前沿 AI 系统发动「蓄意的、工业级的」蒸馏
大家好,最近我们团队又开源了一个新项目,和大家分享一下 我们平时读长篇技术书、学术著作、小说,或者海量文档的时候, 最抓狂的痛点就是“怎么才能高效抓住精髓” 。直接扔给大模型总结? 要么上下文窗口一炸,丢三落四; 要么总结得“四平八稳”,但完全没按你的阅读意图来; 更别提结构、人
蒸馏的不小心露馅了吗 6 个帖子 - 5 位参与者 阅读完整话题