你们说,DeepSeek V4会搞蒸馏小模型吗

去年DeepSeek R1出的时候,还出了好几个蒸馏小模型,基座是qwen2.5和llama3,现在v4也有思维链,大概不会有R2了,正好前端时间qwen3.5和qwen3.6出了,不知道会不会继续搞蒸馏小模型,当然最好是直接拿v4 pro做个小模型 1 个帖子 - 1 位参与者 阅读完整话题...
你们说,DeepSeek V4会搞蒸馏小模型吗
你们说,DeepSeek V4会搞蒸馏小模型吗

去年DeepSeek R1出的时候,还出了好几个蒸馏小模型,基座是qwen2.5和llama3,现在v4也有思维链,大概不会有R2了,正好前端时间qwen3.5和qwen3.6出了,不知道会不会继续搞蒸馏小模型,当然最好是直接拿v4 pro做个小模型

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文