个人觉得国产大模型代码能力和跑分能力严重不符

无论是之前对标opus的智谱还是大家翘首以盼的deepseek,代码能力(不是跑什么天气卡片这种模板代码、而是真的在项目中给它一个屎山让它实现需求)使用上和御三家还是有区别的。之前看到一个帖子,说在某个内部榜单中deepseekv4pro约等于gpt5,我感觉这个比较合理,感觉国产大模型都是对跑分进...
个人觉得国产大模型代码能力和跑分能力严重不符
个人觉得国产大模型代码能力和跑分能力严重不符

无论是之前对标opus的智谱还是大家翘首以盼的deepseek,代码能力(不是跑什么天气卡片这种模板代码、而是真的在项目中给它一个屎山让它实现需求)使用上和御三家还是有区别的。之前看到一个帖子,说在某个内部榜单中deepseekv4pro约等于gpt5,我感觉这个比较合理,感觉国产模型都是对跑分进行特调了,大家觉得呢。或者有什么比较不容易被厂家特调的跑分榜单推荐吗?

4 个帖子 - 4 位参与者

阅读完整话题

来源: linux.do查看原文