DeepSeek v4，让我失望了(转载所见文章)

编辑部 2026-05-04T13:38:52.080022 38649 阅读 tech

DeepSeek v4好不好，到底有多好，和同行对比如何？一眼就能看出来。连接不同大模型，给aipy任务提示词：打开windows画图软件，控制鼠标，画一辆小汽车。接下来看图回答问题：谁的最丑？谁的最抽象？国外谁最好？国内谁最好？DeepSeek进步如何？谁进步最大？答对有奖！（非本人原帖写的...

DeepSeek v4好不好，到底有多好，和同行对比如何？一眼就能看出来。

连接不同大模型，给aipy任务提示词：

打开windows画图软件，控制鼠标，画一辆小汽车。接下来看图回答问题：谁的最丑？谁的最抽象？国外谁最好？国内谁最好？DeepSeek进步如何？谁进步最大？

答对有奖！（非本人原帖写的）

DeepSeek v4 Flash和 v3.2进步并不大，更抽象的是Pro比Flash差，收获了长记忆，失去了部分通识。

GLM5.1和Sonnet并列第一

GPT5.2也不行。QWen3.6本来不错，但出现了幻觉。

再看各家，为什么各家差异这么大？因为大模型能力取决于：训练数据大小，综合性，对世界通识的认知能力这需要数据成本、数据清晰成本训练显卡成本、耗电成本

能力和成本成正比，而任何企业都要算投入产出比，找均衡

因此很多大模型，是对某些方面擅长，损失通识，获得打比赛、场景专长处如何测试大模型通识能力，就是刚才这个测试，测试了这些能力：

知道什么是小汽车

知道如何描述小汽车

知道如何打开windows画图软件

知道如何控制鼠标

知道如何将小汽车描述，转变为鼠标操作

测试了大模型全面的能力。

因此高下一目了然。

DeepSeek v4 整体能力看起来是中间水平，但和期望值相比就让人失望了，不知道是算力原因，还是数据原因，知情的可以吱一声。

【各位大佬是怎么看待这个测试的()】

附上原帖地址https://mp.weixin.qq.com/s/yKDQwopbb_HMLCTUh73S-w

10 个帖子 - 9 位参与者

阅读完整话题

来源: linux.do查看原文

DeepSeek v4 失望转载文章一个帖子现在

DeepSeek v4，让我失望了(转载所见文章)

西门子将向罗马尼亚交付东欧首批氢能动车组，预计 2029 年投运

[分享创造] 我开发了一款滑动消除的游戏，请各位斧正，我来改进

相关推荐