DeepSeek V4 四个模式均失败：一次 552 秒长思考仍答错的解码测试

编辑部 2026-05-04T19:29:00.574720 4279 阅读 tech

从先前的帖子：DeepSeek专家模式真的专家吗 https://linux.do/t/topic/1923331?u=qxuan 继续讨论 DeepSeek V4 发布后，L站相关讨论挺热闹，刚好看到 qq1244 佬的公益站放出cdk了，遂让DeepSeek V4试试解密，结果几个模式下的表现有...

从先前的帖子：DeepSeek专家模式真的专家吗
https://linux.do/t/topic/1923331?u=qxuan
继续讨论

DeepSeek V4 发布后，L站相关讨论挺热闹，刚好看到 qq1244佬的公益站放出cdk了，遂让DeepSeek V4试试解密，结果几个模式下的表现有点意思，整理一下供大家参考。

在另一个话题中

公益站新域名：https://new-api.abrdns.com/
更新内容：上线deepseek-v4-flash和deepseek-v4-pro模型
推荐阅读
[Claude] 正确使用 claude 的姿势是什么？怎么能降低 Token 消耗

推荐阅读
[问与答] 大疆 Pocket 4 好难抢，是饥饿营销还是真缺货？

cdk：MS5hSFIwY0hNNkx5OWpaR3N1Ygo0Lk1qTXlMVFF6T1RVdFlUaGlPUwozLjJaUzgzWm1aa05tWmlaQzFoCjUuMW1ORE0zWkRrNU5EUXhOV009CjIuR2x1ZFhndVpHOHZjbVZqWlds

使用快速模式，启用智能搜索，不开启深度思考：

回复（点击了解更多详细信息）

答案错误

使用快速模式，启用智能搜索，开启深度思考：

已思考（用时552s）（点击了解更多详细信息）

答案错误

使用专家模式，启用智能搜索，不开启深度思考：

MS5hSFIwY0hNNkx5OWpaR3N1Ygo0Lk1qTXlMVFF6T1RVdFlUaGlPUwozLjJaUzgzWm1aa05tWmlaQzFoCjUuMW1ORE0zWkRrNU5EUXhOV009CjIuR2x1ZFhndVpHOHZjbVZqWlds帮我解出来

回复总结（点击了解更多详细信息）

答案错误

使用专家模式，启用智能搜索，开启深度思考：

已思考（用时39s）（点击了解更多详细信息）回复（点击了解更多详细信息）

答案错误

最值得注意的其实是“快速模式 + 深度思考”这一组：它思考了 552s，但最终仍然没有解对。这个 case 不是模型完全没有思路，相反，它很早就识别到了 Base64、分片、排序这些关键线索；问题在于，它没有用最直接、可复现的方式验证，而是陷入了大量手工推演、补 padding、猜字符、修正域名的过程。最后看起来推理很长，实际却是在错误分支里消耗了很久。

这也让我对“深度思考”多了一点保留：长时间思考并不等于可靠，尤其是编码、计算、格式校验这类问题。真正重要的不是它想了多久、过程写得多复杂，而是有没有把每一步落到可验证的结果上。一个 552s 的错误答案，比一个 5s 的错误答案更值得警惕，因为它更容易给人一种“它已经充分检查过了”的错觉。

最后的最后，个人的一些小总结吧：

我不是想否定 DeepSeek 的进步，论坛里很多佬友说它很强、要追赶这个那个模型，这种期待我也能理解。但具体到这个 case，几个模式都没有给出正确结果，甚至“快速模式 + 深度思考”跑了 552s 还是错的，至少说明我们在讨论“强不强”的时候，还是要把宏观印象和具体样本分开看。模型整体能力可以进步很快，但落到某个可验证的问题上，答案对不对、过程有没有复核，仍然是最基本的判断标准。叫好可以有，期待也可以有，只是别让热度本身替代了对结果的观察。

这里放下结果截图，主要是说明这个题本身有明确答案，不是主观判断。

8 个帖子 - 6 位参与者

阅读完整话题

来源: linux.do查看原文

DeepSeek V4 四个模式失败一个帖子使用

DeepSeek V4 四个模式均失败：一次 552 秒长思考仍答错的解码测试

[Claude] 正确使用 claude 的姿势是什么？怎么能降低 Token 消耗

[问与答] 大疆 Pocket 4 好难抢，是饥饿营销还是真缺货？

相关推荐