从先前的帖子:DeepSeek专家模式真的专家吗
https://linux.do/t/topic/1923331?u=qxuan
继续讨论
DeepSeek V4 发布后,L站相关讨论挺热闹,刚好看到 qq1244佬的公益站放出cdk了,遂让DeepSeek V4试试解密,结果几个模式下的表现有点意思,整理一下供大家参考。
公益站新域名:https://new-api.abrdns.com/
更新内容:上线deepseek-v4-flash和deepseek-v4-pro模型![]()
cdk:MS5hSFIwY0hNNkx5OWpaR3N1Ygo0Lk1qTXlMVFF6T1RVdFlUaGlPUwozLjJaUzgzWm1aa05tWmlaQzFoCjUuMW1ORE0zWkRrNU5EUXhOV009CjIuR2x1ZFhndVpHOHZjbVZqWlds
使用快速模式,启用智能搜索,不开启深度思考:
回复 (点击了解更多详细信息)
答案错误
使用快速模式,启用智能搜索,开启深度思考:
已思考(用时552s) (点击了解更多详细信息)
答案错误
使用专家模式,启用智能搜索,不开启深度思考:
回复 总结 (点击了解更多详细信息)MS5hSFIwY0hNNkx5OWpaR3N1Ygo0Lk1qTXlMVFF6T1RVdFlUaGlPUwozLjJaUzgzWm1aa05tWmlaQzFoCjUuMW1ORE0zWkRrNU5EUXhOV009CjIuR2x1ZFhndVpHOHZjbVZqWlds帮我解出来
答案错误
使用专家模式,启用智能搜索,开启深度思考:
已思考(用时39s) (点击了解更多详细信息)
回复 (点击了解更多详细信息)
答案错误
最值得注意的其实是“快速模式 + 深度思考”这一组:它思考了 552s,但最终仍然没有解对。这个 case 不是模型完全没有思路,相反,它很早就识别到了 Base64、分片、排序这些关键线索;问题在于,它没有用最直接、可复现的方式验证,而是陷入了大量手工推演、补 padding、猜字符、修正域名的过程。最后看起来推理很长,实际却是在错误分支里消耗了很久。
这也让我对“深度思考”多了一点保留:长时间思考并不等于可靠,尤其是编码、计算、格式校验这类问题。真正重要的不是它想了多久、过程写得多复杂,而是有没有把每一步落到可验证的结果上。一个 552s 的错误答案,比一个 5s 的错误答案更值得警惕,因为它更容易给人一种“它已经充分检查过了”的错觉。
最后的最后,个人的一些小总结吧:
我不是想否定 DeepSeek 的进步,论坛里很多佬友说它很强、要追赶这个那个模型,这种期待我也能理解。但具体到这个 case,几个模式都没有给出正确结果,甚至“快速模式 + 深度思考”跑了 552s 还是错的,至少说明我们在讨论“强不强”的时候,还是要把宏观印象和具体样本分开看。模型整体能力可以进步很快,但落到某个可验证的问题上,答案对不对、过程有没有复核,仍然是最基本的判断标准。叫好可以有,期待也可以有,只是别让热度本身替代了对结果的观察。
这里放下结果截图,主要是说明这个题本身有明确答案,不是主观判断。
8 个帖子 - 6 位参与者
