简单谈谈近期使用GPT 5.5和5.4的感受。一点碎碎念

编辑部 2026-05-23T02:37:38.468478 22367 阅读 tech

最近一个月5.5出了，然后大家都说5.5“说人话”提升很多，我去试用一下。感觉上，在大部分场景，这两模型能力区别不是很大。而且我更推荐使用5.4 而且大家说5.5更加说人话了。说实话，我体感上感觉还没啥感觉，也许是已经被5.4给训化，已经习惯了5.4的语气了。我反而感觉5.5它有个很大的致命缺陷...

最近一个月5.5出了，然后大家都说5.5“说人话”提升很多，我去试用一下。感觉上，在大部分场景，这两模型能力区别不是很大。而且我更推荐使用5.4
而且大家说5.5更加说人话了。说实话，我体感上感觉还没啥感觉，也许是已经被5.4给训化，已经习惯了5.4的语气了。我反而感觉5.5它有个很大的致命缺陷，就是它很容易过度执行或者过度自信。
过度自信的问题就是：就比如说在有一定上下文的时候。问一个具体的名词的问题，按照5.4的逻辑，它肯定会去联网搜索一下，或者去盯一下代码，然后再给结果。但是5.5就觉得自己很懂，然后也不调用任何联网搜索，就直接给我回答。结果就很不可信。你必须得加一个，比如说给出过程，或者说先网页搜索提示词5.5才能去搜索。
然后随之而来的附加问题就是，它有一种豆包的感觉，就是前面说过于自信的做完事，然后最后去给你认错。我只能说确实有一点说“人话”，但是我觉得这一点也不人话。像这种美国豆包了，这种体感是完全不行。
那过度执行的问题就是，你可能在Agent这种测试上能得到更高分，理论上是one shot直接更省事了。但是如果又结合了过度自信的问题，实际上如果结果偏移了，它就浪费你一大堆时间重开，还不如一步一步把过程盯好。
而且5.5的上下文又没法开到1M，说实话有点短了，只能在一些小项目一次性搞定的任务。那说清需求5.5就比较能做，但是感觉我的使用场景还是5.4［1M］更好。
不知道大家怎么看，还是我的使用方法错了
当然也有可能是我没法快速输入吧，所以给的需求不是特别充分。5.5这样也相当于反向是要求你自己去考虑好所有需求，然后再去执行，也是有益的