简单谈谈近期使用GPT 5.5和5.4的感受。一点碎碎念

最近一个月5.5出了,然后大家都说5.5“说人话”提升很多,我去试用一下。感觉上,在大部分场景,这两模型能力区别不是很大。而且我更推荐使用5.4 而且大家说5.5更加说 人话 了。说实话,我体感上感觉还没啥感觉,也许是已经被5.4给训化,已经习惯了5.4的语气了。我反而感觉5.5它有个很大的致命缺陷...
简单谈谈近期使用GPT 5.5和5.4的感受。一点碎碎念
简单谈谈近期使用GPT 5.5和5.4的感受。一点碎碎念

最近一个月5.5出了,然后大家都说5.5“说人话”提升很多,我去试用一下。感觉上,在大部分场景,这两模型能力区别不是很大。而且我更推荐使用5.4 :laughing:
而且大家说5.5更加说人话了。说实话,我体感上感觉还没啥感觉,也许是已经被5.4给训化,已经习惯了5.4的语气了。我反而感觉5.5它有个很大的致命缺陷,就是它很容易过度执行或者过度自信
过度自信的问题就是:就比如说在有一定上下文的时候。问一个具体的名词的问题,按照5.4的逻辑,它肯定会去联网搜索一下,或者去盯一下代码,然后再给结果。但是5.5就觉得自己很懂,然后也不调用任何联网搜索,就直接给我回答。结果就很不可信。你必须得加一个,比如说给出过程,或者说先网页搜索提示词5.5才能去搜索。 :upside_down_face:
然后随之而来的附加问题就是,它有一种豆包的感觉,就是前面说过于自信的做完事,然后最后去给你认错。我只能说确实有一点说“人话”,但是我觉得这一点也不人话。像这种美国豆包了,这种体感是完全不行。 :sweat_smile:
那过度执行的问题就是,你可能在Agent这种测试上能得到更高分,理论上是one shot直接更省事了。但是如果又结合了过度自信的问题,实际上如果结果偏移了,它就浪费你一大堆时间重开,还不如一步一步把过程盯好。
而且5.5的上下文又没法开到1M,说实话有点短了,只能在一些小项目一次性搞定的任务。那说清需求5.5就比较能做,但是感觉我的使用场景还是5.4[1M]更好。
不知道大家怎么看,还是我的使用方法错了 :white_question_mark:
当然也有可能是我没法快速输入吧,所以给的需求不是特别充分。5.5这样也相当于反向是要求你自己去考虑好所有需求,然后再去执行,也是有益的

6 个帖子 - 6 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文