最近经常看到有帖子回复说「 GPT 5.5 比 Claude Opus 强得多」「 GPT 5.5 更全能」(例如 t/1217986 )。
但就我最近几周的使用体验,我感觉 GPT 5.5 相当不如人意啊。具体来说:
-
口癖和英文直译腔特别严重。虽然说比之前的 GPT 5.2~5.4 好一些,但也真的只是好一些,还是特别喜欢说「稳」「接」「拆」「跑」「闭环」「收敛」「它更像是……」「不是……而是……」「你说得完全正确」「先说结论」「列出“子弹”」「修改更“硬”」「要不要我……」「我立马开始……」。我尝试写了个 Skill 来试图修复它的回复风格,但也没有太大收益;
-
结构化表达能力不行。例如同样是对于一个代码仓库,询问一个需要深入代码研究的问题,Opus 4.8 能够简洁地以一两句话回复 Yes or No ,但 GPT 5.5 就要生成几千 tokens 的、包含四五点小标题的冗长回答,引用一大坨代码,而且每个分点的内容之间相互重叠,读起来心智负担特别高,而且相比于 Opus 的答案,也没有获得什么额外的有效信息量。
-
擅自动手,干一大堆根本没有要求的任务。这个我原以为只有 Gemini 之类的模型会犯,但最近 GPT 5.5 也开始频繁出现了:让他看个 review ,讨论一下如何解决,它直接自作主张一口气「阅读了 review 、研究了代码、选择了自己喜欢的解决方案、编写了 AI review 回复」。要不是我及时掐断,它都要调用 GitHub cli ,以我的身份去回复别人了; 还有一次,要求它「阅读一个 bug 描述、定位代码问题」,结果它非要和我讨论「这个 bug 报告的英文措辞不对,应该如何改善」,就很……
-
代码风格很差。这个我不知道怎么描述,但是同样让 GPT 和 Opus 去写一个一两千行左右的复杂代码任务,GPT 给我写的代码总是包含几十个零碎函数、一大堆无用的小作文注释、不对称的代码结构(例如有两个 Config 概念,GPT 非要写出一个
struct、一个class)。这些也都算好的了,毕竟「又不是不能用」,关键是它写着写着会把自己也给绕进去,淹没在自己写的屎山注释和混乱结构里,最后失能得连自己写的细节都忘记了,debug 都做不好了;
而 Opus 不仅写出来的代码更有「人味」、符合我的预期,甚至有能力修复重构 GPT 写出的屎山,延长 GPT 的工作周期。有一次:GPT 5.5 挣扎两个小时,然后告诉我做不好的任务,Opus 花 15 分钟定位、直接几行代码解决了。
总之,我目前的体感能力大概是:
Opus 4.8 ≈ Opus 4.6 >> Opus 4.7 > GPT 5.5 ≈ MiMo 2.5 Pro >> GPT 5.2~5.4 >> Gemini 3.1 Pro
我的配置:OpenCode + ChatGPT Pro 官方订阅(无中转站),GPT 5.5 xhigh
如果各位有舒适的使用体验,也欢迎分享点 Harness 方面的干货,我是真没辙了。昨晚项目被 GPT 5.5 乱改一通,气得血压都高了