有关codex 5.5的一些吐槽

不知道大家在用codex的时候有没有遇到这么一些情况…… 虚假测试 尤其是测试AI的时候。我前两天让5.5给我写个测试样例,当时想看claude opus在修bug的能力。然后codex说它做了一个修bug的测试,测出来效果异常的好。结果我一看,玩具项目不说,codex居然在README里写了所有b...
有关codex 5.5的一些吐槽
有关codex 5.5的一些吐槽

不知道大家在用codex的时候有没有遇到这么一些情况……

  1. 虚假测试
    尤其是测试AI的时候。我前两天让5.5给我写个测试样例,当时想看claude opus在修bug的能力。然后codex说它做了一个修bug的测试,测出来效果异常的好。结果我一看,玩具项目不说,codex居然在README里写了所有bug的位置和修复方法,等于是开卷,claude只要跟着做就能拿满分 :sweat_smile:
    感觉像是情境能力或者说带入能力不足吧。其他也有类似情况,就是很容易“出戏”,让他写一个文档,用它自己的视角还好,一旦跟它说“用XX的视角写一个文档”就很容把自己的视角混进去。

  2. 超级无敌魔数/硬编码修复
    这个是真的无语,我有一天在改一个AI系统,该系统偶尔会出现回应中英文混杂的情况,然后我说,或许应该在Prompt里加入一点英文约束。(当时是系统在最后一句里带上了英文的If you want)
    codex选择的做法是:prompt里写“严禁写If you want”,然后没了,然后没了???!!!
    半天之后我发现AI的修改之后我半口血都要吐出来了。。。其他地方也有倾向于用硬编码等维护性和有效性非常糟糕的修复方式。
    总结下来就是不太愿意去思考宏观的问题吧,感觉只要把手头问题解决了后续发生什么都不关它的事的这种感觉。当时5.4我体验还没有这么糟糕,到5.5的时候特别明显。

我觉得codex本身能力也还算不错,但是就这两个无论用什么skill和prompt去约束都无法抑制。相比于5.4的编程体验,反而是退步了。不知道各位有没有类似的情况或者有什么解决方案?

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文