claude4.8和gpt5.5真实项目对比以及毛病

编辑部 2026-05-31T08:12:34.157567 19111 阅读 tech

看图能大概看到长任务的表现包括后续写文档 - claude 的文档问题更多 / 更晚收敛。收敛轮(round-2)gpt 的文档一审即净;不收敛的 3 处全在 claude 文档(沙箱"仲裁"没改、双层状态没贴全、N8 入参缺字段),而且这 3 处里 2 处是 claude 自评说"已闭"、g...

claude4.8和gpt5.5真实项目对比以及毛病 — claude4.8和gpt5.5 真实项目对比以及毛病

看图能大概看到长任务的表现包括后续写文档 - claude 的文档问题更多 / 更晚收敛。收敛轮(round-2)gpt
的文档一审即净;不收敛的 3 处全在 claude
文档(沙箱"仲裁"没改、双层状态没贴全、N8 入参缺字段),而且这 3 处里 2
处是 claude 自评说"已闭"、gpt 才抓出来的——说明 claude 的自评可靠性偏低

机械修订没绞干净。

gpt 更严谨:它的可追溯审计是带 file:line 的全矩阵(16
条),自己的文档改一轮就干净。
但 claude 有个真强项:那三条孤儿需求(gpt 矩阵标"已覆盖"、其实没人做)是
claude 抓出来的——它对"功能有没有落地"更敏感。
最大的量,还是我的顺序锅(影响两份文档),不该全算到他们头上。

一句话:claude 文档残留多 + 自评偏松,gpt
更稳更准;但根因第一位是我把"锁契约"放在了"写文档"后面。

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

claude4.8 gpt5.5 真实项目对比一个帖子现在

claude4.8和gpt5.5真实项目对比以及毛病

[生活] 求救，这样的婚姻，还有必要坚持吗？从来没有对谁倾诉过，实在内耗得不行了。

[生活] 和 Gemini 聊了四个小时，现在感觉在大学去上课就是浪费时间

相关推荐