claude4.8和gpt5.5真实项目对比以及毛病

看图能大概看到长任务的表现 包括 后续写文档 - claude 的文档问题更多 / 更晚收敛。 收敛轮(round-2)gpt 的文档一审即净;不收敛的 3 处全在 claude 文档(沙箱"仲裁"没改、双层状态没贴全、N8 入参缺字段),而且这 3 处里 2 处是 claude 自评说"已闭"、g...
claude4.8和gpt5.5真实项目对比以及毛病
claude4.8gpt5.5真实项目对比以及毛病

3b8ac43c968c814c8cc09ce0c1e53130
看图能大概看到长任务的表现 包括 后续写文档 - claude 的文档问题更多 / 更晚收敛。 收敛轮(round-2)gpt
的文档一审即净;不收敛的 3 处全在 claude
文档(沙箱"仲裁"没改、双层状态没贴全、N8 入参缺字段),而且这 3 处里 2
处是 claude 自评说"已闭"、gpt 才抓出来的——说明 claude 的自评可靠性偏低

  • 机械修订没绞干净。
  • gpt 更严谨:它的可追溯审计是带 file:line 的全矩阵(16
    条),自己的文档改一轮就干净。
  • 但 claude 有个真强项:那三条孤儿需求(gpt 矩阵标"已覆盖"、其实没人做)是
    claude 抓出来的——它对"功能有没有落地"更敏感。
  • 最大的量,还是我的顺序锅(影响两份文档),不该全算到他们头上。

一句话:claude 文档残留多 + 自评偏松,gpt
更稳更准;但根因第一位是我把"锁契约"放在了"写文档"后面。

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文