
看图能大概看到长任务的表现 包括 后续写文档 - claude 的文档问题更多 / 更晚收敛。 收敛轮(round-2)gpt
的文档一审即净;不收敛的 3 处全在 claude
文档(沙箱"仲裁"没改、双层状态没贴全、N8 入参缺字段),而且这 3 处里 2
处是 claude 自评说"已闭"、gpt 才抓出来的——说明 claude 的自评可靠性偏低
- 机械修订没绞干净。
- gpt 更严谨:它的可追溯审计是带 file:line 的全矩阵(16
条),自己的文档改一轮就干净。 - 但 claude 有个真强项:那三条孤儿需求(gpt 矩阵标"已覆盖"、其实没人做)是
claude 抓出来的——它对"功能有没有落地"更敏感。 - 最大的量,还是我的顺序锅(影响两份文档),不该全算到他们头上。
一句话:claude 文档残留多 + 自评偏松,gpt
更稳更准;但根因第一位是我把"锁契约"放在了"写文档"后面。
1 个帖子 - 1 位参与者