对比一下claude mythos和gpt 5.5目前已经有的官方测试跑分对比

有差距,但是考虑到定价,感觉差距一般般 甚至Terminal-Bench 2.0 mythos被反超了 swebench,openai有说a\有作弊的嫌疑 3 个帖子 - 3 位参与者 阅读完整话题...
对比一下claude mythos和gpt 5.5目前已经有的官方测试跑分对比
对比一下claude mythos和gpt 5.5目前已经有的官方测试跑分对比

image
有差距,但是考虑到定价,感觉差距一般般
甚至Terminal-Bench 2.0 mythos被反超了

swebench,openai有说a\有作弊的嫌疑

image

3 个帖子 - 3 位参与者

阅读完整话题

来源: linux.do查看原文