GPT-5.5在 DeepSWE 上远超 Claude Opus
DeepSWE DeepSWE DeepSWE measures frontier coding agents on original, long-horizon software engineering tasks. 跑分也就图一乐,真要比较还得自己亲自用过 AI 生成内容已用
DeepSWE - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 3 篇相关文章
DeepSWE DeepSWE DeepSWE measures frontier coding agents on original, long-horizon software engineering tasks. 跑分也就图一乐,真要比较还得自己亲自用过 AI 生成内容已用
9 个帖子 - 8 位参与者 阅读完整话题
推源: https://x.com/serenaa_ge/status/2059308218564890875 官方博客: DeepSWE 目前测试的模型排行榜: gemini-3.5-flash得分不如gpt 但是贵 1 个帖子 - 1 位参与者 阅读完整话题