新基准测试 DeepSWE 出炉 长时coding任务表现 gpt-5.5 登顶

推源: https://x.com/serenaa_ge/status/2059308218564890875 官方博客: DeepSWE 目前测试的模型排行榜: gemini-3.5-flash得分不如gpt 但是贵 1 个帖子 - 1 位参与者 阅读完整话题...
新基准测试 DeepSWE 出炉 长时coding任务表现 gpt-5.5 登顶
基准测试 DeepSWE 出炉 长时coding任务表现 gpt-5.5 登顶

推源:https://x.com/serenaa_ge/status/2059308218564890875

官方博客:DeepSWE

image

目前测试的模型排行榜:

image

image
image

image
gemini-3.5-flash得分不如gpt 但是贵

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文