kimi k2.6 benchmark分析（换成排名）

编辑部 2026-05-04T19:43:00.996800 12572 阅读 tech

官方的benchmark很全面，但是有点看不清楚，我换成排名的方式感觉更清楚点。生成表格的代码是AI写的。。想了想还是截图吧官方原始的benchmark： kimi.com Kimi K2.6 Tech Blog: Advancing Open-Source Coding Kimi K2.6 a...

kimi k2.6 benchmark分析（换成排名）

官方的benchmark很全面，但是有点看不清楚，我换成排名的方式感觉更清楚点。
生成表格的代码是AI写的。。想了想还是截图吧
官方原始的benchmark：

kimi.com

Kimi K2.6 Tech Blog: Advancing Open-Source Coding

Kimi K2.6 advances open-source coding, featuring long-horizon coding, coding-driven design, agent swarms, proactive agents, and the Claw Groups research preview.

总结

可以看出kimi k2.6不是总的第一哦，所以说k2.6只有跑分是不对的，因为跑分不是第一。
（opus4.6拉了是因为vision严重拖了后腿佬可以看下面的图）
其中有两个项目只有k2.6和k2.5。
各位佬可以看下面。

Agentic

这个表现很亮眼但是注意了这里其中两个榜只有k2.6和2.5

也可以看到opus几乎没掉出过前三（除了toolathlon是第四

Coding

coding只有SWE-Bench Pro第一了，这个是长任务，此前其他模型还没针对性优化长任务，比如opus 4.7也是重点优化了这个。但是也说明kimi k2.6针对长任务能更好工作（注意glm5.1这项分数是58.4 所以k2.6是开源第一了）

Reasoning & Knowledge

除去IMO-AnswerBench是第三 k2.6和k2.5包揽了最后两名
这项测试和第一梯队还有差距

Vision

没掉出前三大部分是第3
GPT这里的能力是真强大部分是第一
Opus分析的总排名拉就是因为Vision不太行基本垫底了

好了通过转化为rank的方式可以让佬更直观点看模型能力。
所以别说“只有跑分”这个站不住脚的结论啦～

再补一个个分类overall：

（agentic overall那里还是提醒下有两个测试只有k2.5和k2.6 踢掉的话 k2.6就不是第一了）

13 个帖子 - 7 位参与者

阅读完整话题

来源: linux.do查看原文

kimi k2.6 benchmark 换成排名一个帖子使用