项目
这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。
本轮与上两轮评测的项目和环境都完全一致:
模型来源
- Kimi K2.6: 官方 API
速度
排名 模型 时间(分钟) 备注 1 Grok 4.20 0309 Reasoning 3 2 Minimax M2.1 5 3 Minimax M2.5 6 4 Step-3.5-Flash 6 5 Mimo V2 Omni 7 6 Doubao-Seed-2.0-Lite 7 7 GPT-5.4(low) 8 8 Doubao-Seed-2.0-Pro 9 9 Doubao-Seed-2.0-Code 9 10 Qwen3-Coder-Next 9 11 Claude Sonnet 4.6(high) 9 12 Qwen3.5-Plus 9 13 GLM-5 Turbo 10 14 Minimax M2.7 10 Highspeed 版本 15 Qwen3.5-Flash 10 16 GPT-5.3-Codex(medium) 10 17 Gemini 3 Pro 11 18 Kimi K2.5 11 19 GLM 4.7 12 20 GPT-5.4(high) 14 21 Mimo V2 Pro 15 22 Claude Opus 4.5 15 23 Claude Sonnet 4.5 16 24 GPT-5.3-Codex(high) 16 触发了一次上下文压缩 25 GPT-5.3-Codex(xhigh) 16 26 GPT-5.4(medium) 17 27 GPT-5.4(xhigh) 18 28 Claude-Opus-4.7(Max) 20 29 GLM-5 20 30 DeppSeek V3.2 22 31 Gemini 3 Flash 22 32 KAT-Coder-Pro V2 24 33 GPT 5.2(xhigh) 25 34 Claude-Opus-4.6(Max) 26 35 Gemini 3.1 Pro(high) 29 受 429 请求频率限制影响 36 Kimi K2.6 33 37 Qwen3.5 9B GGUF Q4_K_XL 35 MBP M4 Pro 48GB 本地部署 38 Qwen3.5 35B A3B GGUF Q4_K_XL 36 MBP M4 Pro 48GB 本地部署令牌数
- Kimi K2.6: 9.9M(¥8.63, 输出 ¥2.07 + 缓存输入 ¥5.346 + 无缓存输入 ¥1.22)
代码行数
- Kimi K2.6: +1422, -13
完成度
Kimi K2.6
审查结论:
详细 (点击了解更多详细信息)代码质量
最终总结
排名 模型/层级 说明 Tier 0 该等级的模型实现与线上基线高度一致。 1 GPT 5.4(xhigh) 2 GPT 5.2(xhigh) 3 GPT-5.3-Codex(xhigh) Tier 1 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。 4 GPT 5.4(high) 5 GPT 5.4(medium) 6 Kimi K2.6 7 GPT-5.3-Codex(high) 8 GPT-5.3-Codex(medium) 9 Claude Opus 4.6(Max) 10 GPT 5.2(medium) 11 GPT 5.4(low) 12 GPT 5.2 Codex(xhigh) 13 Claude Opus 4.5 14 Claude Sonnet 4.5 Tier 2 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。 15 GLM 5.1 16 GLM 5 17 Kimi K2.5 18 Claude Sonnet 4.6(high) 19 Qwen3.5-Plus 20 KAT-Coder-Pro V2 Tier 3 该等级的模型的问题很多且无法编译,或者存在不少幻觉。 21 Claude Opus 4.7(Max) 22 GLM 5 Turbo 23 GLM 4.7 24 Gemini 3.1 Pro(high) 25 Mimo V2 Pro 26 Mimo V2 Omni 27 Minimax M2.7 28 Minimax M2.5 29 Step-3.5-Flash 30 Qwen3-Coder-Next 31 Gemini 3 Pro 32 Gemini 3 Flash 33 Doubao-Seed-2.0-Code 34 Doubao-Seed-2.0-Pro 35 Doubao-Seed-2.0-Lite 36 Qwen3.5-Flash 37 Qwen3.5 35B A3B GGUF Q4_K_XL 38 Qwen3.5 9B GGUF Q4_K_XL 39 Grok 4.20 0309 Reasoning 40 DeepSeek V3.2 41 Minimax M2.1 42 GPT 5.1 Codex mini(medium)体外话:很多人想知道 Qwen 3.6 全系列的评测,其实全系列都已测试过,但均未有很好的成绩,几乎都有一点编译错误,所以就不额外发帖了。如果你玩端侧的话,推荐 Qwen3.6 35B A3B 这个模型,质量确实非常不错。
- Kimi K2.6 花费的时间是 33 分钟,这个速度可以说很慢了,对比 GPT-5.4(medium) 的话慢了一倍,但对比 Opus 4.6(Max) 只慢了 20% 左右。
- 总花费接近一千万 Token,使用 API 的成本为 8.63 人民币,这个花费不算非常高也谈不上便宜,但比 GLM 5.1 的价格要便宜一点。
- 缓存命中效果不错,大约 90% 的输入都命中了缓存。
- Kimi K2.6 做对了绝大部分模型都未做对的系统注册和入口函数的改写,别看这两个改动都只需要一句代码,但是 GPT 与 Claude 的差距几乎总在这里,因为需求案是没有主动提到这两点的,属于是项目框架和已有功能的改进,如果模型不深入阅读代码库,则不会知道要写这两行代码。
- 另一个模型常犯的协议类型映射问题,Kimi K2.6 也做对了。
- 而以上两点 Opus 4.6 均未正确实现,当然 Opus 4.6 还有其它一些小问题,Kimi K2.6 也犯了几个小问题,但是以上两点决定了这个需求是否基本正确,是更重要的。
- GPT 5.3 Codex High 与 Medium 这两个思考程度的模型,有一个未写对协议类型映射,有一个犯了一两个小问题,其实将 Kimi K2.6 排在它们前面或者后面都说得过去,我认为水平接近。
- 综合以上几点,并再综合我非常高兴终于有一个国产模型可以踏入 T1 行列,所以虽然水平相当,但我还是把 Kimi K2.6 排在 GPT 5.3 Codex 的前面!
- 不敢相信,以为这一刻会来的更晚,但它确实来了!
- 所有模型均采用一次过的方式完成测评,所以可能存在偶然性,大家可以积极试一试 Kimi K2.6,看看它的表现是否能达到评测的水平,期待你的反馈!
本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。
24 个帖子 - 11 位参与者