记一次对 Kimi K2.6 的真实项目需求的横向评测（首个 T1 榜国产模型）

编辑部 2026-05-04T16:51:29.398278 12815 阅读 tech

项目这是一个 Unity C# 项目，我进行测试的是一份皮肤系统需求案，我已经做了好预制体，而模型需要编写代码。本轮与上两轮评测的项目和环境都完全一致：第一轮 … 第十轮模型来源 Kimi K2.6: 官方 API 速度排名模型时间（分钟）备注 1 Grok 4.20 0309 Re...

项目

这是一个 Unity C# 项目，我进行测试的是一份皮肤系统需求案，我已经做了好预制体，而模型需要编写代码。

本轮与上两轮评测的项目和环境都完全一致：

模型来源

Kimi K2.6: 官方 API

速度

排名模型时间（分钟）备注 1 Grok 4.20 0309 Reasoning 3 2 Minimax M2.1 5 3 Minimax M2.5 6 4 Step-3.5-Flash 6 5 Mimo V2 Omni 7 6 Doubao-Seed-2.0-Lite 7 7 GPT-5.4(low) 8 8 Doubao-Seed-2.0-Pro 9 9 Doubao-Seed-2.0-Code 9 10 Qwen3-Coder-Next 9 11 Claude Sonnet 4.6(high) 9 12 Qwen3.5-Plus 9 13 GLM-5 Turbo 10 14 Minimax M2.7 10 Highspeed 版本 15 Qwen3.5-Flash 10 16 GPT-5.3-Codex(medium) 10 17 Gemini 3 Pro 11 18 Kimi K2.5 11 19 GLM 4.7 12 20 GPT-5.4(high) 14 21 Mimo V2 Pro 15 22 Claude Opus 4.5 15 23 Claude Sonnet 4.5 16 24 GPT-5.3-Codex(high) 16 触发了一次上下文压缩 25 GPT-5.3-Codex(xhigh) 16 26 GPT-5.4(medium) 17 27 GPT-5.4(xhigh) 18 28 Claude-Opus-4.7(Max) 20 29 GLM-5 20 30 DeppSeek V3.2 22 31 Gemini 3 Flash 22 32 KAT-Coder-Pro V2 24 33 GPT 5.2(xhigh) 25 34 Claude-Opus-4.6(Max) 26 35 Gemini 3.1 Pro(high) 29 受 429 请求频率限制影响 36 Kimi K2.6 33 37 Qwen3.5 9B GGUF Q4_K_XL 35 MBP M4 Pro 48GB 本地部署 38 Qwen3.5 35B A3B GGUF Q4_K_XL 36 MBP M4 Pro 48GB 本地部署

令牌数

Kimi K2.6: 9.9M(¥8.63, 输出 ¥2.07 + 缓存输入 ¥5.346 + 无缓存输入 ¥1.22)

代码行数

Kimi K2.6: +1422, -13

完成度

Kimi K2.6

审查结论:

详细（点击了解更多详细信息）

代码质量

最终总结

排名模型/层级说明 Tier 0 该等级的模型实现与线上基线高度一致。 1 GPT 5.4(xhigh) 2 GPT 5.2(xhigh) 3 GPT-5.3-Codex(xhigh) Tier 1 该等级的模型的代码正确完整且可编译，仅少量边界问题或轻微不一致。 4 GPT 5.4(high) 5 GPT 5.4(medium) 6 Kimi K2.6 7 GPT-5.3-Codex(high) 8 GPT-5.3-Codex(medium) 9 Claude Opus 4.6(Max) 10 GPT 5.2(medium) 11 GPT 5.4(low) 12 GPT 5.2 Codex(xhigh) 13 Claude Opus 4.5 14 Claude Sonnet 4.5 Tier 2 该等级的模型的代码至少可编译或仅极少量的语法错误，但是存在明显功能错误、遗漏或与需求/线上不一致。 15 GLM 5.1 16 GLM 5 17 Kimi K2.5 18 Claude Sonnet 4.6(high) 19 Qwen3.5-Plus 20 KAT-Coder-Pro V2 Tier 3 该等级的模型的问题很多且无法编译，或者存在不少幻觉。 21 Claude Opus 4.7(Max) 22 GLM 5 Turbo 23 GLM 4.7 24 Gemini 3.1 Pro(high) 25 Mimo V2 Pro 26 Mimo V2 Omni 27 Minimax M2.7 28 Minimax M2.5 29 Step-3.5-Flash 30 Qwen3-Coder-Next 31 Gemini 3 Pro 32 Gemini 3 Flash 33 Doubao-Seed-2.0-Code 34 Doubao-Seed-2.0-Pro 35 Doubao-Seed-2.0-Lite 36 Qwen3.5-Flash 37 Qwen3.5 35B A3B GGUF Q4_K_XL 38 Qwen3.5 9B GGUF Q4_K_XL 39 Grok 4.20 0309 Reasoning 40 DeepSeek V3.2 41 Minimax M2.1 42 GPT 5.1 Codex mini(medium)

体外话：很多人想知道 Qwen 3.6 全系列的评测，其实全系列都已测试过，但均未有很好的成绩，几乎都有一点编译错误，所以就不额外发帖了。如果你玩端侧的话，推荐 Qwen3.6 35B A3B 这个模型，质量确实非常不错。

Kimi K2.6 花费的时间是 33 分钟，这个速度可以说很慢了，对比 GPT-5.4(medium) 的话慢了一倍，但对比 Opus 4.6(Max) 只慢了 20% 左右。
总花费接近一千万 Token，使用 API 的成本为 8.63 人民币，这个花费不算非常高也谈不上便宜，但比 GLM 5.1 的价格要便宜一点。
缓存命中效果不错，大约 90% 的输入都命中了缓存。
Kimi K2.6 做对了绝大部分模型都未做对的系统注册和入口函数的改写，别看这两个改动都只需要一句代码，但是 GPT 与 Claude 的差距几乎总在这里，因为需求案是没有主动提到这两点的，属于是项目框架和已有功能的改进，如果模型不深入阅读代码库，则不会知道要写这两行代码。
另一个模型常犯的协议类型映射问题，Kimi K2.6 也做对了。
而以上两点 Opus 4.6 均未正确实现，当然 Opus 4.6 还有其它一些小问题，Kimi K2.6 也犯了几个小问题，但是以上两点决定了这个需求是否基本正确，是更重要的。
GPT 5.3 Codex High 与 Medium 这两个思考程度的模型，有一个未写对协议类型映射，有一个犯了一两个小问题，其实将 Kimi K2.6 排在它们前面或者后面都说得过去，我认为水平接近。
综合以上几点，并再综合我非常高兴终于有一个国产模型可以踏入 T1 行列，所以虽然水平相当，但我还是把 Kimi K2.6 排在 GPT 5.3 Codex 的前面！
不敢相信，以为这一刻会来的更晚，但它确实来了！
所有模型均采用一次过的方式完成测评，所以可能存在偶然性，大家可以积极试一试 Kimi K2.6，看看它的表现是否能达到评测的水平，期待你的反馈！

本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。

24 个帖子 - 11 位参与者

阅读完整话题

来源: linux.do查看原文

一次 Kimi K2.6 真实项目一个帖子使用

记一次对 Kimi K2.6 的真实项目需求的横向评测（首个 T1 榜国产模型）

项目

模型来源

速度

令牌数

代码行数

完成度

Kimi K2.6

[推广] 出 cladue 官 key 直连带质保 or 官转； gemini t3 官 key； openai 官 key 低价勿扰

[生活] 城巴佬——城市中产在消费劳动表演

代码质量

最终总结

相关推荐