记一次对 DeepSeek V4 全系列 vs GPT 5.5 全系列真实项目需求的横向评测

编辑部 2026-05-04T18:09:12.886409 48366 阅读 tech

项目这是一个 Unity C# 项目，我进行测试的是一份皮肤系统需求案，我已经做了好预制体，而模型需要编写代码。本轮与上两轮评测的项目和环境都完全一致：第一轮 … 第十一轮模型来源 DeepSeek V4 系列: 官方 API GPT 5.5 系列: GPT Plus Codex 速度排名...

项目

这是一个 Unity C# 项目，我进行测试的是一份皮肤系统需求案，我已经做了好预制体，而模型需要编写代码。

本轮与上两轮评测的项目和环境都完全一致：

模型来源

DeepSeek V4 系列: 官方 API
GPT 5.5 系列: GPT Plus Codex

速度

排名模型时间（分钟）备注 1 Grok 4.20 0309 Reasoning 3 2 Minimax M2.1 5 3 Minimax M2.5 6 4 Step-3.5-Flash 6 5 Mimo V2 Omni 7 6 Doubao-Seed-2.0-Lite 7 7 GPT-5.4(low) 8 8 Doubao-Seed-2.0-Pro 9 9 Doubao-Seed-2.0-Code 9 10 Qwen3-Coder-Next 9 11 Claude Sonnet 4.6(high) 9 12 Qwen3.5-Plus 9 13 GLM-5 Turbo 10 14 Minimax M2.7 10 Highspeed 版本 15 Qwen3.5-Flash 10 16 GPT-5.3-Codex(medium) 10 17 Gemini 3 Pro 11 18 Kimi K2.5 11 19 GLM 4.7 12 20 GPT-5.5(low) 13 21 GPT-5.4(high) 14 22 GPT-5.5(medium) 15 23 Mimo V2 Pro 15 24 Claude Opus 4.5 15 25 Claude Sonnet 4.5 16 26 GPT-5.3-Codex(high) 16 触发了一次上下文压缩 27 GPT-5.3-Codex(xhigh) 16 28 GPT-5.4(medium) 17 29 DeepSeek V4 Flash 17 30 GPT-5.4(xhigh) 18 31 GPT-5.5(high) 19 32 Claude-Opus-4.7(Max) 20 33 GLM-5 20 34 DeepSeek V4 Pro 21 35 DeppSeek V3.2 22 36 Gemini 3 Flash 22 37 KAT-Coder-Pro V2 24 38 GPT 5.2(xhigh) 25 39 Claude-Opus-4.6(Max) 26 40 GPT-5.5(xhigh) 28 41 Gemini 3.1 Pro(high) 29 受 429 请求频率限制影响 42 Kimi K2.6 33 43 Qwen3.5 9B GGUF Q4_K_XL 35 MBP M4 Pro 48GB 本地部署 44 Qwen3.5 35B A3B GGUF Q4_K_XL 36 MBP M4 Pro 48GB 本地部署

令牌数

DeepSeek V4 Pro(max): 无法准确得知
DeepSeek V4 Flash(max): 无法准确得知
GPT 5.5 系列: 无法得知

代码行数

DeepSeek V4 Pro(max): +1340, -10
DeepSeek V4 Flash(max): +1167, -7
GPT 5.5(xhigh): +1599, -15
GPT 5.5(high): +1234, -6
GPT 5.5(medium): +1142, -15
GPT 5.5(low): +728, -135（貌似动用了命令行编辑文件而不是工具）

完成度

DeepSeek V4 Pro(max)

审查结论: 存在常犯错误，未完成部分功能。

详细（点击了解更多详细信息）

DeepSeek V4 Flash(max)

审查结论: 存在编译错误，存在幻觉，功能实现不完整。

详细（点击了解更多详细信息）

GPT-5.5(xhigh)

审查结论: 完整实现所有功能。

详细（点击了解更多详细信息）

GPT-5.5(high)

审查结论: 一点小错误，功能实现完整。

详细（点击了解更多详细信息）

GPT-5.5(medium)

审查结论: 有一个常见错误和一个功能未实现。

详细（点击了解更多详细信息）

GPT-5.5(low)

审查结论: 三个功能点未实现。

详细（点击了解更多详细信息）

最终总结

排名模型/层级说明 Tier 0 该等级的模型实现与线上基线高度一致。 1 GPT 5.5(xhigh) 1 GPT 5.4(xhigh) 2 GPT 5.2(xhigh) 3 GPT-5.3-Codex(xhigh) Tier 1 该等级的模型的代码正确完整且可编译，仅少量边界问题或轻微不一致。 4 GPT 5.5(high) 4 GPT 5.4(high) 5 GPT 5.4(medium) 6 Kimi K2.6 7 GPT 5.5(low) 8 GPT 5.5(medium) 9 GPT-5.3-Codex(high) 10 GPT-5.3-Codex(medium) 11 Claude Opus 4.6(Max) 12 GPT 5.2(medium) 13 GPT 5.4(low) 14 GPT 5.2 Codex(xhigh) 15 Claude Opus 4.5 16 Claude Sonnet 4.5 Tier 2 该等级的模型的代码至少可编译或仅极少量的语法错误，但是存在明显功能错误、遗漏或与需求/线上不一致。 17 GLM 5.1 18 GLM 5 19 Kimi K2.5 20 Claude Sonnet 4.6(high) 21 Qwen3.5-Plus 22 KAT-Coder-Pro V2 23 DeepSeek V4 Pro(max) Tier 3 该等级的模型的问题很多且无法编译，或者存在不少幻觉。 24 DeepSeek V4 Flash(max) 25 Claude Opus 4.7(Max) 26 GLM 5 Turbo 27 GLM 4.7 28 Gemini 3.1 Pro(high) 29 Mimo V2 Pro 30 Mimo V2 Omni 31 Minimax M2.7 32 Minimax M2.5 33 Step-3.5-Flash 34 Qwen3-Coder-Next 35 Gemini 3 Pro 36 Gemini 3 Flash 37 Doubao-Seed-2.0-Code 38 Doubao-Seed-2.0-Pro 39 Doubao-Seed-2.0-Lite 40 Qwen3.5-Flash 41 Qwen3.5 35B A3B GGUF Q4_K_XL 42 Qwen3.5 9B GGUF Q4_K_XL 43 Grok 4.20 0309 Reasoning 44 DeepSeek V3.2 45 Minimax M2.1 46 GPT 5.1 Codex mini(medium)

等待已久，DeepSeek V4 终于在昨天发布，其实昨天早上已经跑出了成绩，但是忙到今天才有时间编辑帖子。

在这期间，我看了很多对它的评测或者排行榜，其中就有 toyama nao 的逻辑和代码评测，对其的评价都超过了 Kimi K2.6 和 GLM 5.1，但很遗憾，在这个需求上，DeepSeek 的表现远不如预期。

起初，V4 表现出来的工作流程确实和 V3.2 有明显不同，与排行靠前的模型一样，它会先全盘阅读代码并进行思考，然后再进行编码。
但是，V4 Pro 对于两个常错点都没有做对，那么基本意味着它只能屈居于 T2，除了完成度极高（就像 Claude 模型）的话，才可能能够被放在 T1 级别。
最终，V4 Pro 的完成度不高，包括协议类型转换在内的多个功能点都没有完成，最终只能被放在 T2 级别。
惊讶的是，V4 Flash 完成了入口与系统注册两个功能点，协议类型转换也意识到了需要去做，但是实现是错的，零散的未实现的细节比较多，最终由于幻觉导致使用了不存在的属性，编译失败，最终只能被放在 T3 级别。
我对比了一下 V4 Flash 和 Opus 4.7(Max)，V4 Flash 甚至做的要更好一点，所以它代替了 Opus 4.7 成为了新的 T3 领衔者，万万没想到 Opus 4.7 在 T3 级别待的时间这么短。

DeepSeek V4、Kimi K2.6 和 Opus 4.7 这几个都是评价褒贬不一，表现众说纷纭，大家实测为真。

接下来是几乎同一时间发布的 GPT-5.5，一般代码审查都是用 GPT 当时最好的模型去做的，所以为了避免自己人帮自己人，都是会用 Claude 模型再做一次审查，这次则是 GPT-5.5(xhigh) 和 Claude Opus 4.7(max)。

作为主力使用也有差不多一天了，GPT 5.5 的口癖貌似确实得到了改善，现在的总结简单、直接，用词也更加平常，之前简单的问题被长篇大论描述地一头雾水的情况貌似也没有了。
GPT 5.5(xhigh) 经过两次审查，依然无懈可击，找不到任何可被验证的错误点，毋庸置疑的 T0 级别。
GPT 5.5(high) 的表现与 GPT 5.4(high) 差距不大，功能实现完整，只有一些小细节问题，最终被放在 T1 级别。
GPT 5.5 的 medium 和 low 思考程度下完成度相差不多， medium 未完成协议类型转换但小错误少，low 完成了协议类型转换但小错误多，这可能是偶然做对的，但由于协议类型转换在这个评测里份量比较重，所以 medium 被放在了 low 后面。
我使用的 Plus 账号在不使用 Fast 层级的情况下，速度好像有所下降（之前也是标准层级进行评测），XHigh 比 5.4 甚至慢了 10 分钟。

总结，GPT 依然领先，且差距不小，那这篇帖子所谓的 “VS”，也是有一点标题党了，毕竟对手是实力相当，这两个…

但官方应该知道现在的 DeepSeek V4 有些许问题，所以还是预览版，希望能加快迭代脚步。并且价格方面在下半年大幅下降后，这个推理能力、上下文和注意力应该会有非常大的优势！

未来可期吧。

16 个帖子 - 14 位参与者

阅读完整话题

来源: linux.do查看原文

一次 DeepSeek V4 全系列 vs 一个帖子使用

记一次对 DeepSeek V4 全系列 vs GPT 5.5 全系列真实项目需求的横向评测

项目

模型来源

速度

令牌数

代码行数

完成度

DeepSeek V4 Pro(max)

[生活] 城巴佬——城市中产在消费劳动表演

[问与答] 关于 notebooklm 替代产品的咨询

DeepSeek V4 Flash(max)

GPT-5.5(xhigh)

GPT-5.5(high)

GPT-5.5(medium)

GPT-5.5(low)

最终总结

相关推荐