记一次对 DeepSeek V4 全系列 vs GPT 5.5 全系列真实项目需求的横向评测

项目 这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。 本轮与上两轮评测的项目和环境都完全一致: 第一轮 … 第十一轮 模型来源 DeepSeek V4 系列: 官方 API GPT 5.5 系列: GPT Plus Codex 速度 排名...
记一次对 DeepSeek V4 全系列 vs GPT 5.5 全系列真实项目需求的横向评测
记一次对 DeepSeek V4 全系列 vs GPT 5.5 全系列真实项目需求的横向评测

项目

这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。

本轮与上两轮评测的项目和环境都完全一致:

模型来源

  • DeepSeek V4 系列: 官方 API
  • GPT 5.5 系列: GPT Plus Codex

速度

排名 模型 时间(分钟) 备注 1 Grok 4.20 0309 Reasoning 3 2 Minimax M2.1 5 3 Minimax M2.5 6 4 Step-3.5-Flash 6 5 Mimo V2 Omni 7 6 Doubao-Seed-2.0-Lite 7 7 GPT-5.4(low) 8 8 Doubao-Seed-2.0-Pro 9 9 Doubao-Seed-2.0-Code 9 10 Qwen3-Coder-Next 9 11 Claude Sonnet 4.6(high) 9 12 Qwen3.5-Plus 9 13 GLM-5 Turbo 10 14 Minimax M2.7 10 Highspeed 版本 15 Qwen3.5-Flash 10 16 GPT-5.3-Codex(medium) 10 17 Gemini 3 Pro 11 18 Kimi K2.5 11 19 GLM 4.7 12 20 GPT-5.5(low) 13 21 GPT-5.4(high) 14 22 GPT-5.5(medium) 15 23 Mimo V2 Pro 15 24 Claude Opus 4.5 15 25 Claude Sonnet 4.5 16 26 GPT-5.3-Codex(high) 16 触发了一次上下文压缩 27 GPT-5.3-Codex(xhigh) 16 28 GPT-5.4(medium) 17 29 DeepSeek V4 Flash 17 30 GPT-5.4(xhigh) 18 31 GPT-5.5(high) 19 32 Claude-Opus-4.7(Max) 20 33 GLM-5 20 34 DeepSeek V4 Pro 21 35 DeppSeek V3.2 22 36 Gemini 3 Flash 22 37 KAT-Coder-Pro V2 24 38 GPT 5.2(xhigh) 25 39 Claude-Opus-4.6(Max) 26 40 GPT-5.5(xhigh) 28 41 Gemini 3.1 Pro(high) 29 受 429 请求频率限制影响 42 Kimi K2.6 33 43 Qwen3.5 9B GGUF Q4_K_XL 35 MBP M4 Pro 48GB 本地部署 44 Qwen3.5 35B A3B GGUF Q4_K_XL 36 MBP M4 Pro 48GB 本地部署

令牌数

  • DeepSeek V4 Pro(max): 无法准确得知
  • DeepSeek V4 Flash(max): 无法准确得知
  • GPT 5.5 系列: 无法得知

代码行数

  • DeepSeek V4 Pro(max): +1340, -10
  • DeepSeek V4 Flash(max): +1167, -7
  • GPT 5.5(xhigh): +1599, -15
  • GPT 5.5(high): +1234, -6
  • GPT 5.5(medium): +1142, -15
  • GPT 5.5(low): +728, -135(貌似动用了命令行编辑文件而不是工具)

完成度

DeepSeek V4 Pro(max)

审查结论: 存在常犯错误,未完成部分功能。

详细 (点击了解更多详细信息)

DeepSeek V4 Flash(max)

审查结论: 存在编译错误,存在幻觉,功能实现不完整。

详细 (点击了解更多详细信息)

GPT-5.5(xhigh)

审查结论: 完整实现所有功能。

详细 (点击了解更多详细信息)

GPT-5.5(high)

审查结论: 一点小错误,功能实现完整。

详细 (点击了解更多详细信息)

GPT-5.5(medium)

审查结论: 有一个常见错误和一个功能未实现。

详细 (点击了解更多详细信息)

GPT-5.5(low)

审查结论: 三个功能点未实现。

详细 (点击了解更多详细信息)

最终总结

排名 模型/层级 说明 Tier 0 该等级的模型实现与线上基线高度一致。 1 GPT 5.5(xhigh) 1 GPT 5.4(xhigh) 2 GPT 5.2(xhigh) 3 GPT-5.3-Codex(xhigh) Tier 1 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。 4 GPT 5.5(high) 4 GPT 5.4(high) 5 GPT 5.4(medium) 6 Kimi K2.6 7 GPT 5.5(low) 8 GPT 5.5(medium) 9 GPT-5.3-Codex(high) 10 GPT-5.3-Codex(medium) 11 Claude Opus 4.6(Max) 12 GPT 5.2(medium) 13 GPT 5.4(low) 14 GPT 5.2 Codex(xhigh) 15 Claude Opus 4.5 16 Claude Sonnet 4.5 Tier 2 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。 17 GLM 5.1 18 GLM 5 19 Kimi K2.5 20 Claude Sonnet 4.6(high) 21 Qwen3.5-Plus 22 KAT-Coder-Pro V2 23 DeepSeek V4 Pro(max) Tier 3 该等级的模型的问题很多且无法编译,或者存在不少幻觉。 24 DeepSeek V4 Flash(max) 25 Claude Opus 4.7(Max) 26 GLM 5 Turbo 27 GLM 4.7 28 Gemini 3.1 Pro(high) 29 Mimo V2 Pro 30 Mimo V2 Omni 31 Minimax M2.7 32 Minimax M2.5 33 Step-3.5-Flash 34 Qwen3-Coder-Next 35 Gemini 3 Pro 36 Gemini 3 Flash 37 Doubao-Seed-2.0-Code 38 Doubao-Seed-2.0-Pro 39 Doubao-Seed-2.0-Lite 40 Qwen3.5-Flash 41 Qwen3.5 35B A3B GGUF Q4_K_XL 42 Qwen3.5 9B GGUF Q4_K_XL 43 Grok 4.20 0309 Reasoning 44 DeepSeek V3.2 45 Minimax M2.1 46 GPT 5.1 Codex mini(medium)

等待已久,DeepSeek V4 终于在昨天发布,其实昨天早上已经跑出了成绩,但是忙到今天才有时间编辑帖子。

在这期间,我看了很多对它的评测或者排行榜,其中就有 toyama nao 的逻辑和代码评测,对其的评价都超过了 Kimi K2.6 和 GLM 5.1,但很遗憾,在这个需求上,DeepSeek 的表现远不如预期。

  • 起初,V4 表现出来的工作流程确实和 V3.2 有明显不同,与排行靠前的模型一样,它会先全盘阅读代码并进行思考,然后再进行编码。
  • 但是,V4 Pro 对于两个常错点都没有做对,那么基本意味着它只能屈居于 T2,除了完成度极高(就像 Claude 模型)的话,才可能能够被放在 T1 级别。
  • 最终,V4 Pro 的完成度不高,包括协议类型转换在内的多个功能点都没有完成,最终只能被放在 T2 级别。
  • 惊讶的是,V4 Flash 完成了入口与系统注册两个功能点,协议类型转换也意识到了需要去做,但是实现是错的,零散的未实现的细节比较多,最终由于幻觉导致使用了不存在的属性,编译失败,最终只能被放在 T3 级别。
  • 我对比了一下 V4 Flash 和 Opus 4.7(Max),V4 Flash 甚至做的要更好一点,所以它代替了 Opus 4.7 成为了新的 T3 领衔者,万万没想到 Opus 4.7 在 T3 级别待的时间这么短。

DeepSeek V4、Kimi K2.6 和 Opus 4.7 这几个都是评价褒贬不一,表现众说纷纭,大家实测为真。

接下来是几乎同一时间发布的 GPT-5.5,一般代码审查都是用 GPT 当时最好的模型去做的,所以为了避免自己人帮自己人,都是会用 Claude 模型再做一次审查,这次则是 GPT-5.5(xhigh) 和 Claude Opus 4.7(max)。

  • 作为主力使用也有差不多一天了,GPT 5.5 的口癖貌似确实得到了改善,现在的总结简单、直接,用词也更加平常,之前简单的问题被长篇大论描述地一头雾水的情况貌似也没有了。
  • GPT 5.5(xhigh) 经过两次审查,依然无懈可击,找不到任何可被验证的错误点,毋庸置疑的 T0 级别。
  • GPT 5.5(high) 的表现与 GPT 5.4(high) 差距不大,功能实现完整,只有一些小细节问题,最终被放在 T1 级别。
  • GPT 5.5 的 medium 和 low 思考程度下完成度相差不多, medium 未完成协议类型转换但小错误少,low 完成了协议类型转换但小错误多,这可能是偶然做对的,但由于协议类型转换在这个评测里份量比较重,所以 medium 被放在了 low 后面。
  • 我使用的 Plus 账号在不使用 Fast 层级的情况下,速度好像有所下降(之前也是标准层级进行评测),XHigh 比 5.4 甚至慢了 10 分钟。

总结,GPT 依然领先,且差距不小,那这篇帖子所谓的 “VS”,也是有一点标题党了,毕竟对手是实力相当,这两个…

但官方应该知道现在的 DeepSeek V4 有些许问题,所以还是预览版,希望能加快迭代脚步。并且价格方面在下半年大幅下降后,这个推理能力、上下文和注意力应该会有非常大的优势!

未来可期吧。

16 个帖子 - 14 位参与者

阅读完整话题

来源: linux.do查看原文