DeepSeek-V4-Pro Benchmark简单解读

编辑部 2026-05-04T12:17:21.892696 21096 阅读 tech

加粗为该行最高分。类别基准测试指标测什么 DS-V4-Pro Max DS-V4-Flash Max Kimi K2.6 GLM-5.1 Opus 4.6 Max GPT-5.4 xHigh Gemini 3.1 Pro High 知识与推理 MMLU-Pro EM 57+学科通用知识广度...

加粗为该行最高分。

类别基准测试指标测什么 DS-V4-Pro Max DS-V4-Flash Max Kimi K2.6 GLM-5.1 Opus 4.6 Max GPT-5.4 xHigh Gemini 3.1 Pro High 知识与推理 MMLU-Pro EM 57+学科通用知识广度 87.5 86.2 87.1 86.0 89.1 87.5 91.0 SimpleQA-Verified Pass@1 事实性问答，检测幻觉 57.9 34.1 36.9 38.1 46.2 45.3 75.6 Chinese-SimpleQA Pass@1 中文事实性知识准确度 84.4 78.9 75.9 75.0 76.2 76.8 85.9 GPQA Diamond Pass@1 博士级专家推理（物化生） 90.1 88.1 90.5 86.2 91.3 93.0 94.3 HLE Pass@1 “人类最后的考试”，极难综合题 37.7 34.8 36.4 34.7 40.0 39.8 44.4 LiveCodeBench Pass@1 实时更新的编程题（防记忆） 93.5 91.6 89.6 – 88.8 – 91.7 Codeforces Rating 在线编程竞赛 Elo 排名 3206 3052 – – – 3168 3052 HMMT 2026 Feb Pass@1 哈佛-MIT 数学竞赛真题 95.2 94.8 92.7 89.4 96.2 97.7 94.7 IMOAnswerBench Pass@1 国际数学奥赛求解能力 89.8 88.4 86.0 83.8 75.3 91.4 81.0 Apex Pass@1 极高难度综合推理 38.3 33.0 24.0 11.5 34.5 54.1 60.9 Apex Shortlist Pass@1 Apex 精选难题子集 90.2 85.7 75.5 72.4 85.9 78.1 89.1 长上下文 MRCR 1M MMR 百万 token 多轮信息检索 83.5 78.7 – – 92.9 – 76.3 CorpusQA 1M ACC 百万 token 跨文档问答 62.0 60.5 – – 71.7 – 53.8 智能体 Terminal Bench 2.0 Acc 真实终端多步命令行操作 67.9 56.9 66.7 63.5 65.4 75.1 68.5 SWE Verified Resolved 真实 GitHub issue 修复 80.6 79.0 80.2 – 80.8 – 80.6 SWE Pro Resolved SWE-bench 加难版 55.4 52.6 58.6 58.4 57.3 57.7 54.2 SWE Multilingual Resolved 多语言真实工程修复 76.2 73.3 76.7 73.3 77.5 – – BrowseComp Pass@1 网页浏览与信息检索 83.4 73.2 83.2 79.3 83.7 82.7 85.9 HLE w/tools Pass@1 借助工具解极难题 48.2 45.1 54.0 50.4 53.1 52.0 51.6 GDPval-AA Elo 有经济价值的真实工作任务 1554 1395 1482 1535 1619 1674 1314 MCPAtlas Public Pass@1 MCP 工具调用泛化能力 73.6 69.0 66.6 71.8 73.8 67.2 69.2 Toolathlon Pass@1 长流程多工具连续调用 51.8 47.8 50.0 40.7 47.2 54.6 48.8

核心结论

V4-Pro-Max 的优势领域（开源最强 / 全场最强）

LiveCodeBench 93.5% — 全场最高，超越所有闭源模型
Codeforces 3206 — 人类竞赛排名第 23，开源模型首次匹配闭源前沿
Apex Shortlist 90.2% — 全场最高，精选难题推理能力突出
Chinese-SimpleQA 84.4% — 中文知识仅次于 Gemini，远超其他模型
SimpleQA-Verified 57.9% — 开源模型中大幅领先（+20 分）

各家模型各自领先的领域

模型强项 Gemini 3.1 Pro 通用知识全面领先（MMLU-Pro 91.0、SimpleQA 75.6、GPQA 94.3、HLE 44.4） GPT-5.4 数学竞赛（HMMT 97.7、IMO 91.4）、终端操作（75.1）、商业任务（GDPval 1674） Claude Opus 4.6 长上下文检索（MRCR 92.9）、软件工程（SWE Verified 80.8、SWE Multilingual 77.5） DeepSeek V4-Pro 编程竞赛（LiveCodeBench 93.5、Codeforces 3206）、工具调用（MCPAtlas 73.6）、中文知识 Kimi K2.6 SWE Pro 58.6、HLE w/tools 54.0，在部分智能体任务上表现突出

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文

DeepSeek-V4-Pro Benchmark简单解读

核心结论

V4-Pro-Max 的优势领域（开源最强 / 全场最强）

各家模型各自领先的领域

clawemail天才程序员陨落

这些 GPT Free 号是废了吗

相关推荐