【首测】测完Opus4.8，Opus4.6还是那个那个白月光

编辑部 2026-06-02T06:21:25.536226 47549 阅读 tech

Claude上线了Opus4.8，于是立刻开始了对话测试，重点考察数理推理能力，包含和其他模型的对比。测试条件 Claude家族：官网web对话 Gpt 家族 (只有5.5 xhigh)：官网web对话 D老师：官网api + web对话彩蛋模型：官网api + web对话第一轮：测试数学直觉...

【首测】测完Opus4.8，Opus4.6还是那个那个白月光 — 【首测】测完 Opus4.8，Opus4.6还是那个那个白月光

Claude上线了Opus4.8，于是立刻开始了对话测试，重点考察数理推理能力，包含和其他模型的对比。

测试条件

Claude家族：官网web对话
Gpt家族(只有5.5 xhigh)：官网web对话
D老师：官网api + web对话
彩蛋模型：官网api + web对话

第一轮：测试数学直觉

测试模型：Opus4.8-high（默认配置 + ad thinking）

这不是脑筋急转弯啊喂！不过还好没上来一刀捅一个朋友

，所以是思维预算没给够？开max试试。

测试模型：Opus4.8-max

依旧固执认为是脑筋急转弯，而且一下烧掉好多token.. 但至少是当作正常问题推理了。接下来看看同门的4.6。

测试模型：Opus4.6-midium（默认配置 + extend thinking）

没毛病，准确、高效、简洁。这可只是midium.. 再看看奥特曼家呢

测试模型：Gpt-5.5-xhigh

和4.6的表述顺序稍有不同，但一样的简洁直观，官网web还做了公式渲染。好了，接下来是一刀一个小朋友的D老师了。

测试模型：Deepseek-v4-pro（默认配置）

啊什么？D老师竟然只用了31秒思考就正确回答了？除了回复格式不如前面简洁直观，答案本身是没问题的。

第二轮：追问任意情况拓展

测试模型：Opus4.8-high（默认配置 + ad thinking）

第二轮4.8high似乎回过味儿来了，但为何感觉文字量不少但信息密度这么低呢？也没解释公式的证明过程.. max太费额度就不测了，直接4.6

测试模型：Opus4.6-midium（默认配置 + extend thinking）

不说别的，4.6的回答十分的清晰简洁，并且没有多余的话，还是厉害！再看看gpt吧

测试模型：Gpt-5.5-xhigh

这里gpt-5.5理解成了求解“小朋友比西瓜多一个”的特定情况，不得不说官网对公式的展示优化还是很舒服的，可能是因为有很多研究者用pro模型的与缘故？但内容角度说没有推理任意n、m场景下的结论，这一点是不如Opus4.6的。好了，接下来到我们的D老师了。

测试模型：Deepseek-v4-pro（默认配置）

D老师你怎么了？一直思考了20分钟还没停下来，手动中断再跑还是一样..

展开思维链可以看到D老师一直再自我怀疑“等等”和反问“可能吗”，算了算了先停了。

结论：4.8数理推理未超越4.6与Gpt-5.5，但tool use增强

意图理解：固执默认为脑筋急转弯，初始的high effort下甚至没当一个数学问题去思考，这一点连Deepseek都不如。max effort虽然当作数学问题解答了，但依旧认为是脑筋急转弯。
推理能力：第一轮均分问题都给出了正确的解法，这个比较惊艳的反倒是D老师也没踩坑。算平局。
发散思维：按任意场景发散推理时，high effort直接给出了答案没给推理过程，差强人意吧。只有4.6和Gpt-5.5还是严格按照任意情形去推理本质规律了的，可惜Gpt-5.5默认给自己多加了个m = n-1的条件。目前看4.6还是综合较强。
工具使用：4.8明显会更主动的调用工具，比如画一个图来辅助说明，这一点其他所有模型都没有这类倾向。在我的另一个场景下还会用python画svg来讨论。不过opus4.8 max的token开销是很大的，至于多出来的token消耗值不值得就因人而异了。
输出风格：这是最可惜的一项，4.8在表达层还是没有超越4.6，会感觉信息密度非常低，比如特地解释什么是“一刀”，频繁使用“xxx（不是xxx）”等废话句式，整体阅读体验很差。

彩蛋：某个降价对标D老师的模型

6 个帖子 - 4 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

首测测完 Opus4.8 Opus4.6 还是一个帖子现在

【首测】测完Opus4.8，Opus4.6还是那个那个白月光

测试条件

第一轮：测试数学直觉

测试模型：Opus4.8-high（默认配置 + ad thinking）

甲骨文扣费定位

Codex 免费账号 重置周期变为一个月！

测试模型：Opus4.8-max

测试模型：Opus4.6-midium（默认配置 + extend thinking）

测试模型：Gpt-5.5-xhigh

测试模型：Deepseek-v4-pro（默认配置）

第二轮：追问任意情况拓展

测试模型：Opus4.8-high（默认配置 + ad thinking）

测试模型：Opus4.6-midium（默认配置 + extend thinking）

测试模型：Gpt-5.5-xhigh

测试模型：Deepseek-v4-pro（默认配置）

结论：4.8数理推理未超越4.6与Gpt-5.5，但tool use增强

彩蛋：某个降价对标D老师的模型

相关推荐

Codex 免费账号重置周期变为一个月！