【首测】测完Opus4.8,Opus4.6还是那个那个白月光

Claude上线了Opus4.8,于是立刻开始了对话测试,重点考察数理推理能力,包含和其他模型的对比。 测试条件 Claude家族:官网web对话 Gpt 家族 (只有5.5 xhigh):官网web对话 D老师:官网api + web对话 彩蛋模型:官网api + web对话 第一轮:测试数学直觉...
【首测】测完Opus4.8,Opus4.6还是那个那个白月光
首测测完Opus4.8,Opus4.6还是那个那个白月光

Claude上线了Opus4.8,于是立刻开始了对话测试,重点考察数理推理能力,包含和其他模型的对比。

测试条件

  • Claude家族:官网web对话
  • Gpt家族(只有5.5 xhigh):官网web对话
  • D老师:官网api + web对话
  • 彩蛋模型:官网api + web对话

第一轮:测试数学直觉

测试模型:Opus4.8-high(默认配置 + ad thinking)

Opus4.8-high
这不是脑筋急转弯啊喂!不过还好没上来一刀捅一个朋友 :rofl:,所以是思维预算没给够?开max试试。

测试模型:Opus4.8-max

Opus4.8-max
依旧固执认为是脑筋急转弯,而且一下烧掉好多token.. 但至少是当作正常问题推理了。接下来看看同门的4.6。

测试模型:Opus4.6-midium(默认配置 + extend thinking)

Opus4.6-medium
没毛病,准确、高效、简洁。这可只是midium.. 再看看奥特曼家呢

测试模型:Gpt-5.5-xhigh

Gpt-5.5-xhigh
和4.6的表述顺序稍有不同,但一样的简洁直观,官网web还做了公式渲染。好了,接下来是一刀一个小朋友的D老师了。

测试模型:Deepseek-v4-pro(默认配置)

Deepseek-v4-pro
啊什么?D老师竟然只用了31秒思考就正确回答了?除了回复格式不如前面简洁直观,答案本身是没问题的。

第二轮:追问任意情况拓展

测试模型:Opus4.8-high(默认配置 + ad thinking)

Opus4.8-high-round2
第二轮4.8high似乎回过味儿来了,但为何感觉文字量不少但信息密度这么低呢?也没解释公式的证明过程.. max太费额度就不测了,直接4.6

测试模型:Opus4.6-midium(默认配置 + extend thinking)

Opus4.6-medium-round2
Opus4.6-medium-round2-2
不说别的,4.6的回答十分的清晰简洁,并且没有多余的话,还是厉害!再看看gpt吧

测试模型:Gpt-5.5-xhigh

Gpt-5.5-xhigh-round2
Gpt-5.5-xhigh-round2-2
Gpt-5.5-xhigh-round2-3
这里gpt-5.5理解成了求解“小朋友比西瓜多一个”的特定情况,不得不说官网对公式的展示优化还是很舒服的,可能是因为有很多研究者用pro模型的与缘故?但内容角度说没有推理任意n、m场景下的结论,这一点是不如Opus4.6的。好了,接下来到我们的D老师了。

测试模型:Deepseek-v4-pro(默认配置)

Deepseek-v4-pro-round2
D老师你怎么了?一直思考了20分钟还没停下来,手动中断再跑还是一样..
Deepseek-v4-pro-round2-2
展开思维链可以看到D老师一直再自我怀疑“等等”和反问“可能吗”,算了算了先停了。

结论:4.8数理推理未超越4.6与Gpt-5.5,但tool use增强

  • 意图理解:固执默认为脑筋急转弯,初始的high effort下甚至没当一个数学问题去思考,这一点连Deepseek都不如。max effort虽然当作数学问题解答了,但依旧认为是脑筋急转弯。
  • 推理能力:第一轮均分问题都给出了正确的解法,这个比较惊艳的反倒是D老师也没踩坑。算平局。
  • 发散思维:按任意场景发散推理时,high effort直接给出了答案没给推理过程,差强人意吧。只有4.6和Gpt-5.5还是严格按照任意情形去推理本质规律了的,可惜Gpt-5.5默认给自己多加了个m = n-1的条件。目前看4.6还是综合较强。
  • 工具使用:4.8明显会更主动的调用工具,比如画一个图来辅助说明,这一点其他所有模型都没有这类倾向。在我的另一个场景下还会用python画svg来讨论。不过opus4.8 max的token开销是很大的,至于多出来的token消耗值不值得就因人而异了。
  • 输出风格:这是最可惜的一项,4.8在表达层还是没有超越4.6,会感觉信息密度非常低,比如特地解释什么是“一刀”,频繁使用“xxx(不是xxx)”等废话句式,整体阅读体验很差。

彩蛋:某个降价对标D老师的模型

mimo-v2.5-pro
mimo-v2.5-pro-2
mimo-v2.5-pro-3

6 个帖子 - 4 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文