一道简单的化学题,各家旗舰模型居然几乎零胜率?AI视觉能力年度大考?

省流:豆包半对半错,其它全部翻车 题目很简单(2604温州二模): 提示词:完成这道题,输出详细解析 判定成功标准:是否第一次回答就正确指出A选项的错误(后续提示不算) A选项正确分析(手打,非AIGC): 观察容量瓶底部,液体距离刻度线仍差很大距离,此时应使用细口瓶/烧杯/洗瓶向容量瓶加水,直到液...
一道简单的化学题,各家旗舰模型居然几乎零胜率?AI视觉能力年度大考?
一道简单的化学题,各家旗舰模型居然几乎零胜率?AI视觉能力年度大考?

省流:豆包半对半错,其它全部翻车

题目很简单(2604温州二模):

image
提示词:完成这道题,输出详细解析

判定成功标准:是否第一次回答就正确指出A选项的错误(后续提示不算)

A选项正确分析(手打,非AIGC):
观察容量瓶底部,液体距离刻度线仍差很大距离,此时应使用细口瓶/烧杯/洗瓶向容量瓶加水,直到液面距离刻度线1-2cm时再改用胶头滴管滴加蒸馏水。图中在不正确的时机使用胶头滴管,错误。

来看各路旗舰模型的回答(只截取A选项的分析,不带视觉能力的没法测 剧透):
Gemini 3.1 Pro(AIStudio渠道):

image

估计是对读数仰视/俯视的情况过拟合了,抬走。

GPT 5.4 Thinking(官网,开Extended思考强度):

image
液面根本不在眼睛观察的地方,您观察啥呢?抬走。

Grok 4.20 Multi-agent模式(官方API渠道):

image

胡言乱语,根本无法解释A错在哪里,只知道D是对的(排除法这一块)

Qwen 3.6 Plus(qwen.ai渠道):
image

又一个过拟合的,抬走。

Doubao Seed 2.0 Pro(火山引擎API渠道):

image

可喜可贺!终于有一个正确发现液面远低于刻度线的模型了。但仍然在俯视这一块翻了跟头,算半对半错吧。

Kimi K2.5(Ollama渠道,官网我没会员根本开不了思考 :sob:):

image

仍然乱猜。

GLM 5V Turbo(z.ai渠道):

image

不原生视觉的模型,还是算了吧……

Claude我实在没有渠道可用,如果有大佬能帮忙测一下就好了(不过Claude就没在做题方面有啥长进过)

10 个帖子 - 4 位参与者

阅读完整话题

来源: linux.do查看原文