省流:豆包半对半错,其它全部翻车
题目很简单(2604温州二模):

提示词:完成这道题,输出详细解析
判定成功标准:是否第一次回答就正确指出A选项的错误(后续提示不算)
A选项正确分析(手打,非AIGC):
观察容量瓶底部,液体距离刻度线仍差很大距离,此时应使用细口瓶/烧杯/洗瓶向容量瓶加水,直到液面距离刻度线1-2cm时再改用胶头滴管滴加蒸馏水。图中在不正确的时机使用胶头滴管,错误。
来看各路旗舰模型的回答(只截取A选项的分析,不带视觉能力的没法测 剧透):
Gemini 3.1 Pro(AIStudio渠道):
估计是对读数仰视/俯视的情况过拟合了,抬走。
GPT 5.4 Thinking(官网,开Extended思考强度):

液面根本不在眼睛观察的地方,您观察啥呢?抬走。
Grok 4.20 Multi-agent模式(官方API渠道):
胡言乱语,根本无法解释A错在哪里,只知道D是对的(排除法这一块)
Qwen 3.6 Plus(qwen.ai渠道):

又一个过拟合的,抬走。
Doubao Seed 2.0 Pro(火山引擎API渠道):
可喜可贺!终于有一个正确发现液面远低于刻度线的模型了。但仍然在俯视这一块翻了跟头,算半对半错吧。
Kimi K2.5(Ollama渠道,官网我没会员根本开不了思考
):
仍然乱猜。
GLM 5V Turbo(z.ai渠道):
不原生视觉的模型,还是算了吧……
Claude我实在没有渠道可用,如果有大佬能帮忙测一下就好了(不过Claude就没在做题方面有啥长进过)
10 个帖子 - 4 位参与者