一道简单的化学题，各家旗舰模型居然几乎零胜率？AI视觉能力年度大考？

编辑部 2026-05-04T15:15:34.996747 1946 阅读 tech

省流：豆包半对半错，其它全部翻车题目很简单（2604温州二模）：提示词：完成这道题，输出详细解析判定成功标准：是否第一次回答就正确指出A选项的错误（后续提示不算） A选项正确分析（手打，非AIGC）：观察容量瓶底部，液体距离刻度线仍差很大距离，此时应使用细口瓶/烧杯/洗瓶向容量瓶加水，直到液...

省流：豆包半对半错，其它全部翻车

题目很简单（2604温州二模）：

提示词：完成这道题，输出详细解析

判定成功标准：是否第一次回答就正确指出A选项的错误（后续提示不算）

A选项正确分析（手打，非AIGC）：
观察容量瓶底部，液体距离刻度线仍差很大距离，此时应使用细口瓶/烧杯/洗瓶向容量瓶加水，直到液面距离刻度线1-2cm时再改用胶头滴管滴加蒸馏水。图中在不正确的时机使用胶头滴管，错误。

来看各路旗舰模型的回答（只截取A选项的分析，不带视觉能力的没法测剧透）：
Gemini 3.1 Pro（AIStudio渠道）：

估计是对读数仰视/俯视的情况过拟合了，抬走。

GPT 5.4 Thinking（官网，开Extended思考强度）：

液面根本不在眼睛观察的地方，您观察啥呢？抬走。

Grok 4.20 Multi-agent模式（官方API渠道）：

胡言乱语，根本无法解释A错在哪里，只知道D是对的（排除法这一块）

Qwen 3.6 Plus（qwen.ai渠道）：

又一个过拟合的，抬走。

Doubao Seed 2.0 Pro（火山引擎API渠道）：

可喜可贺！终于有一个正确发现液面远低于刻度线的模型了。但仍然在俯视这一块翻了跟头，算半对半错吧。

Kimi K2.5（Ollama渠道，官网我没会员根本开不了思考）：

仍然乱猜。

GLM 5V Turbo（z.ai渠道）：

不原生视觉的模型，还是算了吧……

Claude我实在没有渠道可用，如果有大佬能帮忙测一下就好了（不过Claude就没在做题方面有啥长进过）

10 个帖子 - 4 位参与者

来源: linux.do查看原文

一道简单化学题各家旗舰一个帖子使用

相关推荐