只需要4个字就可以测试的思考题,测试大模型对于未知内容的拆解习惯和搜索主动性
测试题 (点击了解更多详细信息)经测试
阵亡组
- gpt5-免费版
- qwen3.7max
- gemini3.5flash-网页版
- kimi2.6think
- gemini3.1pro-全系列
- 以上全部阵亡,符合使用的刻板印象
胜者组
- gpt5.5think
- 豆包专家版
- hy3-studio(!?强强)
- gemini3.5flash-studio
测试题原理;用一种比较难懂的方式描述出来,如果模型智能足够就应该知道自己可能不懂,如果同时调用搜索积极,就会去搜索
13 个帖子 - 6 位参与者