禁用联网,禁用代码执行
尽可能测试所有卷子,每个题测 3 次, 3 次全做对才算对
因为我没钱买 api 所以大部分只能测官网了 ![]()
不能多模态的模型不测多模态题目,除非是可以通过非常简单的无歧义的语言描述的题
星光组:特别特别有希望拿满分的模型
- OpenAI - GPT 5.5
- OpenAI - GPT 5.4
- OpenAI - GPT 5.2
- OpenAI - o3 Pro
- Google - Gemini 3 DeepThink
- Google - Gemini 3.1 Pro
- Google - Gemini 3.5 Flash
- Meta - Muse Spark
- Alibaba - Qwen 3.7 Max
- Alibaba - Qwen 3.7 Plus
- 智谱 AI - GLM 5.1
- DeepSeek - DeepSeek V4-Pro
- Anthropic - Claude 4.8 Opus
- Moonshot AI - Kimi K2.6
阳光组:也有希望,但优先级略低一档的模型
- OpenAI - o3
- OpenAI - GPT-OSS-120b
- OpenAI - GPT-OSS-20b
- Google - Gemma 4 31B IT
- xAI - Grok 4.3
- xAI - Grok 4.2 Heavy
- ByteDance - Doubao Seed 2.0 Pro
- 百度 - ERNIE 5.1 Thinking
- 小米 - Mimo 2.5 Pro
- 小米 - Mimo 2.5
- MiniMax - MiniMax M3
- 阶跃星辰 - Step 3.7 Flash
神仙组:不满分拉出来批斗,由于成本过高,每个题就测一次了
- OpenAI - GPT 5.5 Pro
- OpenAI - GPT 5.4 Pro
- OpenAI - GPT 5.2 Pro
注:
- 所有模型必须都禁用联网、禁用代码执行。
- OpenAI GPT 5.5 / 5.4 / 5.2 使用官网 heavy。
- Google Gemini 3.1 Pro / 3.5 Flash 使用 Google AI Studio,设置为 High。
- OpenAI GPT-OSS-120b / GPT-OSS-20b 使用 Groq API,设置为 High + 65536,这是最大值了, Groq 好像不能设置 128K 思考。
- Google Gemini 3 DeepThink 使用 Gemini App 官网。
- ByteDance Doubao Seed 2.0 Pro 使用豆包 App 专家模式,尽可能测,怕 rate limit。
- GLM 5.1 使用官网,尽可能测,因为官网总是繁忙。
- Grok 4.3 / Grok 4.2 Heavy、Meta Muse Spark 如果联网搜索或调用工具,就重测。
- DeepSeek V4-Pro、Claude 4.8 Opus、Kimi K2.6、MiniMax M3、Step 3.7 Flash 对不起,我没钱测
希望佬们帮忙测试测试
40 个帖子 - 13 位参与者