佬们觉得哪个AI高考数学肯定能考满分?

禁用联网,禁用代码执行 尽可能测试所有卷子,每个题测 3 次, 3 次全做对才算对 因为我没钱买 api 所以大部分只能测官网了 不能多模态的模型不测多模态题目,除非是可以通过非常简单的无歧义的语言描述的题 星光组:特别特别有希望拿满分的模型 OpenAI - GPT 5.5 OpenAI - GP...
佬们觉得哪个AI高考数学肯定能考满分?
佬们觉得哪个AI高考数学肯定能考满分?

禁用联网,禁用代码执行
尽可能测试所有卷子,每个题测 3 次, 3 次全做对才算对
因为我没钱买 api 所以大部分只能测官网了 :tieba_087:
不能多模态的模型不测多模态题目,除非是可以通过非常简单的无歧义的语言描述的题

星光组:特别特别有希望拿满分的模型

  • OpenAI - GPT 5.5
  • OpenAI - GPT 5.4
  • OpenAI - GPT 5.2
  • OpenAI - o3 Pro
  • Google - Gemini 3 DeepThink
  • Google - Gemini 3.1 Pro
  • Google - Gemini 3.5 Flash
  • Meta - Muse Spark
  • Alibaba - Qwen 3.7 Max
  • Alibaba - Qwen 3.7 Plus
  • 智谱 AI - GLM 5.1
  • DeepSeek - DeepSeek V4-Pro
  • Anthropic - Claude 4.8 Opus
  • Moonshot AI - Kimi K2.6

点击以查看投票。

阳光组:也有希望,但优先级略低一档的模型

  • OpenAI - o3
  • OpenAI - GPT-OSS-120b
  • OpenAI - GPT-OSS-20b
  • Google - Gemma 4 31B IT
  • xAI - Grok 4.3
  • xAI - Grok 4.2 Heavy
  • ByteDance - Doubao Seed 2.0 Pro
  • 百度 - ERNIE 5.1 Thinking
  • 小米 - Mimo 2.5 Pro
  • 小米 - Mimo 2.5
  • MiniMax - MiniMax M3
  • 阶跃星辰 - Step 3.7 Flash

点击以查看投票。

神仙组:不满分拉出来批斗,由于成本过高,每个题就测一次了:sob:

  • OpenAI - GPT 5.5 Pro
  • OpenAI - GPT 5.4 Pro
  • OpenAI - GPT 5.2 Pro

点击以查看投票。

注:

  1. 所有模型必须都禁用联网、禁用代码执行。
  2. OpenAI GPT 5.5 / 5.4 / 5.2 使用官网 heavy。
  3. Google Gemini 3.1 Pro / 3.5 Flash 使用 Google AI Studio,设置为 High。
  4. OpenAI GPT-OSS-120b / GPT-OSS-20b 使用 Groq API,设置为 High + 65536,这是最大值了, Groq 好像不能设置 128K 思考。
  5. Google Gemini 3 DeepThink 使用 Gemini App 官网。
  6. ByteDance Doubao Seed 2.0 Pro 使用豆包 App 专家模式,尽可能测,怕 rate limit。
  7. GLM 5.1 使用官网,尽可能测,因为官网总是繁忙。
  8. Grok 4.3 / Grok 4.2 Heavy、Meta Muse Spark 如果联网搜索或调用工具,就重测。
  9. DeepSeek V4-Pro、Claude 4.8 Opus、Kimi K2.6、MiniMax M3、Step 3.7 Flash 对不起,我没钱测:sob:希望佬们帮忙测试测试

40 个帖子 - 13 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文