MathArena 认为竞赛题将不在是评估前沿 AI 数学能力的基准

编辑部 2026-05-17T13:47:15.514814 23469 阅读 tech

去年 MathArena 发布了 MathArena Apex 和 Apex Shortlist 测试集，如今 GPT 5.5 已经解决了 Apex 测试集的最后一题。 Apex 和 Apex Shortlist 模型得分率随时间的变化但是该测试集发布至今已有近一年的时间了，MathArena 怀...

去年 MathArena 发布了 MathArena Apex 和 Apex Shortlist 测试集，如今 GPT 5.5 已经解决了 Apex 测试集的最后一题。

Apex 和 Apex Shortlist 模型得分率随时间的变化

但是该测试集发布至今已有近一年的时间了，MathArena 怀疑可能存在数据污染，于是准备构建 Apex 测试集的第二代。MathArena 选取了 176 道符合条件的最终答案题目，并对每道题目运行了四次 Gemini 3.1 Pro。结果显示：162 道题目在四次尝试中均被求解，其余 14 道题目至少被求解了一次。因此，没有题目符合 Apex 最初的收录标准，而 Apex Shortlist v2 的候选题目数量太少，不足以单独发布。MathArena 现在认为竞赛题仍然有助于追踪小型模型的进展，并评估学术研究中的新方法。

MathArena 建议未来的基准测试应侧重于其他形式，例如证明评估、研究数学以及正确性之外的性质。

原文 Farewell to Final-Answer Competition Problems as Frontier Benchmarks

3 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

MathArena 认为竞赛题评估前沿一个使用帖子

MathArena 认为竞赛题将不在是评估前沿 AI 数学能力的基准

为什么我的Codex APP没有Chrome插件呢？

华为鸿蒙 HarmonyOS 6.1 最新支持机型公布，MateBook Pro、WATCH Ultimate 2 等“转正”

相关推荐