MathArena 认为竞赛题将不在是评估前沿 AI 数学能力的基准

去年 MathArena 发布了 MathArena Apex 和 Apex Shortlist 测试集,如今 GPT 5.5 已经解决了 Apex 测试集的最后一题。 Apex 和 Apex Shortlist 模型得分率随时间的变化 但是该测试集发布至今已有近一年的时间了,MathArena 怀...
MathArena 认为竞赛题将不在是评估前沿 AI 数学能力的基准
MathArena 认为竞赛题将不在是评估前沿 AI 数学能力的基准

去年 MathArena 发布了 MathArena Apex 和 Apex Shortlist 测试集,如今 GPT 5.5 已经解决了 Apex 测试集的最后一题。

paste_1778988897669.png

Apex 和 Apex Shortlist 模型得分率随时间的变化

但是该测试集发布至今已有近一年的时间了,MathArena 怀疑可能存在数据污染,于是准备构建 Apex 测试集的第二代。MathArena 选取了 176 道符合条件的最终答案题目,并对每道题目运行了四次 Gemini 3.1 Pro。结果显示:162 道题目在四次尝试中均被求解,其余 14 道题目至少被求解了一次。因此,没有题目符合 Apex 最初的收录标准,而 Apex Shortlist v2 的候选题目数量太少,不足以单独发布。MathArena 现在认为竞赛题仍然有助于追踪小型模型的进展,并评估学术研究中的新方法。

MathArena 建议未来的基准测试应侧重于其他形式,例如证明评估、研究数学以及正确性之外的性质。

原文 Farewell to Final-Answer Competition Problems as Frontier Benchmarks

3 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文