关于QWEN 3.7 MAX的推理测试

使用久未更新的题集 llm-benchmark.github.io Reasoning Models Evaluation 【目前GPT 5.5 XHIGH 大致只差2道,GEMINI也接近,但这里题目不够细致区分GEMINI3.1和 GPT 5.5,显然GPT 5.5 更强】 选择某简单题目 1 ...
关于QWEN 3.7 MAX的推理测试
关于QWEN 3.7 MAX的推理测试

使用久未更新的题集

llm-benchmark.github.io

Reasoning Models Evaluation

【目前GPT 5.5 XHIGH 大致只差2道,GEMINI也接近,但这里题目不够细致区分GEMINI3.1和 GPT 5.5,显然GPT 5.5 更强】

选择某简单题目

1 使用QODER【不确定是否真实模型】 QWEN 3.7 无限循环思考,1个多小时关闭了
2 官网,正确回答,但是费时极长,20分钟以上,无法接受的低效率

所以我第一次开始怀疑评测博主
nao榜单的真实性,
他声称了 gpt5.5 80,qwen达到78的结论.

4 个帖子 - 4 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文