[nao的榜单] Gemini 3.5 flash逻辑分数接近deepseek V4 pro max

Toyama Nao的榜单上,gemini 3.5 flash逻辑成绩已出,非常亮眼。 极限成绩接近deepseek V4 Pro (max),中位成绩仅次于 gpt-5.5(xhigh) 和 opus 4.6(think)。 同样成本也大幅上涨,和Gemini 3.1 pro相当,但还是明显低于O...
[nao的榜单] Gemini 3.5 flash逻辑分数接近deepseek V4 pro max
[nao的榜单] Gemini 3.5 flash逻辑分数接近deepseek V4 pro max

Toyama Nao的榜单上,gemini 3.5 flash逻辑成绩已出,非常亮眼。

极限成绩接近deepseek V4 Pro (max),中位成绩仅次于 gpt-5.5(xhigh) 和 opus 4.6(think)。
同样成本也大幅上涨,和Gemini 3.1 pro相当,但还是明显低于Opus 4.6 和gpt 5.5

图片

编程已经在测,看起来也不错,估计有glm5.1的水准

图片

llm2014.github.io

LLM Benchmark Dashboard

6 个帖子 - 5 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文