Google 疑似在 Arena(竞技场) 秘密测试新版 Gemini 3.1 Flash:性能跃升,迫近Gemini 3.1 Pro

LMArena发现,一个标注为 Gemini 3 Flash 的模型出现频率异常增高。根据实际测试反馈,该模型的性能表现远超当前版本,甚至直逼 Gemini 3.1 Pro。 有测试者表示,在最近的 7 次抽卡中,该模型出现了 6 次。这种行为与此前 DeepSeek 测试 V4 时的策略如出一辙。...
Google 疑似在 Arena(竞技场) 秘密测试新版 Gemini 3.1 Flash:性能跃升,迫近Gemini 3.1 Pro
Google 疑似在 Arena(竞技场) 秘密测试新版 Gemini 3.1 Flash:性能跃升,迫近Gemini 3.1 Pro

LMArena发现,一个标注为 Gemini 3 Flash 的模型出现频率异常增高。根据实际测试反馈,该模型的性能表现远超当前版本,甚至直逼 Gemini 3.1 Pro。

有测试者表示,在最近的 7 次抽卡中,该模型出现了 6 次。这种行为与此前 DeepSeek 测试 V4 时的策略如出一辙。:虽然目前在竞技场中仍沿用 “Gemini 3 Flash” 的名称,但其输出质量被评价为向上跳跃了两个层级。测试者普遍认为,其逻辑推理和代码生成能力已不再是单纯的Lite模型,其实际表现更接近目前的 Gemini 3.1 Pro

17777244587591981089679623961260
17777244754653305140856445886568

https://media.discordapp.net/attachments/966991673051725924/1500112537797136434/AiBattle_-_Google_may_be_testing_a_new_Gemini_3_Flash_model_on_the_Arena_right_n_TgaZNT.mp4?ex=69f7402b&is=69f5eeab&hm=e9e62e3ee79fcaf629451a06d612425e2439190111424e6c9915ec05294eec94&

除了竞技场上的惊艳表现,GoogleVertex AI 客户发送的最新邮件也侧面证实了产品线的更迭:
Google 计划于 2026 年 6 月 1 日 正式停用 Gemini 2.0 Flash 和 Flash Lite。官方建议用户尽快将工作负载迁移至即将推出的 Gemini 3.1 Flash Lite、Gemini 2.5 Flash Lite 或 Gemma 4。邮件中提到的“Gemini 3.1 Flash Lite 即将全面上线(GA)”,

17777244324551216268760031405595

Arena | Benchmark & Compare the Best AI Models

Arena | Benchmark & Compare the Best AI Models

Chat with multiple AI models side-by-side. Compare ChatGPT, Claude, Gemini, and other top LLMs. Crowdsourced benchmarks and leaderboards.

5 个帖子 - 5 位参与者

阅读完整话题

来源: linux.do查看原文