把测opus的问题问了一下出了有段时间的3.5flash,没能让gemini大人尽兴啊 :tieba_087:

目前(2026/03/28)鉴定 Claude Opus 4.6 真假的 3 个常规方法。 在一个黑色的袋子里放有三种口味的糖果,每种糖果有两种不同的形状(圆形和五角星形,不同的形状靠手感可以分辨)。现已知不同口味的糖和不同形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目,那么,最少取出多...
把测opus的问题问了一下出了有段时间的3.5flash,没能让gemini大人尽兴啊 :tieba_087:
把测opus问题问了一下出了有段时间的3.5flash,没能让gemini大人尽兴啊 :tieba_087:
shamrock 目前(2026/03/28)鉴定 Claude Opus 4.6 真假的 3 个常规方法。
在一个黑色的袋子里放有三种口味的糖果,每种糖果有两种不同的形状(圆形和五角星形,不同的形状靠手感可以分辨)。现已知不同口味的糖和不同形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目,那么,最少取出多少个糖果才能保证手中同时拥有不同形状的苹果味和桃子味的糖?(同时手中有圆形苹果味匹配五角星桃子味糖果,或者有圆形桃子味匹配五角星苹果味糖果都满足要求)

苹果味	桃子味	西瓜味
圆形	7	9	8
五角星形	7	6	4

使用渠道为AI Studio,模型选择为Gemini 3.5 Flash,实测思考强度设置为Minimal的情况下不抽奖就能出答案21,用时13.8s(开到Minimal好像就是不思考了)

image
抱歉没能让gemini大人尽兴啊 :tieba_087:
知道你哈基米推理一直很强,没想到这么离谱,之前测了网传Mythos的预览模型(claude-oceanus-v1-p)也要思考68s才能答对
你觉得你是flash吗.jpg(仅限数学)

3 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文