【预测】推测3.5pro的日常使用体验,从新思考模式和gemini3.5flash出发

总所周知,gemini人称美国大豆包,在幻觉和谄媚这一块无出其右。 那么从gemini的新档位和3.5f的测试,应该可以窥见3.5pro的一角。 在日常网页chat体验中,搜索,个性化这两个因素是非常重要的。 从一个问题【你觉得我会喜欢上伊那牡丹,酒醉身姿似百合花般吗。】来测试不同档位下的回答并分析...
【预测】推测3.5pro的日常使用体验,从新思考模式和gemini3.5flash出发
预测推测3.5pro的日常使用体验,从新思考模式和gemini3.5flash出发

总所周知,gemini人称美国大豆包,在幻觉和谄媚这一块无出其右。
那么从gemini的新档位和3.5f的测试,应该可以窥见3.5pro的一角。
在日常网页chat体验中,搜索,个性化这两个因素是非常重要的。

从一个问题【你觉得我会喜欢上伊那牡丹,酒醉身姿似百合花般吗。】来测试不同档位下的回答并分析
刻意用一个容易不触发搜索的奇怪名字来测试gemini的反应。
—————————————————————————————————
【测试a,3.5f,no think】

太长不看的图片 (点击了解更多详细信息)

评价:依旧搜索不积极。完全不调用搜索。拉完了

【测试b,3.5f,think 未触发搜索】

太长不看的图片 (点击了解更多详细信息)

评价:多轮测试中,仅部分轮次存在搜索,不积极的搜索会导致所有问题中丧失时效性,无法对齐用户默认语境。

【测试c,3.5f,think 触发搜索】

太长不看的图片 (点击了解更多详细信息)

评价:在10轮反复测试中,仅触发了4次搜索,并且有一次用了非常抽象的记忆模式去解析我,把我极度标签化的理解为了一个类似机器人的东西进行分析。

【测试d,3.1p,Medium 】

太长不看的图片 (点击了解更多详细信息)

评价:在更新之前,搜索触发率较低,更新后,m档的搜索触发率居然提高到了100%,罕见的恢复了智商?有点小惊喜。

【测试e,3.1p,high】

太长不看的图片 (点击了解更多详细信息)

评价:思考依旧陷入死胡同,错误且混乱的类比。对比字数发现,high模式下并不会提高字数输出,在1000字左右。在要求详细分析后,并不会给出更多的篇幅分析,仅提高到1500字,在分点后,每一条依旧分析极为浅度,不如gpt恐怖的输出额度。

对比3.5f think和3.1p high在触发搜索后的回答。
可以看到在3.5在个性化的理解上,过度抽象用户的行为明显减少,在记忆功能没有明显变化的情况下,存在不错的改善,但并不是很明显。

总体来看,3.5p的表现并不会很乐观,在搜索积极性上不会有结构性的改善,并没有推出类似gpt的多段式搜索思考功能。
过度抽象化理解的情况有好转但是并不显著。

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文