【预测】推测3.5pro的日常使用体验，从新思考模式和gemini3.5flash出发

编辑部 2026-05-24T10:44:15.523758 6986 阅读 tech

总所周知，gemini人称美国大豆包，在幻觉和谄媚这一块无出其右。那么从gemini的新档位和3.5f的测试，应该可以窥见3.5pro的一角。在日常网页chat体验中，搜索，个性化这两个因素是非常重要的。从一个问题【你觉得我会喜欢上伊那牡丹，酒醉身姿似百合花般吗。】来测试不同档位下的回答并分析...

【预测】推测3.5pro的日常使用体验，从新思考模式和gemini3.5flash出发

总所周知，gemini人称美国大豆包，在幻觉和谄媚这一块无出其右。
那么从gemini的新档位和3.5f的测试，应该可以窥见3.5pro的一角。
在日常网页chat体验中，搜索，个性化这两个因素是非常重要的。

从一个问题【你觉得我会喜欢上伊那牡丹，酒醉身姿似百合花般吗。】来测试不同档位下的回答并分析
刻意用一个容易不触发搜索的奇怪名字来测试gemini的反应。
—————————————————————————————————
【测试a，3.5f，no think】

太长不看的图片（点击了解更多详细信息）

评价：依旧搜索不积极。完全不调用搜索。拉完了

【测试b，3.5f，think 未触发搜索】

太长不看的图片（点击了解更多详细信息）

评价：多轮测试中，仅部分轮次存在搜索，不积极的搜索会导致所有问题中丧失时效性，无法对齐用户默认语境。

【测试c，3.5f，think 触发搜索】

太长不看的图片（点击了解更多详细信息）

评价：在10轮反复测试中，仅触发了4次搜索，并且有一次用了非常抽象的记忆模式去解析我，把我极度标签化的理解为了一个类似机器人的东西进行分析。

【测试d，3.1p，Medium 】

太长不看的图片（点击了解更多详细信息）

评价：在更新之前，搜索触发率较低，更新后，m档的搜索触发率居然提高到了100%，罕见的恢复了智商？有点小惊喜。

【测试e，3.1p，high】

太长不看的图片（点击了解更多详细信息）

评价：思考依旧陷入死胡同，错误且混乱的类比。对比字数发现，high模式下并不会提高字数输出，在1000字左右。在要求详细分析后，并不会给出更多的篇幅分析，仅提高到1500字，在分点后，每一条依旧分析极为浅度，不如gpt恐怖的输出额度。

对比3.5f think和3.1p high在触发搜索后的回答。
可以看到在3.5在个性化的理解上，过度抽象用户的行为明显减少，在记忆功能没有明显变化的情况下，存在不错的改善，但并不是很明显。

总体来看，3.5p的表现并不会很乐观，在搜索积极性上不会有结构性的改善，并没有推出类似gpt的多段式搜索思考功能。
过度抽象化理解的情况有好转但是并不显著。

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

预测推测 pro 日常使用一个 AI 帖子