聊聊最近各模型回答质量规律性劣化的现象,以及为什么未来模型会越来越强,但是对于重度使用者来说可能也会越来越难用

背景: 我:实现出来 * 3;codex:如果你愿意,我下一步 * 3; - #12,来自 p369029292 省流不看版:分享一个补丁,解决背景中反映的问题,帮助婆婆妈妈的agent简单直接执行任务不overthink,不再动不动停下来思考提问或者翻来覆去光甩锅不做事: GitHub - cut...
聊聊最近各模型回答质量规律性劣化的现象,以及为什么未来模型会越来越强,但是对于重度使用者来说可能也会越来越难用
聊聊最近各模型回答质量规律性劣化的现象,以及为什么未来模型会越来越强,但是对于重度使用者来说可能也会越来越难用

背景: 我:实现出来 * 3;codex:如果你愿意,我下一步 * 3; - #12,来自 p369029292

省流不看版:分享一个补丁,解决背景中反映的问题,帮助婆婆妈妈的agent简单直接执行任务不overthink,不再动不动停下来思考提问或者翻来覆去光甩锅不做事: GitHub - cut01ass/LLM-over-deference-fix · GitHub


大家应该都有感觉。自GPT-5 debut之后,不少模型开始更会来事了。

动不动先停一下 夹个嗓子说“需要我帮你运行这个脚本吗”“如果你愿意,我可以xxx”。

开始一两次还好,用久了特别磨人,几句话能说完的事,非要拆成一堆小标题、无序列表,最后再补一句“一句话总结”或者“如果你想,我可以继续” 婆婆妈妈跟话痨一样。

短任务还好,一旦任务变复杂 比如写代码、改项目、做多步分析,这种停顿和兜圈子的现象就会非常明显。


为啥模型会变成这样?其实就是现在的模型训练范式太久没有更新,模型训练评估的时候,模型学油了!学会给一个更容易让人类评估者满意的回答,更符合评估模型打分思路的回答。

模型回答越来越老奶奶裹脚布又臭又长,不是模型从了娘家的象 奥特曼化了,而是模型出生的时候就学乖了 知道咋说话有糖吃了。

说的严谨一点,在现在的训练范式 RLHF 中有个很难回避的结构性偏差,人类标注者、偏好模型、产品指标,很多时候天然更偏爱 agreeable 的回答,而不一定更偏爱正确、直接、有效的回答。

锅还是在我们碳基生物头上。所以只要使用存在偏好的专家评估且机制稳定奖励那种顺着你、哄着你、尽量不给你不舒服感的表达,模型就会持续承受朝这个方向偏移的压力。它不一定表现成“变笨”,但会越来越不顺手,越来越需要你用额外 prompt 去纠正它。


有聪明人就要问了。模型大厂里有的是厉害人物,这个问题从被发现到现在 都快小两年了,咋还不修复?

你要知道从产品角度看,不冒犯 不武断 回答面面俱到(至少看起来是),往往更安全,投诉风险更低,满意度指标也未必差。你可以把它理解成一种 AI 产品里的“安全默认姿势”。

你问我咋知道的?鄙人去年年中给一个手机厂搞模型大跃进,做内部开发用的模型的时候就发现这个问题,反复拉会讨论的结果就是,这是好事啊。(doge玫瑰)这个手机厂模型如此,ds也是如此,很多国产厂商都是这样。

这就是我觉得最麻烦的地方,不是厂商不知道有问题,而是他们就算知道,也不一定有足够强的动力去修。

想想身边八面玲珑 说话滴水不漏但就是不干实事的兄弟,你就知道为啥这种模型在厂商那里混得好了。厂商也知道,不修。那如果不修,天天高强度用agent做重型任务的用户咋办?

厂商就分成两派了,一派是A社这样的人老实话不多让模型专注于给你干活的,一派是既要又要的(比如某个天天去政府大楼吃披萨还假装理中客的)发现问题之后做一些局部对冲,让它别难用得太明显,你会看到某些厂各种发 prompt guide,教你怎么写 persistence block,看到他们提供 verbosity 之类的参数,让你把输出压短一点;也会看到前端层不断加一些产品化补丁。但这些东西本质上更像是给高级用户的手动调参入口,不是根治。

应付一下相对小众的群体而已,除非小众群体成为多数,比如claude。

btw 很多人也发现了 GPT5之后道德感变高了,动不动就上纲上线的说这不行那不行,很多人误以为是大手发力了 忽略了训练范式的影响,其实不仅是厂商的调教缘故(哪来那么多预算),模型自己也在往这个方向主动进化。这和回答不粘锅的行为背后是同一类机制。


那身为用户,该怎么办?没办法呀,虽然知道gpt这个样子,但是cc官方价相对于我的每月用量来说太贵,只有用用plus号池维持一下这样。

那我现在怎么补这个洞?我的做法很土,但有效,反正这问题一时半会儿不会好,所以在自己的 runtime 层主动打补丁。

核心思路就两条。第一,不要指望模型自己“悟”到什么时候该直接做,什么时候该停下来问;你得把这条规则写得非常明确,而且要明确到能和内置 prompt 对冲。比如直接写:低风险、可逆、逻辑上清楚的下一步不要问,直接做完再汇报;不要用“如果你愿意,我可以……”这种句式收尾;只有遇到不可逆操作、外部副作用、或者关键信息真的缺失时才暂停。第二,不要只在一个前端修,因为问题不在前端,而在底层模型行为。你在哪些 runtime 上用同一个模型,就在哪些地方一起加这类 override。

简单来说,这不是根治方案,因为二进制的系统词改不了,只是模型每次要跑偏的时候 主动拉一把回来。当然还有一些别的trick,比如压 verbosity,让模型再次生成裹脚布的时候主动用几句几段话完成回答而且不漏掉应该输出的知识点。都在脚本里了,这里不赘述。


我现在对这件事最强的感受,是虽然模型在一步步的进化,但是在目前未知结束点的周期内,模型越来越需要被驾驭。以前你更多是在想怎么把需求说清楚;现在你还得额外约束它不要绕弯、不要请示、不要模板化、不要拿安全姿态覆盖执行。

这个成本一旦持续上升,用户体验就会明显变差。我把它看成一个阶段性的信号。

如果后面训练范式没有出现一轮更像样的变化,这个趋势大概率还会继续。到时候大家拼的可能不是谁家模型绝对智力更高,而是谁家更少废话、更少姿态、更敢在该动手的时候直接动手。

毕竟,我们都宁愿与一个偶尔做错事、但愿意把事做下去的同事打交道,也不太想用一个永远礼貌、永远周全、永远不粘锅的老登打交道,再那样的环境下与agent共事,是推进不了工作的。

5 个帖子 - 5 位参与者

阅读完整话题

来源: linux.do查看原文