背景: 我:实现出来 * 3;codex:如果你愿意,我下一步 * 3; - #12,来自 p369029292
大家应该都有感觉. 自GPT-5 debut之后, 不少模型开始更会来事了.
动不动先停一下 夹个嗓子说"需要我帮你运行这个脚本吗"“如果你愿意, 我可以xxx”.
开始一两次还好, 用久了特别磨人, 几句话能说完的事, 非要拆成一堆小标题 无序列表, 最后再补一句"一句话总结"或者"如果你想, 我可以继续" 婆婆妈妈跟话痨一样.
短任务还好, 一旦任务变复杂 比如写代码 改项目 做多步分析, 这种停顿和兜圈子的现象就会非常明显.
为啥模型会变成这样? 不是训练范式没迭代(当然DPO process reward这些技术一直在更新), 而是现在模型开始学油了! 学会给一个更容易让人类评估者满意的回答, 更符合评估模型打分思路的回答.
说的严谨一点, 在现在的训练范式RLHF中有个很难回避的结构性偏差, 人类标注者 偏好模型 产品指标, 很多时候天然更偏爱agreeable的回答, 而不一定更偏爱正确 直接 有效的回答.
锅还是在碳基生物头上. 所以只要使用存在偏好的专家评估且机制稳定奖励那种顺着哄着尽量不给你不舒服感的表达, 模型就会持续承受朝这个方向偏移的压力. 它不一定表现成"变笨", 但会越来越不顺手, 越来越需要你用额外prompt去纠正它.
有聪明人就要问了. 模型大厂里有的是厉害人物, 这个问题就没人反映过吗?
其实学术界2023年底就有系统性研究了(Anthropic的ICLR 2024, 测了五个主流模型全都有这个问题), 而实际开始大规模影响用户体验是25年4月GPT-4o加了个thumbs-up reward signal结果模型开始了史无前例的超级多想和超级婆婆妈妈, 有印象的朋友应该记得 那两天的GPT基本就是废废.
大厂是知道的, 早就知道了, 但是他们就是不修 甚至还积极尝试加剧这种效果. 为啥? 你要知道从产品角度看, 不冒犯 不武断 回答面面俱到(至少看起来是), 往往更安全, 投诉风险更低, 满意度指标也未必差. 你可以把它理解成一种AI产品里的"安全默认姿势".
你问我咋知道的? 鄙人去年年中给一个手机厂搞模型大跃进, 做内部开发用的模型的时候就发现这个问题, 反复拉会讨论的结果就是, 这是好事啊. 老外我不知道 但是这个手机厂模型如此, ds也是如此, 很多国产厂商都是这样.
这就是我觉得最麻烦的地方, 不是厂商不知道有问题, 而是他们就算知道, 也不一定有足够强的动力去修.
想想身边八面玲珑 说话滴水不漏但就是不干实事的兄弟, 你就知道为啥这种模型在厂商那里混得好了. 厂商也知道, 不修. 那如果不修, 天天高强度用agent做重型任务的用户咋办?
厂商就分成两派了, 一派是A社这样的产品层面默认姿态更偏执行的(p.s. claude其实一样有这个问题, 只是他们在产品设计上选择了让模型少废话多干活), 一派是既要又要的(比如某个隔三岔五去政府大楼吃披萨还假装理中客的迪迦)发现问题之后做一些局部对冲, 让它别难用得太明显, 你会看到某些厂各种发prompt guide, 教你怎么写persistence block, 看到他们提供verbosity之类的参数, 让你把输出压短一点; 也会看到前端层不断加一些产品化补丁. 但这些东西本质上更像是给高级用户的手动调参入口, 不是根治.
这些动作都是应付一下相对小众的群体而已, 如果真的想解决问题, 他们动动手的事情. 但是现在的情况更符合他们的利益, 所以才这样. 除非小众群体成为多数, 比如Claude.
btw很多人也发现了GPT5之后道德感变高了, 动不动就上纲上线的说这不行那不行, 很多人误以为是大手发力了 忽略了训练范式的影响, 其实不仅是厂商的调教缘故(哪来那么多预算), 模型自己也在往这个方向主动进化. 这和回答不粘锅的行为背后有交叉成因, 或者说safety refusal更多是显式的安全标注训出来的, 而sycophancy更多是隐式的偏好偏差带出来的, 他们都是在鼓励怎样回答最不容易被人类评估者扣分, 而不是如何回答出正确的答案.
总结来说, 现在的方向是, 虽然模型在一步步的进化, 但是在目前未知结束点的周期内, 模型越来越需要被驾驭. 以前你更多是在想怎么把需求说清楚; 现在你还得额外约束它不要绕弯 不要请示 不要模板化 不要拿安全姿态覆盖执行.
这个成本一旦持续上升, 用户体验就会明显变差. 我把它看成一个阶段性的信号.
如果后面训练范式没有出现一轮更像样的变化, 这个趋势大概率还会继续. 到时候大家拼的可能不是谁家模型绝对智力更高, 而是谁家更少废话 更少姿态 更敢在该动手的时候直接动手.
毕竟, 我们都宁愿与一个偶尔做错事 但愿意把事做下去的同事打交道, 也不太想用一个永远礼貌 永远周全 永远不粘锅的老登打交道.
3 个帖子 - 3 位参与者