https://openai.com/index/where-the-goblins-came-from/
从GPT-5.1开始,我们的模型开始形成一种奇怪的习惯:他们越来越多地在隐喻中提到哥布林、小妖精和其他生物。与通过坦克评估或训练指标激增时出现并指向具体变化的模型漏洞不同,这个错误是悄悄渗透进来的。回答中出现一个"小妖精"可能无害,甚至很有魅力。不过,跨越模型世代,这个习惯变得难以忽视:哥布林不断繁殖,我们需要弄清它们的来源。
![]()
我们在三月发布GPT-5.4后,正式退休了"书呆子"个性。在训练中,我们去除了哥布林-仿射奖励信号,并过滤了包含生物词汇的训练数据,使哥布林更不容易过度出现或出现在不合适的语境中。不幸的是,GPT-5.5在我们找到哥布林根源之前就开始训练了。当我们在Codex中开始测试GPT-5.5时,OpenAI员工立刻注意到他们对哥布林的奇怪亲和力,于是我们添加了一个开发提示指令(新窗口打开)以减轻。毕竟,Codex相当宅。
4 个帖子 - 3 位参与者


