将语言模型训练得温情脉脉,会降低准确性,增加谄媚性

https://www.nature.com/articles/s41586-026-10410-0 [!quote]+ 人工智能开发人员正在越来越多地建立具有温暖和友好角色的语言模型,现在有数百万人利用这些角色来获得建议、治疗和陪伴。在这里,我们展示了这种做法是如何造成重大损失的:优化语言模型使其...
将语言模型训练得温情脉脉,会降低准确性,增加谄媚性
将语言模型训练得温情脉脉,会降低准确性,增加谄媚性

https://www.nature.com/articles/s41586-026-10410-0

[!quote]+
人工智能开发人员正在越来越多地建立具有温暖和友好角色的语言模型,现在有数百万人利用这些角色来获得建议、治疗和陪伴。在这里,我们展示了这种做法是如何造成重大损失的:优化语言模型使其更温暖可能会影响其性能,尤其是在用户表达脆弱情绪时。我们对五种不同的语言模型进行了对照实验,训练它们做出更温暖的回应,然后在相应的任务中对它们进行评估。暖色调模型的错误率(+10 到 +30 个百分点)远远高于原始模型,它们宣扬阴谋论,提供不准确的事实信息,并提供错误的医疗建议。它们还更有可能验证用户的错误信念,尤其是当用户信息表达悲伤情绪时。重要的是,这些影响在不同的模型架构中都是一致的,而且是在标准测试成绩保持不变的情况下发生的,这揭示了标准测试实践可能无法检测到的系统性风险。我们的研究结果表明,训练人工智能系统使其变得温暖可能要以牺牲准确性为代价,而且温暖和准确性在默认情况下可能并不独立。随着这些系统以前所未有的规模部署,并在人们的生活中扮演着重要角色,这种权衡值得开发者、决策者和用户共同关注。

7 个帖子 - 5 位参与者

阅读完整话题

来源: linux.do查看原文