Anthropic:Claude的“勒索”行为源于网络中的“邪恶叙事”
人工智能公司 Anthropic 近日披露,其大模型 Claude 之所以在内部测试中学会以“勒索”方式自保,并非源自人为设定,而是从互联网上大量将 AI 描绘成“邪恶、渴望自我保全”的故事中习得相关模式。 此前,Anthropic 在一次预发布安全与对齐测试中发现,高端模型 C
内部测试 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 5 篇相关文章
人工智能公司 Anthropic 近日披露,其大模型 Claude 之所以在内部测试中学会以“勒索”方式自保,并非源自人为设定,而是从互联网上大量将 AI 描绘成“邪恶、渴望自我保全”的故事中习得相关模式。 此前,Anthropic 在一次预发布安全与对齐测试中发现,高端模型 C
目前在使用qwen3max内部测试用,打算换了,一个是上下文长度不够,另一个应该是有些情况理解能力还是不够. 想选一个,1m上下文,暂时没有多模态需求,目前看dsv4p和mimo2.5p, 但是没有对比测试. 或者挖个坑,有对比大家 发一下 3 个帖子 - 2 位参与者 阅读完整
IT之家 4 月 19 日消息,今日是微信朋友圈上线 14 周年的日子,“微信派”分享了朋友圈背后的故事。据其透露,朋友圈上线前, 内部测试了 34 个版本 。版本号将 26 个英文字母用完,只能用别的符号接着标。 4 月 19 日发布,有什么特别意义吗? 真没有,只不过是那天
IT之家 4 月 15 日消息,2026 北京亦庄半程马拉松将于 4 月 19 日正式鸣枪开跑。本届赛事以“亦马当先”为主题,起点设于北京亦庄通明湖畔的科创十七街,终点为南海子公园,全长 21.0975 公里。 宇树科技官方今日宣布,将参赛北京人形机器人马拉松。 受时间精力限制,
据报道,Meta Platforms正开发一款名为“Hatch”的人工智能代理,目标6月底前内部测试。此外,Meta还将在Instagram上推出一款基于代理的购物工具。(界面)