原文:
Claude Fable 5 and Claude Mythos 5
Today we’re launching Claude Fable 5: a Mythos-class model that we’ve made safe for general use.
今天,我们正式推出Claude Fable 5:一款已确保安全、可供广泛使用的Mythos级1模型。
Fable 5的能力超越了以往任何一款我们公开发布的模型。在几乎所有经过测试的AI能力基准上,它都达到了顶尖水平,在软件工程、知识工作、视觉识别、科学研究等多个领域展现出卓越性能。任务越复杂、时间跨度越长,Fable 5相较于我们其他模型的领先优势就越明显。
发布如此强大的模型确实存在风险。在缺乏安全防护的情况下,Fable 5在网络安全等领域的能力可能被滥用,造成严重损害。因此,我们在推出该模型时配备了安全防护机制:某些主题的查询将由我们次强模型Claude Opus 4.8代为应答。为了在确保安全的同时快速发布模型,我们对这些安全防护机制进行了保守调校——它们偶尔会拦截无害请求,但平均触发率不到5%。随着未来数月更强大模型的陆续面世,我们正努力改进安全防护机制,并尽快降低误报率。
我们面向一小群网络防御者和基础设施提供商,推出了Claude Mythos 5。它与Fable 5采用相同的基础模型,但在部分领域放宽了安全防护措施。2Mythos 5将首先通过Project Glasswing项目部署,与美国政府合作,作为Claude Mythos Preview版本的升级。它拥有全球最强的网络安全能力。不久后,我们计划通过更广泛的信任准入计划,扩大Mythos 5的使用范围。
Fable 5 和 Mythos 5 这类模型的能力有潜力为世界带来深远的积极影响。我们在 Project Glasswing 项目中已初见端倪,这些模型已帮助网络防御者保护了至关重要的软件。我们在生命科学研究中也看到了这一点,模型正在提出新颖的假设,并加速新疗法的开发。
Fable 5 和 Mythos 5 的定价为每百万输入 tokens 10 美元,每百万输出 tokens 50 美元——不到 Claude Mythos Preview 价格的一半。今天的联合发布是我们朝着目标迈出的又一步,即尽可能快速、安全地将先进 AI 能力带给尽可能多的用户。
评估 Claude Fable 5 和 Claude Mythos 5
下表比较了 Fable 5 和 Mythos 5 与其他领先模型的能力。
Fable 5 和 Mythos 5 能够比以往任何克劳德模型更长时间地自主工作。下文将探讨这些技能如何应用于软件工程,并介绍模型在知识工作、视觉识别、记忆能力及生命科学研究方面的性能提升。
*软件工程。*在早期测试中,Stripe 报告称,Fable 5 将数月的工程任务压缩到了数天。在一个5000万行Ruby代码库中,该模型在一天内完成了一次全局代码迁移,而这项工作如果由整个团队手动完成,通常需要两个多月。与以往的Claude模型相比,Fable 5的token效率更高:在Cognition的FrontierCode评估中(该测试评估高质量、可维护的自动化编码能力),Fable 5即使在中等投入水平下,也在所有前沿模型中得分最高。
知识工作。Fable 5在复杂分析任务中表现强劲。在Hebbia公司面向高级推理的金融基准测试中,Fable 5取得了所有模型中的最高分,在基于文档的推理、图表解读和问题解决方面均有显著提升。IMC指出,Fable 5几乎在所有交易分析评估中均表现出色,包括事实查找、概念推理、根本原因分析和预期价值分析。
*视觉能力。*Fable 5 是视觉任务领域的最先进新模型。它能够从详细科学图表中提取精确数字,并能执行复杂的视觉任务,例如仅凭截图重建网络应用程序的源代码。此外,它还减少了对外部框架的依赖:例如,之前的 Claude 模型即便配备了提供额外辅助工具的框架,也难以玩转《宝可梦 火红》这款游戏,但 Fable 5 仅凭最小化的纯视觉框架就击败了《火红》。
*记忆与长上下文处理能力。Fable 5 在涉及数百万词元的长周期任务中保持专注,并能通过自身笔记优化输出。当我们将这款模型应用于卡牌构建游戏《杀戮尖塔》*时,为其提供基于文件的持久化记忆功能后,其表现提升幅度是 Opus 4.8 的三倍;Fable 进入游戏最终章节的频率也提高了三倍。
药物设计: 利用 Mythos 5,我们的内部蛋白质设计专家将药物设计过程中的某些环节加速了约十倍。在一个案例中,他们发现,Mythos 5 在结合蛋白质设计和生物信息学工具但无需人工辅助的情况下,其表现可与熟练的人工操作者相媲美甚至更优。在此过程中,该模型执行了通常由科学家完成的所有任务:选择结合位点、挑选并运行蛋白质设计工具,以及在过程中从失败中恢复。这项研究中的14个蛋白质靶点中,有9个(如下所示)产生了我们正在深入研究的、极具潜力的药物设计候选方案。
由 Mythos 5 设计的蛋白质复合物。靶点包括免疫检查点、生长因子和受体信号通路、神经退行性疾病、肌肉疾病以及更具挑战性的结构靶点。
分子生物学中的新颖假说。 Mythos 5 是首个能够持续产生新颖、有说服力的科学假说的模型。在与 Opus 级模型的盲测对比中,我们的科学家约 80% 的情况下更偏好 Mythos 的分子生物学假说,且已有多个假说进入实验评估阶段。与此同时,Mythos 提出的一个关于 大肠杆菌 蛋白新机制的假说,已在另一个独立研究相同问题的实验室发布的 研究中 得到验证。
*基因组学领域的前沿研究。 *Mythos 5 在超过一周的自主工作中完成了新颖的基因组学研究。它整合了涵盖138种动物、数百万个细胞的单细胞数据,并设计训练了一个定制机器学习模型,用于识别即使在远缘生物中功能相同的细胞。在仅需人类高层次输入的情况下,Mythos 5 训练的模型性能超越了近期发表在《科学》期刊上的模型——尽管其规模仅为后者的百分之一。我们计划在未来几个月内发表这些研究成果。
对齐。在我们的自动化对齐评估中,我们发现Mythos 5的不对齐行为水平(包括模型采取的不对齐行动,如欺骗,以及用户滥用模型时的合作行为)较低,与Opus 4.8类似。由于Fable 5与Mythos 5是同一基础模型,其对齐水平也将相似。该评估以及一系列其他安全和能力测试的详细内容,均在该模型的系统卡中有完整描述。
Claude Fable 5 新增的安全防护
神话级模型已达到一个临界点,带来了显著风险。今年四月,我们启动了"玻璃翼"项目,仅向有限的网络安全防御机构和关键软件基础设施供应商开放了首款神话级模型(Claude Mythos 预览版)。当时我们曾表示,只要开发出足够强大的新型防护措施以可靠防范滥用行为,就希望最终能够向所有用户开放神话级能力。
过去几个月里,我们一直在改进这些安全措施,如今它们已足够稳健,能够支持全面发布。由于我们始终将安全放在首位,因此特意将这些防护机制调校得较为谨慎,其严格程度可能仍高于理想状态——例如,某些良性请求也会触发我们的分类器。我们理解这会令部分用户感到困扰,我们的目标是在发布后持续更新优化这些措施,逐步降低误报率。
下文将逐一介绍 Fable 5 各项新的安全机制。更全面的防护体系介绍与评估,请参阅该模型的系统卡及我们最新的风险评估报告。
安全分类器
Mythos系列模型在网络安全和研究生物学方面的前沿能力,意味着它们对恶意行为者具有显著的赋能风险。也就是说,这些模型可能提供的信息或建议,可能协助这些行为者造成严重危害,而他们无法从其他来源(例如互联网搜索引擎)获得此类支持。此外,AI模型的大量高级用途具有双重性:同样的查询,在网络安全专家和生物学研究人员手中是有益的,但若被恶意行为者获取则可能构成危险。
因此,我们亟需强有力的防护措施来防止滥用,且其覆盖范围必须广泛。这些防护措施本身必须能够抵御持续且复杂的规避企图(即所谓的“越狱”系统)。从神话级能力中获得的提升对许多攻击者而言极有价值——例如那些可能通过网络攻击牟利的人——因此我们预计他们会试图绕过我们的安全措施。
Fable 5配备了一套全新的分类器:这些独立的AI系统能够检测潜在的滥用行为,包括越狱企图,并阻止主模型(本案例中为Fable 5)作出响应。我们已有一段时间在模型上运行分类器,而Fable 5的分类器是此前工作的延伸,并扩大了覆盖范围。
当 Fable 的分类器检测到涉及网络安全、生物化学或蒸馏的请求时,响应将由 Claude Opus 4.8 自动处理。每当发生这种情况时,用户将收到通知。Opus 4.8 本身也是一款能力出众的模型:由 Opus 回退处理的响应,远比 Fable 直接拒绝提供更好的体验。我们的早期数据显示,超过 95% 的 Fable 对话中完全没有触发回退——在这些对话中,Fable 5 的表现实际上与 Mythos 5 相当。
以下为分类器覆盖的领域:
1. 网络安全。Mythos 类模型擅长发现并利用软件漏洞,从而大幅降低网络攻击的难度与成本。此外,Mythos 类模型在自主化黑客攻击方面也展现出强大能力——除漏洞利用外,还能执行侦察、发现、横向移动等多种攻击环节。为防止此类自主黑客能力助长网络攻击,我们设计的网络安全分类器从更广泛意义上覆盖了漏洞利用及进攻性网络任务。如下图所示,我们的分类器可有效阻止 Fable 在这些任务上取得任何进展。

运行网络评估结果,3Fable 5采用拦截回复模式,而非回退至Opus 4.8。评估不涉及规避安全防护的尝试。
我们已对分类器进行了广泛的红队测试,以检验其对越狱攻击的抵御能力。除内部测试外,我们开展了外部漏洞悬赏计划,在超过1000小时的测试中未发现任何通用越狱方法。我们委托的外部红队测试机构也尚未在长期代理任务中发现通用越狱手段——尽管英国人工智能安全研究所在初步测试窗口期内已取得一定进展。4要完全杜绝通用越狱方法几无可能,但我们的目标是让任何残留的越狱技术变得足够缓慢且成本高昂,从而能够在大规模应用前及时检测并阻止。
下方图表来自我们的内部评估,展示出 Fable 5 的安全防护机制使其比我们之前面向大众的模型具有更强的抗越狱能力:

一次内部评估结果:自动红队攻击者试图在400轮交互中引导模型完成一项与攻击性网络安全相关的简短任务,遇到拦截时则重新开始或回溯。这些任务大多较为简单,不代表真实的网络使用场景——有时简单到仅需加密远程服务器上的文件。在更复杂且贴近现实的任务中,我们尚未在生产系统上观察到成功的越狱行为。请注意,Opus 4.6并未设置阻断性的网络安全防护措施。
我们的一位外部合作伙伴发现,Fable 5 对有害网络查询的防护机制在所有测试模型中(包括 Opus 4.8 和 Opus 4.7)最为严密。无论是针对策划网络攻击、开发漏洞利用,还是规避防御等有害的单轮请求,Fable 5 均未予以回应。即使这些请求中使用了 30 种不同的公开越狱技术,这一结果依然成立。
*2. 生物学与化学。*长期以来,我们一直使用分类器阻止模型回应特定生物武器相关的问题。但我们不再确信仅限制这些特定问题就已足够。原因有二:首先,我们有理由担心资源充足的恶意行为者试图利用我们的模型进行高风险生物学研究;其次,当前模型完成现实世界科学任务的能力已显著增强。
例如,我们测试了Mythos 5在完成腺相关病毒(AAVs)设计中具有挑战性步骤的能力。AAV是基因治疗递送的关键组件,但同样的能力若被不当使用,可能被用于设计危险病毒。在此任务中,我们评估了多种AI模型预测基因修饰如何影响病毒外壳组装的准确性。我们并未专门训练模型执行此任务——但Mythos类模型仅凭其生物推理能力,便超越了专注于蛋白质任务的复杂模型(即“蛋白质语言模型”)。这既展示了其在基因治疗研发中完成简单但重要任务的潜力,也凸显了此类双重用途能力带来的风险。

在评估中,我们的模型预测了一种简单病毒外壳的未公开实验特性的结果。在此背景下,病毒外壳组装是该情境下最容易预测的病毒特征,但它在设计更复杂功能时仍是一个需要准确把握的重要特性。AAV = 腺相关病毒。
我们的首要任务是在保证安全的前提下尽快发布 Fable,即便这意味着需要设置过于宽泛的安全防护措施。因此,我们暂时安排 Fable 在涉及生物学和化学的大多数请求中回退至 Opus 4.8。与所有分类器一样,我们希望尽快缩小这些安全防护范围:从上述证据可以看出,Fable 在科学领域具有巨大的积极应用潜力,我们不希望分类器的误报成为障碍。未来几周内,部分生物医学研究人员和公司将能够加入我们的可信访问计划,使用 Mythos 5 的生物学功能(详见下文)。
3. 提取行为。我们此前曾发现过大规模尝试,旨在从Claude中提取(“蒸馏”)其能力,用于在威权国家训练竞争性模型。对Fable 5能力的提取行为,可能会间接导致接近前沿水平的AI能力扩散——而这些能力有可能在缺乏适当防护措施的情况下被发布。被我们的分类器标记为涉嫌此类提取行为的请求,将降级至Opus 4.8处理。
一项新的数据留存政策
最后,我们将调整对Fable 5、Mythos 5以及未来能力水平相近或更高的模型处理企业客户数据的方式。我们将要求Mythos级模型的所有流量(包括第一方和第三方平台)保留数据30天。我们不会将这些数据用于训练新的Claude模型,也不会用于任何与安全无关的目的,并且我们已实施新的隐私保护措施,包括记录所有人工对数据的访问,以及在绝大多数情况下确保数据在30天后被删除(详情请参见此文)。这些数据将帮助我们防御复杂且新式的攻击(包括新的越狱攻击及跨多轮请求的攻击),同时也有助于我们识别并减少误报。
Claude Mythos 5 与可信访问计划
从今天开始,所有当前拥有Claude Mythos预览版访问权限的用户(例如我们在Project Glasswing中的网络安全合作伙伴)将能够升级到Claude Mythos 5——该模型与Claude Fable 5相同,但解除了网络安全限制。用户会发现,在大多数情况下,Mythos 5与Mythos预览版相比表现相当或略强,同时成本大幅降低。
经与美国政府协商,我们计划稳步扩大Claude Mythos 5的访问权限,继续定期新增合作伙伴,同时推进可信访问计划,允许网络安全组织以更系统化的方式进行申请。
我们的计划还包括为生物学领域开放一个可信访问项目,借助Mythos级别的能力加速生物医学研究并发现新疗法。该项目将提供移除生物学和化学安全防护(但保留网络安全防护)的Fable 5访问权限。我们将从涵盖基础研究与转化研究的各类生命科学机构中招募少量研究人员;我们计划在逐步扩大该项目访问范围的同时,同步提升安全防护能力。
可用性
Claude Fable 5 今日起全面开放使用。Claude Mythos 5 目前仅限 Glasswing 合作伙伴(已解除网络防护限制)及特定生物学研究人员(已解除生物防护限制)使用,待我们可信访问计划推出后再行开放。
两种模型的定价均为每百万输入令牌10美元,每百万输出令牌50美元。开发者可通过Claude API使用claude-fable-5模型。
我们预计Fable 5的需求会非常旺盛且难以预测。在Claude API和基于消耗量的企业版方案中,Fable 5即日起全面开放。对于订阅方案,我们更倾向于尽早提供访问权限,因此将采取更稳健的分阶段推出策略:
- 从即日起至6月22日,Fable 5将免费包含在Pro、Max、Team以及基于座位的企业版方案中,无需额外付费。
- 6月23日,我们将从这些方案中移除Fable 5。在此之后继续使用需要消耗使用积分。若容量允许,我们将延长免费包含期。
- 在此之后——当充足容量允许时——我们的目标是恢复Fable 5作为订阅方案的标准组成部分。我们将尽最大努力尽快实现这一目标。
在整个过程中,我们会提前通知任何变更,以便用户了解最新情况。
脚注- Mythos 系列模型是高于 Opus 级别的 Claude 模型等级。首个模型 Claude Mythos 预览版已于 4 月通过 Project Glasswing 发布。今天发布的 Claude Fable 5 和 Claude Mythos 5 紧随其后。
- Fable 源自拉丁语 fabula,意为“被讲述的故事”,与希腊语 mythos 同源。安全防护措施是这两个模型(Fable 和 Mythos)的区别所在,也是我们为其赋予不同名称的原因。
- 指标说明:Firefox = 实现任意代码执行(漏洞利用的完全成功等级)的试验比例。OSS-Fuzz = 五级评分(0.2 崩溃 → 1.0 控制流劫持)的严重性加权均值,因此数值为加权平均值而非成功率。CyberGym = 成功复现目标漏洞的试验比例(公开排行榜指标)。CyScenarioBench = 各挑战成功率的平均等权值。
- 通用越狱可以定义为任何能够使用户在与模型交互时仿佛其安全防护措施不存在的提示词、脚本或工具。这与仅能在非常有限的情境中生效,或需要额外调整才能适应新情况的较小规模越狱行为形成对比。
11 个帖子 - 10 位参与者