原文:https://www.anthropic.com/news/claude-opus-4-8
推出 Claude Opus 4.8
2026年5月28日
我们正在将Claude Opus升级至新版本:Claude Opus 4.8。它在Opus 4.7的基础上实现了多项基准测试的改进,成为更高效的协作伙伴。该版本即日起上线,价格保持不变。
Opus 4.8的发布伴随多项新功能。在claude.ai上,用户现在可以控制Claude在执行任务时投入的工作量。Claude Code新增"动态工作流"功能,使其能够处理超大规模问题。Opus 4.8的快速模式(模型运行速度提升至2.5倍)现价仅为前代模型的三分之一。
Opus 4.8的能力范围——
下表展示了 Opus 4.8 与其前代产品及其他模型在编程、自主能力、推理和实用知识工作等测试中的表现对比。更多详细信息及更广泛的能力评估,请参阅 Claude Opus 4.8 系统卡。
Opus 4.8最显著的改进之一在于其诚实性。我们训练所有模型保持诚实——例如,避免做出无法证实的断言。但AI模型普遍存在一个问题:它们有时会仓促下结论,尽管证据不足却自信宣称工作取得了进展。早期测试者反馈,Opus 4.8更倾向于标示自身工作中的不确定性,且较少做出缺乏依据的论断。这一点在我们的评估中得到验证——数据显示,Opus 4.8对其所编写代码中的缺陷视而不见的概率,较前代产品降低了约四倍。
和以往一样,我们在发布模型前对其进行了详细的 alignment 评估。在积极特质方面,我们的 Alignment 团队得出结论:Opus 4.8“在支持用户自主性、为用户最佳利益行事等亲社会特质衡量指标上达到了新高。”评估还显示,与 Opus 4.7 相比,Opus 4.8 的不当行为(如欺骗或纵容用户滥用)的发生率大幅降低,与 alignment 表现最佳模型 Claude Mythos Preview 水平相当。完整的 alignment 评估以及一系列部署前安全测试结果,均收录于《Claude Opus 4.8 系统卡》中。
今日同步上线
除了 Claude Opus 4.8,我们还推出了以下更新:
- 动态工作流。这项处于研究预览阶段的新功能,让 Claude 能够在 Claude Code 中承担更庞大的任务。Claude 可以规划工作流程,并在单个会话中并行运行数百个分支代理(借助 Opus 4.8,这些代理的运行时间还能进一步延长)。它会在向用户反馈结果之前,先行验证输出内容。例如,搭载 Opus 4.8 的 Claude Code 现在可以从启动到合并,完成涉及数十万行代码的代码库级迁移,并以现有测试套件作为质量基准。您可以在这篇文章中了解更多关于动态工作流的信息——该功能面向 Enterprise、Team 和 Max 计划的 Claude Code 用户开放。
- 在 claude.ai 和 Cowork 中的努力程度控制。模型选择器旁新增了一项控制功能,让用户能够自行选择 Claude 在回复中投入多少努力。在较高的努力程度设置下,Claude 会更频繁、更深入地进行思考,从而提供更优质的回复。在较低的努力程度设置下,Claude 的回复速度会更快,同时用户的使用速率限制消耗也会更慢。从今往后,所有套餐的用户均可使用这一努力程度控制功能。
- **Messages API 现在支持在 messages 数组中包含系统条目。**开发者可以在任务中途更新 Claude 的指令,而无需破坏提示缓存或将更新通过用户回合路由。这一功能可在特定使用场景中,随着智能体的运行来更新权限、令牌预算或环境上下文。
关于用力的说明
Opus 4.8 默认采用高用力模式,我们认为这在质量和用户体验之间实现了最佳平衡。在编程任务中,此用力级别消耗的 Token 数量与 Opus 4.7 默认设置相当,但性能表现更优。用户可选择"额外"(在 Claude Code 中对应"xhigh")或"最大"级别,模型将消耗更多 Token 以获得更优结果;我们建议在复杂任务和长时间运行的异步工作流中使用"额外"模式。我们已提高 Claude Code 的速率限制,以适应更高用力级别带来的更高 Token 消耗;用户可根据具体项目需求选择合适级别。
未来展望
用户将发现 Opus 4.8 相比前代产品有适度但显著的提升。不过仍有改进空间:我们正在致力于开发并发布能够以更低成本提供 Opus 级能力的模型。
不仅如此,我们还计划推出比 Opus 智能程度更高的全新模型系列。作为 Project Glasswing 项目的一部分,目前已有少数组织正在使用 Claude Mythos Preview 进行网络安全工作。具备这种能力水平的模型需要更强大的网络安全防护措施,才能面向大众发布。我们在开发这些防护措施方面进展迅速,预计在未来几周内就能将 Mythos 级别的模型提供给所有客户。
可用性
Claude Opus 4.8现已全面上线。常规使用的定价与Opus 4.7保持一致:每百万输入代币5美元,每百万输出代币25美元。快速模式的价格为每百万输入代币10美元,每百万输出代币50美元。开发者可以通过Claude API使用claude-opus-4-8。
- **Terminal-Bench 2.1:**我们使用Terminus-2公共测试工具报告了所有模型的分数。GPT-5.5在Codex CLI测试工具上的报告得分为83.4%。
- **OSWorld-Verified:**我们调整了OSWorld-Verified评估的运行方式,以便更准确地反映模型在现实世界中的表现,并将Opus 4.7的分数更新为82.3%。更多更新内容请参阅系统卡。
- **Finance Agent v2:**Gemini 3.5 Flash 在 Finance Agent v2 上取得 57.9% 的成绩,较 Gemini 3.1 Pro 有显著提升。
11 个帖子 - 9 位参与者