先上官方评测图
这次升级的重点已经不只是“更聪明”,而是明显在往真正的 AI Agent 方向走。
官方重点提到的能力包括:
- 更强的 coding 和 agentic task
- 更好的 computer-use / browser-agent 能力
- 更长任务链稳定性
- 更强 multimodal(PDF、图表、非结构化内容)
- 更低 hallucination
- 更高 honesty(更愿意承认不确定性)
- 更强 self-check 与 error recovery
官方数据显示:
- Online-Mind2Web 达到 84%
- Browser agent / computer-use 能力明显超过 Opus 4.7
- 企业 agent 场景推理能力大幅提升
- 多步任务速度更快
- token 成本比 4.7 更低
Anthropic 这次特别强调:
Opus 4.8 不会像很多模型一样“假装完成工作”。
官方测试中,4.8 更倾向于:
- 主动标记不确定内容
- 承认信息不足
- 避免 unsupported claims
同时:
- deception(欺骗行为)
- misuse cooperation(配合恶意用途)
相比 Opus 4.7 进一步下降。
官方链接:https://www.anthropic.com/news/claude-opus-4-8
4 个帖子 - 4 位参与者