Anthropic 正式发布 Claude Opus 4.8

先上官方评测图 这次升级的重点已经不只是“更聪明”,而是明显在往真正的 AI Agent 方向走。 官方重点提到的能力包括: 更强的 coding 和 agentic task 更好的 computer-use / browser-agent 能力 更长任务链稳定性 更强 multimodal(PD...
Anthropic 正式发布 Claude Opus 4.8
Anthropic 正式发布 Claude Opus 4.8

先上官方评测图

a9007019094f217e98cb8261a2765d7646c01708-2600x1392

这次升级的重点已经不只是“更聪明”,而是明显在往真正的 AI Agent 方向走。

官方重点提到的能力包括:

  • 更强的 coding 和 agentic task
  • 更好的 computer-use / browser-agent 能力
  • 更长任务链稳定性
  • 更强 multimodal(PDF、图表、非结构化内容)
  • 更低 hallucination
  • 更高 honesty(更愿意承认不确定性)
  • 更强 self-check 与 error recovery

官方数据显示:

  • Online-Mind2Web 达到 84%
  • Browser agent / computer-use 能力明显超过 Opus 4.7
  • 企业 agent 场景推理能力大幅提升
  • 多步任务速度更快
  • token 成本比 4.7 更低

Anthropic 这次特别强调:
Opus 4.8 不会像很多模型一样“假装完成工作”。

官方测试中,4.8 更倾向于:

  • 主动标记不确定内容
  • 承认信息不足
  • 避免 unsupported claims

同时:

  • deception(欺骗行为)
  • misuse cooperation(配合恶意用途)

相比 Opus 4.7 进一步下降。

官方链接:https://www.anthropic.com/news/claude-opus-4-8

4 个帖子 - 4 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文