Opus 4.8知乎大佬模型编程能力榜分数出炉

省流版: 关于评分与实际体验 模型的扣分 不完全 体现实际编程体验,因此榜单按 实际交互体验 对模型进行分档: 档位 定义 A 几乎不犯错,仅出现微小的 UI/交互类问题 B 大概率会错,但描述错误后可在 ≤2 轮 内修复 C 大概率会错,需更多轮交互,但模型能 自主推进修复 ,无需人工辅助 D 必...
Opus 4.8知乎大佬模型编程能力榜分数出炉
Opus 4.8知乎大佬模型编程能力榜分数出炉

省流版:

image

关于评分与实际体验

模型的扣分不完全体现实际编程体验,因此榜单按实际交互体验对模型进行分档:

档位 定义 A 几乎不犯错,仅出现微小的 UI/交互类问题 B 大概率会错,但描述错误后可在 ≤2 轮内修复 C 大概率会错,需更多轮交互,但模型能自主推进修复,无需人工辅助 D 必须由人工提供大量 log、视觉描述、协助操作等才能修复 F 知识或方法论不足,即便有人帮助也无法完成任务

同档位中,若仅少数轮次出现问题、大部分情况表现良好,升半档,以 B+C+ 表示。

通关机制:A 评级视作该模型在对应题目上通关,新版本默认跳过已通关题目。例如Opus 4.8 跳过了 C 和 D 题。


image

完整榜单: LLM Benchmark Dashboard
完整评测内容: 大语言模型-逻辑能力横评 26-05 月榜 (Opus/Qwen/Gemini) - 知乎

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文