:fire:【大模型系列35.1】opus-4.8用于Claude Code写作评价

opus-4.8用于Claude Code写作评价 4.8写作测试,2个梦解梦,原文400字,回答1万字左右 ①4.8-max测试:30分钟,消耗5x5h的9% 写作比较正常,说人话,4.8明显比4.7好,4.8与4.6相比谁好还需要更多测试 LiveBench的4.8的语言分仍然低于4.6,而4....
:fire:【大模型系列35.1】opus-4.8用于Claude Code写作评价
:fire:【大模型系列35.1】opus-4.8用于Claude Code写作评价

opus-4.8用于Claude Code写作评价

4.8写作测试,2个梦解梦,原文400字,回答1万字左右

①4.8-max测试:30分钟,消耗5x5h的9%

写作比较正常,说人话,4.8明显比4.7好,4.8与4.6相比谁好还需要更多测试

LiveBench的4.8的语言分仍然低于4.6,而4.7语言分非常低,只略强于4.1,远低于4.5和4.6:LiveBench

image


LMArena上4.7的写作也远低于4.6:LLM Leaderboard - Best Text & Chat AI Models Compared

image


image


4.8速度明显比4.6,4.7更慢,4.6极少能思考到30分钟,不知道是4.8tps低造成的,还是连续思考能力强造成的
参考Reddit也在说速度慢的问题:https://www.reddit.com/r/ClaudeCode/comments/1tqfiw2/

4.6单价比4.7贵4倍,4.8单价应该跟4.7差不多,远低于4.6,参考我这篇:🔥【省钱系列15】还在用opus4.6吗,Claude Code里4.6消耗速度是4.7的4倍

4.8是30分钟消耗9%,相当于5小时消耗90%,就是单线程max effort即便一分钟不停歇,也用不完5x。而4.6大概1.5-2小时就能用光100%

②4.8-ultracode测试:20-30分钟,消耗5x5h的19%

写的很抽象,不说人话,这一档明然使用了与max不同的系统提示词或workflow,与写作兼容性极差,而且非常贵,没必要使用

其他

4.8比4.6,4.7多个特征,就是喜欢在结尾加一句提问,类似chatgpt那种套路

最后发张梗图,祝佬友用4.8愉快地写作

image

4 个帖子 - 3 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文