A\的模型又在走下坡路

从 A\的模型在走下坡路 继续讨论 如我所料,Opus 4.8 < Opus 4.7 <GPT 5.5。初步体验 Opus4.8 后,我觉得 claude 的 Pro 也没必要开了 仅存的那点 4.6 额度也扣扣搜搜的。还是那句话,c 端的 A\ 之后只会越来越 ÷,除非它快死了。祝 A\ 早日殡天...
A\的模型又在走下坡路
A\的模型又在走下坡路

A\的模型在走下坡路继续讨论

如我所料,Opus 4.8 < Opus 4.7 <GPT 5.5。初步体验 Opus4.8 后,我觉得 claude 的 Pro 也没必要开了:melting_face:仅存的那点 4.6 额度也扣扣搜搜的。还是那句话,c 端的 A\ 之后只会越来越 ÷,除非它快死了。祝 A\ 早日殡天吧。

首先是在协作体验上,它的体验会略好于 4.7,不及 4.6 和 5.5。最大的问题就是「君の日本語は本当に上手ですね」。家乡的语言充斥在它的思维链和中期输出中,严重干扰我对它工作进度和思考的理解判断,真绷不住了。但如果我用英语与它进行协作,它的输出又很正常。A\ 你罪大恶极啊!

但也有可圈可点之处,4.8 明显会思考、更诚实、不犯懒,会积极与我交流来确认各种需求的细节和实现的边界,让我有了一些 4.6 的既视感,那种活人感和灵动的思维能力。

说到灵动的思维能力,4.8 比起 4.7 还有一个优势,它不会在思维链中持续焦虑、持续否定自己。它思考到一个结果就会自信地执行。这很好,要是正确就能一把过,要是错误我也能快速方便地定位并指出,而不是看着 4.7 在那内耗互搏。这也直接导致 4.8 解决某些问题所消耗的 token 甚至低于 5.5,成本也会略低些。(但思维的严谨和全面程度还是连 5.4 都不如,5.4 能考虑的的边界条件它就想不到,会留下漏洞)

其次就是它的自主工作能力了,嗯…… 不如 4.6 也不如 5.5。比 4.7 肯定是好,4.7 甚至给我更新个魔改后的 nanobot 都会端着一片红的 pytest 声称自己完成了任务,4.8 会主动做完整测试和验证了。但 4.8 的工具调用积极性和查证文档等信息的能力还是变弱了,和春节的 4.6 比起来尤为明显。嗯…… 不如 5.5。而且你越压力它,它表现越好。我就说 Opus 有很明显的 M 的特质吧!(bushi)

Screenshot_2026_0529_211922.jpg

theo 的视频,和我的体感很像,4.8 依旧前端品味不错,5.5 依旧拉稀。他这里真笑死我了

所以 A\ 你是又端了个拿 Mythos 蒸馏了一通(难说除了 mythos 以外还有谁被蒸了)然后对齐掉网络安全特征的小模型出来了吗?那真是玷污了 Opus 的名字。你就揣着 mythos 当个宝吧。呵呵。祝 A\ 早日殡天!

18 个帖子 - 8 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文