A\的模型在走下坡路

观 t3.gg 的 https://www.youtube.com/watch?v=zd6tBbCwkks 有感 ——A\ 的模型,至少在 toC 端,一定会越来越差,直到它们的新数据中心上线,或者快倒闭了。(我希望是后者,但目前来看有点困难,祝 A 社早日殡天!) Theo 的视频和我初步体验 O...
A\的模型在走下坡路
A\的模型在走下坡路

观 t3.gg 的 https://www.youtube.com/watch?v=zd6tBbCwkks 有感 ——A\ 的模型,至少在 toC 端,一定会越来越差,直到它们的新数据中心上线,或者快倒闭了。(我希望是后者,但目前来看有点困难,祝 A 社早日殡天!)
Theo 的视频和我初步体验 Opus4.7 的感官十分相似,都发现 Opus4.7 有严重的 主观能动性 倒退。估计是(肯定是)A\ 的主动降智之下,opus4.7 会非常自信地乐观估计项目情况,基本丧失了探索项目的主动性,造成它的执行与项目实际有非常严重的出入。

  • 例如在我说明了 issue 并给出修复规范、项目也有维护得很好的 agent.md 的情况下,Opus4.7 会像修改一个单文件脚本一样去修改项目,完全不顾各组件间的依赖,忽视 API 约定等明明在文档和注释里都有说明的约束。

1000158976.png

其次, Opus4.7 的 “指令遵循” 能力提升了,这本应该是好事(我猜其实是蒸馏 GPT 蒸多了导致的)。实际上这却使得 Opus4.7 完全不会自己补齐边界情况,在提示词不完备的情境下自主探索和思考用户意图和项目逻辑,较好地完成任务。这本应该是 Opus4.5 就有的能力。

  • 例如,我要求 Opus4.7 帮我升级 nanobot(我对 nanobot 稍做了一些魔改,主要是 cron 等次要子系统),在保留本地更改的同时吸收上游的功能更新,Opus 就开始流口水了,先是直接 --ours 把上游全部拉了下来,结果连 pytest 都跑不过,它却自信地认为 “我完成了用户的要求”。接着我要求它 debug,吸收上游更新并启用可用的新特性,但保留自有实现,它才能理解我的意图。…… 快要不如 Gpt5.4 了。
  • 事实上,在 codex 中完成 plan 后,GPT 的 “主观能动性” 一点也不差。它会在计划框架内自主探索和填补没考虑到的边界情况,在一些小项目里是过度思考(比如到处乱拉单元测试),但在一些大型多子系统的项目(shit 山)里,这种能力真的很让人安心。
    如 Theo 所说,这很大程度上是因为 A\ 内部的 “super claude code” 和我们用户能用到的有很大不同,内部版本有更多更好的围栏和约束和工具等等,于是内外体验很不一致。

这种降智和敷衍非常鲜明地表现出 A\ 完全不在乎个人消费者。有了 toB 和 to Government 的情况下,A\ 完全不缺钱,它们只缺卡。哪有卡呢?个人用户占掉了!那怎么办?封号!降智!这也就导致了模型主观能动性全无,一点多余的不干。纯人机。
…… 祝 A 社早日殡天!

8 个帖子 - 6 位参与者

阅读完整话题

来源: linux.do查看原文