从几个月前用 4.5 / 5.2 那代模型,到现在的 4.7 / 5.5,我最大的感受只有一句话:
0→1 用 Claude 4.7、GPT 5.5 让 AI 一直堆屎山,好像确实可行。
但一旦基于原项目续写,没有一个模型能做到 70 分,真的很多都在及格分以下。
这种感觉,几个月前是这样,几个月过去后,居然还是这样。
先说 0→1 的「屎山搭建」
这一点我得承认,新模型更猛了。给个大概方向,它能一口气吐出一套能运行的代码,看着贼唬人。
一旦review就是灾难——
- 各种结构耦合;
- 随意散落的功能单一的函数;
- 同样的逻辑换个地方又写一遍;
0→1 阶段,AI 给的产出需要习惯能跑就行。
可问题在于,这个阶段,4.7、5.5 的确比 4.5、5.2 快了、长了、敢写了 ,上下文大了之后,甚至能一次帮你搭出更复杂的脚手架。所以单看 0→1,有进步。
真正让人崩溃的,是「基于原项目续写」
这才是绝大部分实际工作的常态。现实里几乎没有一天是让你从零开始写个新项目,绝大多数时候是:
- 在一个动辄上百文件的老项目里加小功能;
- 改一个和五处逻辑耦合的旧模块;
- 在不破坏现有结构的前提下修 bug。
在这个场景下,几个月来,我的体感几乎原地踏步,甚至有些模型还后退了 。
我把必要文件喂进去,上下文也尽量裁剪精准,接着就是灾难现场:
- Claude 4.7
写了一整段新 Service,完全无视已有的 BaseService 和通用查询封装,自己另起炉灶,重新发明了一套查询逻辑,连字段命名风格都和项目已有代码不一样。你让它改,它又一改就动到其他地方,把原来好好的逻辑拆得七零八落。 - GPT 5.5
更离谱,刚开始挺聪明,说要复用现有抽象。结果写出来发现它把两个不相关的模块强行耦合在一起,试图“优化”根本不需要优化的部分。更致命的是,它悄悄改了一个已有函数的默认参数,直接让三个旧测试挂掉。
而几个月前,我用 4.5 和 5.2 面对类似任务时,犯的错几乎一模一样:
- 无视项目既有约定;
- 局部能看,全局灾难;
- 总是习惯于写代码的时候偷摸改改已有代码,嗯?试图优化写法?,maybe
70 分?很多次我甚至觉得连 50 分都勉强。
模型输出的代码语法正确、跑得通,代码结构一塌糊涂,review更是灾难。这种问题在 4.7、5.5 身上,一点没少。
实质性的提升?
真正需要的“在已有约束下精准修改”的能力,没有质变。
- 上下文大了,但它不能合理利用上下文;
- 生成速度更快,但错得更快。
从 4.5/5.2 到 4.7/5.5,代码生成速度加快了,质量真的要打个引号
最后说下
现在的模型,擅长“为你生成一个看起来像那么回事的东西”,但不擅长“为你的东西负责任地添砖加瓦”。
无论怎么刷 SWE-bench,在日常的真实项目续写里,它们的表现依然算不上合格员工 。
所以回到标题那个问题:现在的模型真的有实质性的提升吗?
我的答案是:0→1 的屎山堆得更快了,但一到续写维护,该不及格还是不及格。这算不算实质提升,大家自己品吧。
有同感的来聊聊,是不是我的用法有问题,还是大家都这样。
10 个帖子 - 6 位参与者