现在的模型真的有实质性的提升吗？

编辑部 2026-05-11T23:25:25.626102 27240 阅读综合

从几个月前用 4.5 / 5.2 那代模型，到现在的 4.7 / 5.5，我最大的感受只有一句话： 0→1 用 Claude 4.7、GPT 5.5 让 AI 一直堆屎山，好像确实可行。但一旦基于原项目续写，没有一个模型能做到 70 分，真的很多都在及格分以下。这种感觉，几个月前是这样，几个月过...

从几个月前用 4.5 / 5.2 那代模型，到现在的 4.7 / 5.5，我最大的感受只有一句话：
0→1 用 Claude 4.7、GPT 5.5 让 AI 一直堆屎山，好像确实可行。
但一旦基于原项目续写，没有一个模型能做到 70 分，真的很多都在及格分以下。
这种感觉，几个月前是这样，几个月过去后，居然还是这样。

先说 0→1 的「屎山搭建」

这一点我得承认，新模型更猛了。给个大概方向，它能一口气吐出一套能运行的代码，看着贼唬人。
一旦review就是灾难——

各种结构耦合；
随意散落的功能单一的函数；
同样的逻辑换个地方又写一遍；

0→1 阶段，AI 给的产出需要习惯能跑就行。

可问题在于，这个阶段，4.7、5.5 的确比 4.5、5.2 快了、长了、敢写了 ，上下文大了之后，甚至能一次帮你搭出更复杂的脚手架。所以单看 0→1，有进步。

真正让人崩溃的，是「基于原项目续写」

这才是绝大部分实际工作的常态。现实里几乎没有一天是让你从零开始写个新项目，绝大多数时候是：

在一个动辄上百文件的老项目里加小功能；
改一个和五处逻辑耦合的旧模块；
在不破坏现有结构的前提下修 bug。

在这个场景下，几个月来，我的体感几乎原地踏步，甚至有些模型还后退了 。

我把必要文件喂进去，上下文也尽量裁剪精准，接着就是灾难现场：

Claude 4.7
写了一整段新 Service，完全无视已有的 BaseService 和通用查询封装，自己另起炉灶，重新发明了一套查询逻辑，连字段命名风格都和项目已有代码不一样。你让它改，它又一改就动到其他地方，把原来好好的逻辑拆得七零八落。
GPT 5.5
更离谱，刚开始挺聪明，说要复用现有抽象。结果写出来发现它把两个不相关的模块强行耦合在一起，试图“优化”根本不需要优化的部分。更致命的是，它悄悄改了一个已有函数的默认参数，直接让三个旧测试挂掉。

而几个月前，我用 4.5 和 5.2 面对类似任务时，犯的错几乎一模一样：

无视项目既有约定；
局部能看，全局灾难；
总是习惯于写代码的时候偷摸改改已有代码，嗯？试图优化写法？，maybe
70 分？很多次我甚至觉得连 50 分都勉强。
模型输出的代码语法正确、跑得通，代码结构一塌糊涂，review更是灾难。这种问题在 4.7、5.5 身上，一点没少。

实质性的提升？

真正需要的“在已有约束下精准修改”的能力，没有质变。

上下文大了，但它不能合理利用上下文；
生成速度更快，但错得更快。

从 4.5/5.2 到 4.7/5.5，代码生成速度加快了，质量真的要打个引号

最后说下

现在的模型，擅长“为你生成一个看起来像那么回事的东西”，但不擅长“为你的东西负责任地添砖加瓦”。
无论怎么刷 SWE-bench，在日常的真实项目续写里，它们的表现依然算不上合格员工 。

所以回到标题那个问题：现在的模型真的有实质性的提升吗？
我的答案是：0→1 的屎山堆得更快了，但一到续写维护，该不及格还是不及格。这算不算实质提升，大家自己品吧。

有同感的来聊聊，是不是我的用法有问题，还是大家都这样。

10 个帖子 - 6 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

现在模型真的实质性提升一个 AI IT

现在的模型真的有实质性的提升吗？

Shift Up 称《剑星 2》顺利推进中，更多细节年内公布

[分享创造] pagegrok 本地 AI 接入网页理解，浏览器页面选区解读

相关推荐