现在的模型真的有实质性的提升吗?

从几个月前用 4.5 / 5.2 那代模型,到现在的 4.7 / 5.5,我最大的感受只有一句话: 0→1 用 Claude 4.7、GPT 5.5 让 AI 一直堆屎山,好像确实可行。 但一旦基于原项目续写,没有一个模型能做到 70 分,真的很多都在及格分以下。 这种感觉,几个月前是这样,几个月过...
现在的模型真的有实质性的提升吗?
现在的模型真的有实质性的提升吗?

从几个月前用 4.5 / 5.2 那代模型,到现在的 4.7 / 5.5,我最大的感受只有一句话:
0→1 用 Claude 4.7、GPT 5.5 让 AI 一直堆屎山,好像确实可行。
但一旦基于原项目续写,没有一个模型能做到 70 分,真的很多都在及格分以下。
这种感觉,几个月前是这样,几个月过去后,居然还是这样。

0→1

这一点我得承认,新模型更猛了。给个大概方向,它能一口气吐出一套能运行的代码,看着贼唬人。
一旦review就是灾难——

原项目续写

几个月来,我的体感几乎原地踏步,甚至有些模型还后退了

  • 无视项目既有约定;
  • 局部能看,全局灾难;
  • 总是习惯于写代码的时候偷摸改改已有代码,嗯?试图优化写法?,maybe

70 分?很多次我甚至觉得连 50 分都勉强。
模型输出的代码语法正确、跑得通,代码结构一塌糊涂,review更是灾难。这种问题在 4.7、5.5 身上,一点没少。
最后说下
在日常的真实项目续写里,它们的表现依然算不上合格员工
有同感的来聊聊,是不是我的用法有问题,还是大家都这样。

10 个帖子 - 6 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文