中山大学和阿里巴巴联合测试
2026 年 3 月 4 日中山大学、阿里巴巴集团联合搞了一场AI测试。他们先从 GitHub 上筛选真实 Python 项目,选取了 100 个样本,来自 68 个不同仓库,平均每个样本跨越 233 天、71 次连续提交。然后通过不断给AI提出需求来测试AI的代码生成能力,整个测试包含了国内外主流的20 个模型,来自 8 个提供商,测试消耗了超过 100 亿 token。
最主要的是,测试中发现大多数模型的零回归率低于25%,即便是在这方面最好的两个 Claude Opus 模型也只才堪堪超过50%。
所以这也就是为什么说AI写的是屎山代码,为什么说AI的能力极限在于所开发软件的架构设计的好不好
零回归率的概念
零回归率指的是:“AI 在修改过程中有没有把原来正常的功能改坏”。例如 100 个任务里有 30 个任务没有出现任何旧功能退化,那么零回归率就是 30%。
1 个帖子 - 1 位参与者