【模型大横评!】GPT5.5/5.4/5.3 | Opus4.8 | Kimi2.6 | GLM5.1

我是一个重度的codex用户,从GPT5.1~5.5,都是一直在工作或者生活中使用。 我也很信奉一句话,就是不要在低级模型上浪费时间~~ 但是同样我也是对AI有兴趣的,所以说我也想来做一些模型横评,其实一直都想做了,但是一直没有时间,因为国产模型之前一直都是差很多,但是GLM5.1确实是进步不小,但...
【模型大横评!】GPT5.5/5.4/5.3 | Opus4.8 | Kimi2.6 | GLM5.1
模型大横评!】GPT5.5/5.4/5.3 | Opus4.8 | Kimi2.6 | GLM5.1

我是一个重度的codex用户,从GPT5.1~5.5,都是一直在工作或者生活中使用。

我也很信奉一句话,就是不要在低级模型上浪费时间~~

但是同样我也是对AI有兴趣的,所以说我也想来做一些模型横评,其实一直都想做了,但是一直没有时间,因为国产模型之前一直都是差很多,但是GLM5.1确实是进步不小,但是我一直都没有用过,所以说我也想来测一下。

1. 测试项目

本人的一个闭源项目,以下是架构和复杂度介绍

image
image

2. 题目和评判

评判和题目全部由GPT 5.5 xhigh所出,并且题目经过15轮自问自答优化。
AI一共出了6道题,最后我在让他自问自答,最后他只选了三道题
分别是第一题、第四题、第六题

image
image
image

3. 模型渠道和cli版本

GPT自费购买的中转站,我觉得包真的,因为我工作也一直在用
Kimi使用的是官方plan接cc
Opus使用any router
GLM使用hub站某渠道接cc https://hub.linux.do(Hub站在这里)

Claude Code v2.1.154
codex-cli 0.135.0

4. 测试过程

每次答完题都会开新上下文窗口答下一题

提示词分别为
《D:\code\模型评测.md》阅读此文档并在本项目中执行第 1 题,并把最终输出生成文档放在本项目根目录,然后进行commit提交并且推送远端
《D:\code\模型评测.md》阅读此文档并在本项目中完成第 4 题,然后一次性提交所有改动并且推送远端
《D:\code\模型评测.md》阅读此文档并在本项目中完成第 6 题,然后一次性提交所有改动并且推送远端

image
image

5. 审查评价过程

让codeX开子代理同样的提示词去跑代码审查

image

6. 结果

GPT-5.5xhigh每个分支单独生成的评测报告
评测报告.zip (33.5 KB)

排名 分支 / 模型 总分 合并建议 结论 1 test-gpt55 92推荐作为主线合并 2 test-gpt54 91强备选 3 test-opus48 88修复后可合并 4 test-gpt53codex 82暂不建议直接合并 5 test-glm51 70不建议合并 6 test-kimi26 56不建议合并

详细解释如下

image

9 个帖子 - 5 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文