我是一个重度的codex用户,从GPT5.1~5.5,都是一直在工作或者生活中使用。
我也很信奉一句话,就是不要在低级模型上浪费时间~~
但是同样我也是对AI有兴趣的,所以说我也想来做一些模型横评,其实一直都想做了,但是一直没有时间,因为国产模型之前一直都是差很多,但是GLM5.1确实是进步不小,但是我一直都没有用过,所以说我也想来测一下。
1. 测试项目
本人的一个闭源项目,以下是架构和复杂度介绍

2. 题目和评判
评判和题目全部由GPT 5.5 xhigh所出,并且题目经过15轮自问自答优化。
AI一共出了6道题,最后我在让他自问自答,最后他只选了三道题
分别是第一题、第四题、第六题


3. 模型渠道和cli版本
GPT自费购买的中转站,我觉得包真的,因为我工作也一直在用
Kimi使用的是官方plan接cc
Opus使用any router
GLM使用hub站某渠道接cc https://hub.linux.do(Hub站在这里)
Claude Code v2.1.154
codex-cli 0.135.0
4. 测试过程
每次答完题都会开新上下文窗口答下一题
提示词分别为
《D:\code\模型评测.md》阅读此文档并在本项目中执行第 1 题,并把最终输出生成文档放在本项目根目录,然后进行commit提交并且推送远端
《D:\code\模型评测.md》阅读此文档并在本项目中完成第 4 题,然后一次性提交所有改动并且推送远端
《D:\code\模型评测.md》阅读此文档并在本项目中完成第 6 题,然后一次性提交所有改动并且推送远端

5. 审查评价过程
让codeX开子代理同样的提示词去跑代码审查
6. 结果
GPT-5.5xhigh每个分支单独生成的评测报告
评测报告.zip (33.5 KB)
详细解释如下
9 个帖子 - 5 位参与者