【模型大横评！】GPT5.5/5.4/5.3 | Opus4.8 | Kimi2.6 | GLM5.1

编辑部 2026-05-30T13:45:23.206879 35791 阅读 tech

我是一个重度的codex用户，从GPT5.1~5.5，都是一直在工作或者生活中使用。我也很信奉一句话，就是不要在低级模型上浪费时间~~ 但是同样我也是对AI有兴趣的，所以说我也想来做一些模型横评，其实一直都想做了，但是一直没有时间，因为国产模型之前一直都是差很多，但是GLM5.1确实是进步不小，但...

【模型大横评！】GPT5.5/5.4/5.3 | Opus4.8 | Kimi2.6 | GLM5.1

我是一个重度的codex用户，从GPT5.1~5.5，都是一直在工作或者生活中使用。

我也很信奉一句话，就是不要在低级模型上浪费时间~~

但是同样我也是对AI有兴趣的，所以说我也想来做一些模型横评，其实一直都想做了，但是一直没有时间，因为国产模型之前一直都是差很多，但是GLM5.1确实是进步不小，但是我一直都没有用过，所以说我也想来测一下。

1. 测试项目

本人的一个闭源项目，以下是架构和复杂度介绍

2. 题目和评判

评判和题目全部由GPT 5.5 xhigh所出，并且题目经过15轮自问自答优化。
AI一共出了6道题，最后我在让他自问自答，最后他只选了三道题
分别是第一题、第四题、第六题

3. 模型渠道和cli版本

GPT自费购买的中转站，我觉得包真的，因为我工作也一直在用
Kimi使用的是官方plan接cc
Opus使用any router
GLM使用hub站某渠道接cc https://hub.linux.do(Hub站在这里)

Claude Code v2.1.154
codex-cli 0.135.0

4. 测试过程

每次答完题都会开新上下文窗口答下一题

提示词分别为
《D:\code\模型评测.md》阅读此文档并在本项目中执行第 1 题，并把最终输出生成文档放在本项目根目录，然后进行commit提交并且推送远端
《D:\code\模型评测.md》阅读此文档并在本项目中完成第 4 题，然后一次性提交所有改动并且推送远端
《D:\code\模型评测.md》阅读此文档并在本项目中完成第 6 题，然后一次性提交所有改动并且推送远端

5. 审查评价过程

让codeX开子代理同样的提示词去跑代码审查

6. 结果

GPT-5.5xhigh每个分支单独生成的评测报告
评测报告.zip (33.5 KB)

排名分支 / 模型总分合并建议结论 1 test-gpt55 92 是 推荐作为主线合并 2 test-gpt54 91 是 强备选 3 test-opus48 88 否 修复后可合并 4 test-gpt53codex 82 否 暂不建议直接合并 5 test-glm51 70 否 不建议合并 6 test-kimi26 56 否 不建议合并

详细解释如下

9 个帖子 - 5 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

模型大横评 GPT5.5 Opus4.8 Kimi2.6 一个帖子 IT