电子斗蛐蛐:小米mimo vs 智谱glm vs GPT

从该评论继续讨论: 小米发布了MiMo-V2.5-Pro模型,有用过的感觉效果怎么样吗? 昨天使用了社区佬友分享的 mimo-v2.5-pro,当时解决了我一个困扰已久的问题,此问题 gpt-5.4/glm-5.1 都没有解决,今天又遇到一个类似的问题,我决定试一试 初始提示词相同 情况下(由于后期...
电子斗蛐蛐:小米mimo vs 智谱glm vs GPT
电子斗蛐蛐:小米mimo vs 智谱glm vs GPT

从该评论继续讨论:小米发布了MiMo-V2.5-Pro模型,有用过的感觉效果怎么样吗?

昨天使用了社区佬友分享的 mimo-v2.5-pro,当时解决了我一个困扰已久的问题,此问题 gpt-5.4/glm-5.1 都没有解决,今天又遇到一个类似的问题,我决定试一试 初始提示词相同 情况下(由于后期模型修复后的错误不一致,我尽量保持 prompt 的格式、风格一致),各个模型需要 额外 几次提示词能修复。

小米mimo、智谱glm 在 claude code 中运行,gpt 在 codex 中运行,插件、skill配置相似,统计数据来源:Claude Code History Viewer

战况如下:

mimo-v2.5-pro
额外 prompt 2次,合计消息98条,用时20分钟,token数 4.8M,文件修改数 1

glm-5v-turbo
额外 prompt 8次,编译错误1次,合计消息183条,用时25分钟,token数 4.3M,文件修改数 1

glm-5.1
额外 prompt 3次,合计消息69条(主agent 52条,subagent 17条),用时38分钟,token数 2.5M,文件修改数 2

gpt-5.4-xhigh
额外 prompt 3次,合计消息491条,用时59分钟,token数 25.6M,文件修改数 4


主观体验:

mimo-v2.5-pro 输出很快(60~90 t/s),非常喜欢调用工具,有点gpt的味道。

glm-5v-turbo 输出很快(40~60 t/s),但是代码检查不到位,会出现编译错误,体验一般。

glm-5.1 似乎是用量太大的原因?我的lite订阅输出非常慢(6-20 t/s),输出质量不错,跟 mimo-v2.5-pro 伯仲之间,而且他的总消息数小于mimo,用了更少的工具,得到了正确答案,还充分利用了subagent 能力,但是由于吞吐速度慢,整体耗时很长,体验有点差。

gpt-5.4-xhigh 吞吐速度一般(30~60 t/s),由于我没有官方订阅,使用的是社区佬友的公益,速度仅作参考。体验大家也知道的,gpt不爱说人话,喜欢先调用一大堆工具,然后输出。面对这个问题使用了 3 次额外提示,修改了4个文件,没有想象中的那么精准。


本场斗蛐蛐的胜者是:mimo-v2.5-pro / glm-5.1

mimo-v2.5-pro 用较少的prompt尽快的定位了问题并修复,展示了自己作为挑战者的底气。glm-5.1 则以较少的工具调用次数、较少的token消耗证明了自己国模一哥的地位。评价为

glm-5v-turbo 在本场中评为 拉完了,出现编译错误非常扣分。

gpt-5.4-xhigh 本场评为 拉完了,没有符合大家对它较高的期待,并且大量的token消耗,和最长的用时,但是鉴于平时可靠的长任务运行,提升到 NPC

本次测评评价仅供娱乐,测评场景单一,不符合任何科学测试原则,不作为任何 XXX plan 购入参考,不包含对任何公司的客观评价依据。

3 个帖子 - 3 位参与者

阅读完整话题

来源: linux.do查看原文