MiniMax M3 国模第一了

大多数人还没反应过来。新增MiniMax M3 Free。MiniMax老师站起来了,深沉靠谱。 MiniMax M3 Free: 1. 解决表面问题。2. 解决深层问题,改动代码量比5.4少,比gemini3.1多。表现大于GPT 5.4 xhigh。 使用的是opencode免费版,耗时7m51...
MiniMax M3 国模第一了
MiniMax M3 国模第一了

大多数人还没反应过来。新增MiniMax M3 Free。MiniMax老师站起来了,深沉靠谱。
MiniMax M3 Free: 1. 解决表面问题。2. 解决深层问题,改动代码量比5.4少,比gemini3.1多。表现大于GPT 5.4 xhigh。
使用的是opencode免费版,耗时7m51s。看思考过程,该想到的都想到了,不该读的文件也读了,行为和deepseek v4有点像。如果使用token plan和MiniMax code,也许速度会快点。

企业微信截图17802824307363

原始测试记录如下:
祖传bug测了几个模型的能力,bug有三层修复深度,所以能测出层次感。

  1. minimax 2.7: 未发现问题。提示到具体代码行,仍然不承认有问题。
  2. mimo-v2-pro: 怀疑到具体行数,这个位置是对的,但最终判定不是bug。
  3. glm 5: 发现并解决问题,但只从表面上解决了。
  4. claude 4.6 opus: 发现并解决表面问题。发现深层问题,没有自动修改,能提示用户需要手动修改。
  5. GPT 5.4 xhigh: 发现了用户都没想到的深层问题,自动修改,一次改对。
  6. kimi-2.5:未发现问题。然后提示代码行号,态度转变发现并解决表面问题。同时发现深层问题,但改错了。(速度很慢,比GTP还慢)
  7. Gemini 3.1 pro preview(Copilot): 同glm 5。(速度快,比其他快10倍)
  8. claude 4.6 Sonnet: 发现并解决表面问题。发现深层问题,但改错了。和kimi-2.5错的一样。
  9. glm 5.1: 同claude 4.6 Sonnet。
  10. doubao-seed-2.0-code: 同kimi-2.5
  11. qwen3.6-plus preview free: 同glm 5
  12. stepfun/step-3.5-flash:free: 同glm 5.1。
  13. Gemini 3.1 pro (Antigravity): 发现了用户都没想到的深层问题,自动修改,一次改对。深层次问题用最少的代码修复,比GPT 5.4灵性。
  14. kimi-k2.6: 同claude 4.6 opus。
  15. GPT 5.5 xhigh: 1. 解决表面问题。2. 解决深层问题,改动代码量比5.4少,比gemini3.1多。3. 发现引用的库的bug,没有改动库,本地业务代码优雅规避。
  16. deepseek v4 (stepFun路由,思考强度未知):同claude 4.6 opus,能提示潜在问题,也分析的透彻。太慢了11分钟,26个请求,所有测试里最慢的。
  17. claude 4.7 opus max: 同claude 4.6 opus,对于潜在问题没有自动处理,提出3个选项,第一个选项是Gemini 3.1 pro (Antigravity)那个改动最少,最灵性的。耗时2分钟,15个请求。
  18. mimo-v2.5-pro: 同claude 4.6 opus。耗时2分钟。共测试4次,有2次没检查出问题,不稳定。
  19. 新增Gemini 3.5 Flash (High) (Antigravity 2.1): 未发现问题。提示到具体代码行,只从表面上解决了。速度非常快,42秒。
  20. MiniMax M3 Free: 1. 解决表面问题。2. 解决深层问题,改动代码量比5.4少,比gemini3.1多。表现大于GPT 5.4 xhigh。
    使用的是opencode免费版,耗时7m51s。看思考过程,该想到的都想到了,不该读的文件也读了,行为和deepseek v4有点像。如果使用token plan和MiniMax code,也许速度会快点。

41 个帖子 - 38 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文