Minimax M3出了,来看看M3的表现吧
写在最前的叠甲:
- 模型的输出具有不稳定性,没搞pass@n,确实有不科学的成分,但是消费者会让一个模型跑多少次重复实验?
- One Shot不一定能代表长程Agent能力,但是One Shot是对于长程Agent编程的试金石和canary test
- 评价是主观的,但是模型的作品是客观的
- 为什么不买token plan?而是直接用API?我买过Minimax的token plan,结果到最后,我的用量很少,折算的token价格用API反而更便宜
测试渠道:Openrouter AI Chatroom,选取官方Provider,思考等级为Xhigh(但是按照or的feature,不知道能不能正常传递给上游),无提示词干扰
- 转盘题,考察的核心是转盘的指针能否和指向的奖品对应,是一道考验模型的代码的逻辑的题目,难度中等偏上,Opus 4.6有时候都会做不好这题,那么看看Minimax M3的表现
phase1,没有提醒模型,要让指针和奖品对应,极简提示词,看模型的表现:

这是Minimax M3的作品:

用时1m 43.9s
我不知道该评价什么了,我第一次见到有模型把转盘题做成相机镜头的
之前宣发的时候,M3一定要超过GLM-5.1好不好 → 目标低了
那么看看GLM5.1在这一题的表现
嗯,倒也可以说GLM5.1背题了,但是,嗯……
phase2,明确提醒模型,要求结果和指针相匹配
这是Minimax M3花了11分钟给出的结果:
好消息:
- 终于是转盘了
- 第一次旋转,结果和指针是对应的

坏消息:
旋转了第二圈,结果和指针对不上了
难评啊难评
5 个帖子 - 4 位参与者