【更新中】Minimax M3 前端HTML测试

Minimax M3出了,来看看M3的表现吧 写在最前的叠甲: 模型的输出具有不稳定性,没搞pass@n,确实有不科学的成分,但是消费者会让一个模型跑多少次重复实验? One Shot不一定能代表长程Agent能力,但是One Shot是对于长程Agent编程的试金石和canary test 评价是...
【更新中】Minimax M3 前端HTML测试
更新中】Minimax M3 前端HTML测试

Minimax M3出了,来看看M3的表现吧

写在最前的叠甲:

  1. 模型的输出具有不稳定性,没搞pass@n,确实有不科学的成分,但是消费者会让一个模型跑多少次重复实验?
  2. One Shot不一定能代表长程Agent能力,但是One Shot是对于长程Agent编程的试金石和canary test
  3. 评价是主观的,但是模型的作品是客观的
  4. 为什么不买token plan?而是直接用API?我买过Minimax的token plan,结果到最后,我的用量很少,折算的token价格用API反而更便宜

测试渠道:Openrouter AI Chatroom,选取官方Provider,思考等级为Xhigh(但是按照or的feature,不知道能不能正常传递给上游),无提示词干扰

image

  1. 转盘题,考察的核心是转盘的指针能否和指向的奖品对应,是一道考验模型的代码的逻辑的题目,难度中等偏上,Opus 4.6有时候都会做不好这题,那么看看Minimax M3的表现

phase1,没有提醒模型,要让指针和奖品对应,极简提示词,看模型的表现:
image

这是Minimax M3的作品:

image
用时1m 43.9s

我不知道该评价什么了,我第一次见到有模型把转盘题做成相机镜头的

之前宣发的时候,M3一定要超过GLM-5.1好不好目标低了

image

那么看看GLM5.1在这一题的表现

image

嗯,倒也可以说GLM5.1背题了,但是,嗯……

phase2,明确提醒模型,要求结果和指针相匹配

image

这是Minimax M3花了11分钟给出的结果:

image

好消息:

  1. 终于是转盘了
  2. 第一次旋转,结果和指针是对应的

image
image

坏消息:
旋转了第二圈,结果和指针对不上了

image

image

难评啊难评

5 个帖子 - 4 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文