【更新中】Minimax M3 前端HTML测试

编辑部 2026-06-01T13:29:47.530855 35650 阅读 tech

Minimax M3出了，来看看M3的表现吧写在最前的叠甲：模型的输出具有不稳定性，没搞pass@n，确实有不科学的成分，但是消费者会让一个模型跑多少次重复实验？ One Shot不一定能代表长程Agent能力，但是One Shot是对于长程Agent编程的试金石和canary test 评价是...

【更新中】Minimax M3 前端HTML测试

Minimax M3出了，来看看M3的表现吧

写在最前的叠甲：

模型的输出具有不稳定性，没搞pass@n，确实有不科学的成分，但是消费者会让一个模型跑多少次重复实验？
One Shot不一定能代表长程Agent能力，但是One Shot是对于长程Agent编程的试金石和canary test
评价是主观的，但是模型的作品是客观的
为什么不买token plan？而是直接用API？我买过Minimax的token plan，结果到最后，我的用量很少，折算的token价格用API反而更便宜

测试渠道：Openrouter AI Chatroom，选取官方Provider，思考等级为Xhigh（但是按照or的feature，不知道能不能正常传递给上游），无提示词干扰

转盘题，考察的核心是转盘的指针能否和指向的奖品对应，是一道考验模型的代码的逻辑的题目，难度中等偏上，Opus 4.6有时候都会做不好这题，那么看看Minimax M3的表现

phase1，没有提醒模型，要让指针和奖品对应，极简提示词，看模型的表现：

这是Minimax M3的作品：

用时1m 43.9s

我不知道该评价什么了，我第一次见到有模型把转盘题做成相机镜头的

之前宣发的时候，M3一定要超过GLM-5.1好不好 → 目标低了

那么看看GLM5.1在这一题的表现

嗯，倒也可以说GLM5.1背题了，但是，嗯……

phase2，明确提醒模型，要求结果和指针相匹配

这是Minimax M3花了11分钟给出的结果：

好消息：

终于是转盘了
第一次旋转，结果和指针是对应的

坏消息：
旋转了第二圈，结果和指针对不上了

难评啊难评

5 个帖子 - 4 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

更新 Minimax M3 前端 HTML 一个帖子参与者