minimax m3体验初步感受:规划能力不错但智商不够

minimax这个模型公司给我的感受就是就是模型的后训练能力非常强,不然也没法用m2.5和2.7在榜单上追上模型。 今天使用opencode的m3免费模型进行agent任务,体验如下。 1.观察思维链的时候,发现minimax的内心戏非常多且规整,对问题的拆解很细致,并且非常乐意去调用各类plan工...
minimax m3体验初步感受:规划能力不错但智商不够
minimax m3体验初步感受:规划能力不错但智商不够

minimax这个模型公司给我的感受就是就是模型的后训练能力非常强,不然也没法用m2.5和2.7在榜单上追上模型。

今天使用opencode的m3免费模型进行agent任务,体验如下。

1.观察思维链的时候,发现minimax的内心戏非常多且规整,对问题的拆解很细致,并且非常乐意去调用各类plan工具,大概是后训练发力了吧,

2.但是它在规划的过程中常常会对用户的指令进行不断的分析,可能还会对很早的指令分析,不断重复并强化。这看似是好事,但是非常容易陷入左右脑互搏,总结一下就是智商不高。

这可能就是minimax的分数为什么高,对于一个确定的提示词和任务,你这样的训练方法当然没问题,并且能拿高分。

但是现实情况是目标不一定明确,用户提示词不一定准确甚至自相矛盾。这体验能好就有鬼了。

我个人的看到的猜测是这个模型大概500多B?就这么大还塞多模态进去,真不如学ds专注文本任务和逻辑推理,现在的生态位就很糟糕了,智力不够干啥都不行。

总结,这个模型还是很适合体验一下的,opencode免费的速度很快,不过建议使用时注意提示词工程,并且你自己对项目和目标的理解要足够深,不然这个模型很难用,这可能也是众说纷纭的原因吧

3 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文