拿ETL测试了一下M3，结果还行啊

编辑部 2026-06-03T19:37:49.877608 41224 阅读综合

之前做过很多数据清洗的相关工作，最近大家都在讨论mimimax新模型，我直接拿来测试对比一下，看看这个模型到底怎么样。结论在末尾。自己出题太难为我了，还是叫claude吧。题目设置我叫Claude 老师出了一道数据清洗的算法题：测试流程任务发下去，M3首先是阅读了示列输入表格。随即他陷入...

拿ETL测试了一下M3，结果还行啊

之前做过很多数据清洗的相关工作，最近大家都在讨论mimimax新模型，我直接拿来测试对比一下，看看这个模型到底怎么样。结论在末尾。

自己出题太难为我了，还是叫claude吧。

题目设置

我叫Claude 老师出了一道数据清洗的算法题：

测试流程

任务发下去，M3首先是阅读了示列输入表格。

随即他陷入了长达十多分钟的慢思考，然后列出了计划表，可以看出，M3是想好了再做的类型。

看着最终结果。

让克劳德评价一下。

问题有点大，easy难度大数据清洗没有问题，但其他难度分值异常低。克劳德老师说要重新评价一下。让我看看怎么回事。

原来是裁判失手了。问题不大，让他重新判分。

结果出来了：

看来代码能力是有的，就是不够严谨。。。。。。吗？

回看一下考场：

考场只有这些，如果考场没有东西，他也测不出啊。

让裁判修好赛场后，我新开对话重新测试。直接看最后结果：

选手b（glm）没有用库，难道是我指令不明确？我看看过程：

任务文档：

历史回复：

可以看到，并不是指令不明确，他自己都说了可能会使用标准库来优化。glm这是降至了吗？

我已经放弃思考了，交给opus吧。

opus裁判发力了，他给我找B出错的根本原因：

opus跑十多分钟终于找到了（我的token）：

最终结果：

事先声明：所有测试都包括重测都使用了干净的目录和新开对话。

总体看下来，glm 5.1算法确实强，但在任务理解、算法细节这方面表现不佳。单次测试也不能直接拍板glm 5.1很low。但M3表现确实超出我的预期，实力还是很强的。时间方面M3比较慢。tokens方面：

不算缓存时，glm-5.1 的总 token 是 MiniMax-M3 的约 4.7 倍
算上缓存时，MiniMax-M3 的总 token 是 glm-5.1 的约 4.6 倍
调用次数上，MiniMax-M3 是 87 次，glm-5.1 是 23 次，约 3.8 倍

token构成还是挺大差别的。

附录：

裁判：opus4.8

选手A：M3

选手B：GLM 5.1

工具：Claude code、superpowers插件

2 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

ETL 测试一下 M3 结果一个帖子 IT