拿ETL测试了一下M3,结果还行啊

之前做过很多数据清洗的相关工作,最近大家都在讨论mimimax新模型,我直接拿来测试对比一下,看看这个模型到底怎么样。结论在末尾。 自己出题太难为我了,还是叫claude吧。 题目设置 我叫Claude 老师出了一道数据清洗的算法题: 测试流程 任务发下去,M3首先是阅读了示列输入表格。 随即他陷入...
拿ETL测试了一下M3,结果还行啊
拿ETL测试了一下M3,结果还行啊

之前做过很多数据清洗的相关工作,最近大家都在讨论mimimax新模型,我直接拿来测试对比一下,看看这个模型到底怎么样。结论在末尾。

自己出题太难为我了,还是叫claude吧。

题目设置

我叫Claude 老师出了一道数据清洗的算法题:

测试流程

任务发下去,M3首先是阅读了示列输入表格。

随即他陷入了长达十多分钟的慢思考,然后列出了计划表,可以看出,M3是想好了再做的类型。

看着最终结果。

让克劳德评价一下。

问题有点大,easy难度大数据清洗没有问题,但其他难度分值异常低。克劳德老师说要重新评价一下。让我看看怎么回事。

原来是裁判失手了。问题不大,让他重新判分。

结果出来了:

看来代码能力是有的,就是不够严谨。。。。。。吗?

回看一下考场:

考场只有这些,如果考场没有东西,他也测不出啊。

让裁判修好赛场后,我新开对话重新测试。直接看最后结果:

选手b(glm)没有用库,难道是我指令不明确?我看看过程:

任务文档:

历史回复:

可以看到,并不是指令不明确,他自己都说了可能会使用标准库来优化。glm这是降至了吗?

我已经放弃思考了,交给opus吧。

opus裁判发力了,他给我找B出错的根本原因:

opus跑十多分钟终于找到了(我的token​:sob:):

最终结果:

事先声明:所有测试都包括重测都使用了干净的目录和新开对话。

总体看下来,glm 5.1算法确实强,但在任务理解、算法细节这方面表现不佳。单次测试也不能直接拍板glm 5.1很low。但M3表现确实超出我的预期,实力还是很强的。时间方面M3比较慢。tokens方面:

  • 不算缓存时,glm-5.1 的总 token 是 MiniMax-M3 的约 4.7 倍
  • 算上缓存时,MiniMax-M3 的总 token 是 glm-5.1 的约 4.6 倍
  • 调用次数上,MiniMax-M3 是 87 次,glm-5.1 是 23 次,约 3.8 倍

token构成还是挺大差别的。


附录:

裁判:opus4.8

选手A:M3

选手B:GLM 5.1

工具:Claude code、superpowers插件

2 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文