MIMO新旧套餐倍率对比是什么样?让数据来说话

从 开个帖子聊聊小米MIMO新的定价逻辑背后的原因 继续讨论 首先我必须得喷一下旧版token plan的计费策略, 输入/缓存/输出一视同仁计费是人能想出来的策略啊? 没有缓存就是导致大家觉得旧版token不耐用的元凶 下来我们详细分析一下旧版plan和新版的区别,以及在不同的使用场景下我们手头的...
MIMO新旧套餐倍率对比是什么样?让数据来说话
MIMO新旧套餐倍率对比是什么样?让数据来说话

开个帖子聊聊小米MIMO新的定价逻辑背后的原因继续讨论

首先我必须得喷一下旧版token plan的计费策略,输入/缓存/输出一视同仁计费是人能想出来的策略啊? 没有缓存就是导致大家觉得旧版token不耐用的元凶

下来我们详细分析一下旧版plan和新版的区别,以及在不同的使用场景下我们手头的plan到底是增值了还是缩水了

要对比两版的用量,我们需要找到一个没有变化的锚点,在这里选取token数作为锚点。旧版的plan的计费规则很简单,所有token一视同仁,v2.5 1credit=1token,v2.5pro消耗翻倍 2credit=1token。所以旧plan可用的token数拉表如下

套餐档位 旧 credits v2.5(÷1) v2.5-pro(÷2) Lite 0.6亿 60M 30M Standard 2亿 200M 100M Pro 7亿 700M 350M Max 16亿 1600M 800M

新的plan针对输入/缓存/输出做了不同的区分,如下图,v2系列模型没有优化不在讨论范围内

1000035312.jpg

不同的真实应用场景对应的输入,缓存和输出比例是不同的,我们可以通过简单的公式来计算这些场景下实际token可用量,来和旧plan做比较

新 plan 可用 token 数(随工作负载组合变化)

设命中占比 c、未命中占比 u、输出占比 o(c + u + o = 1):

可用 token = 套餐 credits / (2·c + 100·u + 200·o)      # v2.5
可用 token = 套餐 credits / (2.5·c + 300·u + 600·o)    # v2.5-pro

分母 = 每 token 平均消耗的 credits,三项系数即三路费率(命中 / 未命中 / 输出)。

场景取claude给出的三个真实场景和两个极端边界条件(图一乐,有些人就是喜欢看)

三个代表性工作负载场景

  • agent / 对话(命中 95% / 未命中 3% / 输出 2%):高缓存复用、几乎不产生未命中、输出极少。多轮对话和 agent 循环的典型形态——历史前缀逐字复用,每轮只追加少量新内容。
  • 翻译批处理(命中 5% / 未命中 75% / 输出 20%):每条请求开头都不同,前缀基本不复用,命中率接近零。摘要、分类、抽取等单轮无状态批量调用同属此类。
  • 生成密集(命中 40% / 未命中 20% / 输出 40%):输入端缓存命中尚可,但输出占比极高。长文写作、长链推理(CoT)等以产出为主的负载。

两个极端边界

  • 纯命中(命中 100%):所有输入 token 都命中缓存、零未命中零输出。新 plan 的最优场景,每 token 仅耗 2 credits(v2.5),相对旧 plan 放大可达 25–34 倍。
  • 纯输出(输出 100%):全部 token 都是输出、零输入。新 plan 的最劣场景,每 token 耗 200 credits(v2.5),可用 token 仅为旧 plan 的 1/4 到 1/3。

下面是拉表的结果

新版 MiMo-V2.5(旧 plan 基线 1 credit/token)

档位 旧 plan agent 翻译批处理 生成密集 纯命中 纯输出 Lite 60M 461M (7.68×) 35.6M (0.59×) 40.7M (0.68×) 2050M (34.2×) 20.5M (0.34×) Standard 200M 1236M (6.18×) 95.6M (0.48×) 109M (0.55×) 5500M (27.5×) 55M (0.28×) Pro 700M 4270M (6.10×) 330M (0.47×) 377M (0.54×) 19000M (27.1×) 190M (0.27×) Max 1600M 9213M (5.76×) 712M (0.45×) 814M (0.51×) 41000M (25.6×) 410M (0.26×)

新版 MiMo-V2.5-Pro(旧 plan 基线 2 credits/token)

档位 旧 plan agent 翻译批处理 生成密集 纯命中 纯输出 Lite 30M 175M (5.85×) 11.9M (0.40×) 13.6M (0.45×) 1640M (54.7×) 6.8M (0.23×) Standard 100M 471M (4.71×) 31.9M (0.32×) 36.5M (0.37×) 4400M (44.0×) 18.3M (0.18×) Pro 350M 1626M (4.64×) 110M (0.31×) 126M (0.34×) 15200M (43.4×) 63.3M (0.18×) Max 800M 3504M (4.38×) 238M (0.30×) 272M (0.34×) 32800M (41.0×) 137M (0.17×)

从表中我们可以得出一个结论,这次的plan变动利好高缓存场景,v2.5的用量提升符合官方宣传口径的5-8倍。

**但是!**在缓存不足且侧重输出的场景下,出现了plan缩水的情况。我们选定的场景中最严重时仅有原plan的30%,这是小米初版token plan设计不合理带来的反噬,各位佬友可以根据自身情况选择是否继续续费它。

以上所有的讨论都是基于plan价值来讨论的,api就是实打实的降价没有什么可分析的。最后依然是大家在论坛中的讨论可以理性一些,少一些主观情绪的输出, 真诚 、友善 、团结 、专业 ,共建你我引以为荣之社区。

7 个帖子 - 4 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文