开个帖子聊聊小米MIMO新的定价逻辑背后的原因

编辑部 2026-06-03T04:17:58.561776 5904 阅读 tech

定价逻辑锚点：1亿credit = 1¥ 我们拉个表对比一下API的人民币定价和Credit/Token换算关系 API价格 ¥/M x100 Credit/Token V2.5命中缓存 0.020 2 2 V2.5未命中 1 100 100 V2.5输出 2 200 200 Pro命中缓存 0.0...

定价逻辑锚点：1亿credit = 1¥

我们拉个表对比一下API的人民币定价和Credit/Token换算关系

API价格 ¥/M x100 Credit/Token V2.5命中缓存 0.020 2 2 V2.5未命中 1 100 100 V2.5输出 2 200 200 Pro命中缓存 0.025 2.5 2.5 Pro未命中 3 300 300 Pro输出 6 600 600

规律非常明显：credit/token = API价格(¥/M) x 100，也就是1¥1亿credit。这么定的好处在于，套餐中的credit可以很轻松的换算成等值的API余额，例如lite plan定价39¥买到41亿credit，也就是白送你两块钱，各个档位优惠力度如下表，基本就是买的越大折扣越大。

档位 Plan 价等价 API 用量便宜 Lite ¥39 ¥41 ~5% Standard ¥99 ¥110 ~10% Pro ¥329 ¥380 ~13% Max ¥659 ¥820 ~20%

为什么说比旧套餐“用量提升5-8倍”？

首先新老套餐 Credit 的锚点不同，缓存计价逻辑也不同，不能简单的算 Credit 翻了多少倍来计算价值。为什么旧套餐包括我在内的很多人觉得消耗太快不耐用？因为当时的 Token Plan 是不区分有无缓存一视同仁的，而5-8倍用量这个值就是在引入缓存计费之后带来的提升。

以我个人的使用情况来看，最近都是运维类工作比较多，编码偏少，缓存命中率有93.5%，接近官方计算口径中的95%

为什么非得用这个 Credit 来定价不直接用 token？

一个核心的原因就是：token的价格是不定的。 V2.5 命中缓存 ¥0.02、未命中 ¥1、输出 ¥2，命中和未命中差 50 倍；Pro 是 ¥0.025 / ¥3 / ¥6，命中和未命中差 120 倍。如果直接"按 token 数"卖套餐，一个 token 该值多少钱呢？很显然这并不方便计算，所以在这层 token 之上规定了一个 Credit 来统一计费。

降价背后的隐藏逻辑

在官方宣传文章的末尾有这样一段话：

本次价格调整背后，离不开小米技术团队在推理系统上的持续优化。
我们基于 SGLang HiCache 完整支持 SWA（Sliding Window Attention），将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近 1/7 ，并将可缓存 token 数量提升至优化前的近 5 倍 ，显著提升了缓存命中率和推理效率。
同时，我们通过优化专家并行方案、输入长度分桶策略等，进一步提升了集群输入吞吐能力，从而在保障服务质量的前提下持续降低单位 token 服务成本。
后续我们将发布更加详细的推理优化技术 Blog，敬请期待。

结合之前罗福莉在访谈中对MIMO架构的介绍：

大家对MiMo第一代Flash，哪怕是Pro的感觉是——Flash能做到100-150TPS，Pro现在也能做到，看成本，基本上能做到60-100。100TPS肯定会更贵一些。所以大家用MiMo不管是Flash还是Pro的感觉是：哇好快。这就是这个结构，尤其是针对Long Context efficient的结构，带来的优势。同时，成本也够低。因为Hybrid Attention（混合注意力机制），包括在Pro这一代上，我们给它拉到一个更极致的Hybrid比例。Full Attention跟Sliding Window层的比例更极致，达到了7:1。所以它更省KV Cache。我们基本上是在这一代结构上实现了通过Sliding Window层去减少KV Cache，让它在长文上效果更能够支持更长的长上下文。同时通过MTP把Sliding Window Attention节省的算力，用MTP给它填上。这样能达到实际推理时访存跟计算的很好平衡。同时又兼顾了长上下文成本，以及推理速度。

闭环是这样的： 7:1 Hybrid 压扁 KV footprint → HiCache 多级 offload 收割小 footprint、命中缓存边际成本趋零 → 敢标 ¥0.02 命中价 → MTP 补回吞吐保证速度和单位成本。公告只讲了中间那层（HiCache），合起来才是完整的因果链。

最后，希望大家在论坛中的讨论可以理性一些，少一些主观情绪的输出，真诚、友善、团结、专业，共建你我引以为荣之社区。

2 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

开个帖子聊聊小米 MIMO 一个参与者阅读

开个帖子聊聊小米MIMO新的定价逻辑背后的原因

定价逻辑锚点：1亿credit = 1¥

为什么说比旧套餐“用量提升5-8倍”？

Codex 还是 Cluade cowork 选择

5月份又拖了太多太多事情没做了 文艺复兴一下写个填坑目录

为什么非得用这个 Credit 来定价不直接用 token？

降价背后的隐藏逻辑

相关推荐

5月份又拖了太多太多事情没做了文艺复兴一下写个填坑目录