开个帖子聊聊小米MIMO新的定价逻辑背后的原因

定价逻辑锚点:1亿credit = 1¥ 我们拉个表对比一下API的人民币定价和Credit/Token换算关系 API价格 ¥/M x100 Credit/Token V2.5命中缓存 0.020 2 2 V2.5未命中 1 100 100 V2.5输出 2 200 200 Pro命中缓存 0.0...
开个帖子聊聊小米MIMO新的定价逻辑背后的原因
开个帖子聊聊小米MIMO新的定价逻辑背后的原因

定价逻辑锚点:1亿credit = 1¥

我们拉个表对比一下API的人民币定价和Credit/Token换算关系

API价格 ¥/M x100 Credit/Token V2.5命中缓存 0.020 2 2 V2.5未命中 1 100 100 V2.5输出 2 200 200 Pro命中缓存 0.025 2.5 2.5 Pro未命中 3 300 300 Pro输出 6 600 600

规律非常明显:credit/token = API价格(¥/M) x 100,也就是1¥1亿credit。这么定的好处在于,套餐中的credit可以很轻松的换算成等值的API余额,例如lite plan定价39¥买到41亿credit,也就是白送你两块钱,各个档位优惠力度如下表,基本就是买的越大折扣越大。

档位 Plan 价 等价 API 用量 便宜 Lite ¥39 ¥41 ~5% Standard ¥99 ¥110 ~10% Pro ¥329 ¥380 ~13% Max ¥659 ¥820 ~20%

为什么说比旧套餐“用量提升5-8倍”?

首先新老套餐 Credit 的锚点不同,缓存计价逻辑也不同,不能简单的算 Credit 翻了多少倍来计算价值。为什么旧套餐包括我在内的很多人觉得消耗太快不耐用?因为当时的 Token Plan 是不区分有无缓存一视同仁的,而5-8倍用量这个值就是在引入缓存计费之后带来的提升。

以我个人的使用情况来看,最近都是运维类工作比较多,编码偏少,缓存命中率有93.5%,接近官方计算口径中的95%

3d9c41409ff0b40e65b78c0464a5e892
image

为什么非得用这个 Credit 来定价不直接用 token?

一个核心的原因就是:token的价格是不定的。 V2.5 命中缓存 ¥0.02、未命中 ¥1、输出 ¥2,命中和未命中差 50 倍;Pro 是 ¥0.025 / ¥3 / ¥6,命中和未命中差 120 倍。如果直接"按 token 数"卖套餐,一个 token 该值多少钱呢?很显然这并不方便计算,所以在这层 token 之上规定了一个 Credit 来统一计费。

降价背后的隐藏逻辑

在官方宣传文章的末尾有这样一段话:

本次价格调整背后,离不开小米技术团队在推理系统上的持续优化。
我们基于 SGLang HiCache 完整支持 SWA(Sliding Window Attention),将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近 1/7 ,并将可缓存 token 数量提升至优化前的近 5 倍 ,显著提升了缓存命中率和推理效率。
同时,我们通过优化专家并行方案、输入长度分桶策略等,进一步提升了集群输入吞吐能力,从而在保障服务质量的前提下持续降低单位 token 服务成本。
后续我们将发布更加详细的推理优化技术 Blog,敬请期待。

结合之前罗福莉在访谈中对MIMO架构的介绍:

大家对MiMo第一代Flash,哪怕是Pro的感觉是——Flash能做到100-150TPS,Pro现在也能做到,看成本,基本上能做到60-100。100TPS肯定会更贵一些。所以大家用MiMo不管是Flash还是Pro的感觉是:哇好快。这就是这个结构,尤其是针对Long Context efficient的结构,带来的优势。同时,成本也够低。因为Hybrid Attention(混合注意力机制),包括在Pro这一代上,我们给它拉到一个更极致的Hybrid比例。Full Attention跟Sliding Window层的比例更极致,达到了7:1。所以它更省KV Cache。我们基本上是在这一代结构上实现了通过Sliding Window层去减少KV Cache,让它在长文上效果更能够支持更长的长上下文。同时通过MTP把Sliding Window Attention节省的算力,用MTP给它填上。这样能达到实际推理时访存跟计算的很好平衡。同时又兼顾了长上下文成本,以及推理速度。

闭环是这样的: 7:1 Hybrid 压扁 KV footprint → HiCache 多级 offload 收割小 footprint、命中缓存边际成本趋零 → 敢标 ¥0.02 命中价 → MTP 补回吞吐保证速度和单位成本。公告只讲了中间那层(HiCache),合起来才是完整的因果链。

最后,希望大家在论坛中的讨论可以理性一些,少一些主观情绪的输出, 真诚友善团结专业 ,共建你我引以为荣之社区。

2 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文