小米Mimo大降价:API降价99%,TokenPlan新计费将区分缓存,用量提升6-8倍

5.27日 0点,小米Mimo宣布: MiMo-V2.5 系列 API 永久降价 Token Plan 计费体系优化,用量提升至原来的 5-8 倍 百万亿 Token 创造者激励计划圆满收官 当前有效 Token Plan 用户额度全量重置 API: 相比原始 API 定价,新定价最高降幅可达 99...
小米Mimo大降价:API降价99%,TokenPlan新计费将区分缓存,用量提升6-8倍
小米Mimo大降价:API降价99%,TokenPlan新计费将区分缓存,用量提升6-8倍

5.27日 0点,小米Mimo宣布:

  • MiMo-V2.5 系列 API 永久降价
  • Token Plan 计费体系优化,用量提升至原来的 5-8 倍
  • 百万亿 Token 创造者激励计划圆满收官
  • 当前有效 Token Plan 用户额度全量重置

image

API: 相比原始 API 定价,新定价最高降幅可达 99%,且不再区分输入长度。

image

新版Token Plan: 计费方式改为Credits,输入区分是否缓存命中,由API价格换算,1M Credits = 0.01 元

将Token plan换算为API额度:

  • Lite 39元/月,额度为 41元
  • Standard 99元/月,额度为 110元
  • Pro 329元/月,额度为 380元
  • Max 659元/月,额度为 820元

image

官方估算95%缓存命中率下,token plan用量可到原来的5-8倍。

Mimo官方将此次调价归因为:

我们基于 SGLang HiCache 完整支持 SWA(Sliding Window Attention),将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近 1/7,并将可缓存 token 数量提升至优化前的近 5 倍,显著提升了缓存命中率和推理效率。
同时,我们通过优化专家并行方案、输入长度分桶策略等,进一步提升了集群输入吞吐能力,从而在保障服务质量的前提下持续降低单位 token 服务成本。

10 个帖子 - 7 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文