原来这才是Deepseekv4.0大放水降价背后的真相

原来这才是Deepseekv4.0大放水降价背后的真相 应该是DeepSeek发现为V4做了over-prepared,准备过度,结果V4的KV Cache命中率比预想的还要高,不得不(注意是不得不)加大流量,让batch size更大。 几天前,曾经的Google TPU架构师Reiner Pop...
原来这才是Deepseekv4.0大放水降价背后的真相
原来这才是Deepseekv4.0大放水降价背后的真相

原来这才是Deepseekv4.0大放水降价背后的真相

应该是DeepSeek发现为V4做了over-prepared,准备过度,结果V4的KV Cache命中率比预想的还要高,不得不(注意是不得不)加大流量,让batch size更大。

几天前,曾经的Google TPU架构师Reiner Pop做客Dwarkesh的博客(就是上次把黄仁勋气的红温的Dwarkesh),就详细讲解了大模型推理时Batch Size的重要性,虽然Dwarkesh在中美关系上屁股很歪,但是,他请的嘉宾水平都很高,这次Reiner也讲得很清楚,甚至都上了黑板板书。

简单说,LLM 的推理,受限更像是内存带宽,而不是纯计算

因为,每生成一个 token,都要反复读取模型权重和 KV Cache,Batch Size 越大,就越能把一次加载模型权重的开销分摊到更多请求上,GPU 的计算利用率也更高,因此每个请求的平均成本下降。

但是有一个问题,Batch Size变大,通常意味着系统会把更多请求一起处理,这会提高吞吐量,但也会让单个请求等待更久,尤其是小请求可能要等大 batch 组满或轮到执行。

所以基于这些考虑,Batch Size大小选择就是做权衡:更大的 batch 通常更便宜,但单请求延迟更高


理解了上面这些,再看DeepSeek延长2.5折这件事,逻辑就通了。

DeepSeek肯定为V4准备了大量推理算力,大到他们自己都没想到V4这么『省』,V4的架构优化(更激进的KV Cache压缩)让GPU计算和带宽消耗远低于预期,KV Cache命中率也高出规划。

这意味着啥呢?

意味着DeepSeek手里落下一大堆闲置推理算力(训练算力估计怎么都闲不下来)。

算力如果闲置就是纯成本,GPU不像咱自家电脑,不用刻意关掉,观点就不耗电,数据中心的GPU只要开着,不管干不干活,电费、冷却、折旧一分不少,时刻都在烧钱。

所以2.5折与其说DeepSeek是在做慈善,比如说是在给自己止血。

与其让GPU空转烧钱,不如把价格打到地板上,用低价把流量灌进来,把Batch Size撑大,这样单次请求成本越低,GPU利用率更高,平均成本就更低。


还有一个问题,为什么不直接把2.5折定为正式价格,非要只是特价延长到5月31日?

因为定价策略和成本结构是两回事。

2.5折是当前算力过剩状态下的最优定价,但DeepSeek不确定这个状态会持续多久,随着V4用户量增长,某个时刻会到达一个拐点,再往上加用户,延迟就开始劣化了,到那时候价格就该往回调了。

用『特价延长』而不是『永久降价』,给DeepSeek留了回旋余地。

说到底,DeepSeek在用2.5折告诉市场一件事:V4的推理效率高到我算力都用不完

这不光是价格战,也是心理战。

如果DeepSeek是我2.5折可能还有利润,其他模型原价可能还在亏钱,这还怎么跟?

V4太省了,省到DeepSeek必须把价格打到2.5折,才能吸引足够多的流量才能充分利用GPU。

这可能是世界上最顶级的凡尔赛:-)

这说明国产越来越好了,大家有什么看法吗

参考信源

  1. ^https://www.dwarkesh.com/p/reiner-pope
  2. https://www.zhihu.com/question/2032857350361626424

9 个帖子 - 7 位参与者

阅读完整话题

来源: linux.do查看原文