我的观察结论:ccusage等各种的计费并不准确。官方max 20x订阅里缓存读写要么全都不花钱,要么就是缓存写的token在统计时换算到官方统计的out部分?
以4月17日Opus4.7的用量作为记录,我对比了ccusage的计费和claude官方的消耗(都是UTC时区统计)。
注:Claude官方用量统计里,有某模型7天合计in和out的token用量,也有某天某模型的总token用量。如图所示,可在Claude Desktop查看。
- 如果只看in和out,ccusage的输入输出消耗量是claude官方的token消耗量的0.1。
- 在事实1的基础上,算上缓存创建的token用量,ccusage的用量也才不到官方一半的token计数用量。
- 在事实2的基础上,算上缓存读取的token用量,ccusage的用量是官方的token计数的几十倍。
- 官方的token消耗量里,out是in的80倍。因此in这一部分明显不包括缓存创建。
- 相同环境相同模型,max思考模式和xhigh模式问相同的简短问题并获得几乎相同的答案,明显max的官方计费更高(每次响应都会带cost.total_cost_usd,但是不会写到jsonl里面)。
基于以上事实,我猜测有以下几种可能:
- 官方max订阅计划不计算缓存读写费用,但是思考的中间过程产生的内容算作output。
- 缓存读写的部分全都换算到输出(官方统计的输入token用量真的很少,比缓存创建少太多了),但我对账明显对不上。
- (新增)缓存写收费,读免费。但缓存写要在官方用量统计里算在out的部分进行计费吗?我in一共才312.9k。
此外,使用官方的用量统计表,从4月17日(claude上新模型统一刷新周限)开始计算周限实际费用,只用官方的in和out用量,除以周限百分比,可得周限上限用量(美元计价)。通过三次采样并拟合,得出当前max 20的周限用量为900$。之前是675$,正好增加了1/3,和opus的分词器多增加的消耗趋同。
opus4.7只开max模式用,真的花钱如流水 ![]()
【省钱系列9】Claude Code Opus额度的秘密:2api的刀,与CC官方刀,此刀非彼刀,又被宰一刀
suspiciously precise floats, or, how I got Claude’s real limits
9 个帖子 - 5 位参与者