究极花瓶:配上新的草稿模型,gemma-4-31B 可达 123 tokens/s,但上下文……

使用了谷歌最新发布的草稿模型gemma-4-31B-it-assistant,加上gemma-4-31B-it-4bit-W4A16-AWQ部署在vllm上 draft tokens开到5,代码场景123tokens/s 知识问答类67tokens/s(可能文字类调低一些预测量会更好) 只恨我的40...
究极花瓶:配上新的草稿模型,gemma-4-31B 可达 123 tokens/s,但上下文……
究极花瓶:配上新的草稿模型,gemma-4-31B 可达 123 tokens/s,但上下文……

使用了谷歌最新发布的草稿模型gemma-4-31B-it-assistant,加上gemma-4-31B-it-4bit-W4A16-AWQ部署在vllm上

draft tokens开到5,代码场景123tokens/s

image

知识问答类67tokens/s(可能文字类调低一些预测量会更好)

image

image

只恨我的4090显存不够啊~上下文只能开到2816,没错就是2k

如果有5090就可以爽玩了

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文