请教:Qwen3.5 27B的MTP加速问题

各位佬,小弟需要一个问题,看大家都在用MTP给大模型加速,速度几乎都提升了一倍。于是我也试了试,我的环境是A100,vllm0.16.x,Qwen3.5 27B稠密模型,上下文开到256k。 mtp参数如下:–speculative-config ‘{“method”: “mtp”, “num_sp...
请教:Qwen3.5 27B的MTP加速问题
请教:Qwen3.5 27B的MTP加速问题

各位佬,小弟需要一个问题,看大家都在用MTP给大模型加速,速度几乎都提升了一倍。于是我也试了试,我的环境是A100,vllm0.16.x,Qwen3.5 27B稠密模型,上下文开到256k。 mtp参数如下:–speculative-config ‘{“method”: “mtp”, “num_speculative_tokens”: 2}’

启动日志中显示已经使用了MTP,但是速度和没开之前是一样的,毫无提升,都是25-27token每秒。希望各位指点一二,万分感谢!

5b44bfad40e575ffd683ba861b38e32f

2 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文