各位佬,小弟需要一个问题,看大家都在用MTP给大模型加速,速度几乎都提升了一倍。于是我也试了试,我的环境是A100,vllm0.16.x,Qwen3.5 27B稠密模型,上下文开到256k。 mtp参数如下:–speculative-config ‘{“method”: “mtp”, “num_speculative_tokens”: 2}’
启动日志中显示已经使用了MTP,但是速度和没开之前是一样的,毫无提升,都是25-27token每秒。希望各位指点一二,万分感谢!
2 个帖子 - 2 位参与者