8xa40服务器部署全精qwen27b,首发延迟高,约10s,速度慢,90-100tokens/s,何解

鄙人使用学校的8xa40-Pcle服务器,使用vllm部署全精qwen27b,首发延迟高,约10s,速度慢,90-100tokens/s,看到很多人用3090部署速度都没这么慢,这是为什么?有没有推荐部署的模型,27b对显存浪费有点大,不过pcle带宽比较低 12 个帖子 - 5 位参与者 阅读完整...
8xa40服务器部署全精qwen27b,首发延迟高,约10s,速度慢,90-100tokens/s,何解
8xa40服务器部署全精qwen27b,首发延迟高,约10s,速度慢,90-100tokens/s,何解

鄙人使用学校的8xa40-Pcle服务器,使用vllm部署全精qwen27b,首发延迟高,约10s,速度慢,90-100tokens/s,看到很多人用3090部署速度都没这么慢,这是为什么?有没有推荐部署的模型,27b对显存浪费有点大,不过pcle带宽比较低

12 个帖子 - 5 位参与者

阅读完整话题

来源: linux.do查看原文