TeslaT4显卡跑模型真的不中用吗,主要用来沉浸式翻译

我现在8卡的T4显卡,单卡16G,跑Qwen3.5-9B-Q4_K_M.gguf cli下测试的结果如下,速度都还行 8卡结果:[ Prompt: 71.2 t/s | Generation: 23.7 t/s ] 单卡结果:[ Prompt: 78.2 t/s | Generation: 29.8...
TeslaT4显卡跑模型真的不中用吗,主要用来沉浸式翻译
TeslaT4显卡跑模型真的不中用吗,主要用来沉浸式翻译

我现在8卡的T4显卡,单卡16G,跑Qwen3.5-9B-Q4_K_M.gguf

cli下测试的结果如下,速度都还行

8卡结果:[ Prompt: 71.2 t/s | Generation: 23.7 t/s ]
单卡结果:[ Prompt: 78.2 t/s | Generation: 29.8 t/s ]
双卡结果:[ Prompt: 222.0 t/s | Generation: 37.9 t/s ]
双卡结果:[ Prompt: 86.2 t/s | Generation: 38.0 t/s ]
4卡结果:[ Prompt: 76.1 t/s | Generation: 23.8 t/s ]

选择了双卡来跑,也就是跑了4个,接入到了Metapi,再设置请求负载权重

自己一个人使用,只是用来做网页沉浸式翻译

首字节用时时长都好慢,翻译网页都要等个几秒,如何继续提升速度?

image

image

image

3 个帖子 - 2 位参与者

阅读完整话题

来源: linux.do查看原文