TeslaT4显卡跑模型真的不中用吗，主要用来沉浸式翻译

编辑部 2026-05-04T16:41:11.343340 8916 阅读 tech

我现在8卡的T4显卡，单卡16G，跑Qwen3.5-9B-Q4_K_M.gguf cli下测试的结果如下，速度都还行 8卡结果：[ Prompt: 71.2 t/s | Generation: 23.7 t/s ] 单卡结果：[ Prompt: 78.2 t/s | Generation: 29.8...

我现在8卡的T4显卡，单卡16G，跑Qwen3.5-9B-Q4_K_M.gguf

cli下测试的结果如下，速度都还行

8卡结果：[ Prompt: 71.2 t/s | Generation: 23.7 t/s ]
单卡结果：[ Prompt: 78.2 t/s | Generation: 29.8 t/s ]
双卡结果：[ Prompt: 222.0 t/s | Generation: 37.9 t/s ]
双卡结果：[ Prompt: 86.2 t/s | Generation: 38.0 t/s ]
4卡结果：[ Prompt: 76.1 t/s | Generation: 23.8 t/s ]

选择了双卡来跑，也就是跑了4个，接入到了Metapi，再设置请求负载权重

自己一个人使用，只是用来做网页沉浸式翻译

首字节用时时长都好慢，翻译网页都要等个几秒，如何继续提升速度？

3 个帖子 - 2 位参与者

阅读完整话题

来源: linux.do查看原文

TeslaT4 显卡模型真的不中用一个帖子使用

TeslaT4显卡跑模型真的不中用吗，主要用来沉浸式翻译

[生活] 城巴佬——城市中产在消费劳动表演

[分享发现] 现在这个形势，推荐备一个 CMHK 的流量卡

相关推荐