模型来源
RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face
sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face
Qwen3.6-35B-A3B速度
单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。
吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。
吞吐 229.79 tok/s, Mean TTFT 521.67 ms, P99 TTFT 4542.64 ms, Mean TPOT 62.82 ms
Qwen3.6-27B
单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。
吞吐 11.68 tok/s, Mean TTFT 1078.83 ms, P99 TTFT 14364.02 ms, Mean TPOT 81.68 ms8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
吞吐 79.13 tok/s, Mean TTFT 678.16 ms, P99 TTFT 4253.76 ms, Mean TPOT 89.96 ms固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。
吞吐 132.89 tok/s, Mean TTFT 428.64 ms, P99 TTFT 761.94 ms, Mean TPOT 108.11 ms
总结
由于dgxspark的内存带宽和cuda核心都比较弱,只是内存比较大,能跑MOE模型还是优先跑MOE模型。这里跑Dense模型速度快砍半了
2 个帖子 - 2 位参与者