Qwen3.6-27B和Qwen3.6-35B-A3B的nvfp4量化在dgxspark下面的速度表现

编辑部 2026-05-04T09:44:03.044340 26017 阅读 tech

模型来源 RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face Qwen3.6-35B-A3B速度单用户串行测试 : num_prompts=20, request_...

Qwen3.6-27B和Qwen3.6-35B-A3B的nvfp4量化在dgxspark下面的速度表现

模型来源

RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face

Qwen3.6-35B-A3B速度

单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线，用来看模型本身的交互体验。
吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms
8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms
固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量，平均每秒 4 个请求。
吞吐 229.79 tok/s, Mean TTFT 521.67 ms, P99 TTFT 4542.64 ms, Mean TPOT 62.82 ms

场景成功请求 Benchmark 时长(s) 输出吞吐(tok/s) Mean TTFT(ms) P99 TTFT(ms) Mean TPOT(ms) Mean ITL(ms) 单用户串行测试 20 136.99 37.94 543.42 2878.45 23.46 24.17 8 并发用户测试 100 135.85 164.39 331.77 786.20 43.45 44.19 固定 QPS 多用户测试 200 194.69 229.79 521.67 4542.64 62.82 62.22

Qwen3.6-27B

单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线，用来看模型本身的交互体验。
吞吐 11.68 tok/s, Mean TTFT 1078.83 ms, P99 TTFT 14364.02 ms, Mean TPOT 81.68 ms
8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
吞吐 79.13 tok/s, Mean TTFT 678.16 ms, P99 TTFT 4253.76 ms, Mean TPOT 89.96 ms
固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量，平均每秒 4 个请求。
吞吐 132.89 tok/s, Mean TTFT 428.64 ms, P99 TTFT 761.94 ms, Mean TPOT 108.11 ms

场景成功请求 Benchmark 时长(s) 输出吞吐(tok/s) Mean TTFT(ms) P99 TTFT(ms) Mean TPOT(ms) Mean ITL(ms) 单用户串行测试 20 445.13 11.68 1078.83 14364.02 81.68 81.37 8 并发用户测试 100 280.35 79.13 678.16 4253.76 89.96 89.79 固定 QPS 多用户测试 200 336.47 132.89 428.64 761.94 108.11 106.61

总结

由于dgxspark的内存带宽和cuda核心都比较弱，只是内存比较大，能跑MOE模型还是优先跑MOE模型。这里跑Dense模型速度快砍半了

2 个帖子 - 2 位参与者

阅读完整话题

来源: linux.do查看原文

Qwen3.6 27B 35B A3B nvfp4 一个现在帖子

Qwen3.6-27B和Qwen3.6-35B-A3B的nvfp4量化在dgxspark下面的速度表现

模型来源

Qwen3.6-35B-A3B速度

Qwen3.6-27B

总结

[程序员] 都说 Anthropic 不做人，现在国产模型厂也不做人

[程序员] 虽然是老生常谈，但还是求教 2026 年笔记软件如何选择

相关推荐