20G显存可用的 Qwen3.6-35B-A3B-APEX-I-Compact 本地部署简易快餐

编辑部 2026-05-04T12:18:46.090628 40857 阅读 tech

llama.cpp 支持的APEX量化效果挺好的， https://huggingface.co/mudler/Qwen3.6-35B-A3B-APEX-GGUF 根据该量化库的作者的表述，消费级显卡可用的 Qwen3.6-35B-A3B-APEX-I-Compact.gguf 效能要优于UD-...

20G显存可用的 Qwen3.6-35B-A3B-APEX-I-Compact 本地部署简易快餐

llama.cpp 支持的APEX量化效果挺好的， https://huggingface.co/mudler/Qwen3.6-35B-A3B-APEX-GGUF 根据该量化库的作者的表述，消费级显卡可用的 Qwen3.6-35B-A3B-APEX-I-Compact.gguf 效能要优于UD-Q3_K_M 量化。

我基于 docker-compose 方式搭了个简易llama.cpp部署，写了个简易的python测试程序，就我比较关心的信息抽取场景做了测试。
项目地址： GitHub - WackyGem/Burrito: 这个仓库是一个本地 `llama.cpp` 部署与测试示例。 · GitHub

下面是简易的测试评估结论

一、显存占用

组件大小 CUDA 模型权重 16,209 MiB KV Cache 640 MiB (f16, 16384 cells) Recurrent State 126 MiB 计算缓冲区 493 MiB (CUDA) + 40 MiB (Host) Vision Encoder (CLIP) 858 MiB + 248 MiB compute GPU 总占用 ~18,614 MiB / 22,000 MiB 剩余显存 ~4,247 MiB

二、生成性能（缓存命中场景）

指标数值缓存 token 数 4,223 新增 prompt token 4 Prompt 处理速度 61.67 tok/s (64.86 ms) 生成 token 数 3,827 生成速度 83.68 tok/s (45.73 s) 单 token 延迟 11.95 ms 总耗时 45.80 s

三、首次请求性能（无缓存，含图像）

请求 Prompt 速度生成速度生成 token 数 Slot 0 148.80 tok/s 71.77 tok/s 1,833 Slot 1 44.54 tok/s 63.51 tok/s 2,804

两个请求并发，Prompt 总吞吐 148.80 + 44.54 = 193.34 tok/s；生成总吞吐 71.77 + 63.51 = 135.28 tok/s，并发显著提升了 GPU 整体利用率。

四、缓存命中性能

请求缓存恢复 Prompt 速度生成速度生成 token 数 Slot 0 4,205 tokens 81.79 tok/s 71.63 tok/s 1,792 Slot 1 4,223 tokens 61.67 tok/s 83.68 tok/s 3,827

缓存命中后 prompt 处理仅 4 个 token，延迟从 ~28-95s 降至 ~49-65ms 。

五、图像处理耗时

阶段请求 1 请求 2 图像编码 9,104 ms 4,771 ms 解码 Batch 1/2 1,218 ms 1,224 ms 解码 Batch 2/2 1,357 ms 1,351 ms 总计 11,679 ms 7,347 ms

结论总评

主模型+视觉投影模型占用不到20G，消费级GPU可部署。
在SM_75算力架构的2080ti中推理速度峰值 135.28 tok/s 达到可用水平。
在图像识别方面表现优秀。

Burrito仓库中提供了该测试例子，感兴趣可以尝试

5 个帖子 - 3 位参与者

阅读完整话题

来源: linux.do查看原文

20G 显存可用 Qwen3.6 35B 一个帖子现在

20G显存可用的 Qwen3.6-35B-A3B-APEX-I-Compact 本地部署简易快餐

clawemail天才程序员陨落

这些 GPT Free 号是废了吗

相关推荐