llama.cpp 支持的APEX量化效果挺好的, https://huggingface.co/mudler/Qwen3.6-35B-A3B-APEX-GGUF 根据该量化库的作者的表述 , 消费级显卡可用的 Qwen3.6-35B-A3B-APEX-I-Compact.gguf 效能要优于UD-Q3_K_M 量化。
我基于 docker-compose 方式搭了个简易llama.cpp部署, 写了个简易的python测试程序 ,就我比较关心的信息抽取场景做了测试。
项目地址: GitHub - WackyGem/Burrito: 这个仓库是一个本地 `llama.cpp` 部署与测试示例。 · GitHub
下面是简易的测试评估结论
一、显存占用
组件 大小 CUDA 模型权重 16,209 MiB KV Cache 640 MiB (f16, 16384 cells) Recurrent State 126 MiB 计算缓冲区 493 MiB (CUDA) + 40 MiB (Host) Vision Encoder (CLIP) 858 MiB + 248 MiB compute GPU 总占用 ~18,614 MiB / 22,000 MiB 剩余显存 ~4,247 MiB二、生成性能(缓存命中场景)
指标 数值 缓存 token 数 4,223 新增 prompt token 4 Prompt 处理速度 61.67 tok/s (64.86 ms) 生成 token 数 3,827 生成速度 83.68 tok/s (45.73 s) 单 token 延迟 11.95 ms 总耗时 45.80 s三、首次请求性能(无缓存,含图像)
请求 Prompt 速度 生成速度 生成 token 数 Slot 0 148.80 tok/s 71.77 tok/s 1,833 Slot 1 44.54 tok/s 63.51 tok/s 2,804两个请求并发,Prompt 总吞吐 148.80 + 44.54 = 193.34 tok/s;生成总吞吐 71.77 + 63.51 = 135.28 tok/s,并发显著提升了 GPU 整体利用率。
四、缓存命中性能
请求 缓存恢复 Prompt 速度 生成速度 生成 token 数 Slot 0 4,205 tokens 81.79 tok/s 71.63 tok/s 1,792 Slot 1 4,223 tokens 61.67 tok/s 83.68 tok/s 3,827缓存命中后 prompt 处理仅 4 个 token,延迟从 ~28-95s 降至 ~49-65ms 。
五、图像处理耗时
阶段 请求 1 请求 2 图像编码 9,104 ms 4,771 ms 解码 Batch 1/2 1,218 ms 1,224 ms 解码 Batch 2/2 1,357 ms 1,351 ms 总计 11,679 ms 7,347 ms结论总评
- 主模型+视觉投影模型占用不到20G,消费级GPU可部署。
- 在SM_75算力架构的2080ti中推理速度峰值 135.28 tok/s 达到可用水平。
- 在图像识别方面表现优秀。
Burrito仓库中提供了该测试例子,感兴趣可以尝试
5 个帖子 - 3 位参与者