单卡16G 5060Ti 部署 Qwen3.6 35B A3B Apex量化测试（大核显亦可

编辑部 2026-05-04T15:06:07.803524 14137 阅读 tech

概述感谢各位上次发帖很多佬的交流, 上次是豪华配置，这次测了弱一点的配置首先期望不要太高，其实这个水平的模型OpenCode还有厉害一点的Minimax M2.5免费用（虽然刚才出现的Bug Minimax也没修好能玩，但是上下文看自己的操作，如果有核显则可以拉到100K上下文，没有的话可能...

概述

感谢各位上次发帖很多佬的交流, 上次是豪华配置，这次测了弱一点的配置

首先期望不要太高，其实这个水平的模型OpenCode还有厉害一点的Minimax M2.5免费用（虽然刚才出现的Bug Minimax也没修好

能玩，但是上下文看自己的操作，如果有核显则可以拉到100K上下文，没有的话可能20-50K上下文了。（所以我特别喜欢有核显的电脑）显存比较紧急的话可以划分1层给CPU，可以拉高20K上下文应该

体感可以编程，没有什么问题
写了个时钟，还有个贪食蛇

CPU 12450H
显卡 RTX 5060 Ti 16G
内存单根 16G DDR4 3200

注意：显卡上没有接任何输出，BIOS设置的核显优先，界面渲染都交给了核显，如果开个渲染个界面可能就剩下13-14G显存，上下文只能开比较少或者拿一层给CPU，decode速度会降低25%

后端 LM Studio
部署模型：Qwen3.6-35B-A3B-APEX-I-Mini.gguf
Decode速度：80tps

层数：全部放在GPU上
上下文：100K
关闭MMAP, 不保持模型在内存中
打开快速注意力，K缓存 V缓存量化均为Q8，Q4好像有BUG → 会导致Prefill非常慢

话说L站没有本地部署模型的标签吗（逃

2 个帖子 - 2 位参与者

来源: linux.do查看原文

单卡 16G 5060Ti 部署 Qwen3.6 一个帖子使用