单卡16G 5060Ti 部署 Qwen3.6 35B A3B Apex量化测试(大核显亦可

概述 感谢各位上次发帖很多佬的交流, 上次是豪华配置,这次测了弱一点的配置 首先期望不要太高,其实这个水平的模型OpenCode还有厉害一点的Minimax M2.5免费用( 虽然刚才出现的Bug Minimax也没修好 能玩,但是上下文看自己的操作,如果有核显则可以拉到100K上下文,没有的话可能...
单卡16G 5060Ti 部署 Qwen3.6 35B A3B Apex量化测试(大核显亦可
单卡16G 5060Ti 部署 Qwen3.6 35B A3B Apex量化测试(大核显亦可

概述

感谢各位上次发帖很多佬的交流, 上次是豪华配置,这次测了弱一点的配置

首先期望不要太高,其实这个水平的模型OpenCode还有厉害一点的Minimax M2.5免费用(虽然刚才出现的Bug Minimax也没修好

能玩,但是上下文看自己的操作,如果有核显则可以拉到100K上下文,没有的话可能20-50K上下文了。(所以我特别喜欢有核显的电脑)显存比较紧急的话可以划分1层给CPU,可以拉高20K上下文应该

体感可以编程,没有什么问题
写了个时钟,还有个贪食蛇

相关说明

  1. Apex量化的I-MINI GGUF表现真的很亮眼,损失感觉很小?
  2. Qwen3.6 35B A3B的上下文真的好便宜
  3. 模型在这里,I-MINI版本就13.3G(这里不加载视觉模块了,显存不够): Qwen3.6-35B-A3B-APEX-GGUF · 模型库
  4. 如果有Intel 358H, 338H 32G+1T, 或者AMD 890M, 780M 的用户也可以试试看,内存大可以选I-Compact的17G版本

部署环境

硬件

CPU 12450H
显卡 RTX 5060 Ti 16G
内存 单根 16G DDR4 3200

注意:显卡上没有接任何输出,BIOS设置的核显优先,界面渲染都交给了核显,如果开个渲染个界面可能就剩下13-14G显存,上下文只能开比较少或者拿一层给CPU,decode速度会降低25%

软件

后端 LM Studio
部署模型:Qwen3.6-35B-A3B-APEX-I-Mini.gguf
Decode速度:80tps

层数:全部放在GPU上
上下文:100K
关闭MMAP, 不保持模型在内存中
打开快速注意力,K缓存 V缓存量化均为Q8,Q4好像有BUG → 会导致Prefill非常慢

建议:

  1. 用来编程时,如果第一步没能做好,建议直接从第一步重开多试一次,应该会比修bug要好点,改代码bug能力没有写代码能力强的感觉
  2. 本地还能玩玩Heretic(虽然这个模型好像没什么感觉,RP不是很好,总之玩玩也不赖)
  3. 这个量化确实损失感觉没多少的样子,因为同样概率发生的bug我跑Q6量化的版本也有概率发生
  4. 对于天才编程佬们来说,模型的能力还是远远不够的,这篇文章没什么帮助,虽然如此,但是还是想要分享一下
  5. 如果发生长时间卡住,可能是模型跑出循环思考bug了,可以中断一下重新跑

题外话

话说L站没有本地部署模型的标签吗(逃

附加截图

贪食蛇
时钟

2 个帖子 - 2 位参与者

阅读完整话题

来源: linux.do查看原文