Qwen3.5-27B 100+Token/s 单卡本地运行!

非推广,纯分享,和下方参考视频、Github项目均无利益关系! 众所周知, Qwen3.5-27B 在多方面的能力表现惊艳,甚至能打一两年前的超大模型,然而在本地部署中,其较低的速度往往让体验大打折扣,即使是 90 级别显卡也只有二三十 Token/s,远不如 Qwen3.5-35B-A3B 这种 ...
Qwen3.5-27B 100+Token/s 单卡本地运行!
Qwen3.5-27B 100+Token/s 单卡本地运行!

非推广,纯分享,和下方参考视频、Github项目均无利益关系!

众所周知,Qwen3.5-27B 在多方面的能力表现惊艳,甚至能打一两年前的超大模型,然而在本地部署中,其较低的速度往往让体验大打折扣,即使是 90 级别显卡也只有二三十 Token/s,远不如 Qwen3.5-35B-A3B 这种 MoE 模型来得舒畅。

然而! 在几天前,一个工作将最近的新解码算法给出了消费级显卡的实现,其宣称能直接在本地单张3090,实现上百 Token/s 甚至更高的解码速度,他就是 lucebox-hub

其将最近的两个推理相关优化工作,一个是一个是 DFlash,另一个是 DDTree,真正做成了能在本地消费级显卡上跑起来的版本(24G显存级别)。

关于这两个工作的原理,感兴趣的可以去看看原文。值得注意的是:

  1. lucebox-hub 是基于 Qwen3.5-27B Q4_K_M GGUF 进行优化实现的,3.6 应该也能跑,但是会慢一些,未测试各种 Qwen3.5-27B 的改版,理论上应该都是没差的。
  2. 新算法的速度是有较大波动的,对于不同 Prompt 场景的速度不同
  3. 模型推理时需要 CPU 参与,甚至是 CPU 满载运行,当前项目实现中不可完全迁移到GPU。
  4. Windows需要在本地进行编译需要 CUDA Toolkit、CMake、MSVC 等。我实际编译成功环境版本如下,仅供参考,不是要求版本都完全一样
  • GPU: NVIDIA GeForce RTX 4080 SUPER, compute capability 8.9
  • Driver: 591.86
  • Visual Studio 2022 MSVC: 19.44.35222 x64
  • CMake: 3.29.2
  • CUDA Toolkit: v13.1

至于具体的编译部署方法,Clone下来后+装好必备的软件环境,直接用Codex即可,直接让Codex阅读README、在本地拉取所有需要的模型本体、python包然后编译即可,基本没什么需要修改的,项目中已经有OpenAI接口了。

基于 Windows 11 系统 + 4080-Super-32G 进行了测试,实测可以跑到几十到一百出头Token/s,已经比默认的llama.cpp快不少了,一些典型Prompt速度如下:

Prompt 正确 速度(Token/s) AT89S51采用6MHz的晶振,定时2ms,如用定时器方式1时的初值(16进制数)应为多少?(写出计算过程) :white_check_mark: 74 有 8 个人,分别是 A、B、C、D 和另外 4 人。要将这 8 个人随机安排在教室的两排座位上,每排有 4 个座位,共 8 个座位。相邻的定义是:若两个人坐在同一排并且座位编号相邻,则这两个人相邻。现要求 A 与 B 必须相邻,且 C 与 D 不相邻,问在上述条件下共有多少种不同的排法? :white_check_mark: 75 为什么北极熊不吃企鹅? :white_check_mark: 71 已知函数 f\left( x\right) 在 x = 1 处可导且 \mathop{\lim }\limits_{{x \rightarrow 0}}\frac{f\left( {\mathrm{e}}^{{x}^{2}}\right) - {3f}\left( {1 + {\sin }^{2}x}\right) }{{x}^{2}} = 2 ,求 {f}^{\prime }\left( 1\right). :white_check_mark: 106 给出红黑树的C++实现 - 91

当前 Qwen3.5-27B 这种30B级别也开始有一定的应用价值了,也许有一定刷分的成分,但多种榜单都显示 Qwen3.5-27B 能碰一年前的超大模型了,逻辑推理上甚至能媲美 DeepSeek-R1,而随着解码算法的继续优化,相信将来本地大模型会更有价值。

参考视频:离谱,Qwen3.6 27B生成速度飙到184t/s,我是怎么做到的?
部分测试题目来自:https://linux.do/t/topic/286836

6 个帖子 - 4 位参与者

阅读完整话题

来源: linux.do查看原文