非推广,纯分享,和下方参考视频、Github项目均无利益关系!
众所周知,Qwen3.5-27B 在多方面的能力表现惊艳,甚至能打一两年前的超大模型,然而在本地部署中,其较低的速度往往让体验大打折扣,即使是 90 级别显卡也只有二三十 Token/s,远不如 Qwen3.5-35B-A3B 这种 MoE 模型来得舒畅。
然而! 在几天前,一个工作将最近的新解码算法给出了消费级显卡的实现,其宣称能直接在本地单张3090,实现上百 Token/s 甚至更高的解码速度,他就是 lucebox-hub。
其将最近的两个推理相关优化工作,一个是一个是 DFlash,另一个是 DDTree,真正做成了能在本地消费级显卡上跑起来的版本(24G显存级别)。
关于这两个工作的原理,感兴趣的可以去看看原文。值得注意的是:
- lucebox-hub 是基于 Qwen3.5-27B Q4_K_M GGUF 进行优化实现的,3.6 应该也能跑,但是会慢一些,未测试各种 Qwen3.5-27B 的改版,理论上应该都是没差的。
- 新算法的速度是有较大波动的,对于不同 Prompt 场景的速度不同。
- 模型推理时需要 CPU 参与,甚至是 CPU 满载运行,当前项目实现中不可完全迁移到GPU。
- 我Windows需要在本地进行编译,需要 CUDA Toolkit、CMake、MSVC 等。我实际编译成功环境版本如下,仅供参考,不是要求版本都完全一样:
- GPU: NVIDIA GeForce RTX 4080 SUPER, compute capability 8.9
- Driver: 591.86
- Visual Studio 2022 MSVC: 19.44.35222 x64
- CMake: 3.29.2
- CUDA Toolkit: v13.1
至于具体的编译部署方法,Clone下来后+装好必备的软件环境,直接用Codex即可,直接让Codex阅读README、在本地拉取所有需要的模型本体、python包然后编译即可,基本没什么需要修改的,项目中已经有OpenAI接口了。
基于 Windows 11 系统 + 4080-Super-32G 进行了测试,实测可以跑到几十到一百出头Token/s,已经比默认的llama.cpp快不少了,一些典型Prompt速度如下:
Prompt 正确 速度(Token/s) AT89S51采用6MHz的晶振,定时2ms,如用定时器方式1时的初值(16进制数)应为多少?(写出计算过程)当前 Qwen3.5-27B 这种30B级别也开始有一定的应用价值了,也许有一定刷分的成分,但多种榜单都显示 Qwen3.5-27B 能碰一年前的超大模型了,逻辑推理上甚至能媲美 DeepSeek-R1,而随着解码算法的继续优化,相信将来本地大模型会更有价值。
参考视频:离谱,Qwen3.6 27B生成速度飙到184t/s,我是怎么做到的?
部分测试题目来自:https://linux.do/t/topic/286836
6 个帖子 - 4 位参与者