Qwen3.5-27B 100+Token/s 单卡本地运行！

编辑部 2026-05-04T18:01:03.701964 6534 阅读 tech

非推广，纯分享，和下方参考视频、Github项目均无利益关系！众所周知， Qwen3.5-27B 在多方面的能力表现惊艳，甚至能打一两年前的超大模型，然而在本地部署中，其较低的速度往往让体验大打折扣，即使是 90 级别显卡也只有二三十 Token/s，远不如 Qwen3.5-35B-A3B 这种 ...

非推广，纯分享，和下方参考视频、Github项目均无利益关系！

众所周知，Qwen3.5-27B 在多方面的能力表现惊艳，甚至能打一两年前的超大模型，然而在本地部署中，其较低的速度往往让体验大打折扣，即使是 90 级别显卡也只有二三十 Token/s，远不如 Qwen3.5-35B-A3B 这种 MoE 模型来得舒畅。

然而！ 在几天前，一个工作将最近的新解码算法给出了消费级显卡的实现，其宣称能直接在本地单张3090，实现上百 Token/s 甚至更高的解码速度，他就是 lucebox-hub。

其将最近的两个推理相关优化工作，一个是一个是 DFlash，另一个是 DDTree，真正做成了能在本地消费级显卡上跑起来的版本（24G显存级别）。

关于这两个工作的原理，感兴趣的可以去看看原文。值得注意的是：

lucebox-hub 是基于 Qwen3.5-27B Q4_K_M GGUF 进行优化实现的，3.6 应该也能跑，但是会慢一些，未测试各种 Qwen3.5-27B 的改版，理论上应该都是没差的。
新算法的速度是有较大波动的，对于不同 Prompt 场景的速度不同。
模型推理时需要 CPU 参与，甚至是 CPU 满载运行，当前项目实现中不可完全迁移到GPU。
我Windows需要在本地进行编译，需要 CUDA Toolkit、CMake、MSVC 等。我实际编译成功环境版本如下，仅供参考，不是要求版本都完全一样：

GPU: NVIDIA GeForce RTX 4080 SUPER, compute capability 8.9
Driver: 591.86
Visual Studio 2022 MSVC: 19.44.35222 x64
CMake: 3.29.2
CUDA Toolkit: v13.1

至于具体的编译部署方法，Clone下来后+装好必备的软件环境，直接用Codex即可，直接让Codex阅读README、在本地拉取所有需要的模型本体、python包然后编译即可，基本没什么需要修改的，项目中已经有OpenAI接口了。

基于 Windows 11 系统 + 4080-Super-32G 进行了测试，实测可以跑到几十到一百出头Token/s，已经比默认的llama.cpp快不少了，一些典型Prompt速度如下：

Prompt 正确速度(Token/s) AT89S51采用6MHz的晶振，定时2ms，如用定时器方式1时的初值（16进制数）应为多少？（写出计算过程）

74 有 8 个人，分别是 A、B、C、D 和另外 4 人。要将这 8 个人随机安排在教室的两排座位上，每排有 4 个座位，共 8 个座位。相邻的定义是：若两个人坐在同一排并且座位编号相邻，则这两个人相邻。现要求 A 与 B 必须相邻，且 C 与 D 不相邻，问在上述条件下共有多少种不同的排法？

75 为什么北极熊不吃企鹅？

71 已知函数 f\left( x\right) 在 x = 1 处可导且 \mathop{\lim }\limits_{{x \rightarrow 0}}\frac{f\left( {\mathrm{e}}^{{x}^{2}}\right) - {3f}\left( {1 + {\sin }^{2}x}\right) }{{x}^{2}} = 2 ,求 {f}^{\prime }\left( 1\right).

106 给出红黑树的C++实现 - 91

当前 Qwen3.5-27B 这种30B级别也开始有一定的应用价值了，也许有一定刷分的成分，但多种榜单都显示 Qwen3.5-27B 能碰一年前的超大模型了，逻辑推理上甚至能媲美 DeepSeek-R1，而随着解码算法的继续优化，相信将来本地大模型会更有价值。

参考视频：离谱，Qwen3.6 27B生成速度飙到184t/s,我是怎么做到的？
部分测试题目来自：https://linux.do/t/topic/286836

6 个帖子 - 4 位参与者

阅读完整话题

来源: linux.do查看原文

Qwen3.5-27B 100+Token/s 单卡本地运行！

非推广，纯分享，和下方参考视频、Github项目均无利益关系！

大众汽车内部拉响警报：必须从根本上转变商业模式

[问与答] 各位大佬，调查一下你们都用哪些运营商？每月所有话费多钱一个月？

相关推荐