Gemma4 12b 居然比 Qwen3.5 9b 还快，意料不到

编辑部 2026-06-09T21:34:32.085211 38983 阅读 tech

显卡只是 3080 显存 10G ，之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ，今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗？测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑？ llam...

llama-server.exe ^
--model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^
--mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^
--model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^
--spec-type draft-mtp --spec-draft-n-max 3 ^
--spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^
--n-gpu-layers-draft 999 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--n-gpu-layers 999 ^
--no-mmap ^
--cache-prompt ^
--mlock ^
--kv-unified ^
--parallel 1 ^
-fa on ^
--fit off ^
--ctx-size 100000 --n-predict 10000 ^
--host 0.0.0.0 --port 11432

来源: V2EX - 技术查看原文

Gemma4 12b 居然比 Qwen3.5 9b 还快，意料不到

[分享发现] 手机号被天津警方以涉诈原因停机三年 最近终于解封

[上海] 戾气太重怎么办，怎么减压或怎么惩罚那些开车不规矩的人？

相关推荐

[分享发现] 手机号被天津警方以涉诈原因停机三年最近终于解封