全跑 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技

关于 5070ti 模型推理的速度和本地部署思考

前置条件：5070ti 16g ，llama.cpp ，全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化（ MoE 结构）速度大概是 120t/s-150t/s ，首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_

tech V2EX - 技术 2026-05-19 17:50:13+08:00

前置条件：5070ti 16g ，llama.cpp ，全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化（ MoE 结构）速度大概是 120t/s-150t/s ，首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_

tech V2EX - 技术 2026-05-19 17:50:13+08:00

前置条件：5070ti 16g ，llama.cpp ，全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化（ MoE 结构）速度大概是 120t/s-150t/s ，首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_

tech V2EX - 技术 2026-05-19 16:50:13+08:00

前置条件：5070ti 16g ，llama.cpp ，全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化（ MoE 结构）速度大概是 120t/s-150t/s ，首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_

tech V2EX - 技术 2026-05-19 15:50:13+08:00

前置条件：5070ti 16g ，llama.cpp ，全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化（ MoE 结构）速度大概是 120t/s-150t/s ，首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_

tech V2EX - 技术 2026-05-19 15:50:13+08:00

昨天晚上看发推说要重置周额度，直接开了Fast模式全跑完了，我的10个free账号和team2个都跑完了今天一看，team号全被封了。再一看free号没重置周额度。天塌了 17 个帖子 - 17 位参与者阅读完整话题

tech LinuxDo 最新话题 2026-05-17 15:18:32+08:00