全跑 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn

全跑 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。

共 6 篇相关文章

关于 5070ti 模型推理的速度和本地部署思考

前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_

tech V2EX - 技术 2026-05-19 17:50:13+08:00

关于 5070ti 模型推理的速度和本地部署思考

前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_

tech V2EX - 技术 2026-05-19 17:50:13+08:00

关于 5070ti 模型推理的速度和本地部署思考

前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_

tech V2EX - 技术 2026-05-19 16:50:13+08:00

关于 5070ti 模型推理的速度和本地部署思考

前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_

tech V2EX - 技术 2026-05-19 15:50:13+08:00

关于 5070ti 模型推理的速度和本地部署思考

前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_

tech V2EX - 技术 2026-05-19 15:50:13+08:00

从今以后,奥特曼不是我们的兄弟,你是路人

昨天晚上看发推说要重置周额度,直接开了Fast模式全跑完了,我的10个free账号和team2个都跑完了 今天一看,team号全被封了。再一看free号没重置周额度。天塌了 17 个帖子 - 17 位参与者 阅读完整话题

tech LinuxDo 最新话题 2026-05-17 15:18:32+08:00