bf16 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn

bf16 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。

共 5 篇相关文章

gemma4:31b-coding-mtp-bf16

https://ollama.com/library/gemma4:31b-coding-mtp-bf16 本地部署的时候,Best Practices 部分有一些有用信息。

tech V2EX - 技术 2026-05-06 19:10:09+08:00

蚂蚁集团百灵大模型开源 Ling-2.6-flash,提供 BF16、FP8、INT4 等版本

IT之家 4 月 29 日消息,蚂蚁集团旗下的百灵大模型今日宣布, Ling-2.6-flash 正式开源 。同步提供 BF16、FP8、INT4 等多个版本,方便开发者根据不同硬件环境、推理成本和部署需求灵活选择。 Ling-2.6-flash 是一款总参数量 104B、激活参

tech www.ithome.com 2026-04-29 09:27:20+08:00

部署本地模型 token 输出万能公式

比如看 dgx spark 这台机子,部署 31B BF16 gemma 这台机子的带宽 273 GB/s 31B 参数 × 2 bytes (BF16) ÷ 273 GB/s = 每个 token 227 ms = 理论最大 4.4 token/s 实际能到 3token/s

tech www.v2ex.com 2026-04-20 18:54:39+08:00

部署本地模型 token 输出万能公式

比如看 dgx spark 这台机子,部署 31B BF16 gemma 这台机子的带宽 273 GB/s 31B 参数 × 2 bytes (BF16) ÷ 273 GB/s = 每个 token 227 ms = 理论最大 4.4 token/s 实际能到 3token/s

tech www.v2ex.com 2026-04-20 17:54:39+08:00

[Local LLM] 部署本地模型 token 输出万能公式

比如看 dgx spark 这台机子,部署 31B BF16 gemma 这台机子的带宽 273 GB/s 31B 参数 × 2 bytes (BF16) ÷ 273 GB/s = 每个 token 227 ms = 理论最大 4.4 token/s 实际能到 3token/s

tech v2ex.com 2026-04-20 17:40:14+08:00