31B - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第2页 - 钛刻科技 | TCTI.cn

31B - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第2页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。

共 25 篇相关文章 · 第 2 / 2 页

各位推荐一个 32G Macbook air M5 可以跑的 moe 模型

27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s. 准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.

tech www.v2ex.com 2026-04-26 08:22:11+08:00

deepseekpro激活参数激进的策略从671b/31b到1600b/49b

哇牛的,上次看见还是qwen3的80b-A3B如此小规模的激活参数呢 2 个帖子 - 2 位参与者 阅读完整话题

tech linux.do 2026-04-24 14:44:33+08:00

部署本地模型 token 输出万能公式

比如看 dgx spark 这台机子,部署 31B BF16 gemma 这台机子的带宽 273 GB/s 31B 参数 × 2 bytes (BF16) ÷ 273 GB/s = 每个 token 227 ms = 理论最大 4.4 token/s 实际能到 3token/s

tech www.v2ex.com 2026-04-20 18:54:39+08:00

部署本地模型 token 输出万能公式

比如看 dgx spark 这台机子,部署 31B BF16 gemma 这台机子的带宽 273 GB/s 31B 参数 × 2 bytes (BF16) ÷ 273 GB/s = 每个 token 227 ms = 理论最大 4.4 token/s 实际能到 3token/s

tech www.v2ex.com 2026-04-20 17:54:39+08:00

[Local LLM] 部署本地模型 token 输出万能公式

比如看 dgx spark 这台机子,部署 31B BF16 gemma 这台机子的带宽 273 GB/s 31B 参数 × 2 bytes (BF16) ÷ 273 GB/s = 每个 token 227 ms = 理论最大 4.4 token/s 实际能到 3token/s

tech v2ex.com 2026-04-20 17:40:14+08:00