[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
显卡 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第6页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 156 篇相关文章 · 第 6 / 8 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
现在的配置: CPU:I7-6700 显卡:GTX970 4G 内存:DD3 8G*2 主板:华硕 PRIME H270-Plus 电源:500W 需求:最近打洲过热,撑不住了,纠结升级还是换(主要不想花太多钱,纯没事干的时候玩玩洲),不要求支持2K的屏;各位佬有懂主机配置的吗,
疑似: 训练使用的还是NVIDIA的显卡,推理使用的是华为的 这也是一个很大的进步了,但是大家不要混淆)刚还看到ds4暴打英伟达的帖子 5 个帖子 - 5 位参与者 阅读完整话题
两年前,我开了个贴: 《4k 买 API 额度还是买显卡》 转眼 2026 年了。我现在用的是 Claude 初始号通过 Google Play 订阅的 Max 20x ,一年下来算算得 2w RMB 左右。对于一个不吃开发饭、也没兼职接单的纯业余选手来说,这笔钱确实不便宜。 但
IT之家 4 月 23 日消息,根据IT之家的查询,华硕 (ASUS) 现已推出 V2 版本的巨齿鲨 ATS 系列 NVIDIA GeForce RTX 5070 12GB 显卡。 ▲ V2 新版 这款显卡的三维与原版保持一致,仍是 305×126×50 (mm),依旧搭载三颗双
IT之家 4 月 22 日消息,韩媒 edaily 当地时间 21 日报道称,三星电子存储器业务在削减 GDDR6 内存 / 显存产能以提升盈利能力的同时大幅提升了在该品类上对 Tesla(特斯拉)的供应规模。这可能会对显卡市场造成新一轮的打击。 特斯拉的 GDDR6 需求主要来
IT之家 4 月 22 日消息,Intel(英特尔)在本月 16 日发布了 32.0.101.8724 版本锐炫 Arc 显卡 Windows 图形驱动程序,支持卡普空新作《识质存在》(PRAGMATA)。 不过 8724 版本驱动在《识质存在》中仍存在问题: 所有受支持英特尔显
由于内存涨价,今年的PC市场可能会出现以前想都不敢想的情况,停产多年的经典型号都要复活,AMD有锐龙7 5800X3D,NVIDIA也有RTX 3060显卡归来。作为史上最成功的60系显卡,RTX 3060其实也不算多远,目前的性能还很能打,1080p下畅玩主流3A游戏问题不大,
英伟达下一代AI芯片Vera Rubin尚未正式发布,就已经被客户疯狂预定。 AI基础设施服务商Nscale最新宣布,将额外追加3万颗Rubin GPU,使得其为微软等客户部署的总量达到13万颗。 这13万颗芯片的具体构成是:Nscale此前已公布要在其数据中心部署10万颗Ver
我现在8卡的T4显卡,单卡16G,跑Qwen3.5-9B-Q4_K_M.gguf cli下测试的结果如下,速度都还行 8卡结果:[ Prompt: 71.2 t/s | Generation: 23.7 t/s ] 单卡结果:[ Prompt: 78.2 t/s | Genera
佬友们,现在购买显卡划算吗?最近想打游戏了,家里有一台主机。想购买一个显示器和显卡,有没有推荐的。预算四千左右 1 个帖子 - 1 位参与者 阅读完整话题