[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
ok - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第62页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 2053 篇相关文章 · 第 62 / 103 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
从hotmail换成gmail了 15 个帖子 - 4 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
电脑一般般,但是那个垫子感觉真不错。
以前在OpenCode中使用Claude和GPT的时候就发现. 同样GPT的聊天180ktoken, 一切到Claude就变成260ktoken, 我一度以为是GPT比较省Token. 现在用CC, 用Claude聊天, 显示160ktoken, 切到GLM5.1变成100kto
cj.sina.com.cn 连自家工程师都不用Grok!马斯克欲“抄近道”砸600亿美元 买下Cursor补编程短板 智通财经APP获悉,埃隆· 马斯克旗下人工智能(AI)初创公司xAI数月来一直试图说服企业客户使用其Grok聊天机器人来加速编程流程。但据知... https:
萌新求问 目前还有没有便宜的相对稳定邀请送token,硅基流动用完了新的太贵 七牛云被封了一个不敢用了 1 个帖子 - 1 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
今年是AI的变现之年 再叠加全球硬件供需失衡,导致硬件价格步步高升 token的价格基本和硬件的价格高度绑定 要想token的价格回落 就要看这几年的“AGI”是否实现了 各位可以回想一下 当年的流量套餐是花了多长时间才变成如今这样 2 个帖子 - 2 位参与者 阅读完整话题
抽奖主题:分享幸运 grok free号 x10 * 10 奖品详情: [奖品]:grok free x10 * 10 活动时间: 开始时间:2026-04-24 18:30 截止时间:2026-04-26 12:30 参与方式: 在本帖下回复任意内容 抽奖规则: 每位用户仅允许
是怎么回事?IP不好使?用的2925邮箱 5 个帖子 - 4 位参与者 阅读完整话题
电脑一般般,但是那个垫子感觉真不错。
电脑一般般,但是那个垫子感觉真不错。