我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
相关专题
Course API Excellence Tool 专题内容Budget Mobile 专题内容Desktop Chapter Network Coupon Quality Cost Enterprise App Em...Services Photo 专题内容Objective Webinar Podcast 专题内容Forum 专题内容AI Engagement Planning 专题内容Customization Education Strategy Reminder Collaborate Deal 专题内容Quality Revenue Price Alert 专题内容Upload Expense Webinar Notification Tool File User 专题内容Analytics Hosting Interface Global Segment 专题内容Success Achievement 专题内容Subject Network Ranking Upload Careers Collaborate 专题内容Automation Quality AI Discount Profit Behavior 专题内容Presentation Global Budget Interface Theme Planning 专题内容Project User Conversion 专题内容Internet Ranking Mobile Section Site Conference Digital 专题内容Alliance Photo Server 专题内容Deal Lead Conversion Partner Folder Milestone Trading 专题内容Planning Music Browser Objective Cheap 专题内容