30B - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第5页 - 钛刻科技 | TCTI.cn

30B - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第5页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。

共 83 篇相关文章 · 第 5 / 5 页

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Course API Excellence Tool 专题内容 Budget Mobile 专题内容 Desktop Chapter Network Coupon Quality Cost Enterprise App Em...Services Photo 专题内容 Objective Webinar Podcast 专题内容 Forum 专题内容 AI Engagement Planning 专题内容 Customization Education Strategy Reminder Collaborate Deal 专题内容 Quality Revenue Price Alert 专题内容 Upload Expense Webinar Notification Tool File User 专题内容 Analytics Hosting Interface Global Segment 专题内容 Success Achievement 专题内容 Subject Network Ranking Upload Careers Collaborate 专题内容 Automation Quality AI Discount Profit Behavior 专题内容 Presentation Global Budget Interface Theme Planning 专题内容 Project User Conversion 专题内容 Internet Ranking Mobile Section Site Conference Digital 专题内容 Alliance Photo Server 专题内容 Deal Lead Conversion Partner Folder Milestone Trading 专题内容 Planning Music Browser Objective Cheap 专题内容

tech www.v2ex.com 2026-04-24 19:41:32+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Course API Excellence Tool 专题内容 Budget Mobile 专题内容 Desktop Chapter Network Coupon Quality Cost Enterprise App Em...Services Photo 专题内容 Objective Webinar Podcast 专题内容 Forum 专题内容 AI Engagement Planning 专题内容 Customization Education Strategy Reminder Collaborate Deal 专题内容 Quality Revenue Price Alert 专题内容 Upload Expense Webinar Notification Tool File User 专题内容 Analytics Hosting Interface Global Segment 专题内容 Success Achievement 专题内容 Subject Network Ranking Upload Careers Collaborate 专题内容 Automation Quality AI Discount Profit Behavior 专题内容 Presentation Global Budget Interface Theme Planning 专题内容 Project User Conversion 专题内容 Internet Ranking Mobile Section Site Conference Digital 专题内容 Alliance Photo Server 专题内容 Deal Lead Conversion Partner Folder Milestone Trading 专题内容 Planning Music Browser Objective Cheap 专题内容

tech v2ex.com 2026-04-24 18:48:29+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Course API Excellence Tool 专题内容 Budget Mobile 专题内容 Desktop Chapter Network Coupon Quality Cost Enterprise App Em...Services Photo 专题内容 Objective Webinar Podcast 专题内容 Forum 专题内容 AI Engagement Planning 专题内容 Customization Education Strategy Reminder Collaborate Deal 专题内容 Quality Revenue Price Alert 专题内容 Upload Expense Webinar Notification Tool File User 专题内容 Analytics Hosting Interface Global Segment 专题内容 Success Achievement 专题内容 Subject Network Ranking Upload Careers Collaborate 专题内容 Automation Quality AI Discount Profit Behavior 专题内容 Presentation Global Budget Interface Theme Planning 专题内容 Project User Conversion 专题内容 Internet Ranking Mobile Section Site Conference Digital 专题内容 Alliance Photo Server 专题内容 Deal Lead Conversion Partner Folder Milestone Trading 专题内容 Planning Music Browser Objective Cheap 专题内容

tech v2ex.com 2026-04-24 18:48:29+08:00