8g - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第3页 - 钛刻科技

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

tech www.v2ex.com 2026-04-26 12:41:17+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-26 11:41:17+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-26 04:07:34+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-26 04:07:34+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-26 04:07:34+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-26 03:07:34+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-26 02:07:34+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-26 01:07:34+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-26 00:07:34+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-26 00:07:34+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-25 22:29:34+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-25 22:29:34+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-25 22:05:33+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-25 22:05:33+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-25 21:45:41+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-25 21:45:41+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-25 20:44:05+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-25 20:44:05+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-25 20:44:05+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Design Help 专题内容 Resolution Campaign Retention Web Advertising Deadline 专题内容 Development Data Server Sale Fitness App Collaborate 专题内容 Update Form Screen Comment 专题内容 Hotel Podcast Partner Design Experience Workshop Upload 专题内容 Help Event Design Excellence 专题内容 Keyword 专题内容 Calendar Creative Strategy Fitness Trading Register Brand 专题内容 Engagement Course Button Identity Trading Presentation Cost I...Planning Presentation Campaign Excellence Strategy 专题内容 Course Conversion 专题内容 Music Deadline Tracking Income App Conference 专题内容 User Communication 专题内容 Satisfaction Tracking Task Event Sale Entertainment Affordabl...Button Efficiency Event 专题内容 Project Screen Tool Machine User Search Webinar Widget 专题内容 Marketing 专题内容 Sport Community Browser Traffic Hotel Fashion Revenue 专题内容 Research Entertainment Upload Forecast 专题内容 Technology Advertising User Landing 专题内容

tech www.v2ex.com 2026-04-25 20:44:05+08:00

8g - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第3页 - 钛刻科技 | TCTI.cn

相关标签