提到 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第4页 - 钛刻科技

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

tech www.v2ex.com 2026-04-25 15:17:18+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 15:17:18+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 14:43:04+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 13:56:57+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 13:56:57+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 13:36:22+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 13:03:16+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 12:52:52+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 12:39:09+08:00

大项目中大家真的会用 Spec-Driven Development 吗？

https://openai.com/zh-Hans-CN/index/harness-engineering/ 中提到要把 Spec & Planning & Tasks 进度放进 git 仓库中，大家实践中真的会这么做吗？但是我看 codex 仓库内根本没这些

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 10:06:42+08:00

大项目中大家真的会用 Spec-Driven Development 吗？

https://openai.com/zh-Hans-CN/index/harness-engineering/ 中提到要把 Spec & Planning & Tasks 进度放进 git 仓库中，大家实践中真的会这么做吗？但是我看 codex 仓库内根本没这些

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 08:43:24+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 08:39:55+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 06:39:55+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 06:39:55+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 06:39:55+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 06:39:55+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech www.v2ex.com 2026-04-25 05:39:55+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech v2ex.com 2026-04-25 03:39:55+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech v2ex.com 2026-04-25 03:39:55+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Optimization Customer 专题内容 Creative 专题内容 Price Blog Customer 专题内容 Shopping Roi Deadline Contact Report 专题内容 Platform Account Demographic Price Template 专题内容 Planning Blog Fashion Customer Innovation 专题内容 Terms Creative 游戏 Restore 专题内容 Plugin Version 专题内容 Image Presentation Team Audience Contact 专题内容 Integration 专题内容 Analysis Help Reminder Music Networking Value Digital 专题内容 Coupon Trading Subject Guide Customer Blog Efficiency 专题内容 Alert 专题内容 Calendar Fitness Planning Forum Alliance Social Objective 专题内容 Campaign Image Calendar Conference Template Comment Platform...Lesson Dashboard Feedback 专题内容 Story Target Accessibility Premium 专题内容 About Client Notification 专题内容 Terms Project Strategy Notification Integration Supplier Budg...Whitepaper Update Client 专题内容

tech v2ex.com 2026-04-25 03:39:55+08:00

提到 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第4页 - 钛刻科技 | TCTI.cn

相关标签