ok - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第60页 - 钛刻科技

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech www.v2ex.com 2026-04-25 06:39:55+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech www.v2ex.com 2026-04-25 06:39:55+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech www.v2ex.com 2026-04-25 06:39:55+08:00

【求助】有佬友把openclaw和Hermes同时部署的吗

如题 openclaw火我就安装了，Hermes的star飙升我也部署了，现在进入天才陨落纪，token匮乏，就浅度使用，两个换着用，openclaw用的多，主要让它写和总结东西，Hermes用的少，主要让它操作浏览器完成一些自动化操作的事情，对了，它们都是在VPS主机里直接部

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech linux.do 2026-04-25 06:32:03+08:00

取名用啥AI好

家里宝宝刚出生，最近几天在想名字，尝试了Chatgpt、Gemini、Grok，用了一圈发现都不太适合用来取中国名，重复度都非常高，都不满意。各位佬们，有其他好的AI可以推荐不？ 5 个帖子 - 5 位参与者阅读完整话题

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech linux.do 2026-04-25 05:54:48+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech www.v2ex.com 2026-04-25 05:39:55+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech v2ex.com 2026-04-25 03:39:55+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech v2ex.com 2026-04-25 03:39:55+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech v2ex.com 2026-04-25 03:39:55+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech v2ex.com 2026-04-25 02:39:55+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech v2ex.com 2026-04-25 02:18:07+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech v2ex.com 2026-04-25 01:40:43+08:00

grok这是干啥啊，天天高需求

免费用户几乎都不能用了 6 个帖子 - 6 位参与者阅读完整话题

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech linux.do 2026-04-25 01:13:46+08:00

「听劝的富可敌国」OneToken.sh GPT-5.5，人民币2元100万Token，23-24充值的用户百分百补偿，抽10名500万平台Token

从「OneToken.sh」本站正式支持GPT-5.5，人民币2元100万Token，抽10位送500万Token【已听劝】继续讨论：官网： OneToken.sh 1M=100万Token 输入价格： 3元/M Token 输出价格： 12元/M Token 缓存输入：

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech linux.do 2026-04-25 00:34:09+08:00

发现用GPT 5.5以后TOKEN额度消耗反而更慢了

第一大原因是上下文256k，我会经常性新建会话效率提升，很少问用户问题，让任务流畅执行今天调用2000多次也只用了140M 7 个帖子 - 5 位参与者阅读完整话题

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech linux.do 2026-04-25 00:22:49+08:00

gpt-5.5 PreToolUse hook (failed) 如何解决？

PreToolUse hook (failed) error: hook exited with code 1 Windows 官方codex cli 1 个帖子 - 1 位参与者阅读完整话题

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech linux.do 2026-04-25 00:17:30+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech v2ex.com 2026-04-24 23:54:14+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech v2ex.com 2026-04-24 23:54:14+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech v2ex.com 2026-04-24 23:54:14+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最近在折腾本地大模型，发现一个核心问题：Ollama 和 LM Studio 能让模型跑起来，但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。于是做了个工具自动找最优配置，过程中踩了不少坑，记录一

相关专题

Tool Innovation 专题内容 Login Segment Advertising Brand Conversion Theme Beauty Alert...Food Follow Email 视频 Alert 专题内容 Resolution Machine Funnel Forecast Cost Entertainment 专题内容 Quality 专题内容 Alert 专题内容 Collaboration Hosting Research Extension Consulting Analysis...Faq Consulting 专题内容 Education Client Wellness Alliance 专题内容 Change User Widget Landing 专题内容 Email Section Revenue Task 专题内容 Discount Careers Review Cloud Alliance 专题内容 Community Milestone Customer Research Policy Budget 专题内容 Advertising 专题内容 Client Lead Widget Investment 专题内容 Conference Performance Fitness Budget Desktop Supplier Metric...Folder 专题内容 Security Automation Prospect Task Seminar Quality SEO Experie...Photo Partner Optimization Supplier Report Networking Story 专题内容 Planning Training Faq Wellness App Education Goal 专题内容

tech v2ex.com 2026-04-24 23:47:32+08:00

ok - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第60页 - 钛刻科技 | TCTI.cn

相关标签