[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
Local - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第6页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 140 篇相关文章 · 第 6 / 7 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
deepseek.ai DeepSeek AI 2026: R1, V3 & Local AI Hub Access DeepSeek AI for free. Independent guides for Mixture-of-Experts (MoE) archite
这东西我都没见过实物,在 USA 的同学有一台,但是他上线后应用的事情都快拉爆了,暂时没空测我的想法,只能想象着来问一下这里各位佬了: C++,Python 的代码 review; 根据提示词,处理 MySQL 返回来 8k~13k 条已成 JSON 的数据提取;(字段和内容不多
这东西我都没见过实物,在 USA 的同学有一台,但是他上线后应用的事情都快拉爆了,暂时没空测我的想法,只能想象着来问一下这里各位佬了: C++,Python 的代码 review; 根据提示词,处理 MySQL 返回来 8k~13k 条已成 JSON 的数据提取;(字段和内容不多
之前通过改 Local State 文件换过美国的,是有 gemini in chrome 的,因为日常用日本节点,所以我又换回日本了。现在 gemini in chrome 支持日本了,想体验下,检查了一下: 1. [账号关联地区]( https://policies.goog
比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器 好奇问一下,想学习学习
比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器 好奇问一下,想学习学习
之前通过改 Local State 文件换过美国的,是有 gemini in chrome 的,因为日常用日本节点,所以我又换回日本了。现在 gemini in chrome 支持日本了,想体验下,检查了一下: 1. [账号关联地区]( https://policies.goog
之前通过改 Local State 文件换过美国的,是有 gemini in chrome 的,因为日常用日本节点,所以我又换回日本了。现在 gemini in chrome 支持日本了,想体验下,检查了一下: 1. [账号关联地区]( https://policies.goog
比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器 好奇问一下,想学习学习
之前通过改 Local State 文件换过美国的,是有 gemini in chrome 的,因为日常用日本节点,所以我又换回日本了。现在 gemini in chrome 支持日本了,想体验下,检查了一下: 1. [账号关联地区]( https://policies.goog
比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器 好奇问一下,想学习学习
比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器 好奇问一下,想学习学习
前段时间更新Edge到最新的147版本后发现右上角的Copilot消失了,发现本地的Local State和Preferences文件都没有country相关的字段了,说明微软的检测方式跟之前不一样了,最后发现把浏览器语言改为非简体中文就能恢复了。在这个过程中问Gemini的时候
比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器 好奇问一下,想学习学习
比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器 好奇问一下,想学习学习
比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器 好奇问一下,想学习学习
之前通过改 Local State 文件换过美国的,是有 gemini in chrome 的,因为日常用日本节点,所以我又换回日本了。现在 gemini in chrome 支持日本了,想体验下,检查了一下: 1. [账号关联地区]( https://policies.goog
比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器 好奇问一下,想学习学习