我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
本地 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第22页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 619 篇相关文章 · 第 22 / 31 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
马区本地留子,咸鱼上买的 google 的学生认证,目前用了 claude 、codex 、github copilot 和 antigravity , 这个 antigravity 基本上就是不可用啊,清理指纹之后勉强可以用一下,就是一直 generating 和 workin
马区本地留子,咸鱼上买的 google 的学生认证,目前用了 claude 、codex 、github copilot 和 antigravity , 这个 antigravity 基本上就是不可用啊,清理指纹之后勉强可以用一下,就是一直 generating 和 workin
各位大佬,我的项目目录有时候会放在 NAS 或者 移动硬盘 里,两台电脑都可以打开同一个项目目录。 同一个项目在 A 电脑里和 Windsurf 的聊天记录,换到 B 电脑打开之后,并不会同步显示。 也就是说,虽然项目文件是同一份,但 Windsurf 里的会话记录好像还是各自独
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
马区本地留子,咸鱼上买的 google 的学生认证,目前用了 claude 、codex 、github copilot 和 antigravity , 这个 antigravity 基本上就是不可用啊,清理指纹之后勉强可以用一下,就是一直 generating 和 workin
马区本地留子,咸鱼上买的 google 的学生认证,目前用了 claude 、codex 、github copilot 和 antigravity , 这个 antigravity 基本上就是不可用啊,清理指纹之后勉强可以用一下,就是一直 generating 和 workin
马区本地留子,咸鱼上买的 google 的学生认证,目前用了 claude 、codex 、github copilot 和 antigravity , 这个 antigravity 基本上就是不可用啊,清理指纹之后勉强可以用一下,就是一直 generating 和 workin
马区本地留子,咸鱼上买的 google 的学生认证,目前用了 claude 、codex 、github copilot 和 antigravity , 这个 antigravity 基本上就是不可用啊,清理指纹之后勉强可以用一下,就是一直 generating 和 workin
马区本地留子,咸鱼上买的 google 的学生认证,目前用了 claude 、codex 、github copilot 和 antigravity , 这个 antigravity 基本上就是不可用啊,清理指纹之后勉强可以用一下,就是一直 generating 和 workin
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
老登们下班了,现在可以霍霍服务器了 vllm-ascend部署文档: DeepSeek-V4 — vllm-ascend 模型: DeepSeek-V4-Flash-w8a8-mtp · 模型库 启动成功: 先问一下洗车问题: 逻辑OK 跑一下文档中的数据集(GSM8K,数学推理