[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
lm - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第25页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 909 篇相关文章 · 第 25 / 46 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
你们GLM5.1喜欢用superpower吗? 以前用gpt5.4的时候很有计划,什么任务都开个子任务,而且有计划的进行,现在glm和opus好像都不理skills的 7 个帖子 - 4 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
老登们下班了,现在可以霍霍服务器了 vllm-ascend部署文档: DeepSeek-V4 — vllm-ascend 模型: DeepSeek-V4-Flash-w8a8-mtp · 模型库 启动成功: 先问一下洗车问题: 逻辑OK 跑一下文档中的数据集(GSM8K,数学推理
Opus太贵了, 找了个GLM5.1. 感觉能力比opus还强为什么感觉没人用一样 17 个帖子 - 16 位参与者 阅读完整话题
ollama cloud的GLM 5.1能够接入vscode copilot使用吗?我用了cloud模型,聊天框有输出,不能够直接修改项目代码。 2 个帖子 - 2 位参与者 阅读完整话题
还是我火星了,怎么也要抢,有没有用过的老哥说说,流畅么 2 个帖子 - 2 位参与者 阅读完整话题
首先我用的是 kilo code vscode 扩展,不过由于deepseek-v4 才出来,kilo code还不支持 deepseek-v4的 reasoning_content 会报下面这个错误: The reasoning_content in the thinking
看了Lmarena天塌了,比GLM5.1和Kimi 2.6甚至Qwen 3.6 Plus都差(图片由ChatGPT Image 2生成) 6 个帖子 - 6 位参与者 阅读完整话题
从上面两篇帖子继续 Deepseek v4 pro 3d魔方简要测试 国产替代 使用 cherry studio 客户端, 未设置系统提示词, 思考等级:auto 提示词: 你是一名精通图形学算法与 Web 交互的前端专家。请仅用一个 HTML 文件,基于 Three.js (E
如图,只支持国产模型,glm和v4 pro是3倍计算 2 个帖子 - 2 位参与者 阅读完整话题
我们为K2.6和GLM-5.1留下了一些空白条目,因为它们的API太忙了,无法返回 回答我们的问题。 Z畜还好意思回复 5 个帖子 - 4 位参与者 阅读完整话题
求问各位佬,DeepSeek-V4-Pro的编码能力和GLM-5.1谁更强? DeepSeek-V4-Flash和DeepSeek-V4-Pro的能力又差多少呢? 4 个帖子 - 4 位参与者 阅读完整话题
glm5有官方technical report,deepseekv4也有英文文档。连接如下 https://arxiv.org/pdf/2602.15763 huggingface.co DeepSeek_V4.pdf 68.21 KB 19 个帖子 - 12 位参与者 阅读完整
智谱则进行了回复 1 个帖子 - 1 位参与者 阅读完整话题
gpt的juice值需要提示词才能问出来,glm5.1就不一样了,你不问他他都跟你报429(高峰期限流不可用报错) 2 个帖子 - 1 位参与者 阅读完整话题
明明 GLM 5 系列也是纯国产算力训练的(基模和后训练在 10 万张华为昇腾 910B 芯片组成的算力集群),而且支持在华为昇腾、海光、寒武纪、摩尔线程、昆仑芯、天数智芯、燧原等算力卡推理。 且不提智谱畜否,GLM 出时没什么声音,怎么 DeepSeek V4 一出,总见到有嘲