我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
to - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第64页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 2394 篇相关文章 · 第 64 / 120 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
如题,我上个月用了 200M ,主要是 GPT5.4 和 Gemini3.1Pro
IT之家 4 月 25 日消息,当地时间 4 月 24 日,据英国《卫报》报道,TikTok 和 Visa 在英国推出了一张 专门面向内容创作者的借记卡 ,主打让创作者更快拿到平台收入。 这张创作者卡主要服务于 通过 TikTok Live 直播服务赚钱的人 。创作者可以在直播中
大家好,最近在研究小游戏出海 tiktok ,目前海外主体在资质审核阶段。希望加入相关的社群,或者我来创建一个组织。有希望了解这块儿的或者已经在从事的可以留微我加你,或者你拉我。感谢大家。base64:bHNsYmxvZw==
大家好,最近在研究小游戏出海 tiktok ,目前海外主体在资质审核阶段。希望加入相关的社群,或者我来创建一个组织。有希望了解这块儿的或者已经在从事的可以留微我加你,或者你拉我。感谢大家。base64:bHNsYmxvZw==
如题,我上个月用了 200M ,主要是 GPT5.4 和 Gemini3.1Pro
IT之家 4 月 25 日消息,据外媒 motor1 今日报道,日产没少被 CVT 变速箱困扰。2025 年,日产就与车主达成了一起集体诉讼和解,向 Maxima 和 Murano(直译为“西玛”“楼兰”)车主支付 300 万美元(IT之家注:现汇率约合 2054.1 万元人民币
IT之家 4 月 25 日消息,AMD 首款双芯 3D V-Cache 处理器锐龙 9 9950X3D2 本周三正式开售,但因为 AMD 故意未向多个知名评测机构提供样片而遭受质疑,同时其他媒体给出的评测也普遍不乐观。 简单来说,9950X3D2 游戏性能提升微乎其微,它在渲染、
最近在开发一个小项目,想买几个 ChatGPT 账号。 但是在多个卡网和电报群里转了几圈,发现同一种类型的账号,比如 ChatGPT plus 月卡,就有 N 多种价格。 有的几块钱,有的卖 15 ,有的卖 30 ,有的卖 40. 后来我才知道,这些店铺和卖家的来源其实就是那么几
最近在开发一个小项目,想买几个 ChatGPT 账号。 但是在多个卡网和电报群里转了几圈,发现同一种类型的账号,比如 ChatGPT plus 月卡,就有 N 多种价格。 有的几块钱,有的卖 15 ,有的卖 30 ,有的卖 40. 后来我才知道,这些店铺和卖家的来源其实就是那么几
用户明确指出工具来源了。我先按开发要求用 tool search 查出这个延迟工具的准确名字和调用方式,再继续 csv-todo-loop。如果能拿到 codebase-retrieval,就从 A1 开始真正施工。 以前从没有这样过. 睁眼说瞎说! 今天使用了 2E 5.4 2
如题,我上个月用了 200M ,主要是 GPT5.4 和 Gemini3.1Pro
如题,我上个月用了 200M ,主要是 GPT5.4 和 Gemini3.1Pro
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
如题,我上个月用了 200M ,主要是 GPT5.4 和 Gemini3.1Pro
最近在开发一个小项目,想买几个 ChatGPT 账号。 但是在多个卡网和电报群里转了几圈,发现同一种类型的账号,比如 ChatGPT plus 月卡,就有 N 多种价格。 有的几块钱,有的卖 15 ,有的卖 30 ,有的卖 40. 后来我才知道,这些店铺和卖家的来源其实就是那么几
今天和hermes对线了半个小时 起因是我的server的key我忘了记在哪里了,图省事让hermes告诉我,他告诉我是autoteammasterkey_2026,我尝试了无数次也让他验证了无数次,他始终告诉我就是这个key,可我就是登录不上啊 最终我找到了我的笔记,是auto
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一