[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第88页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 2913 篇相关文章 · 第 88 / 146 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近突然没灵感了,另外分享一些最近我的杂图吧 5 个帖子 - 4 位参与者 阅读完整话题
最近在看 Gemini 3.1 Pro,但对官方 benchmark 有点不太信任,想问问大家真实使用体验。 主要关心它作为 coding agent 的表现,比如这些场景: 日常 Q&A / 查资料 方案设计 / 架构思考 任务拆解 / 规划 实际写代码 debug /
最近公司有一些老的项目,需要借助AI去读取项目,来使用新的技术或者框架来重写,有些项目还无法读取代码,只能了解前端页面,有经验的佬,可以传授一下经验吗? 2 个帖子 - 2 位参与者 阅读完整话题
大家好,最近我做了一个 GPT Image 2 prompt gallery: https://gptimagelab.com 同时把一部分内容整理成了 GitHub 仓库: https://github.com/peterRooo/awesome-gpt-image-2-pro
最近teams被封惨了,有没有大佬给一个便宜的地区 可以直接买官方的。 便宜最重要 3 个帖子 - 3 位参与者 阅读完整话题
读书据说就像大脑里的肌肉,越练习越强大。我是比较喜欢读经典,哲学类的书,佬友们最近在读什么书呢,有推荐吗 7 个帖子 - 5 位参与者 阅读完整话题
最近看到 GPT Image 2 讨论挺多,一时兴起,花了一天时间做了个小工具站,主要就是用来体验图片生成。 功能暂时很简单:输入提示词,选一下比例和质量,然后生成图片。没有做太多复杂配置,先把最核心的流程跑通了。现在已经可以正常生成,整体速度和效果还在继续调。 比较有意思的是,
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
大家好,最近我做了一个 GPT Image 2 prompt gallery: https://gptimagelab.com 同时把一部分内容整理成了 GitHub 仓库: https://github.com/peterRooo/awesome-gpt-image-2-pro
大家好,最近我做了一个 GPT Image 2 prompt gallery: https://gptimagelab.com 同时把一部分内容整理成了 GitHub 仓库: https://github.com/peterRooo/awesome-gpt-image-2-pro
因为最近看到Claude Desktop也支持第三方API了, 但是用Chat2Api又好像不是很行的样子 佬们有教程的话求一个 3 个帖子 - 2 位参与者 阅读完整话题
最近打算弄一篇sci四区的论文 用ai来想创新点效果怎么样呢?想出来的idea能发表一篇嘛 问一下各位佬 5 个帖子 - 5 位参与者 阅读完整话题
大家好,最近我做了一个 GPT Image 2 prompt gallery: https://gptimagelab.com 同时把一部分内容整理成了 GitHub 仓库: https://github.com/peterRooo/awesome-gpt-image-2-pro
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一