[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
一下 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第65页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 2186 篇相关文章 · 第 65 / 110 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
【长期贴】开个帖子,分享一下我自己是如何做harness【已更新完成,等待交作业,后续再有新想法再补充】 开发调优 据网上传,目前Anthropic的所有产品均为harness模式,不过最近他们推了一个harness产品,原本把我吓了一跳,但实质一看,并不是干货,多少有点恶心人了
分享一下最近开始做的一个小实验,因为一直有朋友问我到底怎么投资,而我不想把人盲目的引进股市,于是想要推荐定投,但又想到我自己也从来没尝试过DCA,仅仅是通过回测和他人的分享就进行推荐同样是一种盲目,所以我决定掏出真金白银来进行试验,挑选几种简单的方式,流派全都测一遍。 境内组出于
想问问推上nous research现在正在置顶的那个视频是怎么制作的?(贴链接的话好像需要审核才能发出来,麻烦佬友手动搜一下) 2 个帖子 - 2 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
停药了,不吃草酸艾斯西酞普兰了 等能活到哪一秒算哪一秒吧 多多发帖子记录一下,除此之外没别的可做的 15 个帖子 - 7 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
这几天天天就这状态,有没有佬能正常用网页普号,哪里IP? 4 个帖子 - 4 位参与者 阅读完整话题
这随便蹬一下,100多刀没了。还没有开fast模式。牛逼是真牛逼。感觉一天要是2-3任务并行,起码需要300刀? 1 个帖子 - 1 位参与者 阅读完整话题
想求助一下诸位佬,当前在做一个小比赛案例需要用到语音和模型交互来收集数据,问下诸位有没有什么免费的或者低价的 实时语音识别方案 ,接入Api用 需要国内环境哦 4 个帖子 - 4 位参与者 阅读完整话题
1、CSA和HCA两种sparse attention 2、mHC 3、Muon优化器 4、GRPO+OPD 想问一下这次的engram去哪里了,没办法scale up? 1 个帖子 - 1 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
rt 看到这篇贴之后也试了一下 GPT-Image-2 , 和吉米交互了几次炼成几个自己觉得比较有特色的 通用焚决千篇一律,特殊风格万里挑一 | 一些非大流二次元向自用Prompt合集 | 一些自制焚决的思路 神秘咒语:一张充满忧郁氛围的艺术海报,以 银翼杀手2049 瑞恩·高斯
gemini 的 pro 快到期了,平常用 web 比较多,趁着 ds 出来了试试能不能平替。 测试任务很简单,一个是讲解知识点,一个是设计 html 讲解: 回答一是 ds-专家,回答二是 gemini-pro 同时还对比了 ds-快速 和 gemini-thinking,结果
想问一下各位老们有遇到过telegram出现限制上传的情况吗,本人有一个老号大约已经稳定使用半年左右了,今天想拿来当个网盘过渡一下,传一下电子书: 然后一次性上传了大约一千本左右的TXT文件,每一本大约在几十kb,目前出现了个很神奇的情况: 无论是手机还是电脑都可以正常的收到消息
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一