[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
30 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第41页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 1258 篇相关文章 · 第 41 / 63 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
IT之家 4 月 24 日消息,据央视新闻报道,自 5 月 19 日中国旅游日起, 京张高铁将在北京北至崇礼站区间试点“自行车随身行”服务 ,允许骑行爱好者携带自行车上车。 据悉,旅客届时只需通过 12306 客户端即可在线完成预约和付费,为了确保行车安全与车厢秩序,携带的自行车
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
朋友们,想问问OPPO x9sPro,OPPO x9Pro,vivo x300Pro x300s这几个应该选哪个啊?有点纠结不知道选哪个好 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 4 月 24 日消息,据《首尔经济日报》今日报道,约 4 万名三星电子工会成员参加了昨日举行的“总集会”。据三星电子工会“联合斗争本部”披露,集会期间,公司半导体产量单日下降逾 18%。 三星电子工会希望以此向管理层施压,警告若公司不接受将营业利润的 15% 分配为绩效
最近沪深 300 处于高位,当前不打算买入,证券里面的资金目前闲置着,app 里面看到有个天天利的产品,28 天收益 6%,不知道是否靠谱,有老哥知道吗
最近沪深 300 处于高位,当前不打算买入,证券里面的资金目前闲置着,app 里面看到有个天天利的产品,28 天收益 6%,不知道是否靠谱,有老哥知道吗
最近沪深 300 处于高位,当前不打算买入,证券里面的资金目前闲置着,app 里面看到有个天天利的产品,28 天收益 6%,不知道是否靠谱,有老哥知道吗
现在的大模型虽然上下文窗口大,但理解的范围不大,如果全部丢给它,估计会被塞爆。 如果 PDF 里面还包含了图片、表格等等的话,那就更不用说了。 https://imgur.com/a/Guu8GR2 所以,我做了一个专治非结构化数据的文件解析插件 Knowhere ,它能够识别复
现在的大模型虽然上下文窗口大,但理解的范围不大,如果全部丢给它,估计会被塞爆。 如果 PDF 里面还包含了图片、表格等等的话,那就更不用说了。 https://imgur.com/a/Guu8GR2 所以,我做了一个专治非结构化数据的文件解析插件 Knowhere ,它能够识别复
现在的大模型虽然上下文窗口大,但理解的范围不大,如果全部丢给它,估计会被塞爆。 如果 PDF 里面还包含了图片、表格等等的话,那就更不用说了。 https://imgur.com/a/Guu8GR2 所以,我做了一个专治非结构化数据的文件解析插件 Knowhere ,它能够识别复
整机价格差不多,14600kf还便宜300, 主游戏兼顾一些生产力 9700x配5060ti 5999 ddr5 16g 14600kf配5060ti 5699 ddr4 16g 配了基本长期不会变 不敢再加价了 因为是整机所以不考虑内存价格 d5能否战未来 佬们说哪个性能更强呢
最多30个人左右吧,同时在线10多个人吧 1 个帖子 - 1 位参与者 阅读完整话题
之前的30M是流量,什么时候能到5元30M token 时代呢 12 个帖子 - 12 位参与者 阅读完整话题
发现有不少卖服务器的,它们买的很便宜,例如 4h4g30M 的香港,只要一百多就有三年。 我经过搜索,发现很多人把这种做法叫做超开。 而且,那种购买界面都是一个模子出来的,只是换了一个厂商 logo ,发现底部的 copyright ,是 2025-2026 ,我真怕跑路了。
从 2025 年半马跑进 130 ,全马跑进 310 之后,就有了全马破三的想法,2026 重庆马拉松因为髂经束弃赛,计划 2026 继续努力训练,下半年继续尝试全马破三。 经常在微信公众号看一些跑者的分享,分享训练经验,比赛策略,跑者故事等,可以找到高水平的跑者学习和借鉴。 老
从 2025 年半马跑进 130 ,全马跑进 310 之后,就有了全马破三的想法,2026 重庆马拉松因为髂经束弃赛,计划 2026 继续努力训练,下半年继续尝试全马破三。 经常在微信公众号看一些跑者的分享,分享训练经验,比赛策略,跑者故事等,可以找到高水平的跑者学习和借鉴。 老
从 2025 年半马跑进 130 ,全马跑进 310 之后,就有了全马破三的想法,2026 重庆马拉松因为髂经束弃赛,计划 2026 继续努力训练,下半年继续尝试全马破三。 经常在微信公众号看一些跑者的分享,分享训练经验,比赛策略,跑者故事等,可以找到高水平的跑者学习和借鉴。 老