我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
模型 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第58页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 2582 篇相关文章 · 第 58 / 130 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最新出来这么多新模型,大家都用过了吗?都如何呀有佬说一下不? 7 个帖子 - 5 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
今天使用白嫖的windsurf pro试用账号时,cluade opus 4.7 medium模型突然就不能用了但是4.6 tinking,gpt之类的可以,问了群友好像是限流了,佬们遇到这种情况了吗,这种问题能解决吗 4 个帖子 - 4 位参与者 阅读完整话题
谷歌云首席执行官 托马斯·库里安Thomas Kurian 在最新访谈中展示了谷歌作为全球唯一拥有 全栈AI能力 巨头的底气。他不仅揭秘了自研TPU如何通过11年的积淀反超行业通用方案,更首次深入探讨了与竞争对手Anthropic的复杂关系,以及面对Mythos的准备。 库里安透
我参照了这篇教程,用薄荷的中转API,实际使用模型是gemini-2.5-flash,用CC-Switch开了Claude路由代理 【教程】如何用功能更强大更美观的claude桌面端替代cli还能随意切换模型? 搞七捻三 原理:用官方 3P Gateway 把 Claude De
GPT 5.5 逆向需要申请新模型? This chat was flagged for possible cybersecurity risk If this seems wrong, try rephrasing your request. To get authorized
最近的claude怎么了,我用的 Claude-Opus-4.6模型之前一直好好的,最近出现了问题重复现象,而且跑代码时还出现了排版嵌套混乱导致Markdown渲染一塌糊涂。 佬友们有这些问题吗?还是说只是我的有问题? 1 个帖子 - 1 位参与者 阅读完整话题
有很多国产大模型不支持放在codex中,因为他们基本都不支持responses接口,我想知道怎么在高版本的codex中加一个中间键来实现互转呢? 1 个帖子 - 1 位参与者 阅读完整话题
因为我一个人在办公 所以摸鱼的时候我就在想 我跟豆宝打电话聊会儿天 然后我又在想别人的语音模型怎么样了,我记得 gpt 以前搞过,后来就没有什么后续 我记得 kimi 以前也研究过 我又问问豆包儿,豆包说它的模型是四月份更新的语音的那个模型,感觉别人的语言模型都很久很久没有更新过
IT之家 4 月 25 日消息,荣耀官方今日宣布,荣耀 YOYO 成为安卓阵营中首家接入 DeepSeek-V4 大模型的 AI 智能体。 得益于此,荣耀 YOYO 实现三大核心升级:更强性能、更长上下文、更高推理效率。 IT之家提醒:YOYO 智能体版本 90.10.28.04
比如GPT模型,可以通知首字响应判断是免费账号,还是收费账号吗 1 个帖子 - 1 位参与者 阅读完整话题
rt,就是看到站内佬友讨论如何获取信息,突然想到我老早就想问的问题了( 聊一聊信息渠道,我觉得我自己很信息茧房! 搞七捻三 身份:产品经理 + 独立开发者 年龄:30岁 Google账号:15年,从初中开始翻墙上网(那时候还用免费的赛风) 常用的信息获取渠道 telegram +
今天重新更新到Antigravity最新版看看有没有好一点 发现claude的模型竟然加入了新的限制 当任务比较复杂 超过一分钟未响应直接强制断开 无语中 退款被拒 马上要续费了 不准备续费了 就这怎么有信心它以后会好起来 一直在努力的负优化 从未正优化 发挥很稳定 1 个帖子
rt,配置好后请求报错404 - {“error”:“当前 API 不支持所选模型 claude-opus-4-7”,“type”:“error”} 2 个帖子 - 2 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一