我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
tok - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第45页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 1363 篇相关文章 · 第 45 / 69 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
以前在OpenCode中使用Claude和GPT的时候就发现. 同样GPT的聊天180ktoken, 一切到Claude就变成260ktoken, 我一度以为是GPT比较省Token. 现在用CC, 用Claude聊天, 显示160ktoken, 切到GLM5.1变成100kto
萌新求问 目前还有没有便宜的相对稳定邀请送token,硅基流动用完了新的太贵 七牛云被封了一个不敢用了 1 个帖子 - 1 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
今年是AI的变现之年 再叠加全球硬件供需失衡,导致硬件价格步步高升 token的价格基本和硬件的价格高度绑定 要想token的价格回落 就要看这几年的“AGI”是否实现了 各位可以回想一下 当年的流量套餐是花了多长时间才变成如今这样 2 个帖子 - 2 位参与者 阅读完整话题
是怎么回事?IP不好使?用的2925邮箱 5 个帖子 - 4 位参与者 阅读完整话题
兄弟们,太难了… 还是得 codex 和 Claude code一起用。 之前从来没考虑过token消耗,昨天是开了它的 fast 模式,但是感觉这也太快了。今天只能抠抠搜搜,这感觉,差劲极了。。 16 个帖子 - 9 位参与者 阅读完整话题
这是 claude 用 opus 4.7 xhigh: 这是 codex 用 gpt 5.5 high: 同一个代码库,正常的需求分析和实现。。。 5 个帖子 - 3 位参与者 阅读完整话题
关于Plus用户使用gpt-5.5的5h和7d限额,是按token量还是使用金额? 4 个帖子 - 3 位参与者 阅读完整话题
之前的30M是流量,什么时候能到5元30M token 时代呢 12 个帖子 - 12 位参与者 阅读完整话题
IT之家 4 月 24 日消息,备受关注的 DeepSeek-V4 预览版今日正式上线并同步开源。 随后,华为云官方宣布为 DeepSeek-V4 提供首发适配,华为云 MaaS 模型即服务平台已为开发者提供免部署、一键调用 DeepSeek-V4-Flash API 的 Tok
gpt的标准系列(gpt-5.4,gpt-5.5之类的)和claude的opus/sonnet都是大约40-60token/s,好慢啊,受不了了,gpt-5.3-codex-spark我又没资格用 ,只能被迫使用gpt-5.4-mini了 大家都用的什么模型啊,多少速度啊,有没有
codex使用我看了下后台tps不算首字也就45token/s左右,用了半天为啥感觉好快啊!!我都怕他不够聪明,你们也是吗? 体感比5.4fast模式都快了30%,我之前一直用的fast 我开发都有点心虚,这么快会不会哪里有坑,review代码都要切回5.4去 网页使用5.5pr
十几个任务,能一次性完成。 就是目前上下文只有258k,基本每一两次对话就自动压缩。 8 个帖子 - 8 位参与者 阅读完整话题
现在既有次数限制又有用量限制,没法像以前那样爽登了..现在应该是同时有次数限制+5小时用量限制+周用量限制了.. 8 个帖子 - 6 位参与者 阅读完整话题
使用deepseek-v4 pro的总结,配合gpt-image-2的出图 1 个帖子 - 1 位参与者 阅读完整话题
ds的后台还是很简单明了的,能看到命中和非命中的token。 我让他过了一下我的项目,提了一些建议。 从这个算的话,总的命中率大概在80-90%左右。 所以不能直接看到12元就按照这个走(除非你在申报部门预算) 1 个帖子 - 1 位参与者 阅读完整话题