我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
一下 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第62页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 2161 篇相关文章 · 第 62 / 109 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
有点慢,我用codex调用,叫他帮我查一下codex的配置文件,调用了5次工具都断线了TT 7 个帖子 - 3 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
3 个帖子 - 2 位参与者 阅读完整话题
早上起来拉取了一下ollama cloud的模型列表,惊喜的发现v4pro已经上了,连忙测试了一下,发现速度也快的惊人,让人很是喜悦啊! 但很快我就发现不对劲,不管是太阳系模拟还是魔方居然都无法好好完成,跟我用deepseek官方测试的简直是天壤之别 然后我意识到了,不会是压根没
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
我就夸了一下他遵守规定,然后他就说到 “某些公司” ,还配了 倒是让我想起上次印度峰会两人拒绝握手的照片 这两个创始人真的是,从相爱到相杀 死对头,可以写个小故事了 2 个帖子 - 2 位参与者 阅读完整话题
昨天记录了一下用量,今天使用来生成看看用量,但是按照官网的说法 1token = 1 Credits ,不应该会用那么多Credits ,还是说有其他算法? 1 个帖子 - 1 位参与者 阅读完整话题
各位佬,推荐一下 稳定 稳定还是稳定的机场,价格可以贵点,但一定要稳定 1 个帖子 - 1 位参与者 阅读完整话题
昨天试了一下Jetbrains Gateway,好像只能通过terminal启动claude code / codex, 但是延迟很高,打字都一卡一卡的, Jetbrains Gateway有类似vscode的claude code插件吗? 5 个帖子 - 4 位参与者 阅读完整
请教一下佬友们:使用 CPA 反代 Gemini CLI 还有 Codex,有封号风险吗? 我使用个人的账号。 5 个帖子 - 5 位参与者 阅读完整话题
诸位大佬,问一下DeepSeek V4目前国内有几家Coding Plan有的? 周一我要建议公司采购一批非API得Coding Plan来顶着了,这个月预算花不完了,感谢诸位大佬 14 个帖子 - 8 位参与者 阅读完整话题
刚用 Gemini 突然推送出 mac 版本了,下载试了一下,方便性还是增加了挺多。能直接分享窗口了,这个还挺有意思的 Gemini for macOS – your native AI desktop app 4 个帖子 - 3 位参与者 阅读完整话题
之前试用过mac m1 pro跟mac 2018; 感觉很不习惯;然后上学和工作后用的是win,发现网上和朋友有部分一直使用的是mac,对于互联网行业的人来说,就是因为更加符合linux的指令吗,还是说mac的终端更适合跑ai, 美工用mac应该是mac的颜色很准吧。感觉win已
平时我喜欢体验不同的产品,有时候会跟同事分享一下使用体验;最近同事说我一直搞东搞西的(一股说教语气),但是大半夜(11点半多)向我询问claude桌面版怎么配置第三方API 真整无语了,哪里受过这个气 另:佬友们有没有什么讨论的地方,我太能水了;真的不想再跟同事聊这些了 34 个
公司的智能客服项目,目前已经在测试阶段了,目前接的腾讯的千问Max,看了一下账单,成本有点高,打算自己部署个开源模型,佬们有推荐的吗,ds-v4行不行,在L站看了两天,有好评也有差评,纠结了 16 个帖子 - 13 位参与者 阅读完整话题
我在一个频道中,看到有人出固态,致钛的 TiPlus5000 1T,是 740 出,他说是全新未拆封, 质保到 29 年。虽然现在并不急着用,但是看到价格还是觉得挺香的,我 23 年的时候买过一个 5000,当时好像是不到 400 入的,后来就开始一直涨价。所以我想问问佬们,这个
请问一下各位佬友,有没有什么教程或者skills,能够将一本书中讲述的技巧转换为skill,便于我通过这个skill就可以完成某项工作的呢? 4 个帖子 - 4 位参与者 阅读完整话题
IT之家 4 月 25 日消息,华为 AI 眼镜今日 10:08 正式开售,提供钛银灰、流光银、摩登黑三款配色,圆形、方形两种镜框样式,其中钛银灰及摩登黑售价为 2499 元,流光银售价 2899 元。 据IT之家了解,华为 AI 眼镜采用了全新的轻量化新型材料和精密堆叠技术,镜