我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
发现 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第60页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 2159 篇相关文章 · 第 60 / 108 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
我寻思你们opencode用的不就是a/的协议么,怎么会出现工具调用的问题呢,匪夷所思了 消费还是要谨慎啊,贪小便宜又损失34rmb 28 个帖子 - 14 位参与者 阅读完整话题
做了一个 GEO 工具平台,想听听大家对 AI 搜索优化的看法 最近一直在关注一个变化:越来越多问题,用户已经不是先去搜索引擎翻网页了,而是直接问 ChatGPT 、豆包、Kimi 、文心、Perplexity 这类 AI 工具。 传统 SEO 解决的是“我的页面能不能排在搜索结
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近各种中转站由于 plus 、pro 渠道死了,codex 包月都转流量了,苦苦寻觅了一个新大佬开的中转站,特来分享给有缘人。 openai gpt5.5,gpt-image-2 开通上线 base64:aHR0cHM6Ly9jbi5jaHJvdXRlci5jb206ODQ0M
今年过年,托尼发现家里好多长辈都还保持着“手机电量用完再充电”的习惯,还说这样对电池好,能用的时间长,几十年的经验了……你跟他们讲厂商都提醒过“过充过放伤电池”,电池健康掉的快,他们就说那是计划报废让你买新手机…… 类似于这样的都市传说,托尼平常看到只是图一乐,没想到家里的长辈口
做了一个 GEO 工具平台,想听听大家对 AI 搜索优化的看法 最近一直在关注一个变化:越来越多问题,用户已经不是先去搜索引擎翻网页了,而是直接问 ChatGPT 、豆包、Kimi 、文心、Perplexity 这类 AI 工具。 传统 SEO 解决的是“我的页面能不能排在搜索结
做了一个 GEO 工具平台,想听听大家对 AI 搜索优化的看法 最近一直在关注一个变化:越来越多问题,用户已经不是先去搜索引擎翻网页了,而是直接问 ChatGPT 、豆包、Kimi 、文心、Perplexity 这类 AI 工具。 传统 SEO 解决的是“我的页面能不能排在搜索结
体感速度大概有 5 倍的提升,而且输出文字的速度也比 5.4 Thinking 快多了 之前用基本上都是问完后切别的窗口干别的事去了,现在可以等在这里,很快就回答完了 不清楚思考这么快,对能力是否有影响 与之前的不严谨对比(思考时间) GPT-5.5 Thinking GPT-5
为什么codexapp账号登录换成api后发现本地对话聊天消失了,只剩项目聊天 3 个帖子 - 3 位参与者 阅读完整话题
体感速度大概有 5 倍的提升,而且输出文字的速度也比 5.4 Thinking 快多了 之前用基本上都是问完后切别的窗口干别的事去了,现在可以等在这里,很快就回答完了 不清楚思考这么快,对能力是否有影响 与之前的不严谨对比(思考时间) GPT-5.5 Thinking GPT-5
最早偶尔发现,我认为是从哪个时间线之后都带 后来发现有时候就没有 忽而想起来自己的🪜不稳飞机场一直换来换去 可能跟这个有关系 后来验证确实跟国家/地区有关 那我想,总归美国节点都可以吧? 谁承想,也是有时候可以,有时候不行。 那这判断因素还挺细致啊 ? 比如我现在用的这个节点 2
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
还隐藏着一个跳蚤市场,一直都不知道啊,里面好多宝藏 查看一番之后,才找到路径 第一步,在左侧栏找到更多,打开群组 第二步,在群组里面,选择加入交易分组,然后跳蚤市场就出现了 我是刚知道,赶紧去进货。。 5 个帖子 - 5 位参与者 阅读完整话题
之前搞量化,发现纠结那几个点的收益没啥意思,不如搞长线。要搞就搞大的,不拿个30%以上的收益就跑路没啥意思。 遂转长线交易了。分享一下长线交易个人选公司的要点。 (1) 资金流:买入前 公司前两年的扣非净利润,必须要保持增长。净利润连年亏损的都是垃圾。鬼知道公司啥时候亏着亏着就没
有些失望,就是 X 的一个聊天 Tab 独立为 XChat 了,替代不了 TG ,也替代不了微信。
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最早偶尔发现,我认为是从哪个时间线之后都带 后来发现有时候就没有 忽而想起来自己的🪜不稳飞机场一直换来换去 可能跟这个有关系 后来验证确实跟国家/地区有关 那我想,总归美国节点都可以吧? 谁承想,也是有时候可以,有时候不行。 那这判断因素还挺细致啊 ? 比如我现在用的这个节点 2