[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
模型 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第63页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 2588 篇相关文章 · 第 63 / 130 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
我使用的kimi配置的第三方模型配置的claudedeskop,但是第一次用这个claude deskop感觉有点搞不明白 使用cowork的时候,我配置的几个mcp每次都需要手动点击,没有 always allow的选项和权限,这里不知道到底能不能设置呢 在connectors
不过模型列表泄露那天确实有一个 gpt-5.5-codex-prompt-testing-ev3 6 个帖子 - 5 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
竟然没人做那就只好我亲自动手了() 允许转载 其中: Gemini 3.1 Pro 报告了 128K 与 1M 上下文窗口时的数据 Claude 两款模型报告了 256K 和 1M 下的数据 实心点为数据点 13 个帖子 - 7 位参与者 阅读完整话题
cc-switch的mimo模型被伪装成claude,话说怎么恢复原来模型名字,也没开什么开关,也找不到什么设置来调 2 个帖子 - 2 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
Opus 4.7 MRCRv2只有32.2 A\下一代旗舰模型会高分于32.2还是不测不跑MRCRv2 现在满期待A\下一代旗舰模型 看看A\如何鬼辨 A\面红公布MRCRv2 A\不再公布MRCRv2 点击以查看投票。 5 个帖子 - 3 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
Pro现在的API价格太贵了,想问flash模型在实际任务的表现能超过Claude Sonnet 4.5吗 1 个帖子 - 1 位参与者 阅读完整话题
问一下glm7天体验卡不能用glm5吗 显示无法使用模型,我用Cherry Studio测了只有到4.7过… 是哪里配错了吗有佬知道吗 1 个帖子 - 1 位参与者 阅读完整话题
DeepSeek v4好不好,到底有多好,和同行对比如何?一眼就能看出来。 连接不同大模型,给aipy任务提示词: 打开windows画图软件,控制鼠标,画一辆小汽车。接下来看图回答问题:谁的最丑?谁的最抽象?国外谁最好?国内谁最好?DeepSeek进步如何?谁进步最大? 答对有
今天登录longcat发现内测新模型了,LongCat-2.0-Preview。据说为claude code等agent优化的,送1000万token,似乎两个小时刷新一次。随便申请了很快就给了,但据说限量的,看运气。干点小活当个haiku用应该可以的吧。 方法: 去longca
最近在看 Gemini 3.1 Pro,但对官方 benchmark 有点不太信任,想问问大家真实使用体验。 主要关心它作为 coding agent 的表现,比如这些场景: 日常 Q&A / 查资料 方案设计 / 架构思考 任务拆解 / 规划 实际写代码 debug /
新人报道,国产模型我主力使用智谱GLM,分享下官方送的体验卡,应该还有两次,回馈下佬友们。 我在使用GLM Coding Plan,数小时内完成过去需要数周的开发工作,赠送你1张7天AI Coding体验卡,一起来用吧: 智谱AI开放平台 2 个帖子 - 2 位参与者 阅读完整话
抽奖主题:五个50刀Codex额度,纯血号池(可用5.5模型),时限楼层到达300层。 奖品详情: [奖品1]:50刀Codex额度 [奖品2]:50刀Codex额度 [奖品3]:50刀Codex额度 [奖品4]:50刀Codex额度 [奖品5]:50刀Codex额度 活动时间:
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一