我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
模型 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第60页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 2586 篇相关文章 · 第 60 / 130 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
近一周模型大爆发,御三家中a/更新了Opus4.7,openAI更新了gpt5.5和image2,国模中月之暗面更新了Kimi2.6,还有万众瞩目的DeepSeekV4,就连老马都端出来了一个grok4.3,那谷歌最近在干嘛?下一代Gemini怎么连一点小道消息都没有? 15 个
请根据【主题】创作一张高完成度、高质感、适合系列化发布的「地景档案模型 / Landscape Archive Model」视觉图。 这不是普通地图,也不是普通风景插画或城市效果图,而是一张结合“二维地图图纸 + 三维立体区域模型 + 专业说明系统 + 博物馆展陈感”的高端档案式
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
openaiI总是一直发一些不尽人意的模型,比如5.4虽然性能在线,但是速度慢,而且喜欢说超级多的黑话。但是最近AI模型大爆发,各大厂商都在推新的模型,他出1个5.5,结果速度又快,而且也不说黑话了,而且加工能修bug一修一个准openaiI绝对有东西藏着掖着的,但是他就是一次放
这篇帖子展示的是其他模型的编码情况 claude、gpt、gemini、glm做前端“大屏展示”的区别-已经全部更新 开发调优 昨天发了一个glm5.1和opus4.6的对比,做的是后端管理系统的全栈开发,本来想让他们去做一个agent的,但是感觉麻烦,就做一个最基本的后端管理系
2 个帖子 - 2 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
早上起来拉取了一下ollama cloud的模型列表,惊喜的发现v4pro已经上了,连忙测试了一下,发现速度也快的惊人,让人很是喜悦啊! 但很快我就发现不对劲,不管是太阳系模拟还是魔方居然都无法好好完成,跟我用deepseek官方测试的简直是天壤之别 然后我意识到了,不会是压根没
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
rt,竞技场刷到的 代号为hofburg_2_alt和hofburg_5_alt 个人感觉2比5智力高一点,不知道是不是一个模型? 其实本来想去找的是happy-friday-testing-2 2的部分: 5的部分: 1 个帖子 - 1 位参与者 阅读完整话题
Juice 是什么? Juice 值仅仅指示模型思考深度 。一般来说,在很多推理问题下,推理(reasoning)深度越高,推理消耗的 Token 越多,效果越好,但是: 模型智力中,思考深度仅仅是很小的一部分 不同模型的Juice不可直接比较 ,其绝对值也没有意义,Juice
求助各位佬友,预算2-3万人民币。想在本地部署一套多智能体工作流,实现2-3个模型7*24h不间断协同作业,比如指令下达、纠偏、代码/文本生成等工作。 有没有什么小主机方案推荐,要不要等一等m5max的mac studio,感谢各位佬友 3 个帖子 - 3 位参与者 阅读完整话题
我就夸了一下他遵守规定,然后他就说到 “某些公司” ,还配了 倒是让我想起上次印度峰会两人拒绝握手的照片 这两个创始人真的是,从相爱到相杀 死对头,可以写个小故事了 2 个帖子 - 2 位参与者 阅读完整话题
最近用好多模型都卡甚至都出不来,看了看结果一看我花云的节点基本全红,我之前甚至谷歌浏览器一个网页都加载半天,花云这是炸了还是怎么? 1 个帖子 - 1 位参与者 阅读完整话题
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺
我是不是将超越图灵,获得诺贝尔奖,成为大模型之父呢 开始做梦了。 9 个帖子 - 9 位参与者 阅读完整话题
官网的thinking和auto模型都变成灰色且无法选择了 只有fast模型可以正常使用 (以前貌似也发生过,希望能尽快恢复吧) 2 个帖子 - 2 位参与者 阅读完整话题
用的是 CPA 最新版,gpt img2 的模型号 在 codex 里面可以直接生图吗?不理解怎么做。 要自己写个插件 或者 skill? 2 个帖子 - 2 位参与者 阅读完整话题