我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
OK - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第103页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 2950 篇相关文章 · 第 103 / 148 页
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
4月24日, DeepSeek-V4预览版正式发布并同步开源,号称在Agent能力、世界知识与推理性能三大维度达到国内及开源领域领先水平。DeepSeek-V4分为Pro与Flash两个版本,均支持百万(1M)token超长上下文。两个版本均大幅降低了对计算和显存的需求,将每个标
感觉互联网在AI时代下更卷了,简直是大逃杀模式,前端学后端,后端学前端,产品兼ui,有些是基本全干。然后计算机又是每年高考都是热门专业,毕业生越来越多,岗位又是越来越少,技能要求越来越多。学历贬值也越来越快。 低学历,技术一般的从业人员不知道未来的路在哪里了,到处都在说转行也不知
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
如题,可以接受付费,想用来做 grok-search MCP,增强 claude 和龙虾的搜索能力。 7 个帖子 - 5 位参与者 阅读完整话题
最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一
github.com/vmoranv/jshookmcp fix: harden webcrack sandbox, block path traversal, expand deob foundation (#27) master ← hmkklol:pr1/foundatio
昨天记录了一下用量,今天使用来生成看看用量,但是按照官网的说法 1token = 1 Credits ,不应该会用那么多Credits ,还是说有其他算法? 1 个帖子 - 1 位参与者 阅读完整话题
最近自己折腾了一个在线生图工具,主要是想把 GPT-image-2 、Grok 图片和 Grok 视频这些模型放到一个页面里,平时测试提示词、做参考图、生成一些海报/头像/封面会方便一点。 网站地址: https://grok.17nas.com/ 目前网站可以直接免费试用,不过
最近自己折腾了一个在线生图工具,主要是想把 GPT-image-2 、Grok 图片和 Grok 视频这些模型放到一个页面里,平时测试提示词、做参考图、生成一些海报/头像/封面会方便一点。 网站地址: https://grok.17nas.com/ 目前网站可以直接免费试用,不过
IT之家 4 月 25 日消息,科技媒体 NoteBook Check 于 4 月 23 日发布博文, 近距离体验了搭载英特尔 Wildcat Lake 处理器的参考设计笔记本,主要面向无需高性能计算的轻薄本市场。 这款参考设计笔记本采用铝合金机身,配备 14 英寸屏幕,采用充满
如标题所说的,大家有对比过国内coding plan吗,怎么测算的呢,只能在cursor这些编程工具中使用,怎么统计token用量,作为成本预算呢 1 个帖子 - 1 位参与者 阅读完整话题
macbook air m4,刚刚半小时前点了codex升级版本,然后不到5min cpu飙到了85度,没见过这种场景,立马把电脑关了(将近半年没关过机了索性就顺带让它休息个半个小时);开机之后打开codex也是飙到50多度,关键还打不开 ,你们又出现吗? 出去点了个烟,前几天四
官网的thinking和auto模型都变成灰色且无法选择了 只有fast模型可以正常使用 (以前貌似也发生过,希望能尽快恢复吧) 2 个帖子 - 2 位参与者 阅读完整话题
如题,好像默认是 medium 了,high 消耗 token 会很快吗 8 个帖子 - 8 位参与者 阅读完整话题
IT之家 4 月 25 日消息,科技媒体 Android Headline 昨日(4 月 24 日)发布博文, 分享了一组渲染图,展示三星 Galaxy Book6 Edge 笔记本,并透露完整设计与核心配置。 Galaxy Book6 Edge 定位为 Windows 11 A