模型 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第58页 - 钛刻科技 | TCTI.cn

模型 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第58页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。

共 2582 篇相关文章 · 第 58 / 130 页

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech www.v2ex.com 2026-04-25 20:44:05+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech www.v2ex.com 2026-04-25 20:44:05+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech www.v2ex.com 2026-04-25 20:20:13+08:00

V4、gpt5.5、GLM5.1有佬友对比过吗怎么样?

最新出来这么多新模型,大家都用过了吗?都如何呀有佬说一下不? 7 个帖子 - 5 位参与者 阅读完整话题

tech linux.do 2026-04-25 20:10:22+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech www.v2ex.com 2026-04-25 20:06:01+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech www.v2ex.com 2026-04-25 19:04:06+08:00

windsurf pro 试用claude模型限速怎么回事

今天使用白嫖的windsurf pro试用账号时,cluade opus 4.7 medium模型突然就不能用了但是4.6 tinking,gpt之类的可以,问了群友好像是限流了,佬们遇到这种情况了吗,这种问题能解决吗 4 个帖子 - 4 位参与者 阅读完整话题

tech linux.do 2026-04-25 18:48:33+08:00

谷歌云CEO深度对谈:解析自研TPU霸权、Anthropic博弈与Gemini 新模型即将发布

谷歌云首席执行官 托马斯·库里安Thomas Kurian 在最新访谈中展示了谷歌作为全球唯一拥有 全栈AI能力 巨头的底气。他不仅揭秘了自研TPU如何通过11年的积淀反超行业通用方案,更首次深入探讨了与竞争对手Anthropic的复杂关系,以及面对Mythos的准备。 库里安透

tech linux.do 2026-04-25 18:46:55+08:00

Windows上Claude Desktop怎么结合中转API?

我参照了这篇教程,用薄荷的中转API,实际使用模型是gemini-2.5-flash,用CC-Switch开了Claude路由代理 【教程】如何用功能更强大更美观的claude桌面端替代cli还能随意切换模型? 搞七捻三 原理:用官方 3P Gateway 把 Claude De

tech linux.do 2026-04-25 18:38:45+08:00

GPT 5.5 逆向需要申请新模型?

GPT 5.5 逆向需要申请新模型? This chat was flagged for possible cybersecurity risk If this seems wrong, try rephrasing your request. To get authorized

tech linux.do 2026-04-25 18:04:07+08:00

最近claude怎么了😳

最近的claude怎么了,我用的 Claude-Opus-4.6模型之前一直好好的,最近出现了问题重复现象,而且跑代码时还出现了排版嵌套混乱导致Markdown渲染一塌糊涂。 佬友们有这些问题吗?还是说只是我的有问题? 1 个帖子 - 1 位参与者 阅读完整话题

tech linux.do 2026-04-25 17:54:06+08:00

Chat Comptition与reponses在codex中的问题

有很多国产大模型不支持放在codex中,因为他们基本都不支持responses接口,我想知道怎么在高版本的codex中加一个中间键来实现互转呢? 1 个帖子 - 1 位参与者 阅读完整话题

tech linux.do 2026-04-25 17:47:09+08:00

怎么感觉现在国际上只有豆包在研究语音模型

因为我一个人在办公 所以摸鱼的时候我就在想 我跟豆宝打电话聊会儿天 然后我又在想别人的语音模型怎么样了,我记得 gpt 以前搞过,后来就没有什么后续 我记得 kimi 以前也研究过 我又问问豆包儿,豆包说它的模型是四月份更新的语音的那个模型,感觉别人的语言模型都很久很久没有更新过

tech linux.do 2026-04-25 17:33:01+08:00

安卓首发:荣耀 YOYO 率先接入 DeepSeek-V4 大模型

IT之家 4 月 25 日消息,荣耀官方今日宣布,荣耀 YOYO 成为安卓阵营中首家接入 DeepSeek-V4 大模型的 AI 智能体。 得益于此,荣耀 YOYO 实现三大核心升级:更强性能、更长上下文、更高推理效率。 IT之家提醒:YOYO 智能体版本 90.10.28.04

tech www.ithome.com 2026-04-25 17:32:21+08:00

New-API中的首字响应是什么指标

比如GPT模型,可以通知首字响应判断是免费账号,还是收费账号吗 1 个帖子 - 1 位参与者 阅读完整话题

tech linux.do 2026-04-25 17:21:17+08:00

不懂就问,现在马老板的Grok是不是最会搜索的大模型哦?可是现在免费是不是限制模型了?是不是比做搜索的 Perplexity (PPLX) 还专业?

rt,就是看到站内佬友讨论如何获取信息,突然想到我老早就想问的问题了( 聊一聊信息渠道,我觉得我自己很信息茧房! 搞七捻三 身份:产品经理 + 独立开发者 年龄:30岁 Google账号:15年,从初中开始翻墙上网(那时候还用免费的赛风) 常用的信息获取渠道 telegram +

tech linux.do 2026-04-25 17:14:14+08:00

Antigravity每天都有新惊喜

今天重新更新到Antigravity最新版看看有没有好一点 发现claude的模型竟然加入了新的限制 当任务比较复杂 超过一分钟未响应直接强制断开 无语中 退款被拒 马上要续费了 不准备续费了 就这怎么有信心它以后会好起来 一直在努力的负优化 从未正优化 发挥很稳定 1 个帖子

tech linux.do 2026-04-25 17:14:11+08:00

Any报错“当前 API 不支持所选模型”是怎么回事

rt,配置好后请求报错404 - {“error”:“当前 API 不支持所选模型 claude-opus-4-7”,“type”:“error”} 2 个帖子 - 2 位参与者 阅读完整话题

tech linux.do 2026-04-25 17:09:54+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech www.v2ex.com 2026-04-25 17:04:33+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech www.v2ex.com 2026-04-25 17:04:33+08:00