tok - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第45页 - 钛刻科技 | TCTI.cn

tok - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第45页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。

共 1363 篇相关文章 · 第 45 / 69 页

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech www.v2ex.com 2026-04-24 19:59:44+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech v2ex.com 2026-04-24 19:41:32+08:00

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech www.v2ex.com 2026-04-24 19:41:32+08:00

一样的上下文, Claude占用Token是其他模型的1.5倍

以前在OpenCode中使用Claude和GPT的时候就发现. 同样GPT的聊天180ktoken, 一切到Claude就变成260ktoken, 我一度以为是GPT比较省Token. 现在用CC, 用Claude聊天, 显示160ktoken, 切到GLM5.1变成100kto

tech linux.do 2026-04-24 19:04:52+08:00

求问还有木有邀请送国产大模型token的平台

萌新求问 目前还有没有便宜的相对稳定邀请送token,硅基流动用完了新的太贵 七牛云被封了一个不敢用了 1 个帖子 - 1 位参与者 阅读完整话题

tech linux.do 2026-04-24 18:48:40+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech v2ex.com 2026-04-24 18:48:29+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech v2ex.com 2026-04-24 18:48:29+08:00

token短时间内是不会降价的了

今年是AI的变现之年 再叠加全球硬件供需失衡,导致硬件价格步步高升 token的价格基本和硬件的价格高度绑定 要想token的价格回落 就要看这几年的“AGI”是否实现了 各位可以回想一下 当年的流量套餐是花了多长时间才变成如今这样 2 个帖子 - 2 位参与者 阅读完整话题

tech linux.do 2026-04-24 18:40:29+08:00

用的静态家宽ip,cpa获取codex token也add_phone

是怎么回事?IP不好使?用的2925邮箱 5 个帖子 - 4 位参与者 阅读完整话题

tech linux.do 2026-04-24 18:31:30+08:00

codex 额度不够用啊, pro 一天花了 40%的周额度

兄弟们,太难了… 还是得 codex 和 Claude code一起用。 之前从来没考虑过token消耗,昨天是开了它的 fast 模式,但是感觉这也太快了。今天只能抠抠搜搜,这感觉,差劲极了。。 16 个帖子 - 9 位参与者 阅读完整话题

tech linux.do 2026-04-24 16:47:10+08:00

codex 的输入 token 消耗巨大,跟 claude 拉开了几条街,怪不得额度消耗这么快

这是 claude 用 opus 4.7 xhigh: 这是 codex 用 gpt 5.5 high: 同一个代码库,正常的需求分析和实现。。。 5 个帖子 - 3 位参与者 阅读完整话题

tech linux.do 2026-04-24 16:28:43+08:00

GPT-5.5限额问题

关于Plus用户使用gpt-5.5的5h和7d限额,是按token量还是使用金额? 4 个帖子 - 3 位参与者 阅读完整话题

tech linux.do 2026-04-24 16:09:25+08:00

什么时候能到大模型的5元30M时代

之前的30M是流量,什么时候能到5元30M token 时代呢 12 个帖子 - 12 位参与者 阅读完整话题

tech linux.do 2026-04-24 16:05:55+08:00

华为云首发适配 DeepSeek-V4,提供免部署、一键调用 API 的 Tokens 服务

IT之家 4 月 24 日消息,备受关注的 DeepSeek-V4 预览版今日正式上线并同步开源。 随后,华为云官方宣布为 DeepSeek-V4 提供首发适配,华为云 MaaS 模型即服务平台已为开发者提供免部署、一键调用 DeepSeek-V4-Flash API 的 Tok

tech www.ithome.com 2026-04-24 16:02:32+08:00

token生成的好慢啊,大家日常/自动化都是用的什么模型,多少速度啊

gpt的标准系列(gpt-5.4,gpt-5.5之类的)和claude的opus/sonnet都是大约40-60token/s,好慢啊,受不了了,gpt-5.3-codex-spark我又没资格用 ,只能被迫使用gpt-5.4-mini了 大家都用的什么模型啊,多少速度啊,有没有

tech linux.do 2026-04-24 15:17:26+08:00

gpt5.5快的我怕他不够聪明[破案了应该中转站的问题]

codex使用我看了下后台tps不算首字也就45token/s左右,用了半天为啥感觉好快啊!!我都怕他不够聪明,你们也是吗? 体感比5.4fast模式都快了30%,我之前一直用的fast 我开发都有点心虚,这么快会不会哪里有坑,review代码都要切回5.4去 网页使用5.5pr

tech linux.do 2026-04-24 14:02:10+08:00

GPT 5.5终于不再问我愿不愿意,能一次性把活干完了 | Token消耗也大幅增加

十几个任务,能一次性完成。 就是目前上下文只有258k,基本每一两次对话就自动压缩。 8 个帖子 - 8 位参与者 阅读完整话题

tech linux.do 2026-04-24 13:55:51+08:00

copilot pro+貌似除了次数限制外也加了token用量限制了

现在既有次数限制又有用量限制,没法像以前那样爽登了..现在应该是同时有次数限制+5小时用量限制+周用量限制了.. 8 个帖子 - 6 位参与者 阅读完整话题

tech linux.do 2026-04-24 13:34:44+08:00

AI读《DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence》

使用deepseek-v4 pro的总结,配合gpt-image-2的出图 1 个帖子 - 1 位参与者 阅读完整话题

tech linux.do 2026-04-24 13:28:33+08:00

ds价格没那么贵,不能完全从无缓存命中的价格走

ds的后台还是很简单明了的,能看到命中和非命中的token。 我让他过了一下我的项目,提了一些建议。 从这个算的话,总的命中率大概在80-90%左右。 所以不能直接看到12元就按照这个走(除非你在申报部门预算) 1 个帖子 - 1 位参与者 阅读完整话题

tech linux.do 2026-04-24 12:53:06+08:00