OC - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第19页 - 钛刻科技 | TCTI.cn

OC - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第19页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。

共 694 篇相关文章 · 第 19 / 35 页

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech v2ex.com 2026-04-24 21:41:54+08:00

GPT5.5 在 codex 中 credit 消耗量相比 5.4 翻倍

https://developers.openai.com/api/docs/pricing?latest-pricing=standard Model Input Credits Output Credits GPT-5.3-Codex 43.75 350 GPT-5.4 62

tech www.v2ex.com 2026-04-24 21:38:46+08:00

[求科普] codex+sub2api有副作用吗,比如contextcompact

多个codex账号的情况下,我现在用的是cockpit tools,一个账号额度不够了需要退出session再resume 我看站内其他帖子里很多佬有提到sub2api,我现在想转到sub2api或cliproxyapi 所以我想问一下能完美支持吗,会不会有副作用,比如conte

tech linux.do 2026-04-24 20:58:56+08:00

GPT5.5 在 codex 中 credit 消耗量相比 5.4 翻倍

https://developers.openai.com/api/docs/pricing?latest-pricing=standard Model Input Credits Output Credits GPT-5.3-Codex 43.75 350 GPT-5.4 62

tech www.v2ex.com 2026-04-24 20:38:46+08:00

GPT5.5 在 codex 中 credit 消耗量相比 5.4 翻倍

https://developers.openai.com/api/docs/pricing?latest-pricing=standard Model Input Credits Output Credits GPT-5.3-Codex 43.75 350 GPT-5.4 62

tech www.v2ex.com 2026-04-24 20:36:26+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech v2ex.com 2026-04-24 20:35:40+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech v2ex.com 2026-04-24 20:26:48+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech v2ex.com 2026-04-24 20:11:08+08:00

[云计算] 2026 年,选择 Podman 还是 Docker

Docker 对于大多数自托管应用支持的比较好,个人使用也基本熟悉了。 Podman 的无守护进程和默认的 Rootless 很好用,在服务器上测试部署了一个服务,感觉还挺好的。

tech v2ex.com 2026-04-24 20:10:54+08:00

[云计算] 2026 年,选择 Podman 还是 Docker

Docker 对于大多数自托管应用支持的比较好,个人使用也基本熟悉了。 Podman 的无守护进程和默认的 Rootless 很好用,在服务器上测试部署了一个服务,感觉还挺好的。

tech v2ex.com 2026-04-24 20:10:54+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech v2ex.com 2026-04-24 20:06:39+08:00

[云计算] 2026 年,选择 Podman 还是 Docker

Docker 对于大多数自托管应用支持的比较好,个人使用也基本熟悉了。 Podman 的无守护进程和默认的 Rootless 很好用,在服务器上测试部署了一个服务,感觉还挺好的。

tech v2ex.com 2026-04-24 20:03:09+08:00

GPT5.5 在 codex 中 credit 消耗量相比 5.4 翻倍

https://developers.openai.com/api/docs/pricing?latest-pricing=standard Model Input Credits Output Credits GPT-5.3-Codex 43.75 350 GPT-5.4 62

tech www.v2ex.com 2026-04-24 20:00:07+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech v2ex.com 2026-04-24 19:41:32+08:00

[云计算] 2026 年,选择 Podman 还是 Docker

Docker 对于大多数自托管应用支持的比较好,个人使用也基本熟悉了。 Podman 的无守护进程和默认的 Rootless 很好用,在服务器上测试部署了一个服务,感觉还挺好的。

tech v2ex.com 2026-04-24 19:29:44+08:00

[云计算] 2026 年,选择 Podman 还是 Docker

Docker 对于大多数自托管应用支持的比较好,个人使用也基本熟悉了。 Podman 的无守护进程和默认的 Rootless 很好用,在服务器上测试部署了一个服务,感觉还挺好的。

tech v2ex.com 2026-04-24 19:16:46+08:00

[云计算] 2026 年,选择 Podman 还是 Docker

Docker 对于大多数自托管应用支持的比较好,个人使用也基本熟悉了。 Podman 的无守护进程和默认的 Rootless 很好用,在服务器上测试部署了一个服务,感觉还挺好的。

tech v2ex.com 2026-04-24 19:07:40+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech v2ex.com 2026-04-24 18:48:29+08:00

[Local LLM] 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。 于是做了个工具自动找最优配置,过程中踩了不少坑,记录一

tech v2ex.com 2026-04-24 18:48:29+08:00

[云计算] 2026 年,选择 Podman 还是 Docker

Docker 对于大多数自托管应用支持的比较好,个人使用也基本熟悉了。 Podman 的无守护进程和默认的 Rootless 很好用,在服务器上测试部署了一个服务,感觉还挺好的。

tech v2ex.com 2026-04-24 18:42:34+08:00