prefill - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技

关于低算力 gpu 推理时 prefill 在总时长中的占比问题

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量

tech V2EX - 技术 2026-06-09 15:06:23+08:00

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量

tech V2EX - 技术 2026-06-09 15:06:23+08:00

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量

tech V2EX - 技术 2026-06-09 14:49:41+08:00

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量

tech V2EX - 技术 2026-06-09 13:27:28+08:00

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量

tech V2EX - 技术 2026-06-09 13:27:28+08:00

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量

tech V2EX - 技术 2026-06-09 12:45:14+08:00

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量

tech V2EX - 技术 2026-06-09 12:18:31+08:00