【自部署】【2 x B300 270GB显存】尝试自部署deepseek-v4-flash

编辑部 2026-05-15T20:05:05.775886 34303 阅读 tech

尝试使用2xB300 270GB 使用VLLM框架部署deepseek-v4-flash，给大家分享记录一下日志里的一些关键记录，希望可以帮助有需要的人，我之前上网一直没找到自部署的相关内容，也希望大家和我交流一下 (Worker_TP0_EP0 pid=1051) INFO 05-15 10:46...

【自部署】【2 x B300 270GB显存】尝试自部署deepseek-v4-flash

尝试使用2xB300 270GB 使用VLLM框架部署deepseek-v4-flash，给大家分享记录一下日志里的一些关键记录，希望可以帮助有需要的人，我之前上网一直没找到自部署的相关内容，也希望大家和我交流一下

(Worker_TP0_EP0 pid=1051) INFO 05-15 10:46:30 [gpu_worker.py:440] Available KV cache memory: 134.63 GiB
05/15/26, 6:46:30 PM GMT+8
(Worker_TP0_EP0 pid=1051) INFO 05-15 10:46:30 [gpu_worker.py:455] CUDA graph memory profiling is enabled (default since v0.21.0). The current --gpu-memory-utilization=0.9200 is equivalent to --gpu-memory-utilization=0.9054 without CUDA graph memory profiling. To maintain the same effective KV cache size as before, increase --gpu-memory-utilization to 0.9346. To disable, set VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=0.
05/15/26, 6:46:30 PM GMT+8
(EngineCore pid=852) INFO 05-15 10:46:30 [kv_cache_utils.py:1711] GPU KV cache size: 109,952 tokens
05/15/26, 6:46:30 PM GMT+8
(EngineCore pid=852) INFO 05-15 10:46:30 [kv_cache_utils.py:1716] Maximum concurrency for 1,048,576 tokens per request: 4.95x

2 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

部署 B300 270GB 显存尝试一个 AI 帖子

【自部署】【2 x B300 270GB显存】尝试自部署deepseek-v4-flash

[职场话题] 你们现在还能专注的阅读长代码吗

[问与答] 老 v 友哪里去了？

相关推荐