【自部署】【2 x B300 270GB显存】尝试自部署deepseek-v4-flash

尝试使用2xB300 270GB 使用VLLM框架部署deepseek-v4-flash,给大家分享记录一下日志里的一些关键记录,希望可以帮助有需要的人,我之前上网一直没找到自部署的相关内容,也希望大家和我交流一下 (Worker_TP0_EP0 pid=1051) INFO 05-15 10:46...
【自部署】【2 x B300 270GB显存】尝试自部署deepseek-v4-flash
【自部署】【2 x B300 270GB显存】尝试自部署deepseek-v4-flash

尝试使用2xB300 270GB 使用VLLM框架部署deepseek-v4-flash,给大家分享记录一下日志里的一些关键记录,希望可以帮助有需要的人,我之前上网一直没找到自部署的相关内容,也希望大家和我交流一下

(Worker_TP0_EP0 pid=1051) INFO 05-15 10:46:30 [gpu_worker.py:440] Available KV cache memory: 134.63 GiB
05/15/26, 6:46:30 PM GMT+8
(Worker_TP0_EP0 pid=1051) INFO 05-15 10:46:30 [gpu_worker.py:455] CUDA graph memory profiling is enabled (default since v0.21.0). The current --gpu-memory-utilization=0.9200 is equivalent to --gpu-memory-utilization=0.9054 without CUDA graph memory profiling. To maintain the same effective KV cache size as before, increase --gpu-memory-utilization to 0.9346. To disable, set VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=0.
05/15/26, 6:46:30 PM GMT+8
(EngineCore pid=852) INFO 05-15 10:46:30 [kv_cache_utils.py:1711] GPU KV cache size: 109,952 tokens
05/15/26, 6:46:30 PM GMT+8
(EngineCore pid=852) INFO 05-15 10:46:30 [kv_cache_utils.py:1716] Maximum concurrency for 1,048,576 tokens per request: 4.95x

2 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文