我在H200 8卡 sglang 部署了 GLM-5.1-fp8 我配置好api 为什么上下文总是会超出长度呢? 如何解决这个问题?
命令如下
SGLANG_ENABLE_SPEC_V2=1 sglang serve \
--model-path zai-org/GLM-5.1-FP8 \
--tp 8 \
--dp 8 \
--enable-dp-attention \
--reasoning-parser glm45 \
--tool-call-parser glm47 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--mem-fraction-static 0.85
3 个帖子 - 3 位参与者