请问有人部署过GLM5.1 OR Kimi2.6 这种模型 配置到opencode吗 如何解决上下文长度问题

我在H200 8卡 sglang 部署了 GLM-5.1-fp8 我配置好api 为什么上下文总是会超出长度呢? 如何解决这个问题? 命令如下 SGLANG_ENABLE_SPEC_V2=1 sglang serve \ --model-path zai-org/GLM-5.1-FP8 \ --tp...
请问有人部署过GLM5.1 OR Kimi2.6 这种模型 配置到opencode吗 如何解决上下文长度问题
请问有人部署过GLM5.1 OR Kimi2.6 这种模型 配置到opencode吗 如何解决上下文长度问题

我在H200 8卡 sglang 部署了 GLM-5.1-fp8 我配置好api 为什么上下文总是会超出长度呢? 如何解决这个问题?
命令如下

SGLANG_ENABLE_SPEC_V2=1 sglang serve \
  --model-path zai-org/GLM-5.1-FP8 \
  --tp 8 \
  --dp 8 \
  --enable-dp-attention \
  --reasoning-parser glm45 \
  --tool-call-parser glm47 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.85

3 个帖子 - 3 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文