本地部署的Qwen3.5-9B-AWQ打开思考模式在终端对话总是会输出完整的</think>而不折叠隐藏

编辑部 2026-05-08T13:50:48.920315 20555 阅读 tech

我需要思考模式，但是不像其他在线模式那样思考过程会折叠像下面只是发了一个"你好"，他连思考过程都返回完整的输出在终端上 #启动方式如下 vllm serve /root/models/huggingface/Qwen3.5-9B-AWQ \ --served-model-name Qwen3.5-...

本地部署的Qwen3.5-9B-AWQ打开思考模式在终端对话总是会输出完整的</think>而不折叠隐藏

我需要思考模式，但是不像其他在线模式那样思考过程会折叠

像下面只是发了一个"你好"，他连思考过程都返回完整的输出在终端上

#启动方式如下
vllm serve /root/models/huggingface/Qwen3.5-9B-AWQ \
    --served-model-name Qwen3.5-9B-AWQ-Thinking \
    --tensor-parallel-size 2 \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder \
    --trust-remote-code \
    --host 10.1.1.128 \
    --api-key 123456 \
    --port 8000