我需要思考模式,但是不像其他在线模式那样思考过程会折叠
像下面只是发了一个"你好",他连思考过程都返回完整的输出在终端上
#启动方式如下
vllm serve /root/models/huggingface/Qwen3.5-9B-AWQ \
--served-model-name Qwen3.5-9B-AWQ-Thinking \
--tensor-parallel-size 2 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--trust-remote-code \
--host 10.1.1.128 \
--api-key 123456 \
--port 8000
[分享创造] 参考 TG 电报做了一个轻量级的聊天工具 Flow,可能是目前市面上最接近 TG 的了。
[分享发现] Codex 推出了 Chrome 插件,可以直接用已登录 Chrome 做网页任务
下面是使用硅基流动在线的模型,思考过程就会折叠起来
6 个帖子 - 3 位参与者