环境
- sub2api
现象
- 调
gpt-5.5,reasoning_effort=xhigh,stream=true - 上游 HTTP 200,流正常关闭,没有任何 error 事件
- 但流里只产出 5 个 output token 就 finish 了,first_token 通常 < 500ms 出来,整条请求 1 秒左右结束
- 客户端拿到的相当于空响应 —— 从客户端视角:任务不报错、突然不说话就停了
还有一个相关变体:
- 同样的调用条件,偶尔会进入"长挂起",first_token 等 10–14 分钟才出现,然后同样只吐 5 个 token 关流。如果客户端有 idle timeout(120s 那种)就会被切断;没设就一直挂在那儿。
数据特征(单日 ~650 次调用样本)
- 静默截断率约 6%(本人样本里 39 / 350 次 gpt-5.5 命中)
- 100% 集中在 gpt-5.5 + xhigh 这一组合;同一 key 同一天
gpt-5.4 + xhigh跑 ~300 次基本不复现 - 跨多个上游账号都出现,不是单账号或单 IP 问题
- input 大小跟命中无关联:从几百 token 到几千 token 都中招,不是 body size 触发
output_tokens卡在 5 这个数字太规整 —— 怀疑是某种固定的"提前终止"signature,而不是模型自己决定停
已排除
- 客户端 timeout(因为大多数命中是 sub-1s 关流,根本走不到 client timeout)
- 网关层 timeout / body 限制(命中样本 body 都很小)
- 账号额度 / rate limit(响应里没有 429 或 quota 信号,HTTP 干净的 200)
- 单上游账号问题(全号池稳定复现)
- 上下文过大导致的静默截断(几百 token input 也中招)
受影响最严重的场景
codex / openclaw 这类 agent loop 客户端 —— 它们依赖流里的 token 推进任务,空响应会让 agent 卡死或自动判定"任务完成"提前结束,用户感知就是"AI 干一半莫名其妙退出了"。
想问的几个问题
- 有没有人在
gpt-5.5+xhigh上看到同样的"5 token 静默终止"模式? - 那 5 个 token 实际是什么内容?有人抓过完整流响应体看过吗?
- 这是 gpt-5.5 在 xhigh 推理路径上的某种"超时保护"机制吗?有官方说明吗?
- 除了"客户端检测到空响应自动重试"和"降到 high"这两个变通,有没有上游侧的规避方法?
如果有人遇到类似情况、或者反过来确认自己没遇到(用同样模型+档位),都麻烦留个言,蹲一下经验。
10 个帖子 - 5 位参与者