【求证】gpt-5.5 + reasoning_effort=xhigh 大量静默截断,流返回 200 但 output_tokens=5

环境 sub2api 现象 调 gpt-5.5 , reasoning_effort=xhigh , stream=true 上游 HTTP 200,流正常关闭, 没有任何 error 事件 但流里只产出 5 个 output token 就 finish 了,first_token 通常 < 50...
【求证】gpt-5.5 + reasoning_effort=xhigh 大量静默截断,流返回 200 但 output_tokens=5
求证gpt-5.5 + reasoning_effort=xhigh 大量静默截断,流返回 200 但 output_tokens=5

环境

  • sub2api

现象

  • gpt-5.5,reasoning_effort=xhigh,stream=true
  • 上游 HTTP 200,流正常关闭,没有任何 error 事件
  • 但流里只产出 5 个 output token 就 finish 了,first_token 通常 < 500ms 出来,整条请求 1 秒左右结束
  • 客户端拿到的相当于空响应 —— 从客户端视角:任务不报错、突然不说话就停了

还有一个相关变体:

  • 同样的调用条件,偶尔会进入"长挂起",first_token 等 10–14 分钟才出现,然后同样只吐 5 个 token 关流。如果客户端有 idle timeout(120s 那种)就会被切断;没设就一直挂在那儿。

数据特征(单日 ~650 次调用样本)

  • 静默截断率约 6%(本人样本里 39 / 350 次 gpt-5.5 命中)
  • 100% 集中在 gpt-5.5 + xhigh 这一组合;同一 key 同一天 gpt-5.4 + xhigh 跑 ~300 次基本不复现
  • 跨多个上游账号都出现,不是单账号或单 IP 问题
  • input 大小跟命中无关联:从几百 token 到几千 token 都中招,不是 body size 触发
  • output_tokens 卡在 5 这个数字太规整 —— 怀疑是某种固定的"提前终止"signature,而不是模型自己决定停

已排除

  • 客户端 timeout(因为大多数命中是 sub-1s 关流,根本走不到 client timeout)
  • 网关层 timeout / body 限制(命中样本 body 都很小)
  • 账号额度 / rate limit(响应里没有 429 或 quota 信号,HTTP 干净的 200)
  • 单上游账号问题(全号池稳定复现)
  • 上下文过大导致的静默截断(几百 token input 也中招)

受影响最严重的场景

codex / openclaw 这类 agent loop 客户端 —— 它们依赖流里的 token 推进任务,空响应会让 agent 卡死或自动判定"任务完成"提前结束,用户感知就是"AI 干一半莫名其妙退出了"。

想问的几个问题

  1. 有没有人在 gpt-5.5 + xhigh 上看到同样的"5 token 静默终止"模式?
  2. 那 5 个 token 实际是什么内容?有人抓过完整流响应体看过吗?
  3. 这是 gpt-5.5 在 xhigh 推理路径上的某种"超时保护"机制吗?有官方说明吗?
  4. 除了"客户端检测到空响应自动重试"和"降到 high"这两个变通,有没有上游侧的规避方法?

如果有人遇到类似情况、或者反过来确认自己没遇到(用同样模型+档位),都麻烦留个言,蹲一下经验。

10 个帖子 - 5 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文