这是gpt-5.5@xhigh一批8次提交写的爬虫-解析-落库流水线代码,流程和功能都不复杂。
因为各家模型的思考强度映射不一样,统一开了max effort。
小米耗时4分钟
全程在说对对对干得好,最后挑了点无关痛痒的代码风格小毛病。
DSV4耗时12分钟
找到了一些非关键问题。
GLM5.1耗时30分钟(和TPS慢也有关系)
主动调动了最多的subagents,找出了影响功能的关键问题。
最后是gpt基于这三份报告再自己review和打分,额外找到了一个关键问题(但是有了其他模型的既有工作,这里不能算gpt最强)。
报告 分数 评价 phase4_glm.md 80/100 最有价值。抓到了 CrossValidator 未接入,这是关键验收缺口。但把 evidence_grade() 枚举问题评成 Critical 偏重;compliance_rules.yaml 为空壳这个判断不成立,因为空/注释 YAML 会回落到默认规则。 phase4_deepseek.md 78/100 成本丢失判断准确,IntegrityError、fuzzy 性能等也有价值。但漏掉 CrossValidator 未接入,也漏掉 EntityMapper 状态被覆盖。部分项>偏风格或语义争议,比如 enqueue 后仍 pending 不一定是 bug。 phase4_mimo.md 48/100 覆盖了重复工具函数等风格问题,但“无严重代码实现错误”结论不成立。它漏掉 CrossValidator 未接入、实体映射状态覆盖、成本丢失,还把过宽 IntegrityError 捕获判断为合理。review窗口 (点击了解更多详细信息)
3 个帖子 - 3 位参与者