五一放假正好搞搞投资研报模块的模型,先用官方渠道的 Opus 4.7(think max + plan on) 写了 Plan 1;作为对比,又用 Antigravity 的 Opus 4.6(thinking + plan) 写了 Plan 2。
虽然这个对比不算完全公平,但目前能找到的、比较接近“满血版”4.6 的渠道,基本也就是Antigravity了。
结果差距还是挺明显的。用 GPT-5.5 xhigh 结合代码和接口 对两套方案做了评估,Plan 1 赢得比较明显。而且即使纯靠人肉去分析 Plan 2,也能发现不少硬伤的问题。
贴上GPT-5.5部分对比结果:
架构对比与评估结论 (Plan 1 vs Plan 2)
针对您提供的两版方案,我们进行了深度的架构对比:
- 方案一(第一版):串行汇总架构。将盈利模型放在所有 Task 并发执行完毕后的独立 Stage 6,消费全量 Task 的成果,依靠纯 Python 进行确定性推演。
- 方案二(第二版):并行单兵架构。将盈利模型作为第 8 个普通 Task 与其他 Task 并发执行,依靠自身的 Tavily 查询和内部的
structured_data_builder完成计算。
对比结论:坚定选择【方案一】
虽然方案二的工程侵入性极低(完全不需要改动 orchestrator.py 的并发锁),但从投研严谨性和系统鲁棒性来看,方案二存在致命缺陷,强烈推荐使用方案一。
- 信息孤岛导致报告自相矛盾: 在方案二的并发模型下,Task 8(盈利预测)是“蒙着眼”跑的,它完全看不到 Task 6(管理层指引)和 Task 5(风险与护城河)的输出。这会导致极端尴尬的局面:报告的第 6 章写着“管理层指引二季度毛利率降至 18%”,但第 8 章的 LLM 因为搜到了不准确的新闻,在模型假设里赫然填入 25%。盈利预测必须是全局研究信息的汇总收口,绝不能是一个平行的独立搜查任务。
- LLM 认知负载严重超载(Schema 爆炸): 方案二要求 LLM 一次性输出 Bear/Base/Bull 3 种情景,且每个情景要包含 5 个长达 3 年的数组(共计 45 个强相关的假设数字)。由于大模型天然缺乏数字的空间对齐能力,极大概率会产生格式错乱、数组长度不匹配或数据完全不合逻辑(如毛利率骤降但净利率反升)的幻觉。
- 丢失同业估值锚: 方案二直接让 LLM 拍脑袋给出一个
target_pe,丢失了通过同业对比(如对标台积电、联电)来推演合理估值的严谨逻辑。
4 个帖子 - 4 位参与者