opus4.7 还是比 4.6 强的，用新不用旧是铁律

编辑部 2026-05-04T13:38:37.746675 43274 阅读 tech

五一放假正好搞搞投资研报模块的模型，先用官方渠道的 Opus 4.7（think max + plan on）写了 Plan 1 ；作为对比，又用 Antigravity 的 Opus 4.6（thinking + plan）写了 Plan 2 。虽然这个对比不算完全公平，但目前能找到的、比较...

五一放假正好搞搞投资研报模块的模型，先用官方渠道的 Opus 4.7（think max + plan on） 写了 Plan 1；作为对比，又用 Antigravity 的 Opus 4.6（thinking + plan） 写了 Plan 2。

虽然这个对比不算完全公平，但目前能找到的、比较接近“满血版”4.6 的渠道，基本也就是Antigravity了。

结果差距还是挺明显的。用 GPT-5.5 xhigh 结合代码和接口 对两套方案做了评估，Plan 1 赢得比较明显。而且即使纯靠人肉去分析 Plan 2，也能发现不少硬伤的问题。

贴上GPT-5.5部分对比结果：

架构对比与评估结论 (Plan 1 vs Plan 2)

针对您提供的两版方案，我们进行了深度的架构对比：

方案一（第一版）：串行汇总架构。将盈利模型放在所有 Task 并发执行完毕后的独立 Stage 6，消费全量 Task 的成果，依靠纯 Python 进行确定性推演。
方案二（第二版）：并行单兵架构。将盈利模型作为第 8 个普通 Task 与其他 Task 并发执行，依靠自身的 Tavily 查询和内部的 structured_data_builder 完成计算。

对比结论：坚定选择【方案一】

虽然方案二的工程侵入性极低（完全不需要改动 orchestrator.py 的并发锁），但从投研严谨性和系统鲁棒性来看，方案二存在致命缺陷，强烈推荐使用方案一。

为什么方案二不可行？

信息孤岛导致报告自相矛盾：在方案二的并发模型下，Task 8（盈利预测）是“蒙着眼”跑的，它完全看不到 Task 6（管理层指引）和 Task 5（风险与护城河）的输出。这会导致极端尴尬的局面：报告的第 6 章写着“管理层指引二季度毛利率降至 18%”，但第 8 章的 LLM 因为搜到了不准确的新闻，在模型假设里赫然填入 25%。盈利预测必须是全局研究信息的汇总收口，绝不能是一个平行的独立搜查任务。
LLM 认知负载严重超载（Schema 爆炸）：方案二要求 LLM 一次性输出 Bear/Base/Bull 3 种情景，且每个情景要包含 5 个长达 3 年的数组（共计 45 个强相关的假设数字）。由于大模型天然缺乏数字的空间对齐能力，极大概率会产生格式错乱、数组长度不匹配或数据完全不合逻辑（如毛利率骤降但净利率反升）的幻觉。
丢失同业估值锚：方案二直接让 LLM 拍脑袋给出一个 target_pe，丢失了通过同业对比（如对标台积电、联电）来推演合理估值的严谨逻辑。

4 个帖子 - 4 位参与者

阅读完整话题

来源: linux.do查看原文

opus4.7 还是不用铁律五一一个帖子现在

opus4.7 还是比 4.6 强的，用新不用旧是铁律

西门子将向罗马尼亚交付东欧首批氢能动车组，预计 2029 年投运

[分享创造] 我开发了一款滑动消除的游戏，请各位斧正，我来改进

架构对比与评估结论 (Plan 1 vs Plan 2)

对比结论：坚定选择【方案一】

相关推荐