【any的opus4.8测试】红绿色盲仍不对,🔴糖果测试

继 【any】Any上架了opus-4-8【已成功调用】 后,使用了any的claude-opus-4-8 测试了一下几个经典问题。 测试模型: claude-opus-4.8[1m] effort: max 题目1:红绿色盲问题 (点击了解更多详细信息) 错误 题目2:糖果问题 (点击了解更多详细...
【any的opus4.8测试】红绿色盲仍不对,🔴糖果测试
anyopus4.8测试】红绿色盲仍不对,🔴糖果测试

【any】Any上架了opus-4-8【已成功调用】 后,使用了any的claude-opus-4-8 测试了一下几个经典问题。

测试模型:claude-opus-4.8[1m]

effort: max

题目1:红绿色盲问题 (点击了解更多详细信息)

:red_circle:错误

图片

题目2:糖果问题 (点击了解更多详细信息)

:red_circle:错误

图片


更新的opus 4.8 其实有个 effort: ultra code 模式,于是我试了一下这个模式下对于糖果的测试

输入同样的糖果测试问题,这个effort下 自动启用了下面的工作流(有种大炮打蚊子的感觉)

● 工作流已在后台启动(9 个代理:5 个独立求解 + 4 个对抗验证)。等待结果。

:red_circle:大炮打蚊子,没打到,依旧29 :innocent:

图片

本话题测试中耗费token数 (点击了解更多详细信息)

欢迎各位佬补充更多问题的测试结果~~:triangular_flag:

上面问题的答案(来自gpt5.5 cherry studio) (点击了解更多详细信息)

更多方法见 https://linux.do/t/topic/1854373

11 个帖子 - 7 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文