继 【any】Any上架了opus-4-8【已成功调用】 后,使用了any的claude-opus-4-8 测试了一下几个经典问题。
测试模型:claude-opus-4.8[1m]
effort: max
错误
题目2:糖果问题 (点击了解更多详细信息)
错误
更新的opus 4.8 其实有个 effort: ultra code 模式,于是我试了一下这个模式下对于糖果的测试
输入同样的糖果测试问题,这个effort下 自动启用了下面的工作流(有种大炮打蚊子的感觉)
● 工作流已在后台启动(9 个代理:5 个独立求解 + 4 个对抗验证)。等待结果。
大炮打蚊子,没打到,依旧29 ![]()
本话题测试中耗费token数 (点击了解更多详细信息)
欢迎各位佬补充更多问题的测试结果~~![]()
更多方法见 https://linux.do/t/topic/1854373
11 个帖子 - 7 位参与者