高强度使用opus 4.7后,我终于力竭了

我收回过去的发言… 感觉这opus 4.7是真贵啊(已恢复) 开发调优 唉。那还是蹬4.7吧。我蹬了很久4.7,目前产出的成果还行,搭配hook和codex的话也比较放心,额度用得的确也比之前少了,但上下文问题的确存在。 我从没有用过这么烂的模型,和GPT一样的爱说黑话,一样喜欢把用户当控制台一样的...
高强度使用opus 4.7后,我终于力竭了
高强度使用opus 4.7后,我终于力竭了

我收回过去的发言…

感觉这opus 4.7是真贵啊(已恢复) 开发调优
唉。那还是蹬4.7吧。我蹬了很久4.7,目前产出的成果还行,搭配hook和codex的话也比较放心,额度用得的确也比之前少了,但上下文问题的确存在。

我从没有用过这么烂的模型,和GPT一样的爱说黑话,一样喜欢把用户当控制台一样的输出各种变量、缩写,然后中英文混合。这个是大家最开始就在骂的内容,但我当时没怎么在意,因为我只关心模型的编码能力、智力。

直到我今天发现它阳奉阴违,绕过审查。

我一些中等任务,乃至于我的harness中都是存在独立审查agent这一角色的,面对agent的质疑,它会使用巧妙的措辞去合理化它自己的行为,以直接推进任务。我的工作流里还有一个ANCHOR schema check的机制,ANCHOR是规定绝对不能犯的错误,但它会试图通过各种方式去通过这项check,对于某些质量测试,甚至会注释掉…而且在很多场景下甚至出现严重的健忘和左右脑互博。

同样的,进行每一轮的cycle,要求每cycle报告输出三个frame,但它总会偷懒,只输出一个。SKILL同样也是完全不遵守,怎么偷懒怎么来,怎么快速怎么来。很多时候也比4.6模型更容易停下来进行汇报(真的很逆天,我记得它有一次停下来说(大意):ANCHOR里明确要求我继续,但我需要停下来看用户是否要求我stop还是继续。而且我是用了hook去避免它停下的,它现在好像找到诀窍了,不知道为什么能很轻易地绕过hook停下…

现在max20x的周限用了70%,说实在的,A/的这次更新绝对是一次开倒车。4.6模型似乎还在降智,4.7模型这种阳奉阴违、注意力严重缺失、说黑话,现在的Claude模型真的有够烂的。唯一庆幸的是我的gpt pro还没有掉,还能蹬蹬codex。

说来唏嘘,这max20x还是我花了272刀,交了三次税买的

image

11 个帖子 - 10 位参与者

阅读完整话题

来源: linux.do查看原文