作为一个在读博士,我经常会思考和询问复杂的数理问题。我在5.4时代就发现,5.4在解决复杂问题时远不如5.2。那时我测的5.4的juice是96。
大家都说5.5的juice有192,我用prompt测试回答的也是192。但它真有这么聪明吗?
我询问5.5和5.2相同的问题,一个我非常确定thinking的一条回答解决不了的问题。

可以很直接地看出,回答的时间和思维链长度有极其明显的差别。
不仅如此,5.5的回答可以说毫无质量可言,基本上相当于对目前的研究进展做了个综述。
这点,gemini的回答也印证了我的判断
可以看出,OAI为了降本增效脸都不要了。我倒宁愿它能给少一点用量,但要保证回答的质量。
15 个帖子 - 11 位参与者