个人对于AWS中的opus测试
测试模型: claude-opus-4.6[1m] 测试平台: Claude platform on AWS 题目1:糖果题 题目: (点击了解更多详细信息) 回答: 21正确 题目二: 经典红绿色盲 提示词: claude opus 4.6 已降智到无法通过红绿色盲测试题 回答
糖果 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 13 篇相关文章
测试模型: claude-opus-4.6[1m] 测试平台: Claude platform on AWS 题目1:糖果题 题目: (点击了解更多详细信息) 回答: 21正确 题目二: 经典红绿色盲 提示词: claude opus 4.6 已降智到无法通过红绿色盲测试题 回答
按群里的说法是 qwen3.7 正式版 不过和我小测的 qwen3.7 预览版区别很大 预览版是做不对糖果问题的 不知道是不是预览版和正式版的区别就是这么大还是别的原因 qwen.ai Qwen Studio Qwen Studio offers comprehensive fu
看有佬友分享了测试是不是新模型的方法,发现在反重力上的是灰度的新的模型 测试了一下糖果题,色盲题和洗车题,发现都能答对 不过去aistudio里试了一下旧的模型,好像也都能答对(草),但是思考时间长了很多,特别是糖果题要思考70s+,在antig里的新模型只需要20s不到的思考就
想测一下中转站有没有参水,发现codex 5.5 xhigh 做不对糖果题(29),但是 5.4 能做对,这对吗? 5 个帖子 - 4 位参与者 阅读完整话题
如题 在一个黑色的袋子里放有三种口味的糖果,每种糖果有两种不同的形状(圆形和五角星形,不同的形状靠手感可以分辦)。现已知不同口味的糖和不同 形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目,那么,最少取出多少个糖果才能保证手中同时拥有不同形状的苹果味和桃子味的糖 ?(同
每天使用前用糖果屋测测,今天直接回答29,切5.4就正常了 1 个帖子 - 1 位参与者 阅读完整话题
我半年前买的一年糖果云,才用了半年,就寄了。 全部显示超时。 佬们有没有稳定的VPN推荐下。 谢谢 1 个帖子 - 1 位参与者 阅读完整话题
经典糖果问题 在一个黑色的袋子里放有三种口味的糖果,每种糖果有两种不同的形状(圆形和五角星形,不同的形状靠手感可以分辨)。现已知不同口味的糖和不同形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目,那么,最少取出多少 个糖果才能保证手中同时拥有不同形状的苹果味和桃子味的糖
deepseek可以做对糖果问题,但是思维长了之后就会开始梦到哪句说哪句,他会觉得自己参加的是对战游戏 直到现在 思维链还没输出完,思维已经跑偏了,arena ai达到最大输出报错了 1 个帖子 - 1 位参与者 阅读完整话题
在一个黑色的袋子里放有三种口味的糖果,每种糖果有两种不同的形状(圆形和五角星形,不同的形状靠手感可以分辨)。现已知不同口味的糖和不同形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目,那么,最少取出多少个糖果才能保证手中同时拥有不同形状的苹果味和桃子味的糖?(同时手中有圆
自建的plus+free号池两天前测糖果问题耗时3分钟完成,今天得耗时7分钟。日常开发任务好像也变慢了,不知道佬们有没有遇到变慢的情况 难道是 gpt-image-2 和 gpt5.5 上新导致的? 10 个帖子 - 6 位参与者 阅读完整话题
原谅我自己没渠道使用claude官方的opus4.7,我用的是@user792 慕鸢大佬的公益站 muyuan.do ,大家可以去看下 【君の公益】上线 claude-opus-4-7 。 any一直用不了,要么是429要么是503,感谢慕鸢大佬,让我也能尝到4.7的滋味。一直看
今日热点导览 腾讯刘炽平:腾讯没有大裁员计划 韩国政府称将支持三星与工会对话解决纠纷,以避免罢工 中美经贸磋商在韩国开始举行 宇树科技已注册多款机器人商标 TikTok在印尼、美国、日本三国官宣生活服务品牌TikTok GO TOP 3 大新闻 林俊旸创业,新公司估值约20亿美金