VLM判断物体朝向居然是一个有点困难的问题?

有两个角度的图片 有一个答对概率高一点 这个答对概率比较高 这个答对概率很低 实测qwen的全家桶都全军覆没 谷歌的开源模型,3flash也无法解决 问题是:椅子是否朝向桌子 qwen和gemini的失败 gemini3.1pro也不行 chatgpt免费版也不行 出乎意料的是豆包做对了 gemin...
VLM判断物体朝向居然是一个有点困难的问题?
VLM判断物体朝向居然是一个有点困难的问题?

有两个角度的图片
有一个答对概率高一点
这个答对概率比较高

image

这个答对概率很低

image

实测qwen的全家桶都全军覆没
谷歌的开源模型,3flash也无法解决

问题是:椅子是否朝向桌子

qwen和gemini的失败

715bf93fead4576bb3e0a4214c326d2f
00a6c127755f175eeef29784e5fdbb54
8a0a37bf1d7ca54fcfb30f6879a52174
7bbcbbecdec473a9df0b414e89892fd4
image
image
gemini3.1pro也不行
image
chatgpt免费版也不行
image
image

出乎意料的是豆包做对了

0131880617a5101583cec8cf298cd064

gemini3flash有概率答对

image

7 个帖子 - 7 位参与者

阅读完整话题

来源: linux.do查看原文