小米 mimo-v2.5-pro 居然是从别的模型迁移的?

先叠个甲:非严谨测试,纯属个人奇思妙想~ 故事是这样的,我在 cursor 中接入了 mimo-v2.5-pro 输入图片,他输出了这样的东西。 由输出的文字 如图所示,根据图片中的设计 ,这些输出词,我们可以知道,模型 认为 自己读取了图片,获取了图片的信息。 但我们由 官网信息 可知,模型其实不...
小米 mimo-v2.5-pro 居然是从别的模型迁移的?
小米 mimo-v2.5-pro 居然是从别的模型迁移的?

先叠个甲:非严谨测试,纯属个人奇思妙想~

故事是这样的,我在 cursor 中接入了mimo-v2.5-pro 输入图片,他输出了这样的东西。

image
image

由输出的文字如图所示,根据图片中的设计,这些输出词,我们可以知道,模型认为自己读取了图片,获取了图片的信息。
但我们由官网信息可知,模型其实不支持读图。

image

这就有意思了。

论证

首先我们先看看真正的不支持图片的模型,它是怎么输出的。

image

然后我们再看看mimo2.5pro

image

哈哈哈,有意思~

总结

大概率说明底座模型本身具备多模态基因,但 API 接口层限制了视觉输入。也就是,虽然“眼睛”被蒙住了,但“大脑”还记得自己当年看图说话的样子。
如果是自己训的模型,就不会出现这种情况。

9 个帖子 - 8 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文