最近抱抱脸上看到字节开源了个Any-to-Any模型(字节好久没开源过东西了吧),支持图像视频输入理解和生成
huggingface.co
bytedance-research/Lance · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.


看仓库有几天了,我暂且定为慢讯,目前来看这个模型是好几个开源模型拼一块的(拼好模是吧)

不过看起来是真心动,如果再加个音频输入和生成,能克隆音色,那我愿称之为真正的多模态模型
4 个帖子 - 4 位参与者