Google 刚刚发布 Gemini Omni:全球首个全能 AI 视频大模型

Google 刚刚发布 Gemini Omni ,我这两天也顺手做了个专题站研究了一下。 目前看下来,它和之前很多 AI 视频模型最大的区别,是开始强调“持续理解 + 交互式编辑”。 上传视频后,可以直接让 AI: 替换背景、修改角色服装、切换动画风格、保留动作但改变镜头语言,模型会基于上下文持续编...
Google 刚刚发布 Gemini Omni:全球首个全能 AI 视频大模型
Google 刚刚发布 Gemini Omni:全球首个全能 AI 视频大模型




目前看下来,它和之前很多 AI 视频模型最大的区别,是开始强调“持续理解 + 交互式编辑”。

上传视频后,可以直接让 AI:
替换背景、修改角色服装、切换动画风格、保留动作但改变镜头语言,模型会基于上下文持续编辑,而不是每次重新生成全部内容。

另外 Gemini Omni 现在已经开始统一处理:
文本、图像、视频、音频。

Google 很明显正在把:
搜索、推理、多模态生成、Agent ,
全部往 Gemini 这一套体系里整合。

感觉接下来 AI 产品形态可能会变化很大。[Gemini Omni]( https://www.gemini-omni.net)
来源: V2EX - 技术查看原文