目前看下来,它和之前很多 AI 视频模型最大的区别,是开始强调“持续理解 + 交互式编辑”。
上传视频后,可以直接让 AI:
替换背景、修改角色服装、切换动画风格、保留动作但改变镜头语言,模型会基于上下文持续编辑,而不是每次重新生成全部内容。
另外 Gemini Omni 现在已经开始统一处理:
文本、图像、视频、音频。
Google 很明显正在把:
搜索、推理、多模态生成、Agent ,
全部往 Gemini 这一套体系里整合。
感觉接下来 AI 产品形态可能会变化很大。[Gemini Omni]( https://www.gemini-omni.net)