这个模型最大的不同是可以通过对话来编辑视频。生成一个片段后,你可以直接说"把背景换成海滩"、"放慢镜头"、"加个人在右边",它会在保留其他内容的基础上只改你说的部分。不用像 Sora 那样每次都重新生成整个片段。
几个关键点:
- 支持多模态输入:文本+图片+音频+视频可以一起喂进去
- 输出 10 秒片段,带同步音频
- YouTube Shorts 免费用,Gemini 应用需要 AI Plus ($7.99/月)
- 开发者 API 还没开放,说是"几周内"
- 所有输出强制带 SynthID 水印
和 Sora 2 比:Sora 角色一致性更好,能生成 25 秒片段; Omni Flash 胜在多模态输入和对话编辑,迭代成本低很多。
限制也不少:10 秒上限、不能编辑语音(防 deepfake )、文字渲染不太准、复杂运动场景偶尔会崩。
如果想快速体验视频生成,可以看看 [gemini omni]( https://www.veol.ai?utm_source=v2ex) ,支持最高 4K 输出,按量计费从 $0.15 起。
有用过的 V 友吗?感觉对话式编辑这个方向挺对的,但 10 秒限制确实有点短。