由于从 25 年底开始研究 AI 漫剧,我高强度使用了 nano banana、sora 2、seedream、wan等生图和生视频模型,以及结合 ComfyUI 搭建并使用了一些媒体处理工作流,在 gpt-image-2 刚发布的时候我在朋友圈发布了这样的观点:

结合今天听说 gpt-image-2 可以生成 psd 文件:
我认为我的判断应该是接近真相的。gpt-image-2 是一个 Agent,不是一个模型。
同理,豆包 seed 强大的多模态应该也是 Agent(这个应该用过 API 的能感觉出来,多模态任务中的某些返回跟硬编码一样准确)
但是我也发现 gpt-image-2 生成的文字,特别是生僻字,会出现和 nano banana 一样的幻觉,我猜可能是混合方案。gpt-image-2 的文字一致性实在太好了。
还有我看到有佬反馈 gpt-image-2 生成的 psd 是混乱的。但是我认为不能说明它没有使用类似 ps 的工作流程来生成图片。
有没有佬们有更深入的发现
13 个帖子 - 7 位参与者