关于我对 gpt-image-2 的推测

编辑部 2026-05-04T12:27:45.593539 12316 阅读 tech

由于从 25 年底开始研究 AI 漫剧，我高强度使用了 nano banana、sora 2、seedream、wan等生图和生视频模型，以及结合 ComfyUI 搭建并使用了一些媒体处理工作流，在 gpt-image-2 刚发布的时候我在朋友圈发布了这样的观点：结合今天听说 gpt-image-...

由于从 25 年底开始研究 AI 漫剧，我高强度使用了 nano banana、sora 2、seedream、wan等生图和生视频模型，以及结合 ComfyUI 搭建并使用了一些媒体处理工作流，在 gpt-image-2 刚发布的时候我在朋友圈发布了这样的观点：

结合今天听说 gpt-image-2 可以生成 psd 文件：

我认为我的判断应该是接近真相的。gpt-image-2 是一个 Agent，不是一个模型。
同理，豆包 seed 强大的多模态应该也是 Agent（这个应该用过 API 的能感觉出来，多模态任务中的某些返回跟硬编码一样准确）
但是我也发现 gpt-image-2 生成的文字，特别是生僻字，会出现和 nano banana 一样的幻觉，我猜可能是混合方案。gpt-image-2 的文字一致性实在太好了。

还有我看到有佬反馈 gpt-image-2 生成的 psd 是混乱的。但是我认为不能说明它没有使用类似 ps 的工作流程来生成图片。

有没有佬们有更深入的发现

13 个帖子 - 7 位参与者

阅读完整话题

来源: linux.do查看原文

关于 gpt image 推测由于一个帖子现在

关于我对 gpt-image-2 的推测

[生活] 现在使用淘宝的唯一的理由就是网页端了

CPA kongkongyo 的面板好像有BUG

相关推荐