简单测了下 GPT 的图像生成,放几组图大家看看
这两天顺手拿 GPT 跑了几组图,想看看它现在的图像生成大概是什么水平。
没有搞特别严谨的量化,就是按几个比较常见、也比较容易翻车的方向随便测了一下:
- 复杂场景
- 人像细节
- 风格混合
- 文字排版
主要看三点:
- 能不能理解提示词
- 细节和观感怎么样
- 有没有明显翻车
1. 夜景复杂场景
提示词:
一个下雨的东京街头夜景,霓虹灯反射在湿润的柏油路面上,街边有拉面店、便利店和行人撑着透明雨伞,远处有电车驶过,画面采用电影级光影效果,超写实风格,8K分辨率,浅景深,镜头焦距50mm,细节丰富
生成结果:
2. 人像细节
提示词:
一位中年女性科学家坐在实验室中,穿着白大褂,桌上摆满试管和显微镜,脸部细节真实自然,有细微皱纹和皮肤纹理,光线从侧面窗户照进来形成柔和阴影,超写实摄影风格,背景略虚化,高动态范围
生成结果:
3. 风格融合
提示词:
一座漂浮在天空中的中国古代宫殿,周围环绕着云海和飞鸟,整体风格融合水墨画与赛博朋克元素,既有传统山水笔触,又有霓虹灯和未来科技结构,色彩对比强烈但和谐,细节精致,幻想风格
生成结果:
这个夯爆了!
4. 文字排版
提示词:
一张极简风格的海报设计,背景为浅米色,上方写着“Artificial Intelligence”大标题(清晰可读),下方有小字说明和几何图形装饰,整体排版对齐整齐,字体现代简洁,类似高端科技品牌宣传海报,干净留白设计
生成结果:
我的主观感受
先说结论:
拿来出效果图、概念图、配图,其实已经挺能打了;但一旦对“精确控制”要求高,还是会有些瑕疵。
我自己这次测下来,感觉大概是这样:
-
强项
氛围感、整体构图、第一眼观感通常都不错,出图效率也高。 -
一般的地方
复杂提示词不一定每个元素都听话,有时候会抓大放小。 -
容易翻车的地方
手、局部结构、细小文字、还有那种既要真实又要严格排版的需求。
4 个帖子 - 4 位参与者