OpenAI表示,新的GPT-Image 1.5模型带来了多项重大改进:更准确的提示解释、更好的细节保持,以及显著加快的生成时间。
新模型生成图像的速度是之前的四倍,用户可以在他人仍在处理时排队排队。该模型现已向所有ChatGPT用户开放,并通过API实现。
OpenAI应用CEO Fidji Simo认为,新的图像生成是更大转变的一部分:ChatGPT正从一个被动的文本工具,转向“完全生成式的用户界面,根据你的想法引入合适的组件”。
在光影、构图和面部处理上,编辑保持一致性
模型现在处理图像编辑的方式也不同了。它能针对性地调整画面,同时不破坏画面其他部分,保持光影、构图和面部表情相较前作更为一致。OpenAI表示它可以处理图像元素的添加、删除、组合、混合和转调。
应用场景包括照片编辑、服装和发型的虚拟试穿,以及风格转换。OpenAI的演示展示了将多个人和一只狗从不同照片合成一个场景,或者把一张照片变成带有黄金时代好莱坞风格的电影海报。

图片来源:OpenAI
模型现在实际上能遵循复杂的提示
新模型在遵循详细指令方面明显更好。OpenAI表示,在一个需要每个单元格中特定对象的6 x 6网格测试中,新版本的排列正确,而旧版本则不然。这使得创建元素位置真正重要的图像变得更容易。

OpenAI用一个复杂的提示测试了新模型的指令:一个6 x 6的网格,包含36个不同对象,包括希腊字母beta、沙滩球、螳螂、浴缸、单词“奇迹”、哑音符号和加拿大鹅。新款车型完美诠释了这一安排。|图片来源:OpenAI
文本渲染也明显提升。该模型现在可以处理更密集、更小的文本——因此你可以获得清晰的文章片段、简短表格或带数字的信息图。然而,OpenAI承认它仍然在处理较长的文字段、不寻常的字体、一张图片中出现多个人脸或生成不同语言内容时遇到困难。
我们运行了基准提示,要求一个细节丰富、复杂且逼真的场景,并带有一个不寻常元素:一匹骑乘宇航员的马,这在模型训练时显然没见过。老款车型在这方面会卡住。但最新一代,包括《Flux 2》,表现要好得多。新的 Image-1.5 性能与谷歌的 Nano Banana Pro 相当,远胜于之前的版本。

提示:“宽屏16:9,一张超写实的单反照片。前景中,一只拿着粉色香蕉的猴子坐在老虎身上。背景中,一匹马骑着一名宇航员。宇航员就像一个活生生的“宇航服马鞍”,而马显然在上面,掌控着骑手。要百分之百明确:马是骑手,宇航员是被骑乘的,而不是反过来。高分辨率,清晰对焦,逼真的光影。”

旧的GPT-4o图像模型,同样的提示。画面看起来更为人工,模型也无法实现抽象的“骑马人”概念。

Nano Banana Pro 也很好地处理了复杂的提示词。画面看起来更自然,虽然这可能取决于提示。
第一印象:与谷歌的Nano Banana Pro相比,ChatGPT图像模型产生的图像更为强烈。基于同样的提示,Nano Banana Pro 更字面地诠释了事物,营造出一种休闲的照片风格,而非精心打磨的拍摄氛围。话虽如此,这可能是触发因素。

GPT-1.5 在 ChatGPT 中取得了成果。输入是一张马克斯的照片,提示是:“给他穿上圣诞老人服装,把他放进一个充满腊肠犬的冬季仙境。他手里拿着两个。16:9"

Nano Banana Pro 对圣诞老人的理解更为字面化。

在提示词“拉远,让它看起来更自然,就像用智能手机相机拍摄的日常照片”时,ChatGPT 生成了更自然的图像。
尽管性能更好,API 价格仍下降了 20%
开发者可以通过API访问该模型,作为GPT图片1.5。OpenAI表示,图像输入和输出比之前的模型便宜了20%。图片的定价是每百万输入代币8美元,图片每百万输出代币32美元。文本代币每百万个代币的费用为5美元(输入)和10美元(输出)。在前身型号GPT-1中,图片的费用根据质量设置在0.02美分到0.19美分之间。
OpenAI表示,该模型在保留品牌标志和视觉元素方面表现更好,这对营销和电子商务应用场景可能具有重要意义。之前版本的ChatGPT图像生成仍可作为自定义GPT使用。
