OpenAI的新ChatGPT图像模型在复杂提示上与谷歌的Nano Banana Pro相当

2025年12月17日 由 alex 发表 4505 0

OpenAI表示,新的GPT-Image 1.5模型带来了多项重大改进:更准确的提示解释、更好的细节保持,以及显著加快的生成时间。


新模型生成图像的速度是之前的四倍,用户可以在他人仍在处理时排队排队。该模型现已向所有ChatGPT用户开放,并通过API实现。


OpenAI应用CEO Fidji Simo认为,新的图像生成是更大转变的一部分:ChatGPT正从一个被动的文本工具,转向“完全生成式的用户界面,根据你的想法引入合适的组件”。


在光影、构图和面部处理上,编辑保持一致性

模型现在处理图像编辑的方式也不同了。它能针对性地调整画面,同时不破坏画面其他部分,保持光影、构图和面部表情相较前作更为一致。OpenAI表示它可以处理图像元素的添加、删除、组合、混合和转调。


应用场景包括照片编辑、服装和发型的虚拟试穿,以及风格转换。OpenAI的演示展示了将多个人和一只狗从不同照片合成一个场景,或者把一张照片变成带有黄金时代好莱坞风格的电影海报。


chatgptimage_merging_images-770x594

图片来源:OpenAI


模型现在实际上能遵循复杂的提示

新模型在遵循详细指令方面明显更好。OpenAI表示,在一个需要每个单元格中特定对象的6 x 6网格测试中,新版本的排列正确,而旧版本则不然。这使得创建元素位置真正重要的图像变得更容易。


chatgpt-images-instruction-following-new

OpenAI用一个复杂的提示测试了新模型的指令:一个6 x 6的网格,包含36个不同对象,包括希腊字母beta、沙滩球、螳螂、浴缸、单词“奇迹”、哑音符号和加拿大鹅。新款车型完美诠释了这一安排。|图片来源:OpenAI


文本渲染也明显提升。该模型现在可以处理更密集、更小的文本——因此你可以获得清晰的文章片段、简短表格或带数字的信息图。然而,OpenAI承认它仍然在处理较长的文字段、不寻常的字体、一张图片中出现多个人脸或生成不同语言内容时遇到困难。


我们运行了基准提示,要求一个细节丰富、复杂且逼真的场景,并带有一个不寻常元素:一匹骑乘宇航员的马,这在模型训练时显然没见过。老款车型在这方面会卡住。但最新一代,包括《Flux 2》,表现要好得多。新的 Image-1.5 性能与谷歌的 Nano Banana Pro 相当,远胜于之前的版本。


ChatGPT-Image-Dec-16-2025-07_56_43-PM

提示:“宽屏16:9,一张超写实的单反照片。前景中,一只拿着粉色香蕉的猴子坐在老虎身上。背景中,一匹马骑着一名宇航员。宇航员就像一个活生生的“宇航服马鞍”,而马显然在上面,掌控着骑手。要百分之百明确:马是骑手,宇航员是被骑乘的,而不是反过来。高分辨率,清晰对焦,逼真的光影。”


20251125_1927_Monkey-on-Tiger_simple_compose_01kay46rhffgbrv7ttfpc1mxk3

旧的GPT-4o图像模型,同样的提示。画面看起来更为人工,模型也无法实现抽象的“骑马人”概念。


nbpro_astro

Nano Banana Pro 也很好地处理了复杂的提示词。画面看起来更自然,虽然这可能取决于提示。


第一印象:与谷歌的Nano Banana Pro相比,ChatGPT图像模型产生的图像更为强烈。基于同样的提示,Nano Banana Pro 更字面地诠释了事物,营造出一种休闲的照片风格,而非精心打磨的拍摄氛围。话虽如此,这可能是触发因素。


max_nikolaus_chatgpt_nano_banana

GPT-1.5 在 ChatGPT 中取得了成果。输入是一张马克斯的照片,提示是:“给他穿上圣诞老人服装,把他放进一个充满腊肠犬的冬季仙境。他手里拿着两个。16:9"


max_nikolaus_chatgpt_nano_banana

Nano Banana Pro 对圣诞老人的理解更为字面化。


max_nikolaus_chatgpt_2

在提示词“拉远,让它看起来更自然,就像用智能手机相机拍摄的日常照片”时,ChatGPT 生成了更自然的图像。


尽管性能更好,API 价格仍下降了 20%

开发者可以通过API访问该模型,作为GPT图片1.5。OpenAI表示,图像输入和输出比之前的模型便宜了20%。图片的定价是每百万输入代币8美元,图片每百万输出代币32美元。文本代币每百万个代币的费用为5美元(输入)和10美元(输出)。在前身型号GPT-1中,图片的费用根据质量设置在0.02美分到0.19美分之间。


OpenAI表示,该模型在保留品牌标志和视觉元素方面表现更好,这对营销和电子商务应用场景可能具有重要意义。之前版本的ChatGPT图像生成仍可作为自定义GPT使用。


文章来源:https://the-decoder.com/openais-new-chatgpt-image-model-matches-googles-nano-banana-pro-on-complex-prompts/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消