OpenAI的新ChatGPT图像模型在复杂提示上与谷歌的Nano Banana Pro相当

2025年12月17日由 alex 发表 4828 0

OpenAI表示，新的GPT-Image 1.5模型带来了多项重大改进：更准确的提示解释、更好的细节保持，以及显著加快的生成时间。

新模型生成图像的速度是之前的四倍，用户可以在他人仍在处理时排队排队。该模型现已向所有ChatGPT用户开放，并通过API实现。

OpenAI应用CEO Fidji Simo认为，新的图像生成是更大转变的一部分：ChatGPT正从一个被动的文本工具，转向“完全生成式的用户界面，根据你的想法引入合适的组件”。

在光影、构图和面部处理上，编辑保持一致性

模型现在处理图像编辑的方式也不同了。它能针对性地调整画面，同时不破坏画面其他部分，保持光影、构图和面部表情相较前作更为一致。OpenAI表示它可以处理图像元素的添加、删除、组合、混合和转调。

应用场景包括照片编辑、服装和发型的虚拟试穿，以及风格转换。OpenAI的演示展示了将多个人和一只狗从不同照片合成一个场景，或者把一张照片变成带有黄金时代好莱坞风格的电影海报。

chatgptimage_merging_images-770x594

图片来源：OpenAI

模型现在实际上能遵循复杂的提示

新模型在遵循详细指令方面明显更好。OpenAI表示，在一个需要每个单元格中特定对象的6 x 6网格测试中，新版本的排列正确，而旧版本则不然。这使得创建元素位置真正重要的图像变得更容易。

chatgpt-images-instruction-following-new

OpenAI用一个复杂的提示测试了新模型的指令：一个6 x 6的网格，包含36个不同对象，包括希腊字母beta、沙滩球、螳螂、浴缸、单词“奇迹”、哑音符号和加拿大鹅。新款车型完美诠释了这一安排。|图片来源：OpenAI

文本渲染也明显提升。该模型现在可以处理更密集、更小的文本——因此你可以获得清晰的文章片段、简短表格或带数字的信息图。然而，OpenAI承认它仍然在处理较长的文字段、不寻常的字体、一张图片中出现多个人脸或生成不同语言内容时遇到困难。

我们运行了基准提示，要求一个细节丰富、复杂且逼真的场景，并带有一个不寻常元素：一匹骑乘宇航员的马，这在模型训练时显然没见过。老款车型在这方面会卡住。但最新一代，包括《Flux 2》，表现要好得多。新的 Image-1.5 性能与谷歌的 Nano Banana Pro 相当，远胜于之前的版本。

ChatGPT-Image-Dec-16-2025-07_56_43-PM

提示：“宽屏16：9，一张超写实的单反照片。前景中，一只拿着粉色香蕉的猴子坐在老虎身上。背景中，一匹马骑着一名宇航员。宇航员就像一个活生生的“宇航服马鞍”，而马显然在上面，掌控着骑手。要百分之百明确：马是骑手，宇航员是被骑乘的，而不是反过来。高分辨率，清晰对焦，逼真的光影。”

20251125_1927_Monkey-on-Tiger_simple_compose_01kay46rhffgbrv7ttfpc1mxk3

旧的GPT-4o图像模型，同样的提示。画面看起来更为人工，模型也无法实现抽象的“骑马人”概念。

nbpro_astro

Nano Banana Pro 也很好地处理了复杂的提示词。画面看起来更自然，虽然这可能取决于提示。

第一印象：与谷歌的Nano Banana Pro相比，ChatGPT图像模型产生的图像更为强烈。基于同样的提示，Nano Banana Pro 更字面地诠释了事物，营造出一种休闲的照片风格，而非精心打磨的拍摄氛围。话虽如此，这可能是触发因素。

max_nikolaus_chatgpt_nano_banana

GPT-1.5 在 ChatGPT 中取得了成果。输入是一张马克斯的照片，提示是：“给他穿上圣诞老人服装，把他放进一个充满腊肠犬的冬季仙境。他手里拿着两个。16:9"

max_nikolaus_chatgpt_nano_banana

Nano Banana Pro 对圣诞老人的理解更为字面化。

max_nikolaus_chatgpt_2

在提示词“拉远，让它看起来更自然，就像用智能手机相机拍摄的日常照片”时，ChatGPT 生成了更自然的图像。

尽管性能更好，API 价格仍下降了 20%

开发者可以通过API访问该模型，作为GPT图片1.5。OpenAI表示，图像输入和输出比之前的模型便宜了20%。图片的定价是每百万输入代币8美元，图片每百万输出代币32美元。文本代币每百万个代币的费用为5美元（输入）和10美元（输出）。在前身型号GPT-1中，图片的费用根据质量设置在0.02美分到0.19美分之间。

OpenAI表示，该模型在保留品牌标志和视觉元素方面表现更好，这对营销和电子商务应用场景可能具有重要意义。之前版本的ChatGPT图像生成仍可作为自定义GPT使用。

文章来源：https://the-decoder.com/openais-new-chatgpt-image-model-matches-googles-nano-banana-pro-on-complex-prompts/

标签：

openai

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇微软调整Windows以减缓谷歌Chrome下载

下一篇谷歌推出Gemini 3 Flash，成为Gemini应用的默认模型

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术