
OpenAI正在推出一个新版本的ChatGPT图像,承诺更好地遵循指令、更精确的编辑,以及图像生成速度提升至4倍。
这个新模型被命名为GPT-Image-1.5,从周二开始对所有ChatGPT用户和API用户开放。这是与谷歌的Gemini竞争的最新升级,此前OpenAI首席执行官Sam Altman在上个月的一份泄露的内部备忘录中宣布了“红色警戒”。该备忘录详细说明了OpenAI在谷歌开始夺取市场份额后,计划重新夺回其AI领导者地位的策略。谷歌发布了Gemini 3,这是其最新的旗舰模型,以及Nano Banana Pro,谷歌最新版本的病毒式图像生成器——这两者都在LMArena排行榜中在多个基准测试中名列前茅。
即使在OpenAI上周推出GPT-5.2作为回应,谷歌仍保持领先地位,称其为迄今为止最先进的模型,适用于开发者和日常专业使用。据报道,OpenAI原计划在一月初发布一个新的图像生成器,但随着本周的公告加快了这些计划。其上一个图像模型发布是在四月的GPT-Image-1。
随着图像和视频生成器超越原型并获得更多生产就绪的能力,GPT-Image-1.5问世。像Nano Banana Pro一样,ChatGPT图像提供后期制作功能,提供更细致的编辑控制,以保持视觉一致性,如面部相似性、光照、构图和颜色基调的一致性。

大多数生成AI的图像工具在迭代方面表现不佳,因此这将是一个巨大的进步。要求进行特定更改,如“调整面部表情”或“使光线更冷”,模型通常会重新解释整个图像,导致缺乏一致性。
更新不仅仅是关于新功能。ChatGPT图像现在还可以通过ChatGPT侧边栏中的专用入口访问,该入口“更像一个创意工作室”,OpenAI的应用程序首席执行官Fidji Simo在周二的一篇博客文章中写道。
“新的图像查看和编辑屏幕使得更容易创建符合您愿景的图像,或从流行的提示和预设滤镜中获得灵感,”Simo写道。
除了新的图像生成器,OpenAI还引入了新的方式来改善ChatGPT体验,增加更多的视觉元素。计划是让搜索查询显示更多带有清晰来源的视觉效果,这可能对转换测量单位或查看体育比分等任务有帮助,Simo表示。
“当你在创作时,你应该能够看到并塑造你正在制作的东西。当视觉效果比单独的文字更能讲述故事时,ChatGPT应该包括它们,”Simo写道。“当你需要快速答案或下一步在另一个工具中时,它应该就在那儿。随着我们这样做,我们可以不断缩短你脑海中的想法与实现它的能力之间的距离。”
