OpenAI似乎正在开发一款新的多模态模型,有望成为GPT-4o的继任者。
OpenAI员工最近的帖子助长了猜测。Voice团队的律师Eleti写道,他“对未来充满期待”,并询问用户他们对全新全向机型的期望。苹果公司多模态背景的OpenAI研究员Brandon McKinzie回应说,潜在的全向模型“听起来是个好主意”。

多模态,或称“全模”,意味着单个模型可以处理文本、图像、音频和视频等不同格式,而无需依赖各自的模型完成每个任务。GPT-4o(“全能”)是OpenAI首个将文本、图像和音频处理集成于一体的模型。该公司最新型号GPT-5.4已原生集成“计算机使用”功能,能够作为人类设计的计算机界面。
据《The Information》报道,OpenAI还在开发一种名为“BiDi”(双向)的新音频模型,旨在让对话更加自然。当前的音频模型采用轮流运行,AI会等用户说完话后才回应。BiDi 设计用于实时处理中断。原型已经存在,但通常几分钟的交流后就会失效。发射可能会推迟到第二季度或更晚。
