OpenAI计划在第一季度推出新音频模型

2026年01月04日 由 alex 发表 4961 0

OpenAI


据报道,OpenAI集团PBC正在开发一款针对音频生成任务优化的新型人工智能模型。


据称,该算法将在三月底上线。据该出版物称,预计它将比OpenAI现有的模型更自然地呈现语音。AI还将更擅长与用户的实时互动。


据报道,OpenAI将基于一种新的架构来构建该模型。公司目前的旗舰实时音频模型GPT-realtime采用了无处不在的变压器架构。目前尚不清楚公司是否会转向完全不同的算法设计,还是仅仅采用新的变压器实现。


一些基于变压器的音频模型直接处理语音。还有一些,比如OpenAI于2022年发布的Whisper算法,会在处理音频文件前将音频文件转化为称为频谱图的图表。Whisper 和公司最新的音频型号均有多个版本,输出质量各异。OpenAI也可能推出本季度预计发布的多个版本的算法。


据报道,公司已合并多个工程、产品和研究团队,支持其音频模型推广。据称该项目由前风险投资支持的人工智能服务提供商 Character.AI Inc.的研究员Kundan Kumar领导。该初创公司的许多其他员工 于2024年底加入谷歌有限责任公司,参与了一项价值27亿美元的反向收购。


OpenAI即将推出的模型可能不会仅专注于语音生成的应用场景。新兴的AI生成音乐领域目前正经历快速增长:《华尔街日报》最近报道,一家市场参与者——初创公司Suno Inc.,年收入超过2亿美元。加入这场竞争可能帮助OpenAI提升其消费者业务。


即将推出的音频车型是公司进军消费电子市场更广泛努力的一部分。据《The Information》报道,OpenAI计划在大约一年后推出一款“音频优先的个人设备”。据悉,公司最终可能会推出一整套配备智能音箱和智能眼镜的设备。


去年五月,OpenAI收购了产品设计初创公司io Products Inc.,以支持其消费级硬件推广。该交易使这家由Jony Ive创立的初创公司估值为65亿美元。《金融时报》去年十月报道,艾夫正在研发一款适合放在办公桌或桌子上的智能手机大小设备。


OpenAI 可能会寻求开发一款轻量级的设备音频模型,以支持其向消费级硬件的进军。本地处理提示比发送到云端更省成本。谷歌在其Pixel智能手机系列中也采取了类似做法,该系列采用名为Gemini Nano的设备内模型来驱动部分AI功能。

文章来源:https://siliconangle.com/2026/01/01/report-openai-plans-launch-new-audio-model-first-quarter/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消