OpenAI计划在第一季度推出新音频模型

2026年01月04日由 alex 发表 5317 0

OpenAI

据报道，OpenAI集团PBC正在开发一款针对音频生成任务优化的新型人工智能模型。

据称，该算法将在三月底上线。据该出版物称，预计它将比OpenAI现有的模型更自然地呈现语音。AI还将更擅长与用户的实时互动。

据报道，OpenAI将基于一种新的架构来构建该模型。公司目前的旗舰实时音频模型GPT-realtime采用了无处不在的变压器架构。目前尚不清楚公司是否会转向完全不同的算法设计，还是仅仅采用新的变压器实现。

一些基于变压器的音频模型直接处理语音。还有一些，比如OpenAI于2022年发布的Whisper算法，会在处理音频文件前将音频文件转化为称为频谱图的图表。Whisper 和公司最新的音频型号均有多个版本，输出质量各异。OpenAI也可能推出本季度预计发布的多个版本的算法。

据报道，公司已合并多个工程、产品和研究团队，支持其音频模型推广。据称该项目由前风险投资支持的人工智能服务提供商 Character.AI Inc.的研究员Kundan Kumar领导。该初创公司的许多其他员工于2024年底加入谷歌有限责任公司，参与了一项价值27亿美元的反向收购。

OpenAI即将推出的模型可能不会仅专注于语音生成的应用场景。新兴的AI生成音乐领域目前正经历快速增长：《华尔街日报》最近报道，一家市场参与者——初创公司Suno Inc.，年收入超过2亿美元。加入这场竞争可能帮助OpenAI提升其消费者业务。

即将推出的音频车型是公司进军消费电子市场更广泛努力的一部分。据《The Information》报道，OpenAI计划在大约一年后推出一款“音频优先的个人设备”。据悉，公司最终可能会推出一整套配备智能音箱和智能眼镜的设备。

去年五月，OpenAI收购了产品设计初创公司io Products Inc.，以支持其消费级硬件推广。该交易使这家由Jony Ive创立的初创公司估值为65亿美元。《金融时报》去年十月报道，艾夫正在研发一款适合放在办公桌或桌子上的智能手机大小设备。

OpenAI 可能会寻求开发一款轻量级的设备音频模型，以支持其向消费级硬件的进军。本地处理提示比发送到云端更省成本。谷歌在其Pixel智能手机系列中也采取了类似做法，该系列采用名为Gemini Nano的设备内模型来驱动部分AI功能。

文章来源：https://siliconangle.com/2026/01/01/report-openai-plans-launch-new-audio-model-first-quarter/

标签：

openai AI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Grok因生成女性和未成年人性化图像面临更严格审查，承认安全防护失效

下一篇 Instagram 负责人称：你再也不能凭双眼判断所见是否为真实

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体

Grok 4.5登场：编码与长程智能体再升级

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

OpenAI首款推理芯片亮相，年底开始部署

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市

OpenAI GPT-Live：实时语音模型再升级