OpenAI的gpt-realtime实现了生产就绪的语音代理，具备端到端的语音处理能力

2025年09月13日由佚名发表 417 0

屏幕截图2025-09-15094036

OpenAI已发布gpt-realtime，这是其最先进的语音到语音模型，同时还推出了实时API。这些更新旨在减少延迟、提高语音质量，并为开发者提供更强大的工具，如MCP服务器支持、图像输入和会话发起协议（SIP）电话呼叫支持，以构建生产就绪的AI语音代理。

结合了实时API和gpt-realtime，设计用于在单一系统内处理端到端的语音处理，而不是将语音转文本和文本转语音模型串联在一起。这种架构缩短了响应时间，同时保留了传递中的细微差别，这对于实时代理来说是一个关键的改进，因为即使是小的延迟也可能打断对话流。

gpt-realtime经过训练，能够产生更高质量的语音，具有更自然的节奏和语调，并能可靠地响应风格指令，如“同情地说”或“使用专业语气”。两种新的合成声音，Cedar和Marin，现已可用，现有的声音也已更新以提高真实性。

在理解基准测试中，gpt-realtime显示出显著的改进。它可以跟踪非语言提示，在单个句子中切换语言，并更准确地处理跨语言的字母数字序列（如电话号码、车辆识别码等），包括西班牙语、中文、日语和法语。内部测试显示了这一进步，gpt-realtime在大基准音频上的准确率达到82.8%，而之前的模型为65.6%。指令遵循能力也更为敏锐，多挑战音频基准测试得分从20.6%上升到30.5%。

函数调用是另一个关注领域。模型现在在识别相关函数、在正确的时间调用它们以及提供正确的参数方面表现更好。在复杂函数基准中，准确率从49.7%上升到66.5%。对异步函数调用进行了更新，允许语音代理在等待结果时继续对话，这一功能在客户支持和交易应用中具有明显的价值。

实时API已升级以符合生产要求。开发者现在可以将远程MCP服务器直接连接到会话中，实现工具调用而无需手动集成工作。支持图像输入，允许应用程序在视觉上下文中进行对话，如截图或照片。SIP支持使得可以将语音代理与现有电话系统集成，包括PBX和桌面电话。可重用的提示简化了会话管理，而完整的欧盟数据驻留支持解决了欧洲部署的合规性问题。

根据发布说明，早期的企业合作伙伴正在生产类似场景中测试这些功能。Zillow正在试点语音驱动的房屋搜索，而T-Mobile正在探索实时适应性至关重要的客户服务用例。两家公司都强调了从脚本化自动化向通过AI代理提供更灵活、领域特定的专业知识的转变。

OpenAI还加强了部署的安全措施。实时API集成了可以终止有害对话的分类器，开发者可以通过代理SDK添加领域特定的防护措施。实时API中的预设声音用于降低冒充风险。

gpt-realtime模型和实时API立即向所有开发者开放。要开始使用，开发者可以访问实时API文档和提示指南，并在游乐场中测试新的gpt-realtime演示。

文章来源：https://www.infoq.com/news/2025/09/openai-gpt-realtime/

标签：

OpenAI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI的非营利母公司将获得其营利部门超过1000亿美元的股份

下一篇 Penske Media 就 AI 摘要起诉谷歌，声称滥用搜索垄断权

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体