
OpenAI已发布gpt-realtime,这是其最先进的语音到语音模型,同时还推出了实时API。这些更新旨在减少延迟、提高语音质量,并为开发者提供更强大的工具,如MCP服务器支持、图像输入和会话发起协议(SIP)电话呼叫支持,以构建生产就绪的AI语音代理。
结合了实时API和gpt-realtime,设计用于在单一系统内处理端到端的语音处理,而不是将语音转文本和文本转语音模型串联在一起。这种架构缩短了响应时间,同时保留了传递中的细微差别,这对于实时代理来说是一个关键的改进,因为即使是小的延迟也可能打断对话流。
gpt-realtime经过训练,能够产生更高质量的语音,具有更自然的节奏和语调,并能可靠地响应风格指令,如“同情地说”或“使用专业语气”。两种新的合成声音,Cedar和Marin,现已可用,现有的声音也已更新以提高真实性。
在理解基准测试中,gpt-realtime显示出显著的改进。它可以跟踪非语言提示,在单个句子中切换语言,并更准确地处理跨语言的字母数字序列(如电话号码、车辆识别码等),包括西班牙语、中文、日语和法语。内部测试显示了这一进步,gpt-realtime在大基准音频上的准确率达到82.8%,而之前的模型为65.6%。指令遵循能力也更为敏锐,多挑战音频基准测试得分从20.6%上升到30.5%。
函数调用是另一个关注领域。模型现在在识别相关函数、在正确的时间调用它们以及提供正确的参数方面表现更好。在复杂函数基准中,准确率从49.7%上升到66.5%。对异步函数调用进行了更新,允许语音代理在等待结果时继续对话,这一功能在客户支持和交易应用中具有明显的价值。
实时API已升级以符合生产要求。开发者现在可以将远程MCP服务器直接连接到会话中,实现工具调用而无需手动集成工作。支持图像输入,允许应用程序在视觉上下文中进行对话,如截图或照片。SIP支持使得可以将语音代理与现有电话系统集成,包括PBX和桌面电话。可重用的提示简化了会话管理,而完整的欧盟数据驻留支持解决了欧洲部署的合规性问题。
根据发布说明,早期的企业合作伙伴正在生产类似场景中测试这些功能。Zillow正在试点语音驱动的房屋搜索,而T-Mobile正在探索实时适应性至关重要的客户服务用例。两家公司都强调了从脚本化自动化向通过AI代理提供更灵活、领域特定的专业知识的转变。
OpenAI还加强了部署的安全措施。实时API集成了可以终止有害对话的分类器,开发者可以通过代理SDK添加领域特定的防护措施。实时API中的预设声音用于降低冒充风险。
gpt-realtime模型和实时API立即向所有开发者开放。要开始使用,开发者可以访问实时API文档和提示指南,并在游乐场中测试新的gpt-realtime演示。
