
OpenAI周四宣布,其API现已包含多项全新的语音智能功能,旨在帮助开发者创建能够与用户进行对话、转录和翻译的应用程序。
公司推出了新款GPT‑Realtime‑2这是一款新的语音模型,旨在模拟与用户对话的逼真语音。与其前身GPT-Realtime-1.5不同,这个模型基于GPT‑5级别的推理构建,OpenAI表示其设计目的是处理用户更复杂的请求。
公司还推出了GPT‑Realtime‑Translate,顾名思义,该功能旨在提供与用户同步的实时翻译服务。该功能支持超过70种输入语言(即它能够理解的语言)和13种输出语言(即它传达给用户的语言)。
最后,公司还推出了一项新的转录功能,GPT-Realtime-Whisper,能够为用户提供实时语音转文本的能力,在互动过程中即时捕捉语音内容。
“我们推出的这些模型将实时音频从简单的问答提升为能够实际工作的语音界面:倾听、推理、翻译、转录,并在对话展开时采取行动,”公司表示。
OpenAI还指出,这些新功能将有助于广泛的领域,包括教育、媒体、活动和创作者平台等。
从企业的角度来看,这些工具似乎非常有用,但也可能存在被滥用的风险。公司表示,它已经建立了防护措施,以防止新功能被用于创建垃圾邮件、欺诈或其他形式的在线滥用。系统中嵌入了某些触发器,以便在检测到对话违反有害内容指南时,可以立即停止对话,”OpenAI表示。
所有新的语音模型都包含在OpenAI的实时API中。Translate和Whisper按分钟计费,而GPT-Realtime-2则按令牌消耗计费。
