OpenAI在其API中推出全新语音智能功能

2026年05月08日由佚名发表 810 0

OpenAI周四宣布，其API现已包含多项全新的语音智能功能，旨在帮助开发者创建能够与用户进行对话、转录和翻译的应用程序。

公司推出了新款GPT‑Realtime‑2这是一款新的语音模型，旨在模拟与用户对话的逼真语音。与其前身GPT-Realtime-1.5不同，这个模型基于GPT‑5级别的推理构建，OpenAI表示其设计目的是处理用户更复杂的请求。

公司还推出了GPT‑Realtime‑Translate，顾名思义，该功能旨在提供与用户同步的实时翻译服务。该功能支持超过70种输入语言（即它能够理解的语言）和13种输出语言（即它传达给用户的语言）。

最后，公司还推出了一项新的转录功能，GPT-Realtime-Whisper，能够为用户提供实时语音转文本的能力，在互动过程中即时捕捉语音内容。

“我们推出的这些模型将实时音频从简单的问答提升为能够实际工作的语音界面：倾听、推理、翻译、转录，并在对话展开时采取行动，”公司表示。

OpenAI还指出，这些新功能将有助于广泛的领域，包括教育、媒体、活动和创作者平台等。

从企业的角度来看，这些工具似乎非常有用，但也可能存在被滥用的风险。公司表示，它已经建立了防护措施，以防止新功能被用于创建垃圾邮件、欺诈或其他形式的在线滥用。系统中嵌入了某些触发器，以便在检测到对话违反有害内容指南时，可以立即停止对话，”OpenAI表示。

所有新的语音模型都包含在OpenAI的实时API中。Translate和Whisper按分钟计费，而GPT-Realtime-2则按令牌消耗计费。

文章来源：https://techcrunch.com/2026/05/07/openai-launches-new-voice-intelligence-features-in-its-api/

标签：

OpenAI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇宇树UniStore上线，全球首个机器人任务动作应用商店

下一篇 Perplexity的个人电脑现已在Mac上全面开放

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市