OpenAI公布Voice Engine声音克隆新技术

2024年04月01日由 daydream 发表 894 0

此前，OpenAI已经为“Voice Engine”这个词申请了商标，随即引发了关于该公司即将发布Siri和Alexa竞争对手的传闻。现在，OpenAI发布了Voice Engine的预览版，这是一个新模型，只需使用一段15秒的音频样本，即可生成听起来自然而像原始说话者一样的语音。

微信截图_20240401094545

自2022年底以来，这项技术一直在开发中，已经用于支持OpenAI的文本转语音API、ChatGPT Voice和Read Aloud中的预设语音。尽管有这些令人充满希望的应用，但该公司尚未公布公开发布的时间，并因潜在的滥用风险而对其更广泛的发布持谨慎态度。

为了更好地了解Voice Engine的潜在用途和影响，OpenAI已经与一小群受信任的合作伙伴私下测试了这项技术。这些早期采用者已经开发了令人印象深刻的应用，例如使用自然的声音为无法阅读的人或儿童提供阅读辅助，将内容翻译成全球观众都能理解的语言，改善偏远地区的基本服务交付，以及支持有言语障碍或残疾的个体。

OpenAI分享了Voice Engine在实际应用中的一些例子：

通过自然、富有情感的语音为不会阅读的人和儿童提供阅读辅助，这些语音代表比预设语音更广泛的说话者。Age of Learning是一家致力于儿童学业成功的教育技术公司，一直在使用这项技术生成预设的旁白内容。

将视频和播客等内容翻译成流利的语言，使创作者和企业能够用他们自己的声音吸引全球更多的人群。HeyGen是这项技术的一个早期采用者，它是一个AI视觉故事叙述平台，与他们的企业客户合作，为从产品营销到销售演示等各种内容创建定制的、类似人类的虚拟形象。

通过改善偏远地区的基本服务交付，触及全球社群。Dimagi正在为社区卫生工作者构建工具，以提供多种基本服务，例如为母乳喂养的母亲提供咨询。为了帮助这些工作者提高技能，Dimagi使用Voice Engine和GPT-4，以每位工作者的主要语言（包括斯瓦希里语）或更非正式的语言（如肯尼亚流行的混合语言Sheng）提供交互式反馈。

虽然这些用例展示了Voice Engine的积极潜力，但OpenAI也认识到生成与人们声音非常相似的语音所带来的严重风险。该公司正在积极与来自不同部门的合作伙伴合作，吸纳他们的反馈，确保技术的负责任开发和部署。

OpenAI在构建Voice Engine时采取了安全的方法，包括要求合作伙伴遵守使用政策，禁止未经同意的冒充行为，从原始说话者处获得明确和知情的同意，并明确披露使用AI生成的语音。该公司还实施了安全措施，如水印技术，以追踪生成音频的来源，并主动监控技术的使用情况。

OpenAI并不是唯一在推动合成语音技术发展的公司。其他领域的参与者，如ElevenLabs，为各种产品和服务提供最先进的AI语音解决方案，包括专业语音克隆、配音和翻译。

近期还推出了Hume AI的Empathetic Voice Interface，它利用一个富有同理心的大型语言模型，根据上下文和用户的情感表达来调整其语言和语调。这些发展突显了AI驱动的语音技术在各个行业的迅速进步和日益增长的兴趣。

展望未来，OpenAI鼓励社会提高应对日益逼真的生成模型所带来的挑战的能力。这包括逐步淘汰基于语音的敏感信息认证，探索保护个人声音在AI中的政策，向公众普及AI的能力和局限性，以及加速开发和采用跟踪音视频内容来源的技术。

随着围绕合成语音技术的辩论继续进行，OpenAI对Voice Engine的预览既突显了其潜在的益处，也强调了负责任部署的必要性。该公司的谨慎态度以及与利益相关方的持续沟通，对于理解和缓解这项强大技术所带来的风险至关重要。

文章来源：https://www.maginative.com/article/openai-previews-voice-engine-and-shares-perspective-on-synthetic-voice-technology/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇微软Azure AI推出创新安全功能，提升客户模型使用安全性与便利性

下一篇亚马逊在人工智能竞赛中奋力追赶

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术