OpenAI公布Voice Engine声音克隆新技术

2024年04月01日 由 daydream 发表 77 0

此前,OpenAI已经为“Voice Engine”这个词申请了商标,随即引发了关于该公司即将发布Siri和Alexa竞争对手的传闻。现在,OpenAI发布了Voice Engine的预览版,这是一个新模型,只需使用一段15秒的音频样本,即可生成听起来自然而像原始说话者一样的语音。


微信截图_20240401094545


自2022年底以来,这项技术一直在开发中,已经用于支持OpenAI的文本转语音API、ChatGPT Voice和Read Aloud中的预设语音。尽管有这些令人充满希望的应用,但该公司尚未公布公开发布的时间,并因潜在的滥用风险而对其更广泛的发布持谨慎态度。


为了更好地了解Voice Engine的潜在用途和影响,OpenAI已经与一小群受信任的合作伙伴私下测试了这项技术。这些早期采用者已经开发了令人印象深刻的应用,例如使用自然的声音为无法阅读的人或儿童提供阅读辅助,将内容翻译成全球观众都能理解的语言,改善偏远地区的基本服务交付,以及支持有言语障碍或残疾的个体。


OpenAI分享了Voice Engine在实际应用中的一些例子:


通过自然、富有情感的语音为不会阅读的人和儿童提供阅读辅助,这些语音代表比预设语音更广泛的说话者。Age of Learning是一家致力于儿童学业成功的教育技术公司,一直在使用这项技术生成预设的旁白内容。


将视频和播客等内容翻译成流利的语言,使创作者和企业能够用他们自己的声音吸引全球更多的人群。HeyGen是这项技术的一个早期采用者,它是一个AI视觉故事叙述平台,与他们的企业客户合作,为从产品营销到销售演示等各种内容创建定制的、类似人类的虚拟形象。


通过改善偏远地区的基本服务交付,触及全球社群。Dimagi正在为社区卫生工作者构建工具,以提供多种基本服务,例如为母乳喂养的母亲提供咨询。为了帮助这些工作者提高技能,Dimagi使用Voice Engine和GPT-4,以每位工作者的主要语言(包括斯瓦希里语)或更非正式的语言(如肯尼亚流行的混合语言Sheng)提供交互式反馈。


虽然这些用例展示了Voice Engine的积极潜力,但OpenAI也认识到生成与人们声音非常相似的语音所带来的严重风险。该公司正在积极与来自不同部门的合作伙伴合作,吸纳他们的反馈,确保技术的负责任开发和部署。


OpenAI在构建Voice Engine时采取了安全的方法,包括要求合作伙伴遵守使用政策,禁止未经同意的冒充行为,从原始说话者处获得明确和知情的同意,并明确披露使用AI生成的语音。该公司还实施了安全措施,如水印技术,以追踪生成音频的来源,并主动监控技术的使用情况。


OpenAI并不是唯一在推动合成语音技术发展的公司。其他领域的参与者,如ElevenLabs,为各种产品和服务提供最先进的AI语音解决方案,包括专业语音克隆、配音和翻译。


近期还推出了Hume AI的Empathetic Voice Interface,它利用一个富有同理心的大型语言模型,根据上下文和用户的情感表达来调整其语言和语调。这些发展突显了AI驱动的语音技术在各个行业的迅速进步和日益增长的兴趣。


展望未来,OpenAI鼓励社会提高应对日益逼真的生成模型所带来的挑战的能力。这包括逐步淘汰基于语音的敏感信息认证,探索保护个人声音在AI中的政策,向公众普及AI的能力和局限性,以及加速开发和采用跟踪音视频内容来源的技术。


随着围绕合成语音技术的辩论继续进行,OpenAI对Voice Engine的预览既突显了其潜在的益处,也强调了负责任部署的必要性。该公司的谨慎态度以及与利益相关方的持续沟通,对于理解和缓解这项强大技术所带来的风险至关重要。

文章来源:https://www.maginative.com/article/openai-previews-voice-engine-and-shares-perspective-on-synthetic-voice-technology/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消