首页»支撑  »   算量  »   正文

谷歌云Text-to-Speech又增加了31种WaveNet语音、7种语言和方言

谷歌云Text-to-Speech又增加了31种WaveNet语音、7种语言和方言

致谷歌云(Google Cloud Platform)的客户:

现有一则好消息与目前正在使用谷歌云的人工智能文本转语音或语音转文字功能的客户们分享。目前,云文本到语音的API可以识别其他语言了!

准确地说是七种语言和方言,并且可以用新的声音说话,包括31种由WaveNet(一家由谷歌母公司Alphabet的DeepMind开发的机器学习网络)合成的声音。

同样不甘示弱的是,云语音到文本API的多声道识别功能有助于区分多个音频通道。在经过长达数月的测试后,正在全面启动。改进的语音识别模型比它们的前身准确率高出60%以上,设备配置文件也是如此。设备配置文件的一个功能是调整为GCP声音,以便在一系列硬件上进行最佳播放。

谷歌云Text-to-Speech又增加了31种WaveNet语音、7种语言和方言

Cloud Speech-to-Text

2018年4月推出了新的高级语音到文本模式,专门针对特定的用例:增强型的电话和视频。(视频是优惠价格提供的,而使用这款新手机的前提是要参与谷歌的众包数据共享项目。)视频模式针对长时间录制(超过两小时)进行了优化,包含大量背景噪音和对话四个或更多扬声器(如体育赛事的电视广播),而手机模式最适合两到四人,噪音最小(从电话线静音和保持音乐)。

当时谷歌表示,视频模式使用类似于YouTube字幕所采用的学习技术,与视频测试集上的默认模式相比,错误减少了64%。谷歌今天声称,现在广泛用于企业谷歌云客户的增强型手机模式的转录错误减少了62%,比去年的54%有所改善。

上述多声道识别功能还提供了一种更简单的方式来转录多个音频通道。这种功能通常也可用,现在有资格获得SLA和“其他企业级保证”。对于没有单独录制的音频样本,云语音到文本提供了二值化功能,它使用机器学习功能用识别扬声器编号标记每个单词。(谷歌表示,标签的准确性会随着时间的推移而提高。)

Cloud Text-to-Speech

2018年8月,谷歌推出了17种新的WaveNet语音,并支持14种语言和变体。共计26种WaveNet语音。本周,该公司将推出31种新的WaveNet语音和24种新的标准语音,使WaveNet语音总数达到57种,Cloud Text-to-Speech支持的语音总数达到106。

WaveNet通过识别音调模式模仿语音中的重音和语调(语言学中称为韵律)。除了比以前的型号产生更有说服力的语音片段之外,它还更高效。在Google的云TPU硬件上运行,WaveNet可以在50毫秒内生成一秒钟的样本。

谷歌表示现在文字转语音支持七种新语言:丹麦语、葡萄牙语、俄语、波兰语、斯洛伐克语、乌克兰语和挪威语。云语音转语音现在支持21种语言。

设备配置文件

简而言之,音频配置文件可优化Cloud Text-to-Speech的API生成的语音,以便在不同类型的硬件上播放。例如,客户可具有较小扬声器的可穿戴设备创建配置文件,或者专门为汽车扬声器和耳机创建配置文件。对于不支持特定频率的设备来说尤其方便;Cloud Text-to-Speech可以自动将超出范围的音频移至听觉范围内,从而提高其清晰度。

Google Cloud团队表示,“每个设备的物理特性以及它们所处的环境都会影响它们产生的频率范围和细节水平(例如,低音,高音和音量),音频样本(由音频配置文件产生)实际上可能听起来比笔记本电脑扬声器上的原始样本更糟糕,但用电话线听起来会更好。”

启动时支持八个设备配置文件:

  • 可穿戴设备(例如可穿戴OS设备)
  • 听筒
  • 头戴耳机
  • 小型蓝牙音箱(Google Home mini)
  • 中型蓝牙音箱(谷歌首页)
  • 家庭娱乐系统(Google Home Max)
  • 汽车扬声器
  • 交互式语音应答(IVR)系统

降价

最后,谷歌降低了云语音到文本的价格。

谷歌云Text-to-Speech又增加了31种WaveNet语音、7种语言和方言

上图:云语音到文本的新定价。 图片来源:谷歌

对于不选择上述数据共享程序的企业用户来说,它将增强的视频和手机模式的音频费用降至每15秒0.009美元,标准模式的成本降至每15秒0.006美元。选择与谷歌共享数据记录的客户将为标准模式每15秒支付0.004美元,增强模式为每15秒支付0.006美元。不变的是,每个月的前60分钟都是免费的。

欢迎关注ATYUN官方公众号,商务合作及内容投稿请联系邮箱:bd@atyun.com

发表评论