
法国AI公司Mistral于周四推出了一款全新的开源文本转语音模型,适用于语音AI助手或企业应用场景,如客户支持。该模型使企业能够创建用于销售和客户互动的语音代理,使Mistral直接与ElevenLabs、Deepgram和OpenAI等公司展开竞争。
这款名为Voxtral TTS的新模型支持九种语言,包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。
“我们的客户一直在要求一个语音模型。因此,我们开发了一个小型语音模型,适用于智能手表、智能手机、笔记本电脑或其他边缘设备。它的成本仅为市场上其他产品的一小部分,但提供了最先进的性能,”Mistral AI的科学运营副总裁Pierre Stock在电话采访中告诉TechCrunch。

Mistral表示,新模型可以通过不到五秒的样本自定义声音,还能捕捉到微妙的口音、语调和语音流中的不规则性等特征。该模型基于Ministral 3B,能够在不同语言之间轻松切换而不失去声音特征,这对于配音或实时翻译等应用场景非常有用。Stock表示,公司希望该模型听起来更像人而不是机器人。

今年早些时候,Mistral推出了一对转录模型,一个用于大批量处理,另一个用于低延迟的实时应用。随着新语音模型的推出,公司可能旨在为企业提供完整的语音产品套件。
“我们计划打造一个端到端的平台,可以处理包括音频、文本和图像在内的多模态输入流和输出流。其主要优势在于,您可以通过支持音频作为输入或输出的端到端代理系统获得更多信息,”Stock说。
Mistral的定位是其开源和定制化功能将帮助企业采用其语音模型,而不是选择竞争对手,因为他们可以根据需要进行调整。
