Mistral发布全新开源语音生成模型

2026年03月26日由佚名发表 2043 0

法国AI公司Mistral于周四推出了一款全新的开源文本转语音模型，适用于语音AI助手或企业应用场景，如客户支持。该模型使企业能够创建用于销售和客户互动的语音代理，使Mistral直接与ElevenLabs、Deepgram和OpenAI等公司展开竞争。

这款名为Voxtral TTS的新模型支持九种语言，包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。

“我们的客户一直在要求一个语音模型。因此，我们开发了一个小型语音模型，适用于智能手表、智能手机、笔记本电脑或其他边缘设备。它的成本仅为市场上其他产品的一小部分，但提供了最先进的性能，”Mistral AI的科学运营副总裁Pierre Stock在电话采访中告诉TechCrunch。

Mistral表示，新模型可以通过不到五秒的样本自定义声音，还能捕捉到微妙的口音、语调和语音流中的不规则性等特征。该模型基于Ministral 3B，能够在不同语言之间轻松切换而不失去声音特征，这对于配音或实时翻译等应用场景非常有用。Stock表示，公司希望该模型听起来更像人而不是机器人。

据公司称，该模型是为实时性能而设计的。它的首次音频时间（TTFA）——即模型在接收到输入后开始“说话”的时间——为90毫秒，用于500字符的10秒样本。该模型还有一个实时因子（RTF）为6倍，这意味着它可以在大约1.6秒内渲染一个10秒的片段。

今年早些时候，Mistral推出了一对转录模型，一个用于大批量处理，另一个用于低延迟的实时应用。随着新语音模型的推出，公司可能旨在为企业提供完整的语音产品套件。

“我们计划打造一个端到端的平台，可以处理包括音频、文本和图像在内的多模态输入流和输出流。其主要优势在于，您可以通过支持音频作为输入或输出的端到端代理系统获得更多信息，”Stock说。

Mistral的定位是其开源和定制化功能将帮助企业采用其语音模型，而不是选择竞争对手，因为他们可以根据需要进行调整。

文章来源：https://techcrunch.com/2026/03/26/mistral-releases-a-new-open-source-model-for-speech-generation/

标签：

机器人

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Meta利用AI简化Instagram和Facebook上的购物体验

下一篇苹果将允许其他 AI 聊天机器人接入 Siri

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市