Mistral发布Voxtral:首个开源AI音频模型

2025年07月16日 由 佚名 发表 287 0


随着AI系统的不断强大,语音正迅速成为我们与机器交流的默认方式。法国的AI初创公司Mistral已加入音频领域的竞争,推出其首个开放模型,旨在通过开放权重的替代方案挑战封闭企业系统的主导地位。


周二,Mistral宣布推出Voxtral,这是其首个面向企业的音频模型系列。


公司将Voxtral定位为首个能够在生产中部署“真正可用的语音智能”的开放模型。


换句话说,开发者不再需要在一个便宜但在转录时容易出错且无法真正理解内容的开放系统和一个功能良好但封闭、导致开发者成本更高且对部署控制更少的系统之间做出选择。


对于企业来说,这意味着Voxtral提供了一种公司声称“价格不到同类解决方案一半”的经济实惠替代方案。



Mistral表示,Voxtral可以转录长达30分钟的音频。由于其LLM骨干,Mistral Small 3.1,它可以理解长达40分钟的内容,允许用户就音频内容提问、生成摘要或将语音命令转化为实时操作,如调用API或运行功能。Voxtral还支持多种语言,能够转录和理解包括英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语在内的多种语言。


公司提供了两种“语音理解模型”变体。第一种,Voxtral Small,拥有240亿参数,适用于生产规模的部署,与ElevenLabs Scribe、GPT-4o-mini和Gemini 2.5 Flash竞争。


第二种,Voxtral Mini,拥有30亿参数,适用于本地和边缘部署。还有一种超便宜、精简、快速的API版本,称为Voxtral Mini Transcribe,专为转录用途优化,承诺以不到OpenAI Whisper一半的价格超越其性能。


用户可以通过在Hugging Face上下载API或在Mistral的聊天机器人Le Chat中测试模型免费试用Voxtral。根据公司介绍,将API集成到应用程序中起价为每分钟0.001美元。


此次发布是在Mistral宣布Magistral之后一个月进行的,Magistral是其首个逐步解决问题以提高可靠性的推理模型系列。


Mistral是欧洲顶尖的AI公司之一,以推动开源AI模型的倡导而闻名。


文章来源:https://techcrunch.com/2025/07/15/mistral-releases-voxtral-its-first-open-source-ai-audio-model/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消