Mistral AI 推出 Voxtral Transcribe 2,在语音识别定价上压低竞争对手。 第二代语音识别模型起步速度为每分钟0.003美元,据Mistral称,其准确率优于GPT-4o mini Transcribe、Gemini 2.5 Flash和Deepgram Nova。该型号家族有两个变体:Voxtral Mini Transcribe V2,用于处理较大音频文件,以及适用于延迟低于200毫秒的实时应用的Voxtral Realtime。Voxtral Realtime价格是其两倍,采用专有的流媒体架构,音频到达时自动转录——专为语音助手、实时字幕或呼叫中心分析设计。

两款机型均支持13种语言,包括德语、英语和中文。新功能包括扬声器识别、字级时间戳,以及支持长达三小时的录音。Voxtral Realtime 作为开放权重版本在 Apache 2.0 的 Hugging Face 和 API 上可用,而 Voxtral Mini Transcribe V2 仅通过 Le Chat、Mistral API 和游乐场访问。Mistral 于 2025 年 7 月发布了第一代 Voxtral 版本。
