Microsoft推出了MAI-Transcribe-1,这是一种支持25种语言的语音转文本模型,在FLEURS基准测试中实现了最低的词语错误率,超过了Scribe v2、Whisper-large-V3、GPT-Transcribe和Gemini 3.1 Flash-Lite。Microsoft表示,该型号还能应对背景噪音、音质差和语音重叠等严苛录音环境。

Microsoft正在Copilot Voice和Microsoft Teams上推广MAI-Transcribe-1。开发者可以通过Microsoft Foundry和Microsoft AI Playground试用公开预览版。该模型运行速度是Microsoft之前Azure Fast产品的2.5倍,每音频小时售价为0.36美元。Microsoft表示,结合MAI-Voice-1和语言模型,它还能为语音代理提供动力。
Cohere和Mistral最近发布了开源替代品,性能相当。
