Artificial Analysis 发布了其 AA-WER 语音转文字基准测试的 2.0 版本。ElevenLabs的Scribe v2以仅2.3%的词误率领先,其次是谷歌的Gemini 3 Pro(2.9%)和Mistral的Voxtral Small(3.0%)。谷歌的Gemini 3 Flash(3.1%)和ElevenLabs的旧版Scribe v1(3.2%)紧随其后。值得注意的是,谷歌并未专门训练转录——强有力的结果来自Gemini的通用多模态能力。OpenAI广受欢迎的开源Whisper Large v3(4.2%)位列中游,阿里巴巴的Qwen3 ASR Flash(5.9%)、亚马逊的Nova 2 Omni(6.0%)和Rev AI(6.1%)位居末尾。

结果在针对语音助手的AA-AgentTalk单独测试中依然适用:Scribe v2(1.6%)和Gemini 3 Pro(1.7%)遥遥领先,AssemblyAI的Universal-3 Pro以2.3%排名第三。

