谷歌发布了Gemini 3.1 Flash Live,这是其迄今为止最出色的语音和音频AI模型。它为开发者提供了更快的响应、更自然的对话和可配置的思维层级。谷歌说它在检测音调和情绪方面更出色,在嘈杂环境中更可靠。该型号现在在Gemini应用中支持直播模式。
根据Artificial Analysis的数据,该模型在Big Bench Audio基准测试中以“高”思维评分为95.9%,仅次于Step-Audio R1.1 Realtime(97.0%),响应时间为2.98秒。在“最低”状态下,质量降至70.5%,但响应时间降至0.96秒。

该模型通过 Gemini Live API、Google AI Studio、Gemini Live 和 Search Live 在 200 多个国家提供。价格与 Gemini 2.5 前身持平,音频输入每小时 0.35 美元,音频输出每小时 1.40 美元,使其成为最便宜的音频 AI 模型之一。性能稍优的 Step Audio 型号输入成本较低,但输出成本较高。
