Gemini 3.1 Flash Live:谷歌迄今最自然 AI 语音模型

2026年03月27日 由 alex 发表 446 0

谷歌发布了Gemini 3.1 Flash Live,这是其迄今为止最出色的语音和音频AI模型。它为开发者提供了更快的响应、更自然的对话和可配置的思维层级。谷歌说它在检测音调和情绪方面更出色,在嘈杂环境中更可靠。该型号现在在Gemini应用中支持直播模式。




根据Artificial Analysis的数据,该模型在Big Bench Audio基准测试中以“高”思维评分为95.9%,仅次于Step-Audio R1.1 Realtime(97.0%),响应时间为2.98秒。在“最低”状态下,质量降至70.5%,但响应时间降至0.96秒。


aa_gemini_3_flash_live


该模型通过 Gemini Live API、Google AI Studio、Gemini Live 和 Search Live 在 200 多个国家提供。价格与 Gemini 2.5 前身持平,音频输入每小时 0.35 美元,音频输出每小时 1.40 美元,使其成为最便宜的音频 AI 模型之一。性能稍优的 Step Audio 型号输入成本较低,但输出成本较高。

文章来源:https://the-decoder.com/gemini-3-1-flash-live-is-googles-most-natural-sounding-ai-voice-model-yet/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消