谷歌正在推出基于Gemini 3.1 Flash的新文本转语音模型。公司表示这是迄今为止发布的最自然、最具表现力的声音输出。最大的新功能是音频标签——简单的文本命令,让开发者可以控制生成语音的风格、节奏、语气和口音。该模型支持70多种语言,并能处理多说话者对话。
在人工分析排名榜上,该模型的Elo评分为1211,并以其质量与价格比脱颖而出。整体质量超过了Elevenlabs v3,仅次于Inworld 1.5 Max。

Gemini 3.1 Flash TTS有免费套餐,但谷歌利用这些数据改进其产品。付费层的文本输入每百万代币收费1.00美元,音频输出每百万代币收费20.00美元。批量模式将价格减半,分别为0.50美元和10美元。在付费层,谷歌不会利用这些数据进行产品改进。
Gemini 3.1 Flash TTS 可通过 Gemini API 预览,企业用户用 Vertex AI 和 Workspace 用户用 Google Vids 提供。任何人都可以在谷歌的AI Studio中免费尝试。所有生成的音频都带有谷歌的SynthID水印标记,以标记AI生成内容。
