谷歌正式发布 Gemini 3.5 实时语音翻译模型,可支持 70 余种语言。该模型能够自动识别语种,谷歌称其可完整保留说话人的语气、语速与音调,且无需等待整句话说完,即可实现连续不间断翻译。

目前开发者可通过 Gemini 实时接口与谷歌 AI 工作室使用该功能;谷歌会议(Google Meet)已面向企业用户开放预览版,安卓与 iOS 端的谷歌翻译 App 则对全体用户上线此能力。谷歌会议的翻译语种从此前的 5 种扩充至 70 余种,语言组合超 2000 组。据悉,网约车平台 Grab 正测试该模型,用于司乘之间的沟通交流。所有翻译生成的语音,均会嵌入人耳无法感知的 SynthID 合成水印。
