Gemini 3.1 Flash Live：谷歌迄今最自然 AI 语音模型

登录注册

资讯

学习

基础知识理论实践学习教程

企业招聘

下载

模型数据集

AI工具箱

企业服务

EVA 智能HR 视频AI

ChatGPT 人工智能应用人工智能未来计算机视觉

热门新闻

行业人工智能

所以，能动手就别吵吵了

行业人工智能

为什么数据污染对LLM来说是一个大问题

机器人康奈尔大学

康奈尔大学推出新的社交机器人，更柔软，更人性化

常用工具

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

您尚未登录账户

请先登录您的atyun账户，方可使用该功能

仅限企业账户使用

该功能仅限企业账号使用，开通企业账号可享受更多服务，是否现在注册企业账号？

立即注册企业账号

暂不需要

您的企业账号申请正在审核中

审核通过后即可使用此功能，请耐心等待~

2026年03月27日由 alex 发表 2825 0

谷歌发布了Gemini 3.1 Flash Live，这是其迄今为止最出色的语音和音频AI模型。它为开发者提供了更快的响应、更自然的对话和可配置的思维层级。谷歌说它在检测音调和情绪方面更出色，在嘈杂环境中更可靠。该型号现在在Gemini应用中支持直播模式。

根据Artificial Analysis的数据，该模型在Big Bench Audio基准测试中以“高”思维评分为95.9%，仅次于Step-Audio R1.1 Realtime（97.0%），响应时间为2.98秒。在“最低”状态下，质量降至70.5%，但响应时间降至0.96秒。

aa_gemini_3_flash_live

该模型通过 Gemini Live API、Google AI Studio、Gemini Live 和 Search Live 在 200 多个国家提供。价格与 Gemini 2.5 前身持平，音频输入每小时 0.35 美元，音频输出每小时 1.40 美元，使其成为最便宜的音频 AI 模型之一。性能稍优的 Step Audio 型号输入成本较低，但输出成本较高。

文章来源：https://the-decoder.com/gemini-3-1-flash-live-is-googles-most-natural-sounding-ai-voice-model-yet/

标签：

Gemini

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇维基百科禁止AI生成的条目

下一篇字节跳动在全球推出 Seedance 2.0

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术