Gemini为Google文档带来自然音频播放

2025年08月19日由佚名发表 555 0

在Google文档中阅读冗长的报告或编辑草稿可能会减缓工作流程，尤其是对于那些通过聆听更好地处理信息的用户。Google的Gemini AI现在通过在Google文档中引入内置音频生成功能来解决这一限制，让用户只需点击几下即可将书面内容转换为自然流畅的语音。

在Google文档中使用Gemini音频播放

步骤1：在网络上打开您的Google文档。确保文档中包含您想要收听的文本——没有内容，音频播放将不会开始。

步骤2：从顶部菜单中选择新的音频功能工具 > 音频 > 收听此标签。或者，使用工具栏的专用“收听此标签”按钮以更快的访问。此操作将在您的屏幕上直接启动一个浮动音频播放器。

步骤3：使用播放器界面控制播放。您可以播放、暂停或拖动音频，调整播放速度，并从多个语音配置文件中选择——包括叙述者、教育者、教师、说服者、解释者、教练和激励者。每种声音提供不同的语调和表达方式，因此您可以选择最符合您内容或偏好的风格。

步骤4：将浮动音频播放器移动到屏幕上的任何位置以方便使用。播放器显示总时长和当前进度，使您可以轻松跟踪您的聆听会话，或在通过耳朵发现问题时暂停进行编辑。

为文档查看者添加音频按钮和芯片

对于协作文档或共享报告，编辑者可以直接在文档中插入音频按钮。这让查看者可以播放特定部分或整个文档的音频，而无需导航菜单。

步骤1：要插入音频按钮，请转到插入 > 音频按钮 > 收听标签。放置后，您可以自定义按钮的标签、大小和颜色，以适应文档的设计或突出显示重要部分。

步骤2：要为特定部分添加音频芯片，突出显示所需文本，输入@，并从菜单中选择“收听标签”。这会嵌入一个交互式芯片，触发该部分的音频播放。

这些功能特别有助于提高文档的可访问性，或为那些更喜欢听而不是读的同事提供便利。嵌入和自定义音频控件的能力简化了审查和反馈周期，尤其是在团队环境中。

Gemini的文本转语音幕后工作原理

Gemini的音频生成使用先进的文本转语音（TTS）模型，能够以多种风格生成逼真的语音。该技术支持多种声音，并允许对语调、节奏和清晰度进行微调。这种方法不仅使音频听起来更自然，还帮助听众捕捉到在默读时可能会错过的细微差别或错误。

对于开发人员或对技术细节感兴趣的人，Gemini的TTS可以通过GeminiAPI访问，支持单人和多人语音。自定义提示可以进一步调整表达方式，使模拟对话或为叙述设置特定情绪成为可能。虽然文档集成专注于简单的文档阅读，但其底层技术足够强大，可以用于更具创意的场景，如播客或有声书生成。

支持的计划和语言可用性

目前，Google文档中的Gemini音频功能对符合条件的Google Workspace或Google AI订阅用户开放，包括AI Pro和Ultra计划、商业标准和Plus，以及针对教育和企业客户的各种Gemini附加组件。该功能仅在网络上推出，并在启动时支持英语，未来可能会扩展到更多语言和平台。

播放选项设计为直观，音频功能可用于校对、提高可访问性，或在多任务处理时吸收信息。反馈选项集成在音频播放器中，允许用户直接向Google的AI团队报告问题或提出改进建议。

替代方法：使用Gemini的API和其他TTS工具

虽然内置的文档功能是日常用户最无缝的方法，但具有技术背景的人可以利用Gemini API在自定义工作流程中从文本生成音频。这种方法提供了更多的灵活性，例如选择更广泛的声音范围、与其他应用程序集成或生成多种语言的音频。

例如，开发人员可以使用Python或JavaScript将文本发送到Gemini的TTS模型，并接收音频文件作为回报。API支持高级功能，如多说话者对话、SSML（用于语音标记）和自定义音调或速度设置。这种方法非常适合大规模自动化音频生成或将TTS嵌入专有应用程序中。

此外，Google Cloud的文本转语音API提供类似的功能，拥有数百种声音和对数十种语言的支持，是那些有更广泛国际需求或需要自定义语音品牌的组织的强大选择。

Google文档中的Gemini音频播放改变了用户与文档互动的方式——使审阅、共享和吸收信息变得更容易。无论您是在编辑、协作，还是只是随时随地聆听，这一功能为您的工作空间带来了新的灵活性。

文章来源：https://allthings.how/gemini-brings-natural-audio-playback-to-google-docs/

标签：

谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI在印度推出低于5美元的ChatGPT计划

下一篇 Meta的配音推广与长期AI语言发展相结合

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术