在Google文档中阅读冗长的报告或编辑草稿可能会减缓工作流程,尤其是对于那些通过聆听更好地处理信息的用户。Google的Gemini AI现在通过在Google文档中引入内置音频生成功能来解决这一限制,让用户只需点击几下即可将书面内容转换为自然流畅的语音。
在Google文档中使用Gemini音频播放
步骤1:在网络上打开您的Google文档。确保文档中包含您想要收听的文本——没有内容,音频播放将不会开始。
步骤2:从顶部菜单中选择新的音频功能工具 > 音频 > 收听此标签
。或者,使用工具栏的专用“收听此标签”按钮以更快的访问。此操作将在您的屏幕上直接启动一个浮动音频播放器。
步骤3:使用播放器界面控制播放。您可以播放、暂停或拖动音频,调整播放速度,并从多个语音配置文件中选择——包括叙述者、教育者、教师、说服者、解释者、教练和激励者。每种声音提供不同的语调和表达方式,因此您可以选择最符合您内容或偏好的风格。
步骤4:将浮动音频播放器移动到屏幕上的任何位置以方便使用。播放器显示总时长和当前进度,使您可以轻松跟踪您的聆听会话,或在通过耳朵发现问题时暂停进行编辑。
为文档查看者添加音频按钮和芯片
对于协作文档或共享报告,编辑者可以直接在文档中插入音频按钮。这让查看者可以播放特定部分或整个文档的音频,而无需导航菜单。
步骤1:要插入音频按钮,请转到插入 > 音频按钮 > 收听标签
。放置后,您可以自定义按钮的标签、大小和颜色,以适应文档的设计或突出显示重要部分。
步骤2:要为特定部分添加音频芯片,突出显示所需文本,输入@
,并从菜单中选择“收听标签”。这会嵌入一个交互式芯片,触发该部分的音频播放。
这些功能特别有助于提高文档的可访问性,或为那些更喜欢听而不是读的同事提供便利。嵌入和自定义音频控件的能力简化了审查和反馈周期,尤其是在团队环境中。
Gemini的文本转语音幕后工作原理
Gemini的音频生成使用先进的文本转语音(TTS)模型,能够以多种风格生成逼真的语音。该技术支持多种声音,并允许对语调、节奏和清晰度进行微调。这种方法不仅使音频听起来更自然,还帮助听众捕捉到在默读时可能会错过的细微差别或错误。
对于开发人员或对技术细节感兴趣的人,Gemini的TTS可以通过GeminiAPI访问,支持单人和多人语音。自定义提示可以进一步调整表达方式,使模拟对话或为叙述设置特定情绪成为可能。虽然文档集成专注于简单的文档阅读,但其底层技术足够强大,可以用于更具创意的场景,如播客或有声书生成。
支持的计划和语言可用性
目前,Google文档中的Gemini音频功能对符合条件的Google Workspace或Google AI订阅用户开放,包括AI Pro和Ultra计划、商业标准和Plus,以及针对教育和企业客户的各种Gemini附加组件。该功能仅在网络上推出,并在启动时支持英语,未来可能会扩展到更多语言和平台。
播放选项设计为直观,音频功能可用于校对、提高可访问性,或在多任务处理时吸收信息。反馈选项集成在音频播放器中,允许用户直接向Google的AI团队报告问题或提出改进建议。
替代方法:使用Gemini的API和其他TTS工具
虽然内置的文档功能是日常用户最无缝的方法,但具有技术背景的人可以利用Gemini API在自定义工作流程中从文本生成音频。这种方法提供了更多的灵活性,例如选择更广泛的声音范围、与其他应用程序集成或生成多种语言的音频。
例如,开发人员可以使用Python或JavaScript将文本发送到Gemini的TTS模型,并接收音频文件作为回报。API支持高级功能,如多说话者对话、SSML(用于语音标记)和自定义音调或速度设置。这种方法非常适合大规模自动化音频生成或将TTS嵌入专有应用程序中。
此外,Google Cloud的文本转语音API提供类似的功能,拥有数百种声音和对数十种语言的支持,是那些有更广泛国际需求或需要自定义语音品牌的组织的强大选择。
Google文档中的Gemini音频播放改变了用户与文档互动的方式——使审阅、共享和吸收信息变得更容易。无论您是在编辑、协作,还是只是随时随地聆听,这一功能为您的工作空间带来了新的灵活性。