英伟达发布创新音频生成AI模型Fugatto

2024年11月26日由 daydream 发表 787 0

近日，英伟达公司（Nvidia Corp.）加入了Meta Platforms Inc.、OpenAI和Runway AI Inc.的行列，发布了一款能够根据人类语言提示生成“全新”音乐和音频的生成式人工智能模型。

微信截图_20241126101715

这款名为Fugatto（全称为Foundational Generative Audio Transformer Opus 1）的模型，据芯片制造商英伟达表示，其独特之处在于能够修改人声并创造出其他模型无法生成的新颖声音。

尽管英伟达以制造驱动AI模型的强大图形处理器而著称，但出于安全方面的考虑，该公司尚未公开发布Fugatto模型。

英伟达指出，Fugatto与其他音乐和音频生成模型的不同之处在于，它能够吸收和修改现有声音。例如，它可以听取钢琴上演奏的音乐片段，并将该声音转换为人类嗓音或小提琴等其他乐器的音符。它还可以录制人类声音，并改变歌唱中的口音和情绪表达。

尽管声称Fugatto的声音完全新颖可能有些误导，因为像所有AI模型一样，其输出也来自使用现有数据源来尝试创建满足用户提示请求的算法。然而，英伟达表示，Fugatto能够通过叠加两种不同的音频效果来创建前所未有的“声音景观”。

英伟达在YouTube上发布的一段视频中展示了Fugatto的功能，如生成火车声音并逐渐转变为管弦乐演奏，或将快乐的声音转变为愤怒的声音等。

英伟达声称，这种功能在之前的音频生成模型中尚未见过。此外，除了基本的提示工程外，Fugatto还为用户提供了更精细的控制来编辑他们创建的声音景观。

英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗（Bryan Catanzaro）向路透社表示，生成式AI有可能像电子合成器那样影响音乐制作。

他表示：“如果我们回顾过去50年的合成音频，现在的音乐听起来与计算机有所不同。生成式AI将为音乐、视频游戏和普通想要创作的人带来新的功能。”

英伟达并非首家尝试生成式AI音乐创作的公司。上个月，Meta推出了一款名为Movie Gen的新模型，可以为生成的短片同时创建视频和声音景观。

关于训练Fugatto所使用的数据，英伟达透露的信息不多，只表示它由来自开源数据的“数百万个音频样本”组成。该公司还证实，与Meta一样，它目前也没有计划将Fugatto提供给AI开发人员。卡坦扎罗表示，他的团队仍在讨论如何安全地向公众发布该模型。

文章来源：https://siliconangle.com/2024/11/25/nvidias-new-music-generation-model-fugatto-creates-never-heard-sounds/

标签：

英伟达音频 AI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Anthropic发布MCP工具，推动AI与数据源无缝对接

下一篇苹果2024年度应用大奖：AI影响低调，创意应用受青睐

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体

Grok 4.5登场：编码与长程智能体再升级

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

OpenAI首款推理芯片亮相，年底开始部署

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市

OpenAI GPT-Live：实时语音模型再升级