Stability AI发布可变长度音乐AI模型AudioSparx

2024年02月10日由 daydream 发表 609 0

Stability AI 公司发布了一款名为 AudioSparx 的全新文本到音乐人工智能模型，该模型现在可为其 Stable Audio 产品提供支持。与以前最先进的人工智能音乐生成器相比，这种新模型能够生成高保真、长篇立体声音乐，并具有更多的变化和结构。

微信截图_20240210094913

AudioSparx 1.0 的核心是一个潜在扩散模型，它能根据文本提示快速生成音乐。与之前只能生成 30 秒音频的迭代版本不同，新模型利用增强的调节系统，以 CD 质量的 44.1kHz 采样率可靠地输出长达 95 秒的立体声音乐。

最重要的是，AudioSparx 1.0 能以竞争对手无法比拟的方式模仿完整歌曲的整体形式和进程。生成的音轨包含可识别的引子、诗句/副歌模式、过渡、乐器中断和结尾。这种音乐性体现了对基本歌曲结构的精妙理解。

除音乐外，AudioSparx 1.0 还是首个能根据文本提示真实生成 44.1kHz 立体声效果的人工智能系统。用户可以请求 "户外森林鸟鸣 "等声音，并接收身临其境的双耳音频。用 "高质量、立体声 "来增强提示音会产生最佳效果。

AudioSparx 1.0 同时擅长可变长度的音乐和声音生成，是将多种音频合成功能整合到单一模型中的杰出代表。这种统一能力源于 Stability AI 的通用训练程序，该程序并不严格区分音乐和非音乐音源。

总体而言，AudioSparx 1.0 所采用的创新技术有望为专业创作人员提供一种辅助音频制作的适应性工具。该模型能够提供广泛、精心安排的音乐和声音，超越了以前的基准，满足了以往只能通过人工制作实现的要求。它彰显了 Stability AI 致力于推动人工智能与人类能力相匹配的决心。

文章来源：https://www.maginative.com/article/stability-ai-releases-audiosparx-1-0-for-variable-length-music/

标签：

Stability AI AI 模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌推出TensorFlow GNN 1.0：强化图神经网络开发与扩展能力

下一篇谷歌宣布开源Magika：革新文件格式和内容识别技术

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市