[8月摸鱼计划] Meta 开源 AI 音频生成工具 AudioCraft-摩杜云开发者社区

Open sourcing AudioCraft: Generative AI for audio made simple and available to all

Meta 今天公布了开源 AI 音频生成工具 AudioCraft

AudioCraft 是一个一站式代码库，可满足您所有的生成音频需求：音乐、音效以及原始音频信号训练后的压缩。 https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/

AudioCraft 包含三个模型：

MusicGen 文本生成音乐
AudioGen 文本生成音频
EnCodec 损失更少的音频压缩

MusicGen 使用 Meta 拥有且专门授权的音乐进行训练，根据基于文本的用户输入生成音乐，而 AudioGen 使用公共音效进行训练，根据基于文本的用户输入生成音频。今天，我们很高兴发布 EnCodec 解码器的改进版本，它可以用更少的音损生成更高质量的音乐；我们预先训练的 AudioGen 模型，可让您生成环境声音和声音效果，例如狗叫声、汽车喇叭声或木地板上的脚步声；以及所有 AudioCraft 模型权重和代码。这些模型可用于研究目的并加深人们对该技术的理解。

轻松从文本到音频

近年来，包括语言模型在内的生成式人工智能模型取得了巨大进步，并显示出非凡的能力：从展示空间理解的文本描述生成各种图像和视频，到执行机器翻译甚至文本或文本的文本和语音模型。语音对话代理。然而，尽管我们在图像、视频和文本的生成人工智能方面看到了很多令人兴奋的事情，但音频似乎总是有点落后。那里有一些工作，但它非常复杂并且不是很开放，所以人们无法轻易地使用它。

生成任何类型的高保真音频都需要对不同尺度的复杂信号和模式进行建模。音乐可以说是最具挑战性的音频类型，因为它由本地和远程模式组成，从一组音符到具有多种乐器的全局音乐结构。利用人工智能生成连贯的音乐通常是通过使用 MIDI 或钢琴卷帘等符号表示来解决的。然而，这些方法无法完全掌握音乐中的表达细微差别和风格元素。最近的进展利用了自我监督的音频表示学习以及许多分层或级联模型来生成音乐，将原始音频输入到复杂的系统中，以便捕获信号中的远程结构，同时生成高质量的音频。但我们知道在这个领域还可以做更多的事情。

AudioCraft 系列模型能够产生具有长期一致性的高质量音频，并且可以通过自然界面轻松交互。与该领域之前的工作相比，通过 AudioCraft，我们简化了音频生成模型的整体设计——为人们提供了使用 Meta 在过去几年中开发的现有模型的完整方法，同时也使他们能够突破极限并开发自己的模型。

AudioCraft 适用于音乐和声音的生成和压缩——所有这些都在同一个地方。因为它很容易构建和重用，所以想要构建更好的声音生成器、压缩算法或音乐生成器的人们可以在同一个代码库中完成这一切，并在其他人所做的基础上进行构建。

虽然为了简化模型付出了大量的工作，但团队同样致力于确保 AudioCraft 能够支持最先进的技术。人们可以轻松扩展我们的模型并使其适应他们的研究用例。一旦你允许人们访问模型并根据他们的需求进行调整，就有几乎无限的可能性。这就是我们想要对这个模型系列所做的事情：让人们有能力扩展他们的工作。

一种简单的音频生成方法

从原始音频信号生成音频具有挑战性，因为它需要对极长的序列进行建模。以 44.1 kHz（这是音乐录音的标准质量）采样的典型几分钟音乐曲目由数百万个时间步组成。相比之下，Llama 和 Llama 2 等基于文本的生成模型所输入的文本被处理为子词，每个样本仅代表几千个时间步。

为了应对这一挑战，我们使用EnCodec 神经音频编解码器从原始信号中学习离散音频标记，这为我们提供了音乐样本的新固定“词汇”。然后，我们可以在这些离散的音频标记上训练自回归语言模型，以在使用 EnCodec 的解码器将标记转换回音频空间时生成新的标记以及新的声音和音乐。

从波形中学习音频标记

EnCodec 是一种有损神经编解码器，经过专门训练，可以压缩任何类型的音频并以高保真度重建原始信号。它由一个带有残差矢量量化瓶颈的自动编码器组成，该瓶颈可生成多个具有固定词汇的并行音频标记流。不同的流捕获不同级别的音频波形信息，使我们能够从所有流中重建高保真度的音频。

训练音频语言模型

然后，我们使用单个自回归语言模型对来自 EnCodec 的音频标记进行递归建模。我们介绍了一种简单的方法来利用令牌并行流的内部结构，并表明，通过单一模型和优雅的令牌交错模式，我们的方法可以有效地对音频序列进行建模，同时捕获音频中的长期依赖性，并使我们能够产生高品质的声音。

从文本描述生成音频

文本提示：警报器和嗡嗡作响的发动机接近并通过

通过 AudioGen，我们证明了我们可以训练 AI 模型来执行文本到音频生成的任务。给定声学场景的文本描述，该模型可以生成与具有真实录音条件和复杂场景上下文的描述相对应的环境声音。

文本提示：大地色调、环保意识、尤克里里琴注入、和谐、轻松、随和、有机乐器、柔和的律动

MusicGen 是专门为音乐生成量身定制的音频生成模型。音乐曲目比环境声音更复杂，在创建新颖的音乐作品时，在长期结构上生成连贯的样本尤其重要。MusicGen 接受了大约 400,000 个录音以及文本描述和元数据的训练，总计 20,000 小时的音乐，这些音乐由 Meta 拥有或专门为此目的获得许可。

在此研究的基础上

我们的团队继续致力于先进的生成人工智能音频模型背后的研究。作为此 AudioCraft 版本的一部分，我们进一步提供了新方法，通过基于扩散的离散表示解码方法来提高合成音频的质量。我们计划继续研究音频生成模型的更好可控性，探索其他调节方法，并推动模型捕获更远距离依赖性的能力。最后，我们将继续研究此类音频训练模型的局限性和偏差。

该团队正在努力改进当前模型，从建模角度提高速度和效率，并改进我们控制这些模型的方式，这将开辟新的用例和可能性。

责任和透明度是我们研究的基石

公开我们的工作非常重要，这样研究社区就可以在此基础上继续进行我们关于如何负责任地构建人工智能的重要对话。我们认识到用于训练模型的数据集缺乏多样性。特别是，所使用的音乐数据集包含大部分西式音乐，并且仅包含音频文本对以及用英语编写的文本和元数据。通过共享 AudioCraft 的代码，我们希望其他研究人员能够更轻松地测试新方法，以限制或消除生成模型的潜在偏见和滥用。

开源的重要性

负责任的创新不可能孤立地发生。开源我们的研究和结果模型有助于确保每个人都有平等的机会。

我们正在向研究社区提供多种规模的模型，并共享 AudioGen 和 MusicGen 模型卡，其中详细说明了我们如何根据我们负责任的 AI 实践方法构建模型。我们的音频研究框架和培训代码是在麻省理工学院许可下发布的，以使更广泛的社区能够复制和构建我们的工作。通过开发更先进的控件，我们希望此类模型能够对音乐业余爱好者和专业人士都有用。

拥有坚实的开源基础将促进创新，并补充我们未来制作和聆听音频和音乐的方式：通过音效和史诗音乐思考丰富的睡前故事阅读。通过更多的控制，我们认为 MusicGen 可以变成一种新型乐器 - 就像合成器首次出现时一样。

我们将 AudioCraft 系列模型视为音乐家和声音设计师的专业工具箱，因为它们可以提供灵感，帮助人们快速集思广益，并以新的方式迭代他们的作品。

不要将工作当作一个无法穿透的黑匣子，而是公开我们如何开发这些模型，并确保它们易于人们使用——无论是研究人员还是整个音乐社区——帮助人们理解这些模型可以做什么，了解他们不能做什么，并有权实际使用它们。

未来，生成式人工智能可以帮助人们在早期原型设计和灰盒阶段更快地获得反馈，从而极大地缩短迭代时间——无论他们是为元宇宙构建世界的大型 AAA 开发人员，还是音乐家（业余、专业或否则）正在创作下一个作品，或者希望提升其创意资产的中小型企业主。AudioCraft 是生成式人工智能研究向前迈出的重要一步。我们相信，我们开发的成功生成稳健、连贯和高质量音频样本的简单方法将对考虑听觉和多模态界面的高级人机交互模型的开发产生有意义的影响。我们迫不及待地想看看人们用它创造了什么。

我测试了MusicGen

测试地址：

https://huggingface.co/spaces/facebook/MusicGen

prompt：Midnight to the passenger ship（夜半钟声到客船）

prompt: Clear early morning

·············· END ··············