[Google]AudioLM: 一种用于音频生成的语言建模方法

[Google]AudioLM: 一种用于音频生成的语言建模方法

Published on Nov 4
5分钟
智涌多模
0:00
0:00
<h2><strong>一、概述</strong></h2><p>AudioLM 是 Google Research 提出的一种新型音频生成框架,旨在生成具有长期一致性和高质量的音频。其核心思想是将音频映射到离散的 token 序列,并将音频生成转换为该表征空间中的语言建模任务。</p><p><strong>二、主要思路</strong></p><p>AudioLM 利用现有的音频 tokenizer 来平衡重建质量和长期结构之间的权衡,并提出了一种混合的 tokenization 方案,以实现这两个目标。</p><ul> <li><strong>语义 token:</strong> AudioLM 利用在音频上预训练的掩码语言模型的离散化激活来捕获长期结构,例如语音的语法和语义内容,以及钢琴音乐的和声和节奏。</li> <li><strong>声学 token:</strong> AudioLM 使用 SoundStream 神经音频编解码器生成的离散码来实现高质量合成,捕获音频波形的细节。</li></ul><p>AudioLM 通过在大型原始音频波形语料库上进行训练,学会在给定简短提示的情况下生成自然且连贯的延续。当在语音上进行训练时,即使没有任何文本或注释,AudioLM 也能生成语法和语义上合理的语音延续,同时还能保持未知说话人的身份和韵律。此外,该方法还扩展到语音之外,能够生成连贯的钢琴音乐延续,尽管训练时没有任何音乐的符号表示。</p><p><strong>三、关键技术</strong></p><ul> <li><strong>混合 tokenization 方案:</strong> 结合语义和声学 token,分别捕获音频的长期结构和细节信息。</li> <li><em>"在该 tokenization 方案中,语义 token 启用长期结构一致性,而以语义 token 为条件对声学 token 进行建模则支持高质量音频合成。"</em></li> <li><strong>分层建模:</strong> 首先对整个序列的语义 token 进行建模,然后将其作为条件来预测声学 token。</li> <li><em>"具体来说,我们采用了一种分层方法,首先对整个序列的语义 token 进行建模,然后将其用作条件来预测声学 token。"</e...