微软的 VALL-E 可以从 3 秒样本中复制任何人的声音

微软最近推出了其最新的文本转语音人工智能模型 VALL-E，它几乎可以完美地复制一个人的声音。该模型只需要三秒钟的音频样本即可进行训练。一旦它学会了一种特定的声音，它就可以合成那个人说任何话的音频，同时保留说话者的情绪基调和环境。

它是如何工作的？

VALL-E 背后的技术是 EnCodec，Meta 于 2022 年 10 月推出了该技术。EnCodec 使 VALL-E 能够从文本和声音提示中生成离散的音频编解码器代码。这不同于通常通过修改波形来合成语音的传统文本到语音系统。

Meta 还构建了团队用来训练 VALL-E 的音频库 LibriLight。该图书馆包含 60,000 小时的英语语音中的 7,000 多种不同的声音，大部分是从 LibriVox 公共领域有声读物中提取的。此外，VALL-E 还可以模仿样本音频的“声学环境”。例如，它可以在其合成输出中模拟电话通话的声学和频率特性，使其听起来像电话。

然而，根据研究人员发表的论文，该模型的结果好坏参半，有些听起来像机器，有些则非常逼真。但它保留了原始样本的情感基调，使那些工作更容易接受。