微软的 VALL-E 可以从 3 秒样本中复制任何人的声音

微软最近推出了其最新的文本转语音人工智能模型 VALL-E,它几乎可以完美地复制一个人的声音。 该模型只需要三秒钟的音频样本即可进行训练。 一旦它学会了一种特定的声音,它就可以合成那个人说任何话的音频,同时保留说话者的情绪基调和环境。

它是如何工作的?

VALL-E 背后的技术是 EnCodec,Meta 于 2022 年 10 月推出了该技术。EnCodec 使 VALL-E 能够从文本和声音提示中生成离散的音频编解码器代码。 这不同于通常通过修改波形来合成语音的传统文本到语音系统。

Meta 还构建了团队用来训练 VALL-E 的音频库 LibriLight。 该图书馆包含 60,000 小时的英语语音中的 7,000 多种不同的声音,大部分是从 LibriVox 公共领域有声读物中提取的。 此外,VALL-E 还可以模仿样本音频的“声学环境”。 例如,它可以在其合成输出中模拟电话通话的声学和频率特性,使其听起来像电话。

然而,根据研究人员发表的论文,该模型的结果好坏参半,有些听起来像机器,有些则非常逼真。 但它保留了原始样本的情感基调,使那些工作更容易接受。

微软VALL-E的未来潜力

即使有其局限性,VALL-E 仍具有巨大的潜力,可以在娱乐、教育甚至语音助手等各个行业中发挥实际作用。 然而,该团队承认存在滥用的可能性,研究论文指出,不良行为者可以在他们不知情的情况下使用它来欺骗或冒充他人。

微软没有宣布发布 VALL-E 公共版本的计划,但研究论文提到建立一个模型来检测 VALL-E 生成的实际语音是可能的。 微软表示:“由于 VALL-E 可以合成保持说话人身份的语音,因此它可能会带来滥用该模型的潜在风险,例如欺骗语音识别或冒充他人。”