AI语音克隆技术取得突破：嘈杂环境下清晰度超越人类，有望革新听力辅

在声学科学领域一项出人意料的发现中，研究人员揭示，人工智能（AI）生成的语音克隆在理解难度上显著低于真实人类语音。

这项研究表明，尽管仅需短短10秒的音频数据进行训练，这些合成的“语音替身”在嘈杂环境中，其清晰度比人类语音高出多达20%。

这项研究的核心发现颠覆了传统认知。研究指出，语音克隆不仅“足够好”，在传输清晰度方面，它们在统计学上表现出显著的优越性，清晰度最高可提升20%。更令人瞩目的是其高效性：与传统合成语音（如Siri）需要语音演员数小时的录音不同，语音克隆仅需10秒的语音数据即可生成，这使其在电信和无障碍工具领域具有极高的可扩展性。从临床价值来看，这项研究预示着AI增强语音有望为听力受损人士或使用辅助听力设备的用户带来革命性的改变。

合成语音已日益融入我们的日常生活，从Siri和Alexa等数字助理，到自动电话推销员和应答机。随着生成式AI的蓬勃发展，一种新型的合成语音——语音克隆——应运而生。这种技术能够仅凭几秒钟的录音，就再现一个人的声音。

在由AIP Publishing代表美国声学学会出版的《JASA》期刊上，来自伦敦大学学院和罗汉普顿大学的两名研究人员对人类语音和语音克隆的清晰度进行了评估。他们的研究结果显示，在嘈杂环境中，语音克隆比人类语音更容易被理解。

语音克隆与传统合成语音的主要区别在于其所需的采样数据量。Siri等传统合成语音的生成，需要语音演员在录音棚中花费数小时进行录制。相比之下，语音克隆仅需短短10秒的语音即可制作完成，这极大地扩展了可使用的声音数量及其潜在的应用范围。

研究人员帕蒂·阿丹克（Patti Adank）和王涵（Han Wang）专注于研究人类对不清晰语音的感知。他们对机器复制语音的概念深感兴趣，并试图解答一个关键问题：普通人理解语音克隆的难易程度究竟如何？

最初，他们猜测语音克隆可能只是对真实人类语音的拙劣模仿，人们会难以理解。然而，他们的发现却与预期截然相反。

阿丹克表示：“我最初认为语音克隆会因为不熟悉而更难理解。但结果却让我非常震惊，我发现它们的清晰度最高可提升20%。我们论文的一小部分讨论了这项实验，而大部分篇幅则是我和我的合作者在竭力探究究竟是什么让这些语音克隆如此清晰。”

研究团队首先向志愿者呈现了人类语音和语音克隆，并要求他们评估其清晰度。在发现语音克隆始终被评定为更易理解后，他们进一步重复了实验：针对老年志愿者，以探究听力障碍是否会影响这一效果；针对美国志愿者（最初的受试者为英国人），以判断口音是否起到作用；以及使用模拟人工耳蜗的滤波器进行测试。在所有这些情况下，语音克隆都表现出压倒性的优势。

在分析了超过100项声学测量数据后，阿丹克认为，解开这一谜团的唯一途径是与专攻文本转语音系统的合作者携手，共同改造现有的开源克隆系统。

阿丹克说：“我现在将通过研究合成器的工作原理，以及它们如何利用数字信号处理技术生成这些声音，来尝试重现并深入理解这一现象。”

这项研究也引发了人们对AI语音未来应用的思考。例如，在嘈杂环境中获取方向指引或客户支持等纯粹信息时，大脑可能已经开始偏好AI语音。然而，人类语音承载着情感细微差别和“灵魂”，这是当前语音克隆仍难以完美复制的。因此，我们可能为了清晰度而选择AI，但为了情感连接仍会选择人类。

研究还解释了为何AI语音对人工耳蜗用户尤其有利：人工耳蜗在处理人类语音中固有的“噪音”和生物学上的不完美时会遇到困难。而AI语音则具有数字化的精确性，能提供更清晰的信号，这使得人工耳蜗的处理器更容易将其转化为电脉冲，传递给大脑。

此外，通过深入理解AI语音为何如此清晰，科学家们有望开发出“语音增强器”。这种技术可以实时接收人类语音，并利用这些已发现的声学规则进行数字化“清理”，从而帮助他人更好地理解原始的人类语音。