AI声音克隆，是技术的进步还是人类的威胁？

仅凭一段15秒的音频样本，就能够生成与说话者高度相似且富有感情的自然语音。前不久，OpenAI分享了他们在AI语音合成方面的创新成果——语音生成模型Voice Engine。

Voice Engine有哪些用途？

据悉，Voice Engine于2022年开始开发，用于支持ChatGPT的朗读功能以及文本到语音功能。值得一提的是，为了更好地了解Voice Engine的潜在用途，OpenAI与一小群值得信赖的合作伙伴进行测试。

图片来源：千库网

第一，提供阅读协助。通过自然、富有感情的声音为儿童提供阅读帮助。Age ofLearning是一家致力于儿童学业成功的教育技术公司，一直在使用Voice Engine来生成预先编写的画外音内容。同时结合GPT-4，还创建出了实时且个性化的响应，以此与学生们进行有效的互动。这样的技术整合让Age of Learning有能力为更广泛的受众创造出更丰富的学习内容。

第二，翻译视频内容。HeyGen是一家短视频内容AI口型匹配和翻译领域参与者。该公司与企业客户合作，为产品营销、销售演示等各种内容创建定制的人形化身。Voice Engine能够将说话者的声音转化为多种语言，使得内容可以触及全世界的观众。在翻译过程中，Voice Engine还有一个独特的功能，那就是能够保留原始说话者的本土口音。比如，若使用来自法语说话者的音频样本来生成英语，输出的英语将会带有法语的口音，这样的处理使得翻译结果更具真实感和生动性。

第三，为语言障碍者提供支持。Voice Engine可以为患有影响言语疾病的人提供治疗应用。Livox是一款采用人工智能的替代及增强通信(AAC)应用，通过Voice Engine，用户能够挑选出最能代表自己的语音，并且对于掌握多种语言的用户而言，它确保了在不同语言中都能保持声音的一致性。

由此可见，Voice Engine的推出标志着语音生成技术取得了显著的突破。不过，我们也必须清醒地认识到，随着生成与人类声音高度相似的语音技术的不断发展，这也可能带来合成语音被滥用的风险。

OpenAI指出，Voice Engine测试伙伴已经使用政策，例如禁止在未经同意或合法权利的情况下冒用他人或组织、合作伙伴必须清楚地向听众披露他们所听到的声音是人工智能产生的。除此之外，OpenAI还实施了一系列的安全措施，包括水印跟踪语音引擎生成的任何音频源头，以及针对其使用情况进行主动监控。

AI声音克隆将带来安全挑战？

尽管OpenAI在实施各种政策和安全措施以尽量确保AI技术的合规和安全使用，但是此类技术的发展不可避免地伴随着一些潜在的风险和挑战。

第一，欺诈行为。由于AI声音克隆技术能够轻易地复制和篡改语音，这将为各种欺诈活动如语音网络钓鱼、散播虚假信息等提供了便利。

第二，伦理道德。AI声音克隆所带来的伦理冲击和后果不容忽视。未经许可使用他人声音，无疑是对其个人权利的侵犯，这进一步引发了关于声音所有权和使用同意等深层次的道德议题。

第三，诈骗电话。语音克隆正迅速成为人工智能诈骗电话中备受追捧的方法。诈骗者只需利用在线获取的个人语音片段，即可轻松上传到能模仿这些声音的专业网络工具。尽管此类应用早已存在，但生成式AI的发展使其变得更加易于获取和使用。

第四，侵犯隐私。如果AI声音克隆技术被滥用，个人隐私将面临严重威胁。不法分子可能会获取以合法途径收集的录音资料，并利用这些声音信息进行假冒、欺诈乃至勒索等非法活动。此类行为将严重侵犯个人隐私权，并可能对受害人的财产安全、人身安全以及社会声誉造成深远的不良影响。

图片来源：千库网

需要指出的是，AI声音克隆技术有可能对许多行业产生深远影响，尤其是那些高度重视真实性、信任和人际关系的行业。

例如，在客户服务领域，语音互动是提供个性化帮助和支持的重要手段。然而，AI声音克隆技术的出现却为不法分子提供了新的欺诈手段。不法分子可以通过复制客户服务代理的语音来实施网络钓鱼或其他欺诈行为，严重威胁用户的信息安全。在新闻媒体领域，AI声音克隆技术可能被用于传播误导性信息、制造假新闻，甚至操纵公众舆论，对社会造成不良影响。

此外，金融领域也面临类似的风险。目前，基于语音的生物识别身份验证系统在安全访问和银行交易中被广泛应用。如果AI声音克隆技术被不法分子用来克隆用户声音，进而非法访问账户，进行欺诈活动。这不仅会削弱金融机构的信任度和安全性，还可能给用户带来巨大经济损失。

由此可见，鉴于AI声音克隆技术可能带来的潜在危险和不利影响，制定全面的规则和条例变得越来越重要。

写在最后：

科技是一柄双刃剑，AI声音克隆技术也不例外。当我们欣赏这项技术所带来的便捷与进步时，也需要警惕其潜在的负面影响，以确保其健康、可持续地发展。