当前位置:首页  音频新闻  厂商动态  新品快讯音频正文

AI人工智能语音生成“达到了人类的水平”,但发布太危险了

发布时间:07-16 编辑: locationsound同期录音网

​微软开发了一种新型人工智能(AI)语音生成器,其逼真程度之高,显然无法向公众发布。



AI人工智能语音生成“达到了人类的水平”,但发布太危险了

 



VALL-E 2是一种文本到语音(TTS)生成器,只需几秒的音频即可再现人类说话者的声音。



640_wx_fmt=jpeg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1.webp (2).png


微软研究人员在6月17日发表于pre-print server arXiv上的一篇论文中表示,VALL-E 2能够“以与原始说话者完全相同的嗓音生成准确、自然的语音,堪比人类的表现”。换言之,根据其创作者的描述,这种新型人工智能语音生成器的逼真程度足以让人误认为是真人发声。





研究人员在论文中写道:




“VALL-E 2是神经编解码语言模型的最新进展,标志着零样本文本到语音合成(TTS)领域的一个里程碑,它首次实现了与人类表现相当的水平。”“此外,VALL-E 2始终能够合成高质量的语音,即使是一些因其复杂性或重复性短语而传统上难以合成的句子,也不例外。”






在此语境下,与人类表现相当是指,根据微软使用的基准测试,VALL-E 2生成的语音与人类语音的质量相当或更优。




该人工智能引擎之所以能做到这一点,是因为其包含了两项关键功能:“重复感知采样”和“分组编码建模”。




“重复感知采样”通过处理“词元”的重复——即语言的小单位,如单词或单词的部分——来改善人工智能将文本转换为语音的方式,从而防止解码过程中出现声音或短语的无限循环。换言之,该功能有助于改变VALL-E 2的语音模式,使其听起来更加流畅自然。




与此同时,“分组编码建模”通过减少序列长度(即模型在单个输入序列中处理的单个词元的数量)来提高效率。这加快了VALL-E 2生成语音的速度,并有助于处理长串声音所带来的难题。




研究人员使用语音库LibriSpeech和VCTK中的音频样本来评估VALL-E 2与人类说话者录音的匹配程度。他们还使用了ELLA-V(一种旨在衡量生成语音的准确性和质量的评估框架)来确定VALL-E 2处理更复杂的语音生成任务的效果。




研究人员写道:




“我们在LibriSpeech和VCTK数据集上进行的实验表明,VALL-E 2在语音稳健性、自然度和说话者相似性方面超越了以往的零样本文本到语音合成(TTS)系统。它是首个在这些基准测试中达到与人类表现相当水平的同类系统。”




研究人员在论文中指出,VALL-E 2输出的质量取决于语音提示的长度和质量,以及背景噪音等环境因素。




尽管VALL-E 2功能强大,但微软出于对其可能被滥用的担忧,不会将其向公众发布。这与人们对语音克隆和深度伪造技术日益增长的担忧不谋而合。其他人工智能公司,如OpenAI,也对其语音技术实施了类似的限制。




“VALL-E 2 纯粹是一个研究项目。目前,我们没有计划将 VALL-E 2 整合到产品中或向公众开放访问权限,”研究人员在一篇博客文章中写道。“它可能带来模型滥用的潜在风险,例如伪造语音识别或冒充特定说话者。”




尽管如此,他们确实建议 AI 语音技术在未来可能会有实际应用。“VALL-E 2 可以合成保持说话者身份的语音,可能用于教育学习、娱乐、新闻、自创内容、无障碍功能、交互式语音响应系统、翻译、聊天机器人等,”研究人员补充道。




他们继续说道:


“如果该模型在真实世界中推广到未见过的说话者,则应包含一个协议,以确保说话者批准使用其语音,并包含一个合成语音检测模型。”


立即咨询低价
您可以根据下列意向选择快捷留言

我对产品很感兴趣,请尽快联系我!

请问我所在的地区有商家吗?

我想详细了解购买流程!

购买该产品享受八折优惠,还能得到技术支持?

我想购买请电话联系我!

购买所需要的费用有哪些?

产品很好,请尽快联系我详谈!

*姓名:
*电话:
留言:
*验证码:

声明:该文观点仅代表作者本人,音频应用发布平台仅提供信息存储空间服务。加微信:254969084带你进群学习!百家号免费发布

最新音频交流