S2ST系统传统上是使用以文本为中心的级联开发的,包括自动语音识别(ASR),文本到文本机器翻译(MT)和文本到语音转换(TTS)合成子系统。最近的研究引入了S2ST,它不依赖于中间文本表示。然而,目前与此类研究直接相关的公开语料库很少。
Google AI引入了一种常见的基于语音的语音到语音翻译语料库(CVSS),可以直接用于训练直接S2ST模型,而无需任何额外的处理。
语音到语音翻译是将语音从一种语言自动转换为另一种语言的语音(S2ST)。S2ST模型已被广泛接受,用于弥合讲不同语言的人之间的沟通差距。
S2ST系统传统上是使用以文本为中心的级联开发的,包括自动语音识别(ASR),文本到文本机器翻译(MT)和文本到语音转换(TTS)合成子系统。最近的研究引入了S2ST,它不依赖于中间文本表示。然而,目前与此类研究直接相关的公开语料库很少。
谷歌的一项新研究发布了CVSS,这是一种基于通用语音的语音到语音翻译语料库。从阿拉伯语到斯洛文尼亚语,CVSS 提供从 21 种语言到英语的句子级并行语音到语音翻译对。Common Voice项目使用了1153小时的众包人类志愿者录音,以这21种语言创建语音数据库项目。
CVSS 语料库直接从CoVoST 2 ST语料库生成,进一步源自Common Voice语音语料库。
Common Voice是专门为ASR创建的多语言转录语音语料库。它是由众包演讲准备的,要求志愿者阅读维基百科和其他文本语料库中的文本内容。当前版本7中,有76种语言的11192小时验证语音。
CoVoST 2是一个基于Common Voice的多语言、大规模ST语料库。它包括从21种语言翻译成英语和15种语言翻译成英语。经验丰富的翻译人员从Common Voice脚本中收集了翻译。总共有21个X-En语言对的语音时间达到1154小时。
资料来源:https://arxiv.org/pdf/2201.03713.pdf
对于所有源讲座,提供了两个版本的英语翻译演讲,两个版本都使用最先进的TTS系统进行合成。每个版本都提供如下所示的唯一值:
CVSS-C:在719小时的翻译讲座中,每个演讲都由一位提供一致演讲风格的规范演讲者进行。这些讲座尽管具有合成性质,但表现出高度的自然性和清洁性。这些功能简化了目标语音建模,并使经过训练的模型能够提供适用于面向用户的应用程序的高质量语音翻译。
CVSS-T:翻译演讲,总计784小时,是从匹配的来源演讲转过来的列表。尽管使用不同的语言,但每个S2ST对在两侧都有相似的声音。这使得数据集适合构建模型,这些模型在将语音翻译成外语的同时保留说话者的声音。
除了源对话之外,两个S2ST数据集分别包含1872小时和1937小时的语音。CVSS提供与翻译语音中的发音匹配的规范化翻译文本,这可以帮助模型训练和评估。
CVSS的目标演讲是翻译而不是口译。翻译通常是字面和准确的,而解释通常总结并经常省略不太相关的方面。口译也有更多的语言多样性和不流畅性。
该团队在每个CVSS版本上训练并比较了基线级联S2ST模型和两个基线直接S2ST模型。
Cascade S2ST:该团队在CoVoST 2上训练了ST模型,以构建强大的级联S2ST基线。为了生成功能强大的级联S2ST基线,此ST模型与用于构建CVSS(ST TTS)的相同TTS模型耦合。当仅在语料库上训练时,这些模型在所有21种语言对(在文章中指定)上的平均BLEU比先前最先进的模型高出5.8。
Direct S2ST:使用Translateotron和Translateotron 2,他们创建了两个基线直接S2ST模型。当从一开始就使用CVSS(10.6 BLEU)训练时,Translatotron 2(8.7 BLEU)的翻译质量接近强级联S2ST基线的翻译质量。此外,当将预训练应用于两者时,ASR转录翻译的差异仅为0.7 BLEU。
信息源于:marktechpost