音频制作领域正在迅速发展,专注于计算机视觉(CV)和自然语言处理(NLP)的工作在前一年显著增加。这促使全球学者考虑大型语言模型(LLM)和深度学习可能对该主题做出贡献。本文讨论最近发布的最新音频模型,以及它们如何促进该领域的未来研究。
音频制作领域正在迅速发展,专注于计算机视觉(CV)和自然语言处理(NLP)的工作在前一年显著增加。这促使全球学者考虑大型语言模型(LLM)和深度学习可能对该主题做出贡献。本文讨论最近发布的最新音频模型,以及它们如何促进该领域的未来研究。
第一个模型称为MusicLM,它是由谷歌和IRCAM-Sorbonne Universite的科学家创建的。这种模式创作的音乐可以在文中描述为“轻松的小提琴旋律伴随着失真的吉他即兴演奏”。MusicLM模型可以修改口哨或哼唱旋律的音高和速度,以匹配字幕文本的男高音,因为它是专门在w2v-BERT,SoundStream和MuLan预训练模块上训练的。
谷歌还推荐了SingSong,这是一个可以产生器乐音频的系统,以锁定匹配输入的人声音频。源分离和生成音频建模的进步,这两个音乐技术的重要领域,都被SingSong所利用。该团队修改了AudioLM,通过使用可用的商业源分离技术对源分离数据进行训练,以生成给定语音的乐器。研究人员提出了两种特征化技术,与基线AudioLM改进相比,将孤立人声的质量提高了55%。
Moûsai是一个文本条件级联扩散模型,使我们能够通过联系上下文在一分钟内创建48kHz立体声音乐。它是由苏黎世联邦理工学院和马克斯普朗克智能系统研究所的研究人员
合作开发的。Moûsai模型是由研究人员使用两级级联扩散开发的,可以使用大学中常见的资源进行操作和教学。模型的每个阶段大约需要一周的时间才能在A100 GPU上进行训练。
AudioLDM是一种TTA系统,它使用连续LDM来实现最先进的生成质量,在计算效率和文本条件音频操作方面具有优势,由萨里大学与伦敦帝国理工学院合作推出。此方法能够通过学习如何在潜在空间中创建音频来训练LDM,而无需使用语言-音频对。
最近推出的四种新型号——MusicLM,SingSong,Moûsai和AudioLDM——使该领域的持续研究变得更加容易。音频创作的最新进展令人兴奋。每种模型都有其战略和优势,预计该领域的未来发展将因其使用而产生。深度学习和大型语言模型(LLM)可以为音频创作提供无数优势,并且可能很快就会出现其他创新。
信息源于:citylife
关于我们
21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。