发布时间:02-15
编辑:21dB声学人
苹果公司与罗切斯特大学联合开发生成式空间音频模型,进一步提升沉浸式体验
近日,来自罗切斯特大学和苹果公司的研究人员推出了ImmerseDiffusion,这是一种端到端的生成式音频模型,能够根据声音对象的空间、时间和环境条件生成3D沉浸式音景。
经过训练后的ImmerseDiffusion专注于生成一阶Ambisonics(FOA)音频。FOA 是一种包含四个通道的传统空间音频格式,能够渲染为多通道空间输出。ImmerseDiffusion通过空间音频编解码器将 FOA 音频映射到潜在组件,并结合基于用户输入(如文本提示、空间、时间和环境声学参数)的潜在扩散模型,实现了对声音的精准空间定位和环境模拟。
图片
(Ⅰ)描述性条件模块:集成了ELSA文本条件器,用于对详细描述音频源、空间和环境背景的提示进行编码,还包含时间条件模块。(Ⅱ)参数化条件模块:包含LAION文本编码器,用于提供非空间文本嵌入,以及参数化的空间、环境和时间条件模块。(Ⅲ)ImmerseDiffusion整体架构,由环绕声自动编码器、条件模块和基于变压器的扩散模型组成,涵盖训练和推理流程示意图。
研究团队提出了两种模式:“描述性”模式和“参数化”模式。描述性模式通过空间文本提示生成空间音频,适用于叙事驱动的应用场景,如电影音频;参数化模式则结合非空间文本提示和空间参数,更适合于游戏引擎和虚拟仿真等机器中心的应用。
评估结果显示,ImmerseDiffusion 在生成质量和空间一致性方面表现出色,能够根据用户条件生成可靠的空间音频。
为了衡量生成音频的质量和空间一致性,研究团队提出了新的评估指标,包括环境声 Fréchet 音频距离(FAD)、空间 Kullback–Leibler(KL)散度和空间对比语言与音频预训练(CLAP)分数。此外,他们还通过方位角、仰角和距离的 L1 分数评估空间准确性。
ImmerseDiffusion 的核心架构包括三个主要组件:空间自编码器、基于交叉注意力的条件块和基于 Transformer 的扩散模型。空间自编码器能够将四通道的环境声信号编码到连续的潜在域,并解码回波形表示。条件块则根据描述性和参数化生成模式的不同,分别整合空间信息。扩散模型则在自编码器的潜在域上运行,生成与音频源描述、空间、环境和时间线索对齐的空间音频。
研究团队在多个数据集上训练了 ImmerseDiffusion 模型,包括 FreeSound、AudioCaps、Clotho、LibriSpeech 及其对应的 FOA 噪声数据集。这些数据集提供了空间化音频、原始字幕、空间和环境参数以及空间化字幕。
实验结果表明,ImmerseDiffusion 在描述性和参数化模式下均能生成高质量的空间音频,且在空间定位精度上表现出色。
在实际应用中,ImmerseDiffusion 模型展现出了巨大的潜力。想象一下,一款新的3D冒险游戏需要构建一个充满奇幻生物的神秘森林场景,怪物的嘶吼、鸟儿的鸣叫、风吹树叶的沙沙声等音效需要精确地定位在游戏空间中,以帮助玩家更好地感知周围环境。
利用ImmerseDiffusion 模型的参数化模式,游戏开发团队通过输入精确的空间参数,如怪物的位置坐标、声音传播的距离衰减等,结合怪物和环境音效的文本描述,就可以生成逼真的空间音频。
ImmerseDiffusion 模型应用前景广阔,除了用于虚拟现实游戏,还可用于电影音效制作、教育和医疗等领域。目前,ImmerseDiffusion 尚处于研究和开发阶段,研究人员表示将进一步优化模型性能,提高生成音频的空间定位精度和环境适应性。
更多信息:Heydari, M., Souden, M., Conejo, B., & Atkins, J. (2025). ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model [cs.SD]. arXiv:2410.14945v2.
我对产品很感兴趣,请尽快联系我!
请问我所在的地区有商家吗?
我想详细了解购买流程!
购买该产品享受八折优惠,还能得到技术支持?
我想购买请电话联系我!
购买所需要的费用有哪些?
产品很好,请尽快联系我详谈!
声明:该文观点仅代表作者本人,音频应用发布平台仅提供信息存储空间服务。加微信:254969084带你进群学习!百家号免费发布
发布
电话
微博
公众号
回顶部