发布时间:11-02
编辑:音频应用
想象一下管风琴的和弦在一个巨大的石头大教堂的洞穴中回荡。
大教堂观众听到的声音受到许多因素的影响,包括管风琴的位置、听众站立的位置、它们之间是否有任何柱子、长椅或其他障碍物、墙壁是由什么组成的、窗户或门口的位置等。听到声音可以帮助人们想象他们的环境。
麻省理工学院(MIT)和MIT-IBM Watson AI实验室的研究人员正在探索使用空间声学信息来帮助机器更好地设想他们的环境。他们开发了一种机器学习模型,可以捕获房间中的任何声音如何在空间中传播,使模型能够模拟听众在不同位置听到的声音。
通过精确模拟场景的声学效果,系统可以从录音中学习房间的基本3D几何形状。研究人员可以使用他们的系统捕获的声学信息来构建房间的准确视觉渲染,类似于人类如何使用声音估计物理环境的特性。
除了在虚拟现实和增强现实中的潜在应用外,这项技术还可以帮助人工智能代理更好地了解周围的世界。例如,通过模拟环境中声音的声学特性,水下探索机器人可以感知比仅凭视觉更远的事物,电气工程与计算机科学系(EECS)的研究生Yilun Du表示,他是一篇描述该模型的论文的合著者。
“到目前为止,大多数研究人员只专注于视觉建模。但作为人类,我们有多模态感知。不仅视觉很重要,声音也很重要。我认为这项工作为更好地利用声音来模拟世界开辟了一个令人兴奋的研究方向。“Du说。
声音和视觉
在计算机视觉研究中,一种称为隐式神经表示模型的机器学习模型已被用于从图像生成平滑、连续的3D场景重建。这些模型利用神经网络,其中包含互连节点或神经元层,这些节点或神经元处理数据以完成任务。
麻省理工学院的研究人员采用了相同类型的模型来捕捉声音如何在场景中连续传播。
但他们发现,视觉模型受益于一种称为光度一致性的特性,该特性不适用于声音。如果从两个不同的位置观察同一个对象,则对象看起来大致相同。但是对于声音,由于障碍物、距离等原因,改变位置和听到的声音可能会完全不同。这使得预测音频变得非常困难。
研究人员通过将声学的两个特性纳入他们的模型中来克服这个问题:声音的相互性质和局部几何特征的影响。
声音是相互的,这意味着如果声音源和听者交换位置,那么人听到的内容是不变的。此外,人们在特定区域听到的内容受到当地特征的严重影响,例如听众和声音源之间的障碍物。
为了将这两个因素纳入他们的模型中,称为神经声场(NAF),他们使用网格来增强神经网络,该网格捕获场景中的对象和建筑特征,如门口或墙壁。模型对该格网上的点进行随机采样,以了解特定位置的特征。
“如果你想象站在门口附近,对你听到的声音影响最大的是那个门口的存在,不一定是房间另一边离你很远的几何特征。我们发现这些信息比简单的全连接网络能够更好地泛化。“研究人员说。
从预测声音到可视化场景
研究人员可以向NAF提供有关场景的视觉信息和一些频谱图,以显示当发射器和听众位于房间周围的目标位置时,一段音频听起来会是什么样子。然后,该模型预测如果听者移动到场景中的任何点,音频听起来会是什么样子。
NAF输出脉冲响应,该响应捕获声音在场景中传播时应如何变化。然后,研究人员将这种脉冲反应应用于不同的声音,以听到当一个人穿过房间时这些声音应该如何变化。
例如,如果一首歌从房间中央的扬声器播放,他们的模型将显示当一个人接近扬声器时,声音如何变得更大,然后在他们走到相邻走廊时变得低沉。
当研究人员将他们的技术与其他模拟声学信息的方法进行比较时,它在每种情况下都产生了更准确的声音模型。而且由于它学习了局部几何信息,他们的模型能够比其他方法更好地泛化到场景中的新位置。
此外,他们发现,将他们的模型学习的声学信息应用于计算机视觉模型可以导致更好的场景视觉重建。
“例如,当你只有一组稀疏的视图时,使用这些声学特征可以让你更清晰地捕捉边界。也许这是因为要准确渲染场景的声学效果,您必须捕获该场景的底层3D几何体。“Du说。
研究人员计划继续增强该模型,使其能够推广到全新的场景。他们还希望将这种技术应用于更复杂的脉冲响应和更大的场景,例如整个建筑物甚至城镇或城市。
“这项新技术可能会为在元宇宙应用程序中创建多模式沉浸式体验开辟新的机会。”
信息源于:MIT
关于我们
21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。
我对产品很感兴趣,请尽快联系我!
请问我所在的地区有商家吗?
我想详细了解购买流程!
购买该产品享受八折优惠,还能得到技术支持?
我想购买请电话联系我!
购买所需要的费用有哪些?
产品很好,请尽快联系我详谈!
声明:该文观点仅代表作者本人,音频应用发布平台仅提供信息存储空间服务。加微信:254969084带你进群学习!百家号免费发布
发布
电话
微博
公众号
回顶部