当前位置:首页电脑音频厂商动态声学视听音频正文

元宇宙如何获得更好的音频体验？Meta开放三种新型AI驱动的声学模型

发布时间：08-02 编辑：音频应用

Meta AI与德克萨斯大学合作，开源了三种基于视听感知的新模型，可以帮助改善AR/VR体验。此次发布代表着Meta向元宇宙方向进一步转化。

第一个模型，视觉声学匹配模型（AViTAR），可以帮助转换音频剪辑中的声学效果，并使其听起来像特定图像中的目标空间。例如，一段听起来像是在一个空旷的地方录制的音频片段，可以与一个拥挤的餐厅的图像相匹配，从而产生听起来像是在餐厅的音频。

第二种模式被称为视觉信息去混响（visual-informed Dereverberation，VIDA），顾名思义，它执行相反的功能。VIDA使用观察到的声音和视觉线索来去除特定音频模式的混响。该模型提高了语音的质量，有助于语音的自动识别。

第三个模型是VisualVoice，它使用视听线索将语音与背景噪声分开。

虽然已经有相当多的研究致力于创造更好的视觉效果，但Meta AI还打算创造出让用户沉浸其中的声音。该公司创始人兼首席执行官马克·扎克伯格说：“正确处理空间音频是在元宇宙中传递现实存在感的关键。”“如果你在听音乐会或者只是在虚拟的桌子旁与朋友交谈，声音来自哪里的现实感会让你感觉自己就在那里。”

信息源于：analyticsindiamag

关于我们

21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体，专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。

技术交流群：①群 50691091 ②群 628548312

标签：

您可以根据下列意向选择快捷留言

我对产品很感兴趣，请尽快联系我！

请问我所在的地区有商家吗？

我想详细了解购买流程！

购买该产品享受八折优惠，还能得到技术支持？

我想购买请电话联系我！

购买所需要的费用有哪些？

产品很好，请尽快联系我详谈！

声明：该文观点仅代表作者本人，音频应用发布平台仅提供信息存储空间服务。加微信：254969084带你进群学习！百家号免费发布

音频应用音频资讯

厂商行业新闻