当前位置:首页  音频新闻  厂商动态  声学视听音频正文

元宇宙如何获得更好的音频体验?Meta开放三种新型AI驱动的声学模型

发布时间:08-02 编辑:音频应用

Meta AI与德克萨斯大学合作,开源了三种基于视听感知的新模型,可以帮助改善AR/VR体验。此次发布代表着Meta向元宇宙方向进一步转化。

Meta AI与德克萨斯大学合作,开源了三种基于视听感知的新模型,可以帮助改善AR/VR体验。此次发布代表着Meta向元宇宙方向进一步转化。

 


第一个模型,视觉声学匹配模型(AViTAR),可以帮助转换音频剪辑中的声学效果,并使其听起来像特定图像中的目标空间。例如,一段听起来像是在一个空旷的地方录制的音频片段,可以与一个拥挤的餐厅的图像相匹配,从而产生听起来像是在餐厅的音频。




第二种模式被称为视觉信息去混响(visual-informed Dereverberation,VIDA),顾名思义,它执行相反的功能。VIDA使用观察到的声音和视觉线索来去除特定音频模式的混响。该模型提高了语音的质量,有助于语音的自动识别。




第三个模型是VisualVoice,它使用视听线索将语音与背景噪声分开。




虽然已经有相当多的研究致力于创造更好的视觉效果,但Meta AI还打算创造出让用户沉浸其中的声音。该公司创始人兼首席执行官马克·扎克伯格说:“正确处理空间音频是在元宇宙中传递现实存在感的关键。”“如果你在听音乐会或者只是在虚拟的桌子旁与朋友交谈,声音来自哪里的现实感会让你感觉自己就在那里。”




信息源于:analyticsindiamag






  关于我们  


21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。


声明:该文观点仅代表作者本人,音频应用信息发布平台,官网仅提供信息存储空间服务。
最新音频交流