行业分类:
当前位置:首页  音频资讯  厂商动态  声学视听音频正文

元宇宙如何获得更好的音频体验?Meta开放三种新型AI驱动的声学模型

发布时间:2022-08-02 发布人:音频应用

Meta AI与德克萨斯大学合作,开源了三种基于视听感知的新模型,可以帮助改善AR/VR体验。此次发布代表着Meta向元宇宙方向进一步转化。

Meta AI与德克萨斯大学合作,开源了三种基于视听感知的新模型,可以帮助改善AR/VR体验。此次发布代表着Meta向元宇宙方向进一步转化。

 


第一个模型,视觉声学匹配模型(AViTAR),可以帮助转换音频剪辑中的声学效果,并使其听起来像特定图像中的目标空间。例如,一段听起来像是在一个空旷的地方录制的音频片段,可以与一个拥挤的餐厅的图像相匹配,从而产生听起来像是在餐厅的音频。




第二种模式被称为视觉信息去混响(visual-informed Dereverberation,VIDA),顾名思义,它执行相反的功能。VIDA使用观察到的声音和视觉线索来去除特定音频模式的混响。该模型提高了语音的质量,有助于语音的自动识别。




第三个模型是VisualVoice,它使用视听线索将语音与背景噪声分开。




虽然已经有相当多的研究致力于创造更好的视觉效果,但Meta AI还打算创造出让用户沉浸其中的声音。该公司创始人兼首席执行官马克·扎克伯格说:“正确处理空间音频是在元宇宙中传递现实存在感的关键。”“如果你在听音乐会或者只是在虚拟的桌子旁与朋友交谈,声音来自哪里的现实感会让你感觉自己就在那里。”




信息源于:analyticsindiamag






  关于我们  


21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。


立即咨询,获取购买流程
您可以根据下列意向选择快捷留言

我对产品很感兴趣,请尽快联系我!

请问我所在的地区有商家吗?

我想详细了解购买流程!

购买该产品能得到哪些支持?

我想购买请电话联系我!

购买所需要的费用有哪些?

产品很好,请尽快联系我详谈!

*姓名:
*电话:
留言:
*验证码:
已有人关注
音频应用之混音技巧诚邀音频
音频应用之混音技巧

音频应用之混音技巧

投资额度:

所属分类:技术新闻

  • 公司名称:
  • 企业类型:
  • 注册资金:
免费电话咨询

24小时效果器热线

栏目ID=0的表不存在(操作类型=0)
栏目ID=0的表不存在(操作类型=0)
    栏目ID=0的表不存在(操作类型=0)