发布时间:08-02
编辑:音频应用
Meta AI与德克萨斯大学合作,开源了三种基于视听感知的新模型,可以帮助改善AR/VR体验。此次发布代表着Meta向元宇宙方向进一步转化。
第一个模型,视觉声学匹配模型(AViTAR),可以帮助转换音频剪辑中的声学效果,并使其听起来像特定图像中的目标空间。例如,一段听起来像是在一个空旷的地方录制的音频片段,可以与一个拥挤的餐厅的图像相匹配,从而产生听起来像是在餐厅的音频。
第二种模式被称为视觉信息去混响(visual-informed Dereverberation,VIDA),顾名思义,它执行相反的功能。VIDA使用观察到的声音和视觉线索来去除特定音频模式的混响。该模型提高了语音的质量,有助于语音的自动识别。
第三个模型是VisualVoice,它使用视听线索将语音与背景噪声分开。
虽然已经有相当多的研究致力于创造更好的视觉效果,但Meta AI还打算创造出让用户沉浸其中的声音。该公司创始人兼首席执行官马克·扎克伯格说:“正确处理空间音频是在元宇宙中传递现实存在感的关键。”“如果你在听音乐会或者只是在虚拟的桌子旁与朋友交谈,声音来自哪里的现实感会让你感觉自己就在那里。”
信息源于:analyticsindiamag
关于我们
21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。
我对产品很感兴趣,请尽快联系我!
请问我所在的地区有商家吗?
我想详细了解购买流程!
购买该产品享受八折优惠,还能得到技术支持?
我想购买请电话联系我!
购买所需要的费用有哪些?
产品很好,请尽快联系我详谈!
声明:该文观点仅代表作者本人,音频应用发布平台仅提供信息存储空间服务。加微信:254969084带你进群学习!百家号免费发布
发布
电话
微博
公众号
回顶部