当前位置:首页电脑音频厂商动态声学视听音频正文

空中之耳——无人机自噪声消除

发布时间：11-28 编辑：王佳杰

近年来小型民用无人机十分畅销，其上搭载的摄像头给诸多摄影爱好者们提供了“空中之眼”的视角，可以拍到许多在地面上难得一见的佳片。同样的，无人机也可搭载麦克风阵列，在视觉之外兼具听觉，成为移动的“空中之耳”，且有许多可待进一步发掘的应用潜能，但是无人机麦克风阵列也面临着自噪声污染的问题。

空中之耳——无人机自噪声消除

一、应用场景

根据文献[1]给出的四个关键词，笔者自己拓展描述了无人机听觉的应用场景：

(1)搜索救援（Search and rescue）：在地震、泥石流、洪水等自然灾害或深山援救登山客等场景下，搜救人员难以亲身搜索某处时，可使用无人机快速搜索可能位置。如待救援者发出求救声，无人机麦克风阵列可通过声源定位技术辅助定位（尤其当存在树林等遮挡物、或雨雾暗光致使摄像头基本失效时）。声源定位之外，无人机麦克风阵列还可拾取待救援者语音，再通过多通道语音增强技术做降噪处理，清晰获取伤情等关键救援信息。

(2)空中摄像（Aerial filming）：当地况复杂或跟踪拍摄高速移动物体时，难以在地面架设录音设备，可径直使用无人机上的麦克风阵列作为摄像录音工具。

(3)空中监听（Monitoring and surveillance）：在背景噪声低的情况下，由于声波物理传播过程中能量衰减，也仅能做到较近距离（数米量级）拾音。相较而言，激光拾振可以做到远距离（数千米的量级）窃听，隐蔽性好，毕竟近空嗡嗡飞的无人机太招人瞩目了。

(4)自主人机交互（autonomous human-drone interaction）：此应用场景更为渺远，在声源定位与语音增强之外，还需要语音识别、内容理解、语音合成等技术支持。

二、噪声来源

由上总结，与地面麦克风阵列一样，无人机上也主要做好声源定位及多通道语音增强这两项技术即可。但不同点在于，无人机噪声来源相对多样：

（1）自噪声：旋转电机工作及叶片旋转，此部分在自噪声中占主体，可致使麦克风录音信噪比低至-15dB[1]。

（2）自噪声：叶片旋转也会产生风，被麦克风录取，但相对于自然风可能微不足道

（3）外界噪声：无人机位于空中或悬停时的自然风，或即便无风，当无人机移动时，与空气相对移动也会产生风，被麦克风录取；周围环境如地面的交通噪声等。

三、数据库

文献[2]对无人机降噪领域的数据库进行了一定程度的整理：

（1）DREGON[3]，该数据集使用MikroKopter四旋翼无人机在两个混响时间小于200ms的长宽高分别为10×10×2.5m和12×12×3.5m的房间内飞行录得，声源置于地面，播放语音和白噪声，距离无人机4米。使用VICON运动捕捉系统连续记录声源和麦克风阵列的相对位置数据。除此之外，还全程记录了四旋翼的转速。不同域的信号均已时间对齐。

（2）AIRA-UAS[4]：使用DJI Matrice 100作为主飞行器，有悬停和飞行两种状态。除此之外,还有 3DR Solo和Parrot Bebop 2作为辅飞行器在主飞行器旁伴飞。[4]中详细给出了三架无人机在不同飞行安排下的录音记录。该文还列举了无人机上布设麦克风阵列要考虑的不超出飞行最大重量、不改变无人机中心、不遮挡摄像头产生飞行盲点、尽量远离螺旋桨以减弱自噪声影响等原则，最终选择如下构型：

（3）SPCup-Egonoise[5,6]：是IEEE的Signal Processing Cup，每年在国际举办一次的由在读大学生参加的比赛。2019年第6届任务是基于无人机搜索救援的声源定位。数据包括1至16通道的多种无人机机型的音频数据及阵列规格参数。

（4）AVQ[7,8]：提供了麦克风阵列录音数据和摄像头录像数据。摄像头数据可以定位声源位置以及被用于多模态感知任务。该数据集是在室外录制，声源包括两固定声源和一移动声源。

四、历史工作

在梳理历史工作时，笔者发现一对堪称黄金搭档的研究者，他们是伦敦大学玛丽皇后学院的Lin Wang和Andrea Cavallaro。此二人合作发表过多篇论文，追寻他们的研究足迹即可基本掌握此领域的发展脉络。

2016年[9]，二人在室内使用支架固定住四旋翼无人机，并在其上布设8麦环阵，使用盲源分离（Blind source separation，BSS）将示例带噪信号的信噪比由-10dB提升至11.5dB。

2017年[10]，二人观察到，由于自噪声和目标声在时频图上稀疏且独立的分布，因此提出使用时频空间（Time-Frequency Spatial）滤波方法加强目标方向声音，目标方向是独立时频点估计的波达方向。

同年[11]，同单位的Ricardo Sanchez-Matilla和二人提出使用时频、音频多模态模型方法来做多声源的定位及增强，室外实验结果表明在极低信噪比下该方法性能鲁棒且优良。次年[12]，这三人使用TFS追踪移动声源，并使用粒子滤波更新对噪声的估计，定位估计与ground truth吻合良好。

2020年[13]，两人使用TFS产生参考信号，辅助预对准排列，提高了聚类和置换对准性能，解决了BSS的目标信道选择问题。综合了TFS和BSS的优点而回避了彼此的缺点。同年[14]，两人将DNN引入无人机麦克风阵列降噪，对独立时频点估计理想比值掩蔽，设计单通道自噪声降噪DNN-S，多通道波束形成DNN-BF，以及多通道时频空间滤波DNN-TF，实验结果表明DNN-TF效果最好。

2022年[15]，两人将TFS从二维框架拓展至三维，不仅考虑方位角还考虑俯仰角，且角度估计误差远小于基线算法。同年[16]，两人通过DNN推断的软比值掩蔽和麦克风阵列估计的波达方向，来估计时频点的目标语音存在性概率。然后概率被用于设计一组空间滤波器，重建空间似然映射来进行声源定位。通过对谱及空间信息的充分挖掘，TFS-DNN网络可在0.5s的间隔内连续地处理-20dB的低信噪比信号，且性能优于其他方法。

参考文献：

[1] Wang, L. A. Cavallaro, and Quiet Drones. “Sound source localization and enhancement in 3D space from a flying drone.” (2022).

[2] Deleforge, Antoine. “Drone audition for search and rescue: Datasets and challenges.” QUIET DRONES international Symposium on UAV/UAS Noise. 2020.

[3] Strauss, Matin, et al. “DREGON: Dataset and methods for UAD-embedded sound source localization.” 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2018.

[4] Ruiz-Espitia, Oscar, Jose Martinez-Carranza, and Caleb Rascon. “AIRA-UAS: an evaluation corpus for audio processing in unmanned aerial system.” 2018 International Conference on Unmanned Aircraft Systems (ICUAS). IEEE, 2018.

[5] Deleforge, Antonie, et al. “Audio-based search and rescue with a drone: highlights from the IEEE signal processing cup 2019 student competition [SP competitions].” IEEE Signal Processing Magazine 36.5 (2019): 138-144.

[6] SPCup-Egonoise数据下载链接：http://dregon.inria.fr/datasets/the-spcup19-egonoise-dataset/

[7] Wang, Lin, Ricardo Sanchez-Matilla, and Andrea Cavallaro. “Audio-visual sensing from a quadcopter: dataset and baselines for source localization and sound enhancement.” 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2019.

[8] AVQ数据下载链接：http://cis.eecs.qmul.ac.uk/projects/avq/

[9] Wang, Lin, and Andrea Cavallaro. “Ear in the sky: Ego-noise reduction for auditory micro aerial vehices.” 2016 13th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). IEEE, 2016.

[10] Wang, Lin, and Andrea Cavallaro. “Microphone-array ego-noise reduction algorithms for auditory micro aerial vehices.” IEEE Sensors Joural 17.8 (2017): 2447:2455.

[11] Sanchez-Matilla, Ricardo, Lin Wang, and Andrea Cavallaro. “Multi-model localization and enhancement of multiple sound sources from a macro aerial vehicle.” Proceedings of the 25th ACM international conference on Multimedia. 2017.

[12] Wang, Lin, Sanchez-Matilla, Ricardo, and Andrea Cavallaro. “Tracking a moving sound source from a multi-rotor drone.” 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2018.

[13] Wang, Lin, and Andrea Cavallaro. “A blind source separation framework for ego-noise reduction on multi-rotor drones.” IEEE/ACM Transactions on Audio, Speech, and Language Processing 28 (2020): 2523-2537.

[14] Wang, Lin, and Andrea Cavallaro. “Deep learning assisted time-frequency processing for speech enhancement on drones.” IEEE Transactions on Emerging Topics in Computational Intelligence 5.6 (2020): 871-881.

[15] Wang, Lin, and Andrea Cavallaro. “ Sound source localization and enhancement in 3D space from a flying drone.” (2022).

[16] Wang, Lin, and Andrea Cavallaro. “Deep learning assisted sound source localization from a flying frone.” IEEE Sensors Journal (2022).

关于我们

21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体，专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。