当前位置:首页电脑音频厂商动态声学视听音频正文

21dB专访 | 喜马拉雅“耳朵经济”背后的音频技术

发布时间：12-12 编辑：声学

喜马拉雅是国内知名的在线音频内容平台，从2012年成立至今已走过10年。在短视频平台强势崛起的现在，在线音频平台仍在特定的使用场景中深受用户的喜爱，而喜马拉雅是其中的佼佼者。

根据易观分析数据，2021年3月以来，国内在线音频市场月活跃人数稳定在3亿人次，其中网络渗透率30%左右。这一数据不光与短视频、长视频高达七八成的渗透率相差殊远，与美国47%的渗透率也有一定差距。

对面仍具有上升空间的在线音频市场，喜马拉雅在发展“耳朵经济”的背后有着什么样的技术优势？音频技术的未来又会有什么样的方向？今天，21dB声学人请到了喜马拉雅音频技术leader曹裕行先生，一起聊一聊喜马拉雅背后的音频技术。

21dB声学人：近年来人工智能技术广泛应用于各行各业，能否请您介绍一下，该项技术在喜马拉雅中有着哪些应用呢？

曹裕行：从大范围来讲，喜马拉雅中的AI部门，在自然语言处理、大数据、智能推荐算法中都应用到了AI技术。在音频处理中，如语音增强、语音交互中均有涉及。例如在主播侧中，为了使录入主播的声音质量更高，在降噪、声音美化、调整EQ（equalizer均衡器）以及声音修复等方面都会有AI技术的应用。像播放量很高的相声、评书等音频，由于录制年代久远，音频往往噪声多且码率低，为了解决这个问题，这些场景都会应用到AI技术。另外在音频的AIGC（AI generated content）中，除了主播诵读的小说、有声书外，我们也会利用计算机辅助生成有声书中的一些配角或者旁白等，将人工配音和AI有机集结，大大提高录制效率。在大数据以及智能推荐算法中，喜马拉雅会为听众做出AI画像，根据不同的目标听众推送不同的信息……这些都是AI在喜马拉雅中的主要应用。

21dB声学人：喜马拉雅作为国内知名的在线音频平台，是如何保持制作和推出高品质音频内容，从而更好地发展“耳朵经济”的呢？

曹裕行：一方面我们要把主播侧工具做好，另一方面喜马拉雅拥有一个教育部门，负责培训主播如何去演绎有声书、录播、录音以及这些过程中有哪些注意事项，如何使用编辑软件等。喜马拉雅作为一个平台，从前端到后端到剪辑以及音效等编解码这些工具都要做好，最后把好的音频内容输送给最终用户。这又会涉及到音频评分的问题，因此我们会从声学以及录制内容上做出判断，来更好地给音频评分。由于音频每天海量的上传内容，单纯的人工审核是不够用的，因此我们会根据评分将优质的音频内容筛选出来并输送给目标用户，从而提供更好更优质的音频内容。

21dB声学人：在音频信号处理领域中，深度学习方法和传统DSP（Digital Signal Processing，数字信号处理）方法如何更好的结合在一起？能否介绍一下它们分别适用的主要场景有哪些？

曹裕行：2010年左右，深度学习被引用到音频行业里，但在不同的应用场景上，深度学习方法和DSP方法的结合力度也是不同的。例如在波束形成中，MVDR（Minimum Variance Distortionless Response，最小均方无失真响应）方法有着一个非常难估计的参数。噪声或者语音的协方差矩阵，单纯利用信号的方法是很难估计该参数的，这个时候利用深度学习的方法估计该参数会更容易一些，这是深度学习和DSP结合力度比较小的一个例子。还有在消除混响方法中，目前在最好的方法之一NN-WPE，NN（Neural Network，神经网络）代表了深度学习，WPE（Weighted Prediction Error，加权预测误差）属于DSP的方法，WPE中存在着和波束形成中相同的问题，语音的协方差矩阵是很难估计的，并且即使利用DSP的方法，结果往往也并不准确。

同样的思路，利用深度学习的思路估计出参数，效果的提升会立竿见影。而当一个任务中存在很多不同的模块时，深度学习和DSP的方法也可以结合在一起。先利用深度学习做预处理，之后采用DSP的方案，最后再使用深度学习的后滤波的方案。因为DSP方法是基于数学规则和假设的方法，因此可以很好地演绎出一个标准化公式，而深度学习是基于数据驱动的方案，并不需要假设。那么我们可以把深度学习作为假设，再用DSP做数学演绎。DSP在降噪任务中难以进行数据生成，而深度学习可以实现波形从无到有的生成。在降噪任务的最后阶段，我们可以利用深度学习将带失真的信号恢复为目标信号。例如在语音识别任务中，通常的解决方案是深度学习方法，不过实际中往往要先经过降噪处理，但是这种方案实际运行在终端设备时，如果利用深度学习进行降噪处理，那么计算量比较大，很多低端的设备无法使用，而采用DSP的方法，计算量小且性能稳定，是可以在低端的终端设备上运行的。所以对于一个任务的不同阶段，无论从哪个角度来看，深度学习的方法和DSP的方法从头到尾的结合都是非常紧密的。

21dB声学人：我们知道喜马拉雅基于自研的TTS（Text To Speech，语音合成技术）框架推出了一系列专辑并广受好评，请问喜马拉雅在TTS技术中做了哪些改进？自研的TTS框架有着哪些特点？AI专辑相较于原声专辑效果如何呢？

曹裕行：首先，TTS在喜马拉雅的应用场景主要还是面向有声书的，所以它的最大的改变是面向业务方面的。现在的TTS自研框架，在前端做了非常多工作，以前TTS建模都是通过一个很短的句子，而现在是面向一个篇章。

其实整个自研TTS框架，可以分为几个部分，前端是处理文本和声学部分的，最后是声码器，这几部分其实面向的都是喜马拉雅业务的定制化。前端可以把小说里的角色找出来，再把情感识别出来，这些最早都是通过人工标记的。目前一本机器从没读过的小说，前端已经可以把其中的大部分角色找出来了，召回率达到了90%以上，而通过一句话预测这个角色是高兴还是悲伤的准确率也已经达到80%以上了。该框架的主要特点是自由度大，比如迁移学习，把它转移到别的情感上都特别容易，包括角色转移，音色转移等，都是比较容易的。AI专辑相较于原声专辑的效果，大家有一个共同的认识，就是没有必要完全用TTS替代人，至少在有声书场景，本来有些人的演绎效果就非常好，那么就没必要用技术替代他。但是我们可以使TTS技术更高效，把长尾的内容和角色、旁白，交给机器来做。另外，TTS可以播报一些新闻热点，因为对于这些内容大家的容忍度都比较高，而如果去读一本书，就需要有情感的注入，容忍度就没那么高了。

21dB声学人：未来音频信号处理的方向和热点是什么，基于深度学习的方法最有可能在音频技术的哪些领域大放光彩？

曹裕行：我觉得空间音频这几年在商业化体验上是一个热点。虽然说技术和纯粹的商业化落地还有一定的差距，但是至少我们在限定好的应用场景内可以得到较好的效果。因为做音视频内容的公司，有特定的收费模式，（比如网易云，VIP的会员可以获得码率高的音频内容）那我们是不是可以考虑为会员增加空间音频的效果，使用户的体验感得到提升。另外一些音频信号处理方向的方法，例如RTC（Real-time Communications，实时通信）也是个很大的应用场景。空间音频如果发展非常好的话，编解码也将是一个很大的方向，因为空间音频的文件大小相对来说还是很大的，如何把它做到高保真低码率是值得研究的。关于深度学习，刚刚提到的几个方向都值得探索，而且现在用AI做编解码的人也挺多的，但是限于功耗比较高，模型大小比较大，需要在终端上去部署比较困难。当前的一些技术，如麦克风阵列，盲源分离等，深度学习都可以对它们进行改进，让性能得到提升。

关于我们

21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体，专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。