喜马拉雅是国内知名的在线音频内容平台,从2012年成立至今已走过10年。在短视频平台强势崛起的现在,在线音频平台仍在特定的使用场景中深受用户的喜爱,而喜马拉雅是其中的佼佼者。
喜马拉雅是国内知名的在线音频内容平台,从2012年成立至今已走过10年。在短视频平台强势崛起的现在,在线音频平台仍在特定的使用场景中深受用户的喜爱,而喜马拉雅是其中的佼佼者。
根据易观分析数据,2021年3月以来,国内在线音频市场月活跃人数稳定在3亿人次,其中网络渗透率30%左右。这一数据不光与短视频、长视频高达七八成的渗透率相差殊远,与美国47%的渗透率也有一定差距。
对面仍具有上升空间的在线音频市场,喜马拉雅在发展“耳朵经济”的背后有着什么样的技术优势?音频技术的未来又会有什么样的方向?今天,21dB声学人请到了喜马拉雅音频技术leader曹裕行先生,一起聊一聊喜马拉雅背后的音频技术。
21dB声学人:近年来人工智能技术广泛应用于各行各业,能否请您介绍一下,该项技术在喜马拉雅中有着哪些应用呢?
曹裕行:从大范围来讲,喜马拉雅中的AI部门,在自然语言处理、大数据、智能推荐算法中都应用到了AI技术。在音频处理中,如语音增强、语音交互中均有涉及。例如在主播侧中,为了使录入主播的声音质量更高,在降噪、声音美化、调整EQ(equalizer均衡器)以及声音修复等方面都会有AI技术的应用。像播放量很高的相声、评书等音频,由于录制年代久远,音频往往噪声多且码率低,为了解决这个问题,这些场景都会应用到AI技术。另外在音频的AIGC(AI generated content)中,除了主播诵读的小说、有声书外,我们也会利用计算机辅助生成有声书中的一些配角或者旁白等,将人工配音和AI有机集结,大大提高录制效率。在大数据以及智能推荐算法中,喜马拉雅会为听众做出AI画像,根据不同的目标听众推送不同的信息……这些都是AI在喜马拉雅中的主要应用。
21dB声学人:喜马拉雅作为国内知名的在线音频平台,是如何保持制作和推出高品质音频内容,从而更好地发展“耳朵经济”的呢?曹裕行:一方面我们要把主播侧工具做好,另一方面喜马拉雅拥有一个教育部门,负责培训主播如何去演绎有声书、录播、录音以及这些过程中有哪些注意事项,如何使用编辑软件等。喜马拉雅作为一个平台,从前端到后端到剪辑以及音效等编解码这些工具都要做好,最后把好的音频内容输送给最终用户。这又会涉及到音频评分的问题,因此我们会从声学以及录制内容上做出判断,来更好地给音频评分。由于音频每天海量的上传内容,单纯的人工审核是不够用的,因此我们会根据评分将优质的音频内容筛选出来并输送给目标用户,从而提供更好更优质的音频内容。
21dB声学人:在音频信号处理领域中,深度学习方法和传统DSP(Digital Signal Processing,数字信号处理)方法如何更好的结合在一起?能否介绍一下它们分别适用的主要场景有哪些?
曹裕行:2010年左右,深度学习被引用到音频行业里,但在不同的应用场景上,深度学习方法和DSP方法的结合力度也是不同的。例如在波束形成中,MVDR(Minimum Variance Distortionless Response,最小均方无失真响应)方法有着一个非常难估计的参数。噪声或者语音的协方差矩阵,单纯利用信号的方法是很难估计该参数的,这个时候利用深度学习的方法估计该参数会更容易一些,这是深度学习和DSP结合力度比较小的一个例子。还有在消除混响方法中,目前在最好的方法之一NN-WPE,NN(Neural Network,神经网络)代表了深度学习,WPE(Weighted Prediction Error,加权预测误差)属于DSP的方法,WPE中存在着和波束形成中相同的问题,语音的协方差矩阵是很难估计的,并且即使利用DSP的方法,结果往往也并不准确。同样的思路,利用深度学习的思路估计出参数,效果的提升会立竿见影。而当一个任务中存在很多不同的模块时,深度学习和DSP的方法也可以结合在一起。先利用深度学习做预处理,之后采用DSP的方案,最后再使用深度学习的后滤波的方案。因为DSP方法是基于数学规则和假设的方法,因此可以很好地演绎出一个标准化公式,而深度学习是基于数据驱动的方案,并不需要假设。那么我们可以把深度学习作为假设,再用DSP做数学演绎。DSP在降噪任务中难以进行数据生成,而深度学习可以实现波形从无到有的生成。在降噪任务的最后阶段,我们可以利用深度学习将带失真的信号恢复为目标信号。例如在语音识别任务中,通常的解决方案是深度学习方法,不过实际中往往要先经过降噪处理,但是这种方案实际运行在终端设备时,如果利用深度学习进行降噪处理,那么计算量比较大,很多低端的设备无法使用,而采用DSP的方法,计算量小且性能稳定,是可以在低端的终端设备上运行的。所以对于一个任务的不同阶段,无论从哪个角度来看,深度学习的方法和DSP的方法从头到尾的结合都是非常紧密的。21dB声学人:我们知道喜马拉雅基于自研的TTS(Text To Speech,语音合成技术)框架推出了一系列专辑并广受好评,请问喜马拉雅在TTS技术中做了哪些改进?自研的TTS框架有着哪些特点?AI专辑相较于原声专辑效果如何呢?曹裕行:首先,TTS在喜马拉雅的应用场景主要还是面向有声书的,所以它的最大的改变是面向业务方面的。现在的TTS自研框架,在前端做了非常多工作,以前TTS建模都是通过一个很短的句子,而现在是面向一个篇章。
其实整个自研TTS框架,可以分为几个部分,前端是处理文本和声学部分的,最后是声码器,这几部分其实面向的都是喜马拉雅业务的定制化。前端可以把小说里的角色找出来,再把情感识别出来,这些最早都是通过人工标记的。目前一本机器从没读过的小说,前端已经可以把其中的大部分角色找出来了,召回率达到了90%以上,而通过一句话预测这个角色是高兴还是悲伤的准确率也已经达到80%以上了。该框架的主要特点是自由度大,比如迁移学习,把它转移到别的情感上都特别容易,包括角色转移,音色转移等,都是比较容易的。AI专辑相较于原声专辑的效果,大家有一个共同的认识,就是没有必要完全用TTS替代人,至少在有声书场景,本来有些人的演绎效果就非常好,那么就没必要用技术替代他。但是我们可以使TTS技术更高效,把长尾的内容和角色、旁白,交给机器来做。另外,TTS可以播报一些新闻热点,因为对于这些内容大家的容忍度都比较高,而如果去读一本书,就需要有情感的注入,容忍度就没那么高了。
21dB声学人:未来音频信号处理的方向和热点是什么,基于深度学习的方法最有可能在音频技术的哪些领域大放光彩?曹裕行:我觉得空间音频这几年在商业化体验上是一个热点。虽然说技术和纯粹的商业化落地还有一定的差距,但是至少我们在限定好的应用场景内可以得到较好的效果。因为做音视频内容的公司,有特定的收费模式,(比如网易云,VIP的会员可以获得码率高的音频内容)那我们是不是可以考虑为会员增加空间音频的效果,使用户的体验感得到提升。另外一些音频信号处理方向的方法,例如RTC(Real-time Communications,实时通信)也是个很大的应用场景。空间音频如果发展非常好的话,编解码也将是一个很大的方向,因为空间音频的文件大小相对来说还是很大的,如何把它做到高保真低码率是值得研究的。关于深度学习,刚刚提到的几个方向都值得探索,而且现在用AI做编解码的人也挺多的,但是限于功耗比较高,模型大小比较大,需要在终端上去部署比较困难。当前的一些技术,如麦克风阵列,盲源分离等,深度学习都可以对它们进行改进,让性能得到提升。
21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。