当前位置:首页  音频新闻  厂商动态  声学视听音频正文

21dB专访 | 喜马拉雅“耳朵经济”背后的音频技术

发布时间:12-12 编辑:声学

喜马拉雅是国内知名的在线音频内容平台,从2012年成立至今已走过10年。在短视频平台强势崛起的现在,在线音频平台仍在特定的使用场景中深受用户的喜爱,而喜马拉雅是其中的佼佼者。

喜马拉雅是国内知名的在线音频内容平台,从2012年成立至今已走过10年。在短视频平台强势崛起的现在,在线音频平台仍在特定的使用场景中深受用户的喜爱,而喜马拉雅是其中的佼佼者。


根据易观分析数据,2021年3月以来,国内在线音频市场月活跃人数稳定在3亿人次,其中网络渗透率30%左右。这一数据不光与短视频、长视频高达七八成的渗透率相差殊远,与美国47%的渗透率也有一定差距。


对面仍具有上升空间的在线音频市场,喜马拉雅在发展“耳朵经济”的背后有着什么样的技术优势?音频技术的未来又会有什么样的方向?今天,21dB声学人请到了喜马拉雅音频技术leader曹裕行先生,一起聊一聊喜马拉雅背后的音频技术。



Q1



21dB声学人:近年来人工智能技术广泛应用于各行各业,能否请您介绍一下,该项技术在喜马拉雅中有着哪些应用呢?

曹裕行从大范围来讲,喜马拉雅中的AI部门,在自然语言处理、大数据、智能推荐算法中都应用到了AI技术。在音频处理中,如语音增强、语音交互中均有涉及。例如在主播侧中,为了使录入主播的声音质量更高,在降噪、声音美化、调整EQ(equalizer均衡器)以及声音修复等方面都会有AI技术的应用。像播放量很高的相声、评书等音频,由于录制年代久远,音频往往噪声多且码率低,为了解决这个问题,这些场景都会应用到AI技术。另外在音频的AIGC(AI generated content)中,除了主播诵读的小说、有声书外,我们也会利用计算机辅助生成有声书中的一些配角或者旁白等,将人工配音和AI有机集结,大大提高录制效率。在大数据以及智能推荐算法中,喜马拉雅会为听众做出AI画像,根据不同的目标听众推送不同的信息……这些都是AI在喜马拉雅中的主要应用。




Q2



21dB声学人:喜马拉雅作为国内知名的在线音频平台,是如何保持制作和推出高品质音频内容,从而更好地发展“耳朵经济”的呢?

曹裕行一方面我们要把主播侧工具做好,另一方面喜马拉雅拥有一个教育部门,负责培训主播如何去演绎有声书、录播、录音以及这些过程中有哪些注意事项,如何使用编辑软件等。喜马拉雅作为一个平台,从前端到后端到剪辑以及音效等编解码这些工具都要做好,最后把好的音频内容输送给最终用户。这又会涉及到音频评分的问题,因此我们会从声学以及录制内容上做出判断,来更好地给音频评分。由于音频每天海量的上传内容,单纯的人工审核是不够用的,因此我们会根据评分将优质的音频内容筛选出来并输送给目标用户,从而提供更好更优质的音频内容。



Q3



21dB声学人在音频信号处理领域中,深度学习方法和传统DSP(Digital Signal Processing,数字信号处理)方法如何更好的结合在一起?能否介绍一下它们分别适用的主要场景有哪些?


曹裕行2010年左右,深度学习被引用到音频行业里,但在不同的应用场景上,深度学习方法和DSP方法的结合力度也是不同的。例如在波束形成中,MVDRMinimum Variance Distortionless Response,最小均方无失真响应)方法有着一个非常难估计的参数。噪声或者语音的协方差矩阵,单纯利用信号的方法是很难估计该参数的,这个时候利用深度学习的方法估计该参数会更容易一些,这是深度学习和DSP结合力度比较小的一个例子。还有在消除混响方法中,目前在最好的方法之一NN-WPENNNeural Network,神经网络)代表了深度学习,WPEWeighted Prediction Error,加权预测误差)属于DSP的方法,WPE中存在着和波束形成中相同的问题,语音的协方差矩阵是很难估计的,并且即使利用DSP的方法,结果往往也并不准确。

同样的思路,利用深度学习的思路估计出参数,效果的提升会立竿见影。而当一个任务中存在很多不同的模块时,深度学习和DSP的方法也可以结合在一起。先利用深度学习做预处理,之后采用DSP的方案,最后再使用深度学习的后滤波的方案。因为DSP方法是基于数学规则和假设的方法,因此可以很好地演绎出一个标准化公式,而深度学习是基于数据驱动的方案,并不需要假设。那么我们可以把深度学习作为假设,再用DSP做数学演绎。DSP在降噪任务中难以进行数据生成,而深度学习可以实现波形从无到有的生成。在降噪任务的最后阶段,我们可以利用深度学习将带失真的信号恢复为目标信号例如在语音识别任务中,通常的解决方案是深度学习方法,不过实际中往往要先经过降噪处理,但是这种方案实际运行在终端设备时,如果利用深度学习进行降噪处理,那么计算量比较大,很多低端的设备无法使用,而采用DSP的方法,计算量小且性能稳定,是可以在低端的终端设备上运行的。所以对于一个任务的不同阶段,无论从哪个角度来看,深度学习的方法和DSP的方法从头到尾的结合都是非常紧密的。



Q4



21dB声学人:我们知道喜马拉雅基于自研的TTS(Text To Speech,语音合成技术)框架推出了一系列专辑并广受好评,请问喜马拉雅在TTS技术中做了哪些改进?自研的TTS框架有着哪些特点?AI专辑相较于原声专辑效果如何呢?
 
曹裕行首先,TTS在喜马拉雅的应用场景主要还是面向有声书的,所以它的最大的改变是面向业务方面的。现在的TTS自研框架,在前端做了非常多工作,以前TTS建模都是通过一个很短的句子,而现在是面向一个篇章。


其实整个自研TTS框架,可以分为几个部分,前端是处理文本和声学部分的,最后是声码器,这几部分其实面向的都是喜马拉雅业务的定制化。前端可以把小说里的角色找出来,再把情感识别出来,这些最早都是通过人工标记的。目前一本机器从没读过的小说,前端已经可以把其中的大部分角色找出来了,召回率达到了90%以上,而通过一句话预测这个角色是高兴还是悲伤的准确率也已经达到80%以上了。该框架的主要特点是自由度大,比如迁移学习,把它转移到别的情感上都特别容易,包括角色转移,音色转移等,都是比较容易的。AI专辑相较于原声专辑的效果,大家有一个共同的认识,就是没有必要完全用TTS替代人,至少在有声书场景,本来有些人的演绎效果就非常好,那么就没必要用技术替代他。但是我们可以使TTS技术更高效,把长尾的内容和角色、旁白,交给机器来做。另外,TTS可以播报一些新闻热点,因为对于这些内容大家的容忍度都比较高,而如果去读一本书,就需要有情感的注入,容忍度就没那么高了。




Q5



21dB声学人:未来音频信号处理的方向和热点是什么,基于深度学习的方法最有可能在音频技术的哪些领域大放光彩?
 
曹裕行我觉得空间音频这几年在商业化体验上是一个热点。虽然说技术和纯粹的商业化落地还有一定的差距,但是至少我们在限定好的应用场景内可以得到较好的效果。因为做音视频内容的公司,有特定的收费模式,(比如网易云,VIP的会员可以获得码率高的音频内容)那我们是不是可以考虑为会员增加空间音频的效果,使用户的体验感得到提升。另外一些音频信号处理方向的方法,例如RTCReal-time Communications,实时通信)也是个很大的应用场景。空间音频如果发展非常好的话,编解码也将是一个很大的方向,因为空间音频的文件大小相对来说还是很大的,如何把它做到高保真低码率是值得研究的。关于深度学习,刚刚提到的几个方向都值得探索,而且现在用AI做编解码的人也挺多的,但是限于功耗比较高,模型大小比较大,需要在终端上去部署比较困难。当前的一些技术,如麦克风阵列,盲源分离等,深度学习都可以对它们进行改进,让性能得到提升。



  关于我们  

21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。


声明:该文观点仅代表作者本人,音频应用信息发布平台,官网仅提供信息存储空间服务。
最新音频交流