发布时间:07-28
编辑:音频应用
很明显,声音信息的电子格式要早于视觉信息的电子格式,用电子格式分发声音信息的服务也是如此。同样,音频的数字格式与视频数字格式的出现时间也不同。在上世纪 80 年代初,唱片公司可以通过 CD(Compact Disc)向消费者市场发行数字音频,而在 80 年代后期出现的 D1 数字磁带则专用于录音室的专业应用。但压缩技术却颠倒了它们的出现顺序:压缩数字视频比压缩数字音频要早 10 年。所以和之前我所写的文章《视频编码四十年》[1] 不同,本文的标题是《音频编码三十年》。
如果音频缺乏恰当的定义,那么这篇文章有可能成为争议来源。在本文中,我们所指的音频是人类可听范围内的声音,而非人类发声系统所产生的声音或者发声模型不可用的其他音源。实际上,早在 CD 出现之前的 20 年,数字语音就已经存在于专业应用(trunk network,主干网络)中了。ITU-T G.721 的 “32 kbit/s ADPCM(adaptive differential pulse code modulation,自适应差分脉冲编码调制)” 可以追溯到 1984 年,同一年 H.120 被批准为推荐标准。
因此,本文的标题也可以是《音频编码四十年》。不过如果以此为标题的话,本文将充斥大量的语音压缩标准,而使真正的音频标准失去了关注。因此,本文将只关注音频压缩标准,其中的音频并不包括语音。但其中有一个例外,我会在下文提到。
与视频压缩中 ITU-T(国际电信联盟电信标准化部门)这个非 MPEG 组织开发了视频编码标不同,音频压缩中 MPEG 占据主导地位。需要音频压缩用于数字音频广播标准的 ITU-R(国际电信联盟无线通信部门)也倾向于依赖外部资源,其中就包括 MPEG。
MPEG-1 Audio
关于 MPEG(专注于视频压缩领域的组织) 如何以及为何会研究音频压缩,感兴趣的人可以阅读这篇文章(其中还包括许多其他内容):https://ride.chiariglione.org/the-1st-mpeg-project/。 MPEG 音频工作组成立活动于 1998 年 12 月 1-2 日举行,当时最多元化的音频编码专家组在汉诺威(德国城市)会面(当时这一传统还没有完全确立)并启动了这项工作,在大家的不懈努力下,最终 MPEG 在 1992 年 11 月推出了 MPEG-1 音频标准。
MPEG 中的音频组常常是未来创新的先行者。比如,其一,广播世界还在回避低分辨率的 MPEG-1 视频压缩标准时,它却非常重视 MPEG-1 音频压缩标准;其二,与视频主要依赖相同的编码架构不同,音频征集提案需要产出两类算法:一类充分成熟、易于实现、但是效果稍差;另一类算法更新、在当时却比较难实现,但效果更好。将两类算法合并的工作非常辛苦,但终于实现了使用这两种技术的三层(3 Layers)标准。
Layer 1 用于数字压缩磁带(DCC),这个产品在几年以后停用了;Layer 2 用于音频广播,以及作为 Video CD(VCD)的音频组件使用;第三层(MP3)就不需要特别介绍了。MP3 在接下来的 MPEG-2 中进行修订后,它在听感上与原 CD 信号几乎没有差异的同时,提供 128 kbit/s 的码率。这与原本 CD 信号 1.44 Mbit/s 的码率相比,实现了 11:1 的压缩。
MPEG-2 Audio
该标准于 1994 年批准,主要目的是用于多声道音频,其中的关键要求是 MPEG-1 音频解码器应能解码 MPEG-2 音频码流的立体声组件。向后兼容在广播领域十分有用,因为运营商可以升级到多声道服务,而不会失去只拥有 MPEG-1 音频解码器的客户。
MPEG-2 AAC
人们希望提供最佳质量音频而不受向后兼容约束,这种需求推动了 MPEG-2 AAC 的工作。这意味着 Layer 2 必须同时解码 Layer 1 和 Layer 2,而 Layer 3 必须解码所有 Layer。1997 年 4 月所发布的 MPEG-2 AAC 就是构建在 MP3 技术之上,可以提供 128 kbit/s 码率听感透明的立体声信号和 320 kbit/s 的 5.1 声道信号(例如数字电视中的信号)。
MPEG-4 AAC
1998 年,MPEG-4 AAC 与其他两个 MPEG-4 组件(Systems and Visual,系统和视觉)一同发布。MPEG-4 AAC 也是构建在 MPEG-2 AAC 之上。2003 年,Apple 宣布旗下的 iTunes 和 iPod 将使用 MPEG-4 AAC 作为主要的压缩格式,这一举动动摇了 MP3 在音乐发行中的主导地位。大部分 PC、智能手机和之后的平板都可以播放 AAC 歌曲。Apple 没有把 AAC 当作纯粹的播放器技术使用,它推出的 iTunes 服务提供以 MPEG-4 文件格式打包的 AAC 格式的歌曲,文件扩展名为 “.m4a”。
AAC-LD
1999 年,MPEG 发布了包含 AAC 低延迟版本的 MPEG-4 Amendment 1,被称为 AAC-LD(Low Delay AAC,低延迟 AAC)。AAC 编码器 / 解码器通常需要约 55 毫秒的单向延迟(转换延迟 + look-ahead 处理),而 AAC-LD 通过简化和替换某些 AAC 工具(更低延迟的新转换和 look-ahead 处理的移除)达到了仅 21 毫秒的单向延迟。AAC 可以作为通话编解码器使用,同时具有音乐编码器的信号带宽和感知音质,并且可以对单声道信号在 64 kb/s 码率时实现卓越的音质。
MPEG-4 HE-AAC
2003 年,作为 MPEG-4 的第一次修订,MPEG 发布了 MPEG-4 HE-AAC(High Efficiency Advanced Audio Coding)。HE-AAC 巩固了移动手持设备作为高音质音频获取工具的地位,能够以 48 kbit/s 接收高音质立体声音乐(压缩能力比 AAC 高出 2.5 倍)。与 CD 信号相比,它的压缩比几乎达到了 30:1。
HE-AAC 向核心 AAC 引擎添加了 SBR(Spectral Bandwidth Replication,频谱带宽复制)。由于 AAC 已被广泛部署,因此允许通过仅将 SBR 工具添加到现有 AAC 实现中而扩展为 HE-AAC。
MPEG HE-AAC v2
同样在 2003 年,9 个月之后,MPEG 推出了 MPEG HE-AAC v2。它源于 MPEG-4 二次修订(Parametric coding for high-quality audio,高质量音频的参数编码)中所包含的工具。虽然核心参数编码器并没有被广泛接受,修订中的 PS(Parametric Stereo,参数立体声)工具可以将立体声音乐高效编码为单声道信号加少量辅助信息(side information)。 HE-AAC v2——PS 工具和 HE-AAC 的结合,能够以 32 kb/s 传输具有优质音频质量的立体声信号。
3GPP 也采用了 HE-AAC v2,并将其命名为 Enhanced aacPlus。3GPP 的采用为 HE-AAC v2 技术集成到移动电话创造了条件。今天,超过百亿的移动设备支持 HE-AAC v2 格式歌曲的传输和播放。由于 HE-AAC 构建于 AAC 之上,所以这些设备也支持 AAC 格式歌曲的传输和播放。
ALS 和 SLS
2005 年,MPEG 发布了两种用于无损压缩音频的算法 ——ALS(Audio Lossless coding)和 SLS(Scalable to Lossless coding)。这两种算法都可以完美(即无损)重建标准的 CD 音频信号,压缩比接近 2:1。具有可变的压缩比是 SLS 的一个重要特性:它可以将立体声信号压缩到 128 kb/s(11:1 压缩比),并达到和 AAC 编解码器一样的出色质量,但它是通过持续增加编码码率(即降低压缩比)实现压缩比为 2:1 的无损重建。
MPEG Surround(MPEG 环绕声)
ALS/SLS 是 MPEG-4 中最后一批重要的标准,它们也是 MPEG 中 “最长寿” 的音频标准。第一个版本于 1999 年发布,20 年以后(2019 年),MPEG 才发布了第五个版本。
在 MPEG-4 退出历史舞台之后,MPEG 开发了 MPEG-D 系列音频编码标准。其中第一个就是 MPEG Surround(MPEG 环绕声),于 2007 年发布。在某种意义上,这项技术是 HE-AAC v2 工具的通用 PS(Parametric Stereo,参数立体声),MPEG Surround 可以被用作 5-2 声道压缩工具,或者 M-N 声道压缩工具。这个通用的 PS 工具其后就是 HE-AAC 编解码器。因此,MPEG Surround 构建在 HE-AAC 之上,正如 HE-AAC 构建在 AAC 之上。MPEG Surround 为低码率应用的立体声和多声道之间提供了连接。它具备良好的压缩效果,同时保持了非常清晰的音质,且算力消耗较低。虽然 HE-AAC 能够以 48 kbit/s 传输立体声,但 MPEG Surround 可以在相同的 48 kbit/s 传输预算下传输 5.1 声道音频,且复杂度不超过立体声 HE-AAC。因此,想要将立体声服务拓展到 5.1 声道音频,可以使用 MPEG Surround 直接替代。
AAC-ELD
2007 年,MPEG 推出了 AAC-ELD(Enhanced Low Delay AAC)技术。这项技术结合了来自其他标准的工具:HE-AAC v2 和 AAC-LD 的 SBR 和 PS。这个新的编解码器在适度增加延迟的同时提供了更加强大的信号压缩:AAC-ELD 以 48 kb/s 的速度为单声道信号提供出色的音频质量(单向延迟仅为 32 毫秒)。
SAOC
2010 年,MPEG 发布了 MPEG-D SAOC(Spatial Audio Object Coding,空间音频对象编码),它可以高效编码多声道信号(多个对象的混合,比如将各种单一乐器混合)。SAOC 将多声道信号下行混音(例如立体声到单声道),先将单声道信号和一些辅助信息进行编码和传输,然后将接收到的单声道信号和辅助信息进行解码然后上行混音到立体声信号,以便用户感知到乐器被放置在正确位置,且最终立体声信号与原始信号相同。这是通过以下方法实现的:在任何时刻任何频率区域,其中一种乐器将更倾向于主导其他乐器,所以此时 / 此频率区域,其他信号(如果存在的话)将更难被感知到。SAOC 分析输入信号,将每个声道分为时间 “块” 和频率 “块”,然后再确定每个 “块” 的主导程度。这些信息都被编码为辅助信息。
SAOC 的一个应用是远程会议,其中多个地点的会议电话可以在会议连接时被混合为单一声道,并和 SAOC 的辅助信息一起传输给每个会议参与者。在用户终端,单声道被上行混音为立体声(或者三声道:左 - 中 - 右)并进行呈现,使得每个远程会议参与者都处于前音场的不同位置。
USAC
2011 年,MPEG 推出了 USAC(Unified Speech and Audio Coding),它将语音编码和音频编码工具合并到一个算法中。USAC 结合了 MPEG AAC 工具(利用人类感知音频方法)和最先进的语音编码工具(利用人类产生语音的方法)。因此,编码器同时具备感知模型和语音激励模型 / 声道模型,可以每隔 20 毫秒动态地选择音乐 / 语音编码工具。使用这种方法,USAC 在压缩任何输入信号(无论是音乐、语音还是音乐和语音的混合信号)时都达到了高水平的性能。
按照 MPEG 标准的传统,USAC 将立体声信号的 “良好” 性能扩展到低至 16 kb/s,并随着码率的提升提供更高的音质。128 kbit/s 的立体声信号质量稍好于 MPEG-4 AAC,因此 USAC 可以代替 AAC,因为在任何码率下,USAC 在性能上都能与 AAC 匹敌,或者优于 AAC。类似地,USAC 能够编码多声道音频信号,并且能够以最佳方式编码语音内容。
DRC
MPEG-D DRC(Dynamic Range Control,动态范围控制)技术可以让听者能够控制音频水平。它可以作为每种 MPEG 音频编码技术的后处理器使用,并在播放时修改解码信号的动态范围。DRC 可用来降低电影中音量最大的部分,这样就不会打扰到你的邻居。它可以在恶劣音频环境下(汽车、公交车、房间里有很多人)放大音频中的安静部分,还可以将音频的动态与智能手机扬声器的输出(其动态范围通常非常有限)匹配。在规范音频输出信号音量方面(在一些监管环境中可能会强制执行),DRC 标准也发挥了非常重要的作用。DRC 发布于 2015 年,并在 2017 年扩展为 Amendment 1 参数型 DRC,增益映射和均衡工具。
3D Audio
MPEG-H 3D 音频发布于 2015 年,一如既往,它也是 MPEG 系列工具(系统、视频和音频)中的一部分。它提供了沉浸式音频内容的高效编码:编码范围通常在 11~22 个内容声道。3D 音频算法可以处理任何声道组合、对象以及 HOA(Higher Order Ambisonics)内容。HOA 中对象为单声道音频,具有动态的时间位置,HOA 能够将整个声场编码为多声道 “HOA 系数” 信号。
由于 3D 音频内容是沉浸式的,所以可以将其看作是一部 360 度 “电影(即视频加音频)”。用户坐在 360 度球体中心(最佳聆听地点),音频被解码和呈现给用户,这样用户就会感知到来自周围环境中某个地方的音频。MPEG-H 3D 音频也可以通过耳机呈现,因为并不是每个用户都拥有 11 或者 22 声道的聆听空间。除此之外,MPEG-H 3D 音频支持 HRTF(Head Related Transfer Function,头相关变换函数)的默认和个性化使用,以便使听者感知音频内容(仿佛来自听者周围的音源),就像使用扬声器一样。3D 音频在耳机中播放所添加的一个功能是:无论听者如何转动头部,听者所听到的音频可以一直保持在 “正确位置”。也就是说,当用户看向前方时,声音是来自 “前方”,而当用户转动头部看向右侧时候,声音会被感知为来自用户左侧。因此,对于 360 度视频应用来说,MPEG-H 3D 音频已经是一个接近完整的解决方案了。
结语
在这三十年中,MPEG 的音频组向市场输入了一代又一代的音频编码标准。作为 MPEG 最佳传统,这些标准在某种意义上是通用的,可用于纯音频或者音频 + 视频应用程序。随着新一代音频编码标准构建在前代编码标准之上,这些编码标准通常可进行扩展。
下图展示了这三十年的音频编码之路。
令人遗憾的是,MPEG 组织已经不复存在了,但是关于 MPEG 的记忆都保存在了我的博客上:
https://mpeg.chiariglione.org/,欢迎大家阅读。
注释:
[1] https://blog.chiariglione.org/forty-years-of-video-coding-and-counting/
致谢:
本文已获得作者 Leonardo Chiariglione 授权翻译和发布,特此感谢。
我对产品很感兴趣,请尽快联系我!
请问我所在的地区有商家吗?
我想详细了解购买流程!
购买该产品享受八折优惠,还能得到技术支持?
我想购买请电话联系我!
购买所需要的费用有哪些?
产品很好,请尽快联系我详谈!
声明:该文观点仅代表作者本人,音频应用发布平台仅提供信息存储空间服务。加微信:254969084带你进群学习!百家号免费发布
发布
电话
微博
公众号
回顶部