什么是数字
音频?
数字音频是通过电脑以及数字设备等方式来表示模拟信号,并将其进行录制、回放的一种方法。与视频的帧类似,数字音频也是由一系列的采样样本组成的,声音的回放其实就是这些样本序列的再构成。数字音频有许多不同的格式,不同格式的数字音频则是有着不同的保真度和动态范围。
数字音频本质上来讲是有限的。声学声音和模拟信号都是由实际存在的、流动着的波形构成的,而数字信号则是实际存在着的物体的近似值。就像由无数的帧组成的视频一样,数字音频也是由一系列的采样样本构成的。
本文将会着重介绍脉冲编码调制(PCM),这是最常用的数字音频编码系统。而其他的系统,诸如DTS以及杜比数字等,则在电影和技术行业更为常用。
Avid Pro Tools
在PCM音频系统中,信号每秒被多次采样,每个采样都记录了某一特定时刻波的振幅。由于模拟波形并不能被完美无缺地重建,因此每个采样都是取的近似值。而当这些样本按顺序播放时,便可以准确地重新再现声音。
与模拟音频中用频率和振幅两个要素来定义声音一样,数字音频也有两个主要的参数:采样率和位深度。采样率指的是声音每秒被采样的次数,而位深度指的则是每个采样所能够捕获的动态范围量。
CD的标准采样率为44.1kHz,看上去这个数字好像是一个很随机的选择,但是其实根据奈奎斯特的香农采样定理,采样率必须要高于捕获最高频率的两倍。而人耳的听觉上限是20kHz,因此需要大于40kHz的采样率才能捕获整个范围(而额外的4.1kHz则是为了避免一种名为“混叠”的失真现象)。
理论上,44.1kHz的采样率已经足够我们准确地再现任何声音了,但是还是有更高的采样率的存在。
另一种最为常见的采样率便是48kHz,它是电影以及视频声音的主要标准。这是因为它的设计与现有的每秒24帧的电影帧速率标准相互集成。而与奈奎斯特频率类似,24帧是刚好可以使得一系列图像看起来像是流畅的运动图像的神奇数字。
而音频采样率必须要是帧速率的倍数,才能保持同步,44.1kHz会随着时间的推移而导致明显的音画不同步现象,因此48kHz的采样率最为合适。
更高的采样率也被广泛使用,但这些采样率的必要性却饱受争议。支持者称超高频率的采样率巧妙增加了保真度,并为信号添加了“味道”;而反对者则认为,44.1已经足够,而且采样率越高,文件大小也会越大,并且在抖动到较低采样率时,会无可避免地产生“伪阴影”。
这些更高的采样率通常都是44.1或者48的倍数,例如88.2、96以及192kHz都是现代设备和软件中常用的采样率选项。
比特深度决定了文件的动态分辨率,类似数码照片那样。每个“比特”可以传送4个振幅数值(两个正值两个负值),因此每个样本所含的比特越多,也就代表着动态范围越大。
这并不意味着,比特深度越高,音量就会越大;但是,更高的比特深度听起来会更加真实,因为它们可以做到更加准确地再现声音(就好比高分辨率的照片)。以下是常见采样率及其统计数据的概述:
4-bit:16个数值,24dB的动态范围。有时也会用于极低保真的“bitcrushed”效果器上。
8-bit:256个数值,48dB的动态范围。经常用于早期的经典的视频游戏系统。
16-bit:65536个数值,96dB的动态范围,CD音频的标准比特深度。
24-bit:16777216个数值,145dB的动态范围,最常用的比特深度。
32或者 64-bit:“浮点”,目前可以做到提供最佳信噪比的数值,但是尚未被广泛采用。
PCM音频可以为用户提供多种格式的编码,这些格式分为两大类:有损和无损。无损格式完美保留了录制时捕获的任何信息,但会占用较大的硬盘空间。
有损格式会创建压缩文件(注意,数据的压缩和音频的“压缩”是不一样的),有损格式的文件占用的硬盘空间会明显减少,但是同样会牺牲一部分音质,甚至会产生“伪阴影”。以下是常用的文件格式的概述:
无损格式
WAV (波形音频文件格式):录音设备在录制原始未压缩音频文件时的常用格式。广播WAV文件(.BWF)可以存储大量的额外元数据。
AIFF(音频交换文件格式):和WAV相似,是apple设备专用格式。
FLAC(免费无损音频编解码器):一种开源格式,可以在不牺牲音质的前提下对文件进行压缩,但是并非所有播放器都支持。
ALAC(Apple无损音频编解码器):效率略逊色于FLAC,Apple设备专用。
有损格式
mp3(Mpeg音频层III)迄今为止最常见的压缩文件格式,在便携式音乐播放器问世时得到普及。
AAC(高级音频编码)一种旨在提高mp3质量的替代方案。
OGG (Ogg Vorbis)维基百科、Spotify 以及某些视频游戏的开源替代品,但是个人用户使用并不方便。(有趣的是,Vorbis其实是Terry Pratchett笔下的Discworldbook系列中的一个登场角色。)