首先, @deafgirly (又名 Deafinitely Girly)发了一条推文:“字幕并非听障人士专属用的。我的很多听力正常的朋友也都在使用字幕。”这条推文迅速走红,并被英国《卫报》报道。
响度标准化规范是否损害了对话清晰度?——我们对此进行了调查
对于
音频专业人士来说,这无疑是当头一棒。毕竟,如果我们混音出来的内容中人声清晰度如此之差,那我们岂不是根本没做好自己的工作?还是说,还有其他因素在起作用?本文将对此进行调查,并得出一些明确的结论。

一切始于一条推文
套用一首著名歌曲的歌词,这场关于可理解性的最新风暴始于这条推文,截至撰写本文时,该推文已获得超过 74,000 个赞,并被转发超过 70,000 次。
这位来自英国的30岁博主兼活动家(她更喜欢用自己的推特账号称呼自己)告诉《卫报》……
“我和妈妈出去吃午饭,手机突然响个不停。不过我真的很高兴,因为来自世界各地各个年龄段的人都对字幕给予了压倒性的支持。甚至那些在电影院里说不太喜欢字幕的人也表示,如果字幕能让听障人士看更多电影,他们愿意接受字幕。”
首先,让我们来看看一些对Deafinitely Girly推文的回复……
Frances Robyn(@onelittlebird7):我和男朋友在所有平台上都会开字幕。我们听力都正常,但觉得没有字幕经常会漏掉内容,特别是有些演员含混不清、笨嘴拙舌的时候!!我认为人人都能从中受益。
BrettWolf7(@BloodWolf7):好家伙,我一直都用字幕。游戏、电视,什么都看。我不是聋人也没有听力障碍,只是单纯喜欢开着。如果我在忙别的(工作、和人聊天,或者背景噪音很大),字幕能帮我跟上对话内容,不至于错过。
Renée McTavish(@reneemctavish75):没错!动作戏的配乐也是!电视剧在这方面也很糟糕。我喜欢那种烘托气氛、营造紧张感的音乐,但绝不能以听不清演员台词为代价!
Jeremy(@Jeremy0333):太多影视剧的对白和“背景”音乐之间音量差异悬殊。我一直开着字幕,这样的话,大声的段落不至于太吵,同时还能知道在说什么。
Stickers (@StickersDrg) 2019年5月8日:我听力,能听懂,但我很喜欢字幕。字幕真的帮了我很多。没有字幕,我觉得我听不清一半的内容。如果电影院也能提供字幕就太好了。
Ian™️(@Geeko55):我用字幕!我听力完全正常,但有时很难听懂在说什么,或者就是不想把音量开得太大。
那么,为什么这么多听力正常的人还要看字幕呢?我们能接受这种做法吗?
广播和流媒体(OTT)内容清晰度下降的原因,并非单一原因所致。如同许多其他问题一样,这是多种因素共同作用的结果,最终导致听力正常的人不得不打开字幕才能理解剧情。本文稍后将对此进行探讨。
在深入之前,让我们先仔细看看“清晰度”。字典对“intelligibility”的定义是……
“可理解的品质或状态——能够被理解;易于理解;足够清晰以便理解。”
在非声调语言(西方语言)中,辅音非常重要。辅音(如k、p、s、t 等)主要出现在 500 Hz 以上的频率范围内,更具体地说,是在 2 kHz 到 4 kHz 的频率范围内。然而,请看下图,2 kHz 到 4 kHz 频段内常数的能量大小与语音清晰度之间,并没有真正的相关性。
不同频段电平大小与清晰度 之间的关系。图片提供:DPA麦克风大学(DPA Microphone University)
雪上加霜的是,要让辅音变大非常困难。你自己试试就知道了,这真的很难。当你大声说话或喊叫时,元音会变大,但辅音的音量却基本保持不变。辅音缺乏能量,也使得它们更容易被其他声音掩盖或淹没,比如音效(sound effects)、拟音(Foley)或音乐。
回到本文,我们将探讨导致“听力正常的人也会使用字幕”这一种荒谬观点出现的原因。
对真实感的渴望

如今,戏剧表演越来越趋向写实主义。演员可以也应该探索不同的表演技巧来塑造角色。然而,如果这种真实体现在以“生活化”的方式演绎台词,而不是确保剧院后排的观众都能听清的演绎方式,那么最终效果可能并不理想,导演们需要意识到这一点。问题在于,一味追求真实主义,意味着台词可能无法清晰地传达给观众,导致最终观众难以理解台词的内容。
电视剧制作,无论是纪录片还是剧情片,无论是在摄影棚拍摄还是外景拍摄,都没有什么真实可言。那么,为什么还要考虑尝试采用真实感的拍摄手法呢?
可信吗?绝对可信!现实吗?绝对不现实!
说到混音,在混音时,我认为电视剧对话不能保留自然动态。如果那样做,对话就会变得难以听清和理解。至于如何降低对话的动态范围,则取决于幕后。你可以使用推子、削波电平或压缩器。但限制动态范围这一步至关重要。
真实现实主义根本不可能,我觉得追求“现实主义”的做法在很多方面都存在缺陷。想想看,灯光、拍摄手法、故事结构,这一切都不是真实的,那为什么要把现实主义强加到真实声音上呢?这简直太荒谬了!
这种对真实感的追求,意味着导演们觉得没有必要(教授这些技巧)。
理解对白的另一重障碍来自各地口音:这又是真实感追求的副产品。导演想要地道的口音,这情有可原,但若过重,观众即便其他方面都听得清楚,也会难以理解内容。我绝非主张禁绝口音,只是建议适可而止——用作点缀提示,而非全盘写实。随着国际
合作日益频繁,尤其是亚马逊、Netflix等平台的流媒体剧集,英国人耳熟能详的地方口音,美国人可能一头雾水,更别提那些以英语为第二、第三语言的观众了。这一点导演必须纳入考量,因为完全写实的口音,在国际制作中往往行不通。
这种对“真实感”的追求延伸到了另一个层面,那就是演员说话时缺乏清晰的发音。例如,在英国二战后的电视剧《SSGB》中,有很多场景是在黑暗中拍摄的,为了传达剧情需要,人们必须轻声细语,以免被人听到,还要藏身在暗处,在天黑后外出,以免被人发现。这种写实手法的问题在于,当观众看不到说话者的嘴唇动作时,清晰度就会受到影响。轻声细语却能清晰地表达是一门艺术。过去这种技巧被称为“舞台耳语(stage whisper)”,但如今戏剧学校似乎不再教授这些技巧,以至于至少有一代演员已经完全不具备这项技能。
这种对现实主义的追求意味着导演们觉得学校教授这些技巧没有必要这样做。
理解台词的另一个挑战是国家和地区口音。这又是追求真实感的又一体现。导演们想要逼真的口音固然可以理解,但如果口音过于浓重,即使其他方面都无可挑剔,观众也会难以理解台词。我丝毫没有建议禁止使用口音,只是建议适度使用,将其作为提示而非追求真实。随着越来越多的国际化制作,尤其是来自亚马逊和Netflix等流媒体平台的剧集,英国人能够轻松理解的英国地区口音,美国人可能难以听懂,更不用说那些英语是第二或第三语言的人了。导演需要考虑到这一点,因为在国际化制作中,完全逼真的口音往往难以奏效。
电视剧不是电影大片。
我也认为把电视剧当电影大片来看是很愚蠢的。例如,晚上观众几乎肯定会把电视音量调得很低,尤其是有小孩的家庭,这样一来,所有那些比较轻柔的声音就听不见了,如果其中还包括轻声细语的对话,叙事就很容易被淹没,他们最终不得不打开字幕才能跟上剧情。
既有知识——参与制作的所有人都知道要表达什么。
另一个影响某句台词是否易于理解的重要因素是,所有参与制作的人都知道台词的内容,他们在前期制作、剧本修改、拍摄和后期制作过程中都接触过这些台词。这意味着他们可能和演员一样了解剧本,甚至比演员更了解!
对剧本的熟悉意味着,即使台词含糊不清,他们也能听出来。例如,在拍摄现场,导演知道台词是什么,即使录音团队要求重拍,他们也可能会怒目而视,说:“我听得清清楚楚,你们有什么问题?”到了配音阶段,导演来审核某个场景时,他们同样知道台词,因此很可能会要求提高音效和/或音乐的音量,以增强场景的戏剧张力,而如果他们是第一次接触这部剧,就不会有这样的反应。
制作技术的变化——更多采用多机位拍摄,减少使用吊杆麦克风
使用多台摄像机拍摄场景时,吊杆麦克风(boom mics)的使用效果往往大打折扣,因为至少有一台摄像机的拍摄角度可能不理想,导致吊杆麦克风无法靠近到足以拾取清晰声音的位置。因此,现场录音团队最终不得不依赖个人无线麦克风(personal radio mics)。在人胸部前录制的语音频谱通常会缺少2-4 kHz这一重要频段的频率(该频段包含常数),从而导致语音清晰度降低。
事实上,在本文中,我们也了解到,通常吊杆麦克风的位置(就在头部上方)是获得最佳语音清晰度的理想位置。所有这些都意味着,多机位拍摄的兴起带来了双重打击:我们不再使用吊杆麦克风,而是用通常佩戴在胸前的个人无线麦克风取而代之,而这些麦克风对辅音的拾音效果不如吊杆麦克风。正如我们所了解的,语音清晰度取决于一些基本要素。
响度范围过高

不同类型节目的响度范围(柱状图中的绿色部分),以LU为单位(0 LU = -23 LUFS)。
左起:电影、DVD、高清电视、老式电视(模拟或标清电视)、手机电视或播客、深夜节目、汽车电台、航班的机上娱乐。
这个问题与字幕使用量的增加直接相关。电视剧的风格越来越趋向电影化。从音效角度来看,电影化的音效并不适用于家庭环境,因为家庭环境无法像电影院那样对播放系统和房间背景噪音进行完全控制。此外,家庭环境通常比大房间小得多,小房间对音量的承受能力也远不及大房间。我们必须始终牢记,我们创作的内容将在何种环境下以何种方式被观看。
目标响度对照图。ITU-R BS 1770下的合规内容使用了更多动态余量。
图表中的PPM指“Peak Programme Meter(节目峰值表)”,是VU表之外另一种测量响度的仪表。ITU-R BS 1770是响度的一种算法标准,欧洲广播联盟(EBU)在此基础上制定了R128响度规范。
平均法则
回顾响度归一化引入之前的情况,虽然响度跳跃的问题依然存在,但峰值电平归一化(peak level normalisation)使得对话的音量通常接近或达到峰值电平。这种方式的结果是,对话的音量接近动态余量(headroom),这意味着几乎没有其他内容声音的音量可以超过语音对白。然而,随着内容响度归一标准化,以及基于 BS 1770 标准的交付规范所提供的额外动态余量,似乎混音中响度高于对话的部分出现了过度增长。这导致两个结果:一方面,当测量综合响度时,越来越多的混音内容响度高于对话;另一方面,由于混音中响度高于对话的内容增多,对话的响度相对于整个混音的响度被压低,这是必然的,这是平均法则!
由于内容中对白存在更多音量高于基准点(anchor point)(通常是对话)的声音,响度范围会增大,这对家庭环境下的观看体验不利。响度范围越大,包含的音量大小范围就越广。由于对话音量相对于整体响度被压缩,这意味着人们会调整电视音量,使音量较大的声音(通常是音乐)处于舒适的聆听水平,但由于响度范围过大,对话音量不足,难以听清。因此,与其不断调节音量,观众不如打开字幕这样看得清晰。
降低响度范围

Mike Thornton使用NUGEN Audio VisLM-H进行响度测量。
在我的文章 Nugen Audio 的 Dolby Dialog Intelligence 门控算法中,我使用 Nugen Audio 的杜比对话智能门控算法,对四个不同的节目进行了综合响度和对话响度测试,这四个节目分别是亚马逊 Prime 的《The Grand Tour》、BBC 的《Blue Planet》以及我自己混音的两个节目。第一个节目是《Cow Dust Time》,这是一部为 BBC Radio 3 制作的纪录片。BBC Radio 3 是英国的公共服务古典音乐频道,其节目风格允许比通常更宽的动态范围。该节目是为“Between The Ears”系列节目制作的,该系列节目鼓励音景和更丰富的声音设计,这与大多数广播纪录片截然不同。我自己混音的第二个节目是《Doctor's Dementia》,这是一部为 BBC Radio 4 制作的更为传统的纪录片,BBC Radio 4 是英国的公共服务谈话类节目频道。
| 节目名称 |
综合 响度 LUFS |
对话 对白响度 LKFS |
备注 |
| Planet Earth 2 |
-23.0 |
-26.1 |
0 LU = -23 LUFS |
| The Grand Tour |
-23.0 |
-26.3 |
0 LU = -23 LUFS |
| Cow Dust Time |
-23.0 |
-22.8 |
结果已归一标准化,使综合响度为 0 LU。0 LU = -23 LUFS |
| Doctors Dementia |
-23.0 |
-23.8 |
结果已归一标准化,使综合响度为 0 LU。0 LU = -23 LUFS |
有趣的是,《The Grand Tour》和《Planet Earth 2》的对话智能测量结果都准确反映了我在之前的文章《电视混音是否过于电影化? 》
(Are TV Mixes Becoming Too Cinematic?)》中提到的低音量对白问题,其标准化对话门控响度分别为-26.1 LKFS 和-26.3 LKFS,而 R128 全混音测量值为 0 LU (-23 LUFS)。再来看我制作的两部以对话为主的纪录片《Cow Dust Time》和《Doctors Dementia》,它们的对话门控测量值与 R128 全混音测量值 0 LU (-23 LUFS) 更为接近。作为这项实验的一部分,我还研究了降低 LRA (响度范围,Loudness RAnge)值后对话音量会发生什么变化。由于我无法对实验中的部分节目进行混音,因此我将所有混音都导入了 Nugen Audio 的 LM-Correct 2 软件进行处理,该软件旨在将内容重新用于不同的平台。我的目标是将《Planet Earth 2》和《The Grand Tour》第二集的 LRA 值分别降低到 10 左右和 8 左右,并使用 Nugen Audio 的 VisLM 2 软件中的对话检测选项来观察对话音量的变化。以下是实验结果……
| 节目名称 |
对白 响度 LKFS |
节目 LRA |
| Planet Earth 2 |
-26.1 |
16.5 |
| -23.5 |
9.5 |
| -23.0 |
7.6 |
| The Grand Tour |
-26.3 |
12 |
| -25.3 |
9.5 |
| -24.7 |
7.6 |
正如你所见,在这两个例子中,降低混音的 LRA 值都提高了对话音量。《Planet Earth 2》的初始 LRA 值较高,更接近 Netflix 的混音风格,而将 LRA 值从 16.5 降至 9.5 后,对白音量从 -26.1 提升至 -23.5,使听感更加舒适,无需频繁调整音量。
显然,并非只有我一个人认为响度范围(LRA)很重要。在英国,数字制作合作组织(Digital Production Partnership)(简称:DPP)更新了面向所有英国广播公司的统一英国交付规范,并添加了关于响度范围的指导……
响度范围 (LRA) - 这指的是在节目播放期间测得的感知动态范围 - 节目应力求将 LRA 控制在 18LU 以内。
对话响度范围- 对话的采集和混音必须清晰易懂 - 纪实节目中的语音内容响度LRA范围应不超过 6 个响度单位 (LU)。建议对话与背景之间至少保持 4 个响度单位 (LU) 的分离度(separation)。
在加拿大,加拿大广播公司 (CBC) 和加拿大广播电台 (Radio Canada) 现在都要求 LRA 值低于 8 或 10 LU。他们还进一步规定,整个节目的综合响度(integrated loudness)以及对话部分的综合响度都必须为 -24 LKFS。此外,瞬时响度(momentary loudness)不得超过目标响度 +10 LU。而且,在保持 -24 LKFS 目标响度的同时,瞬时响度必须始终低于 -14 LKFS。
接下来谈谈OTT服务提供商,Netflix在其《Netflix音频混音规范及最佳实践v1.0》(Netflix Audio Mix Specifications & Best Practices v1.0)》中提供了LRA(音频分辨率增强)建议。他们表示……
以下响度范围 (LRA) 值最适合在该服务上播放:
5.1节目 LRA 介于 4 和 20 LU 之间
2.0 节目 LRA 介于 4 和 18 LU 之间
对话 LRA 为 7 LU 或更少
音效内容与对白差异为 4 LU
传输系统
作为传输系统的一部分,无论是卫星、地面数字电视还是 OTT,声音和图像都会使用“有损”算法进行大量数据压缩——视频最常用的是 H264,音频最常用的是 AAC 的变体。
这里的“AAC的某个变种”指的是HE-AAC(AAC+)。它是ATSC(高级电视系统委员会)采用的音频编码标准,适用于北美等地区。
有损音频编解码器通过丢弃它认为你听不到的信息来降低所需的数据带宽,一旦丢弃,就无法恢复。正如我们所了解的,辅音比元音要小得多,因此,在有损编解码器处理过程中,辅音的关键信息更有可能被丢弃。但清晰度不仅仅取决于声音。正如我们从麦格克效应(McGurk Effect)中了解到的,我们所看到的(或看不到的)事物也会影响清晰度。
麦格克效应是1976年由英国心理学家哈里·麦格克(Harry McGurk)和约翰·麦克唐纳(John MacDonald)发现的一种感官现象(perceptual phenomenon)。该效应揭示了视觉信息对听觉感知的强烈影响:当观众看到的嘴型与听到的声音不一致时,大脑会将两者“融合”,产生第三种完全不同的感知。经典实验中,播放音节 /ba/ 的音频,同时展示发 /ga/ 嘴型的视频,观众会"听到"既不是 /ba/ 也不是 /ga/ 的 /da/ 或 /tha/。]
几年前,Alan Sallabank给一部电视剧做混音,由于题材性质,剧中有着大量的暗光场景,且充斥蓝色与红色——这两种历来都是电视里让人棘手的色彩。其中有一场戏,摄像机从主角对面进入房间,缓缓推近,而她正对着镜头独白。Alan 回忆道:
“我当时用 HDCamSR 数字录像带母带工作,听的是无损声音,一切正常,毫无问题。几个月后,我看到它在标清频道播出,用的不是 5.1声道环绕声,而是 Dolby Pro Logic。我用家庭影院把 Pro Logic 解码回 5.1声道,用机顶盒将画面升频到 1080HD,放在等离子电视上观看。首先注意到的是后方涌出大量咕噜的杂音。有损音频编码造成的伪影主要是异相(out of phase)的,于是从环绕音箱中大声窜出来。但真正吸引我注意的是低码率 H264 视频编码对女演员嘴唇做了什么——它把嘴唇变成了一条静止的黑色像素条,仿佛我们在给什么脏话打上马赛克。这对可读性产生了立竿见影的负面影响。突然间,我无法用眼睛来辅助理解音频,而音频伪影也同样让人分心。”
我怀疑英国剧集《SSGB》也存在类似问题,角色藏身阴影中意味着我们无法看清嘴唇,因此清晰度(intelligibility)受损。
更近的例子是我们曾在《Netflix宣布为其流媒体服务提供“录音室品质”声音(Netflix Announce Studio Quality Sound To Their Streaming Service)》一文中报道的。Scott Kramer 加入 Netflix 担任声音技术经理(职能:创意技术与基础设施)后不久,他们与达菲兄弟(Duffer brothers)在客厅环境中审看《怪奇物语 2(Stranger Things 2)》——兄弟俩喜欢以观众的视角检验作品。第一集中有一段追车戏,他们发现声音不如混音环节里听到的那么清晰锐利。
尽管 Scott 刚进入后期制作领域,他回忆说:
“很多声音听起来很糊(mushy)”,而“糊”“涂抹(smeared)”这类词正是 Scott 和团队在描述那些不够清晰锐利的声音时不约而同用到的。
《怪奇物语》是 Netflix 上备受欢迎的剧集,Scott 很快意识到这事必须“纠正到位”。Netflix 召集了工程团队,决心不惜代价解决这个问题。方案是为《怪奇物语 2》提供更高码率的音频,但他们并未止步于修复这一部剧集,而是努力将改进后的音频更广泛地推广开来。
这是 Netflix 企业文化的一个有趣例证——付诸行动,全力支持创作伙伴。
Netflix 告诉我们,大多数支持 5.1声道环绕声或 Dolby Atmos 的电视设备都能收听更优质的音频。根据设备和带宽能力,你能收听的码率可能有所不同:
5.1声道:从 192 kbps 到最高 640 kbps
Dolby Atmos:适用于Premium 套餐订阅者,从448 kbps 到最高 768 kbps
毫无疑问,如果差异微不足道,Netflix 不会投入时间和财力来增加传输带宽。
电视内置扬声器
这是另一个在媒体甚至政府层面饱受诟病的领域。《战争与和平(War and Peace)》导演 Tom Harper 曾表示,虽然他尊重录音师的意见,但根据他的观点和经验,如果存在可听性问题,那么……
问题出在广播和电视接收端,因为音轨在缩减带宽下通过两个微型扬声器播放。
随着平板等离子和 LED 屏幕成为主流,消费级电视留给扬声器的空间越来越少。回溯CRT电视时代,机壳空间充裕,足以容纳尺寸合理的扬声器,产出不错的音质,而且大概率还是前置发声的。
平板电视本身的设计,加上对窄边框的极致追求,正面已无扬声器容身之处,于是它们常被藏在机身背部,驱动单元极小——然后我们还奇怪为何收到那么多跟声音清晰度有关的投诉。我们能了解到,保证声音清晰度的最佳位置是距离说话者一米,且说话者与听者面对面。若一方没有面向另一方,清晰度便会下降。同理,这些超薄电视将扬声器置于背部,不再面向观众,清晰度自然进一步受损。
下混(Downmixing)

NUGEN Audio HALO Downmix下混音插件
既然我们谈到了消费端的技术,那么我们就来谈谈另一个影响清晰度的因素:下混音。
交付规范通常要求下混音时将中置声道降低 3dB,虽然这在技术上正确,但我怀疑这在声音上是否是最佳做法,因为 5.1环绕声独立的中置声道,与立体声扬声器的幻像中置单声道(phantom mono centre)之间存在明显的声学差异。(译者注:“幻象中置单声道”的中置声像,是通过左右声道叠加形成的虚拟声像,并非真实存在的独立声道,故名“幻象”。)
你用5.1环绕声混音时,会监听立体声下混音吗?然后回去检查,或许再在5.1声道中微调一下?毕竟,可能超过90的观众会用立体声收听,这使得无论我们需要交付LoRo(Left only / Right only)还是LtRt(Left total / Right total)立体声混音,还是由播放设备实时生成经过下混音的立体声,检查下混音都至关重要。
在专业音频交付中,LoRo 与 LtRt指代不同的立体声格式。其中,LoRo指纯立体声混音,左声道仅含左声道信息,右声道仅含右声道信息,不包含任何环绕声编码信息,通常用于音乐或简单的双声道内容。LtRt指矩阵编码的立体声混音,使用 Dolby Surround 等编码技术将中置声道和环绕声道信息“隐藏”在左右立体声声道中。LtRt虽然听起来像普通立体声,但通过 Dolby Pro Logic 解码器可还原为环绕声。)
幻像中置(Phantom Centre)
研究表明,采用幻像中置声道的立体声系统同样会损害清晰度。这种效应源于声学串扰(acoustical crosstalk)——当两个相同信号到达耳朵,其中一个信号相对另一个略有延迟时便会产生。由此产生的梳状滤波效应(comb filtering)会抵消音频中的某些频率。另有研究显示,使用中置扬声器播放语音,相比幻像中置,能带来虽小但可度量的清晰度提升。
解决方案
我给消费者的建议是选择回音壁(soundbar)。这样声音就能与电视锚定在一起。5.1环绕声系统有 6 只音箱,其中任何一只都可能摆错位置。我记得去某人家,发现他的家用5.1系统的左、右音箱分置电视两侧,而中置和环绕音箱则靠在沙发背后抵着墙——这意味着所有对白都来自你身后!
对此,我们能做些什么?
听力正常者觉得必须借助字幕才能听懂对白,这一问题如何解决?正如问题错综复杂,也没有一蹴而就的解决方案。
我们能做什么?这个问题的简单答案是:样样都要更好。要更完整地回答,篇幅会更长,但有一点可以肯定——我不相信靠一个插件就能解决。
深入理解诸多问题
最关键的改进,在于更好地理解和重视所有这些问题,尤其是那些掌握话语权的人——这往往是掌控创意方向的导演,以及手握财权的制片人、内容委托方等。这在追求真实感的趋势中尤为重要,同时也涉及内容应由谁、在何处混音,如何采集声音,以及剧本和场景选择等方方面面。
智能插件?
已有一款旨在提升清晰度的插件尝试过这一领域。早在 2019 年 2 月,Telos Alliance 发布了 AudioTools Voice 插件,专为改善对白清晰度而设计。然而,在用户反馈无法正常使用后,Telos Alliance 电视解决方案团队撤回了该产品,并表示:
“我们决定撤回 AudioTools Voice 的 V1 版本。V1 为这项技术奠定了基础,但我们清楚地认识到,用户控制功能和更多特性将让技术更上一层楼。V2 的开发工作正在进行中,包括算法增强和一系列新功能。我们将继续为现有客户提供支持,现有客户将免费升级至 V2。敬请期待!”
清晰度表
清晰度表(intelligibility meter)至少能通过提供清晰度的量化测量来提供帮助。目前已有两种选择。
公共广播系统(PA,Public Address systems),特别是需要发布安全公告的场所,要求具备可测量的语音传输指数(Speech Transmission Index)。该指数反映传输路径如何影响语音清晰度;它不考虑听者和说者,仅测量传输通道,这意味着听力损失、发音不清及其他(人为)限制等因素未被纳入考量。如需了解更多,可从阅读白皮书《实践中语音清晰度测量(Speech intelligibility measurements in practice)》入手。
回到媒体与广播领域,尽管由于变量过多——其中大部分本文已有涉及——无法测量完整的传输路径,但这正是一个吸引开发者关注的课题。

iZotope Insight 2中的清晰度表
iZotope 的能工巧匠们已认识到这是一个重要因素,并在其最新版音频可视化与计量软件 Insight 2 中加入了清晰度表。这并非 iZotope 首次率先将概念转化为产品。此次,他们为行业打造的 Insight 2 内置清晰度表,开创了音频计量领域的先河。
首开先河,自有其挑战,因为你必须确立风格与标准。而 iZotope 凭借 Insight 2 的清晰度表迎接了这一挑战。顶部表头不设刻度,仅设目标值,直观易用;有趣的是,当你切换消费者可能的收听环境预期时,目标值会随之移动。然而底部两个以“phon”为刻度的表头,却是音响扩声和紧急广播系统清晰度测量的遗风,置于广播与 OTT 语境中,其确切含义并不明晰。在我看来,仍有完善空间,但当你毫无参照时,总得从某处起步,尤其是在拓荒之时。
这注定不会轻松,但 iZotope 的巧思从未因此却步,我相信他们会持续完善这一新概念。它将为我们的混音清晰度提供量化测量,助益良多,尤其当我们混音的内容越来越多地在嘈杂、复杂的环境中播放,而播放系统又无法提供最佳音质的时候,更是如此。

在大小适当的房间里混音?
我能理解 Netflix 为何想要使用动态范围更宽的交付规范,毕竟他们大量内容是为大银幕而非小屏幕制作的。然而,他们似乎将这种制作标准原封不动地搬到了为小屏幕量身打造的内容上。在我看来,“大银幕内容可直接移植到小屏幕上”这一理念是有缺陷的。Reid Caulfield 在评论我们的文章《电视混音中的响度与对白清晰度——我们能对过于电影化的电视混音做些什么?(Loudness and Dialog Intelligibility in TV Mixes - What Can We Do About TV Mixes That Are Too Cinematic?)》谈及 Netflix 新规范时表示:
“专为‘家庭’环境制作的混音,必须在近场环境、79dB 下完成——如果最初是在大剧院混的,那就得重混。而不是因为某个房间要塞进 40 个人,就在 85dB 的大剧院里做混音。也不能简单地把大扬声器阵列关掉、打开近场监听,就在那种大环境里混。得在更小的、以电视为导向的房间里混才行。”
他随后提出了如何核查混音效果的建议:
“通过要求所有元素以 Dolby Atmos-At-Home ‘封装’形式交付。即便节目并非以 Atmos 格式混音,只要指定以 ADM 文件交付,就能确保源房间尺寸数据和扬声器布局包含在随数据文件和节目内容一并传输的关联元数据中。”
我完全赞同这一观点:电影内容需要重混,“家庭”定制内容也应在更小空间、更合适的监听电平(如 79dB)下混音。我很欣赏他使用 Dolby Atmos-At-Home 封装的想法,因为它会包含混音房间的元数据,这将使核查工作轻松得多。
但在掌权者采纳 Reid 的建议之前,我们能对那些 LRA 过大、不适合家庭消费的混音做些什么呢?
是时候将最大 LRA 纳入规范要求了吗?
正如我所论证的,任何超过 10 LU 的 LRA 对于家庭消费内容而言都过高。我说过,在我看来,18 至 20 LU 的上限实在太高,因此或许是时候向 BS 1770 标准加入 LRA 数值了?至少,它应该成为广播公司交付规范中的硬性要求,而非仅供参考的建议。
采用基于对象的音频(Object Based Audio)怎么样?
另一个确实有效的方案是使用基于对象的音频和 MPEG-H 编解码器。
在《Object Based Audio Can Do So Much More Than Just Dolby Atmos? We Explore》一文中,我们介绍了索尔福德大学(Salford University)广播无障碍研究方向(Broadcast Accessibility)、音频工程研究生 Lauren Ward 的研究项目。Lauren在研究项目中探索了一种方法:对内容中不同音频对象按其对叙事的重要性进行评分。若某对象对故事至关重要,如对白或开门声,则评为“必不可少”;氛围和音乐等虽能丰富叙事,但即便缺失也不妨碍理解故事的对象,则重要性逐级降低。
随后只需一个控制滑块,你就能从完整标准混音一路调至仅保留必不可少内容的混音,供重度听障者使用。我曾在访问索尔福德大学时亲自体验,发现它非常简单直观,而且在制作过程中对对象进行评分也十分便捷。
这种单一控制界面比其他个性化方案简单得多——后者往往要为解说、音效、主队人群(home crowd)、客队人群(away crowd)等每个对象分别设置多个电平控制。
自我们发表此文以来,Lauren 的研究在英国进入了公开测试阶段。这项实验选取了 BBC 一台医疗剧《急诊室(Casualty)》的最新一集,在 BBC 网站上呈现了一个特别版本——除音量控制外,还增加了一个滑块。将该滑块保持在右侧,即为标准音频混音;向左滑动,则逐步降低背景噪音(包括音乐),使对白更加清晰。这项实验引起了英国全国性媒体的关注,包括《泰晤士报》的相关报道。这是一个限时演示,上线时间已经延长,截至撰稿时仍可在 BBC 网站供英国境内用户访问。
虽然《急诊室》以英国一家大型医院的急诊部(Accident and Emergency)为背景,但此处的 A&E 指的是"无障碍与增强"(Accessible and Enhanced)音频。在这项 BBC 项目中,他们正在试用一项新功能,让观众能够自行调节该集的音频混音,使其最适合自己的需求和偏好。
该项目虽面向英国 1100 万听力受损人群,以及所有难以听清演员台词的观众,但英国媒体敏锐地发现,那些在嘈杂的火车和公交车上流媒体看剧的通勤族,同样能从中受益。
这项技术可以整合到消费级电视中,正如 BBC《急诊室》的实验所示,网络平台和流媒体服务也能轻松将其嵌入智能电视的播放器,届时无论听力正常还是听障人士,都能从这一出色系统中获益。
我认为这并不难实现,当然包含两个环节:在消费者端部署这一滑块功能,以及在制作过程中对内容进行重要性分级。正如 Lauren 所解释的:
“我们的技术为电视节目制作和观看过程增加了两个环节。第一个发生在拍摄完成后、进行音频混音时。此时,每个声音或声音组都会由配音混音师或制片人赋予一个重要性级别(存储在元数据中)。”
你可以像 Avid 在 Pro Tools 中为片段评级那样,建立一套评级系统。在制作流程中嵌入叙事重要性评级系统,再将相关元数据封装进交付流,这一切都非常容易实现。Lauren 进一步解释道:
“某些非语音声音,比如《急诊室》中心脏监护仪的平线提示音(flatlining beep),对剧情叙事至关重要。这项技术让这些关键音效保持突出,同时弱化非必要的声音。”
基于对象的音频赋予消费者更多控制权,同时也为内容提供商提供了技术支持:只需传输一路基于对象的内容流,再利用元数据,即可针对消费者播放内容所使用的硬件,渲染出最合适的版本。
结语
所以,情况就是这样。正如我们在文章开头所说,听力正常的人不得不依赖字幕的原因有很多,而且多种因素叠加在一起,使情况变得更加糟糕。
作为一名音频后期制作剪辑师和混音师,如果听力正常的观众需要打开字幕才能理解剧情,我认为我们就是失职的。我们以及那些对预算和创意选择拥有影响力和控制权的人有责任了解这些问题,并共同努力解决这一问题,从而更好地服务于我们的观众。
我也是这么想的。你觉得呢?请在下方评论区分享你的想法和经验……
文章出处:https://www.production-expert.com/production-expert-1/subtitles-have-become-the-norm-for-hearing