沉浸式音频(immersive audio)不再是实验性的阶段,但我们谈论它的方式仍然停留在实验思维。在与 Hyunkook Lee 教授、Emre Ramazanoglu 和 Mark Gittins 的对话中,焦点从格式转移到了更重要的问题上:人类如何在三维空间中真正听到声音,以及沉浸式混音在哪些方面会悄然对我们产生不利影响。
沉浸式
音频发展迅猛。杜比全景声(Dolby Atmos )混音如今已成为标配而非可选项,各大流媒体平台几乎在一夜之间就实现了高度声道(height channels)的标准化。然而,我们对沉浸式声音感知方式的理解,以及我们从立体声中沿袭下来的假设何时开始瓦解,却并未以同样的速度发展。
在最近一期的《Production Expert Podcast》节目中,哈德斯菲尔德大学(University of Huddersfield)音频与心理声学工程教授、应用心理声学实验室创始人Hyunkook Lee教授,以及沉浸式混音工程师Emre Ramazanoglu 与 Mark Gittins齐聚一堂。与以往侧重于工作流程或工具不同,本次讨论聚焦于心理声学、听觉感知,以及这些因素对使用杜比全景声(Dolby Atmos )或其他沉浸式格式进行混音的实际影响。
以下内容并非为理论而理论,而是一系列直接影响沉浸式混音效果、艺术家对混音的反应以及某些 Atmos 混音作品为何令人信服而另一些却悄然崩坏的观察结果。
高度不仅仅是“向上平移(Panning Upward)”
沉浸式音频系统与传统环绕声的主要区别:在于高度扬声器(height speakers)。这听起来显而易见,但其背后的心理声学原理却常常被误解。
Hyunkook Lee教授从事环绕声和沉浸式声音的研究已有 25 年之久,自 2010 年以来,他尤其关注高度感知(height perception)领域。他最初的问题看似简单,实则暗藏玄机。
“当使用垂直立体声系统等立体声设备时,如果增加了高度扬声器,我们如何才能真正实现垂直方向的声音定位呢?”
在传统立体声中,双耳间的时间差和音量差是大多数定位决策的基础。Hyunkook Lee 教授指出,这些线索在垂直方向上并不适用。
“简而言之,我发现时间差对垂直定位并不有效。它在垂直立体声中无法准确工作,因为我们的听觉机制并非如此运作。我们的双耳是水平分布的,而不是垂直排列。”
实际上,在延迟低位扬声器(lower speakers)和高位扬声器之间的信号,并不能实现稳定的垂直声像定位。相反,它会引入梳状滤波效应和频谱失真(spectral artifacts)。
即使是水平上的差异也只能提供有限的帮助。
“声像定位(level panning)也不准确。我们在立体声中使用的声像平移(panning)机制,只是为了方便。它们无法提供任何精确的定位信息,而且还会严重影响声音的音染。”
对于沉浸式音频工程师而言,这是一次重要的重新审视。高度扬声器并非左右声道的垂直版本,如果将它们视为左右声道,就会产生任何自动化手段都无法解决的问题。
频谱线索(Spectral Cues)才是真正起作用的因素。
如果时间和高度差都不可靠,我们究竟是如何感知高度的呢?
“这更多与频谱线索有关,”Hyunkook Lee教授解释说。“有一种理论叫做音高效应(pitch effect)。无论说话者身处何处,如果高频成分较多,人们往往会将其感知为位置更高。”
低频信号的表现截然不同。
“如果你用高度扬声器播放 100 赫兹的频率,声音永远不会定位在那个位置。它只会出现在耳朵高度,甚至更低的位置。”
这会直接影响沉浸式混音。将信号移至高度层绝非中性,无论是否出于本意,它始终是一种音调上的选择。
图 1 Hyunkook Lee教授。(图片来源:Sensound Audio)
高度扬声器就是均衡器,不管你喜不喜欢。
讨论中最具启发性的时刻之一是讨论的焦点从“空间”转移到了音色本质。
“很多人都在谈论空间感,”Hyunkook Lee教授说,“但我们很少谈论音色,以及色调的重要性。”
高位扬声器与耳平扬声器相比,其头部相关的传递函数(head-related transfer functions,HRTF)存在根本性的差异。
“左前方(front left)高处的扬声器8kHz频段能量较多,4kHz频段能量较少。左前方耳平处的扬声器2至4kHz频段能量较多,高频能量较少。因此,如果您只是将音源从较低的扬声器移到较高的扬声器,实际上就相当于应用了EQ。”
这并非沉浸式格式的缺陷,而是物理规律使然。但这意味着,沉浸式混音天生就是音色混音。
Hyunkook Lee 教授补充道:“有时候你不必担心掩蔽效应(masking)。如果你把声源分散到不同的方向,就会减少掩蔽效应。这样就能自然而然地解决所有这些问题。”
只有当工程师们理解了正在发生的变化以及变化的原因时,这种方法才有效。
双耳监听与HRTF的局限性
双耳回放(binaural playback)增加了额外的复杂性,尤其是在沉浸式音频通过耳机传送给听众时。HRTF常被视为解决方案,但Hyunkook Lee 教授对其局限性有着清晰的认识。
“如果个人HRTF(personal HRTF)只是静态的,且未采用房间模拟,那么它实际上效果并不理想。”
即便经过精心测量,结果也各不相同。
“我在不同实验室测得四套个人HRTF数据,其中包括基于AI的方法。没有一套能完美运作,而且它们听起来都大相径庭。”
问题不仅仅在于测量精度。人类的感知在很大程度上依赖于动作、情境和视觉线索。
“在无法看见物体且静止不动的情况下,人类定位声音的能力天生就存在局限。”
这有助于解释为何静态双耳回放常会出现前后与上下方向的混淆,即便在技术上完全准确时亦是如此。
“我们正在用同样的手法彻底消除音色变化,同时保留一定的沉浸感。”
保留创作意图而非追求视觉效果
对于从事商业Atmos项目制作的工程师而言,Emre Ramazanoglu的观点源于大规模项目的实践经验。
“保留音色是我们的首要任务,”Emre Ramazanoglu 表示。
在数千个沉浸式混音项目中,他极少将“重新创作”作为优先事项。
“大多数人希望自己的混音在沉浸式环境中听起来精彩绝伦,他们并不想要另一套混音。”
双耳声传输(binaural delivery)——特别是在消费级平台上——可能会引入音色失真,而工程师对此往往束手无策。
“如果作品在音色发生变化的情况下,被交付并播放给消费者,作为混音工程师,我对此非常介意。艺术家们是不会接受的,我还没遇到过一个会接受的。”
应对之策颇为务实。
“我们正在采取完全相同的措施,既彻底消除音色变化,又保留一定的沉浸感。”
监听、声学环境与心理预期
仅通过耳机监听沉浸式音频,只有在精心管理听觉感知的情况下才有效。Hyunkook Lee 教授的双耳监听研究正是基于这一理念。
“如果声学环境与你自己房间的声学特性不匹配——虽然不必完全一致,但所有相关的感知线索都需要被合理地模拟出来。”
视觉环境与声音同样重要。
“如果你看到扬声器就在你面前,它基本上就捕捉到了声音。”
这解释了为何熟悉感往往胜过技术上的精准度。
“我有一个客厅预设。虽然房间完全未经声学处理,但我喜欢这种声音,因为它非常熟悉。如果我在客厅里听这个预设,听起来就像真实的扬声器。但如果在实验室里听,我连五秒都听不下去,因为听起来就是不对劲。”
运动改变感知
Hyunkook Lee 教授与 Mark Gittins 都指出,运动是许多沉浸式聆听系统中缺失的关键要素。
“一旦开始移动,大多数问题就会自动迎刃而解,”Hyunkook Lee 教授说,“即使使用非个人化的HRTFs也是如此。”
这就是为什么VR环境往往比静态的双耳回放更具说服力的原因。
“在VR中,视觉环境会引导声音。大脑能迅速适应这种变化。”
缺乏运动,感知就会停滞。
“如果你保持静止,我们其实无法真正理解正在发生什么。”
我们所处的现状
显而易见的是,沉浸式音频绝非仅仅是增加扬声器的立体声。它揭示了立体声让我们长期忽略的听觉维度。
无论我们是否情愿,高度声道会改变音色。双耳回放受制于人类感知,这不亚于技术本身的局限。而 HRTF,虽有其价值,却并非放之四海而皆准的解决方案。
工程师在沉浸式混音中苦苦挣扎的诸多难题,归根结底在于:人类一旦脱离运动、视觉情境或熟悉感,定位声音的能力便极为有限。静态聆听,本质上违背了人的天性。
这对混音师提出了全新的思维要求。声像定位与音色密不可分,声音的移动与感知密不可分,而监听只有在听众的大脑相信所听到的空间真实存在时,才具有意义。
沉浸式音频常被宣传为一种自由,但在实践中,它是一种纪律。我们添加的声道越多,就越被迫直面聆听机制的本质。
文章出处:https://www.production-expert.com/production-expert-1/if-you-are-mixing-in-immersive-formats-you-need-to-read-this