当前位置:首页电脑音频新闻资讯音频技术音频正文

人类如何在三维空间中真正听到声音，以及immersive audio沉浸式混音在哪些方面产生影响

发布时间：02-06 编辑：production-expert

沉浸式音频（immersive audio）不再是实验性的阶段，但我们谈论它的方式仍然停留在实验思维。在与 Hyunkook Lee 教授、Emre Ramazanoglu 和 Mark Gittins 的对话中，焦点从格式转移到了更重要的问题上：人类如何在三维空间中真正听到声音，以及沉浸式混音在哪些方面会悄然对我们产生不利影响。

沉浸式音频发展迅猛。杜比全景声（Dolby Atmos ）混音如今已成为标配而非可选项，各大流媒体平台几乎在一夜之间就实现了高度声道（height channels）的标准化。然而，我们对沉浸式声音感知方式的理解，以及我们从立体声中沿袭下来的假设何时开始瓦解，却并未以同样的速度发展。

在最近一期的《Production Expert Podcast》节目中，哈德斯菲尔德大学（University of Huddersfield）音频与心理声学工程教授、应用心理声学实验室创始人Hyunkook Lee教授，以及沉浸式混音工程师Emre Ramazanoglu 与 Mark Gittins齐聚一堂。与以往侧重于工作流程或工具不同，本次讨论聚焦于心理声学、听觉感知，以及这些因素对使用杜比全景声（Dolby Atmos ）或其他沉浸式格式进行混音的实际影响。

以下内容并非为理论而理论，而是一系列直接影响沉浸式混音效果、艺术家对混音的反应以及某些 Atmos 混音作品为何令人信服而另一些却悄然崩坏的观察结果。



高度不仅仅是“向上平移（Panning Upward）”

沉浸式音频系统与传统环绕声的主要区别：在于高度扬声器（height speakers）。这听起来显而易见，但其背后的心理声学原理却常常被误解。

Hyunkook Lee教授从事环绕声和沉浸式声音的研究已有 25 年之久，自 2010 年以来，他尤其关注高度感知（height perception）领域。他最初的问题看似简单，实则暗藏玄机。

“当使用垂直立体声系统等立体声设备时，如果增加了高度扬声器，我们如何才能真正实现垂直方向的声音定位呢？”

在传统立体声中，双耳间的时间差和音量差是大多数定位决策的基础。Hyunkook Lee 教授指出，这些线索在垂直方向上并不适用。


“简而言之，我发现时间差对垂直定位并不有效。它在垂直立体声中无法准确工作，因为我们的听觉机制并非如此运作。我们的双耳是水平分布的，而不是垂直排列。”

实际上，在延迟低位扬声器（lower speakers）和高位扬声器之间的信号，并不能实现稳定的垂直声像定位。相反，它会引入梳状滤波效应和频谱失真（spectral artifacts）。

即使是水平上的差异也只能提供有限的帮助。

“声像定位（level panning）也不准确。我们在立体声中使用的声像平移（panning）机制，只是为了方便。它们无法提供任何精确的定位信息，而且还会严重影响声音的音染。”

对于沉浸式音频工程师而言，这是一次重要的重新审视。高度扬声器并非左右声道的垂直版本，如果将它们视为左右声道，就会产生任何自动化手段都无法解决的问题。


频谱线索（Spectral Cues）才是真正起作用的因素。

如果时间和高度差都不可靠，我们究竟是如何感知高度的呢？

“这更多与频谱线索有关，”Hyunkook Lee教授解释说。“有一种理论叫做音高效应（pitch effect）。无论说话者身处何处，如果高频成分较多，人们往往会将其感知为位置更高。”

低频信号的表现截然不同。

“如果你用高度扬声器播放 100 赫兹的频率，声音永远不会定位在那个位置。它只会出现在耳朵高度，甚至更低的位置。”

这会直接影响沉浸式混音。将信号移至高度层绝非中性，无论是否出于本意，它始终是一种音调上的选择。

图 1 Hyunkook Lee教授。（图片来源：Sensound Audio）



高度扬声器就是均衡器，不管你喜不喜欢。

讨论中最具启发性的时刻之一是讨论的焦点从“空间”转移到了音色本质。

“很多人都在谈论空间感，”Hyunkook Lee教授说，“但我们很少谈论音色，以及色调的重要性。”

高位扬声器与耳平扬声器相比，其头部相关的传递函数（head-related transfer functions，HRTF）存在根本性的差异。

“左前方（front left）高处的扬声器8kHz频段能量较多，4kHz频段能量较少。左前方耳平处的扬声器2至4kHz频段能量较多，高频能量较少。因此，如果您只是将音源从较低的扬声器移到较高的扬声器，实际上就相当于应用了EQ。”

这并非沉浸式格式的缺陷，而是物理规律使然。但这意味着，沉浸式混音天生就是音色混音。

Hyunkook Lee 教授补充道：“有时候你不必担心掩蔽效应（masking）。如果你把声源分散到不同的方向，就会减少掩蔽效应。这样就能自然而然地解决所有这些问题。”

只有当工程师们理解了正在发生的变化以及变化的原因时，这种方法才有效。

双耳监听与HRTF的局限性

双耳回放（binaural playback）增加了额外的复杂性，尤其是在沉浸式音频通过耳机传送给听众时。HRTF常被视为解决方案，但Hyunkook Lee 教授对其局限性有着清晰的认识。

“如果个人HRTF（personal HRTF）只是静态的，且未采用房间模拟，那么它实际上效果并不理想。”

即便经过精心测量，结果也各不相同。

“我在不同实验室测得四套个人HRTF数据，其中包括基于AI的方法。没有一套能完美运作，而且它们听起来都大相径庭。”


问题不仅仅在于测量精度。人类的感知在很大程度上依赖于动作、情境和视觉线索。

“在无法看见物体且静止不动的情况下，人类定位声音的能力天生就存在局限。”

这有助于解释为何静态双耳回放常会出现前后与上下方向的混淆，即便在技术上完全准确时亦是如此。

“我们正在用同样的手法彻底消除音色变化，同时保留一定的沉浸感。”

保留创作意图而非追求视觉效果

对于从事商业Atmos项目制作的工程师而言，Emre Ramazanoglu的观点源于大规模项目的实践经验。

“保留音色是我们的首要任务，”Emre Ramazanoglu 表示。

在数千个沉浸式混音项目中，他极少将“重新创作”作为优先事项。

“大多数人希望自己的混音在沉浸式环境中听起来精彩绝伦，他们并不想要另一套混音。”

双耳声传输（binaural delivery）——特别是在消费级平台上——可能会引入音色失真，而工程师对此往往束手无策。

“如果作品在音色发生变化的情况下，被交付并播放给消费者，作为混音工程师，我对此非常介意。艺术家们是不会接受的，我还没遇到过一个会接受的。”

应对之策颇为务实。

“我们正在采取完全相同的措施，既彻底消除音色变化，又保留一定的沉浸感。”

监听、声学环境与心理预期



仅通过耳机监听沉浸式音频，只有在精心管理听觉感知的情况下才有效。Hyunkook Lee 教授的双耳监听研究正是基于这一理念。

“如果声学环境与你自己房间的声学特性不匹配——虽然不必完全一致，但所有相关的感知线索都需要被合理地模拟出来。”

视觉环境与声音同样重要。

“如果你看到扬声器就在你面前，它基本上就捕捉到了声音。”

这解释了为何熟悉感往往胜过技术上的精准度。

“我有一个客厅预设。虽然房间完全未经声学处理，但我喜欢这种声音，因为它非常熟悉。如果我在客厅里听这个预设，听起来就像真实的扬声器。但如果在实验室里听，我连五秒都听不下去，因为听起来就是不对劲。”

运动改变感知
Hyunkook Lee 教授与 Mark Gittins 都指出，运动是许多沉浸式聆听系统中缺失的关键要素。



“一旦开始移动，大多数问题就会自动迎刃而解，”Hyunkook Lee 教授说，“即使使用非个人化的HRTFs也是如此。”

这就是为什么VR环境往往比静态的双耳回放更具说服力的原因。

“在VR中，视觉环境会引导声音。大脑能迅速适应这种变化。”

缺乏运动，感知就会停滞。

“如果你保持静止，我们其实无法真正理解正在发生什么。”

我们所处的现状

显而易见的是，沉浸式音频绝非仅仅是增加扬声器的立体声。它揭示了立体声让我们长期忽略的听觉维度。

无论我们是否情愿，高度声道会改变音色。双耳回放受制于人类感知，这不亚于技术本身的局限。而 HRTF，虽有其价值，却并非放之四海而皆准的解决方案。

工程师在沉浸式混音中苦苦挣扎的诸多难题，归根结底在于：人类一旦脱离运动、视觉情境或熟悉感，定位声音的能力便极为有限。静态聆听，本质上违背了人的天性。

这对混音师提出了全新的思维要求。声像定位与音色密不可分，声音的移动与感知密不可分，而监听只有在听众的大脑相信所听到的空间真实存在时，才具有意义。

沉浸式音频常被宣传为一种自由，但在实践中，它是一种纪律。我们添加的声道越多，就越被迫直面聆听机制的本质。

文章出处：https://www.production-expert.com/production-expert-1/if-you-are-mixing-in-immersive-formats-you-need-to-read-this