当前位置:首页电脑音频硬件新闻音频新闻音频正文

空间音频技术：理想与现实的博弈

发布时间：03-08 编辑：soundguys

在2025年的今天，"空间音频"（Spatial Audio）、"杜比全景声"（Dolby Atmos）等术语已经成为消费电子展会的核心关键词。这项承诺带来三维沉浸声场的技术，却陷入一个尴尬境地：尽管每年有多款声称搭载该技术的耳机面世，但用户调研显示超过半数的消费者都没有使用过这一功能。

空间音频技术：理想与现实的博弈

那么，为什么众多音频品牌仍投入数百万美元开发和推广这项技术？空间音频是否有机会在大众中普及？当前空间音频面临哪些困境？要回答这些问题，我们不妨先来了解一下空间音频的工作原理。

640_wx_fmt=jpeg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1.webp (6).png

什么是空间音频？

Screenshot of the Apple livestream showing five sources of sound around a virtual figure

空间音频的核心在于模拟人类听觉系统的空间定位能力。当声波经过肩部、头部及耳廓时，会因人体解剖结构产生独特的滤波效应，这种头部相关传输函数（HRTF）构成了双耳声源定位的生理学基础。

“真正的”环绕声使用多个位于不同位置的扬声器驱动单元，如影院 7.1 声道系统，通过多扬声器阵列实现真实空间声像定位。“虚拟”的环绕声则应用基于HRTF的双耳算法来模拟周围有多个扬声器的效果。

空间音频可以被视为“虚拟环绕声”，因为它复制了被多个音频源包围的体验。当你转动头部时，它还可以使用头部跟踪传感器来锁定虚拟扬声器在空间中的位置。

问题一：个性化适配难题

如果空间音频算法是基于头部相关传递函数（HRTF）开发的，那么问题来了：它们使用的是谁的头部？我们知道，肩膀、头部和外耳的形状在声波到达耳膜之前会影响声音，这意味着每个人听到的声音都不同。我们的大脑会根据肩膀、头部和外耳的形状进行补偿，以帮助我们定位声音。既然每个人的头部形状都不尽相同，因此不能将相同的HRTF校正应用到我们的耳机中，并期望获得相同的空间感知效果。

The Nothing Ear (a) on a testing head.

例如，我们在实验室中使用一款Bruel & Kjaer 5128测试头，在确定这个测试头的头部和耳道形状时，测量了 40 个不同人的核磁共振成像（MRI）扫描数据。但这只是对平均头部的一个近似模拟，并不意味着它与你的头部完全匹配。如果使用这样的测试头来开发空间音频算法，效果不会与你的耳朵对声音的解读完全一致。

研究显示，不同个体的 HRTF 曲线在 2-16kHz 频段差异可达 15dB，这种生物特征的显著差异直接导致标准化算法的失效。

随着技术的发展，在这方面已经有了一些改进。苹果的AirPods和Beats的个性化空间音频系统可以使用iPhone的TrueDepth摄像头扫描用户头部。索尼也允许用户上传耳朵的照片到索尼应用程序，以个性化耳机的空间音频体验，使用索尼360临场音效。不过，这两种解决方案均存在 20% 以上的几何特征还原误差。

而实验室级的精准测量则需要用户使用插入式麦克风进行 30 分钟以上的多声源测试，这种操作模式成本高且耗时，难以满足规模化需求。

问题二：创建空间音频音乐是一项挑战

虽然空间化算法可以尝试将立体声轨道转换为多声道空间音频，但这会形成与艺术家最初设计的混音截然不同的混音效果。如果想以艺术家创作的方式聆听音乐，就需要艺术家以空间音频的形式对轨道进行混音和母带处理。

接下来谈谈杜比全景声（Dolby Atmos）。

你可以把杜比全景声看作是一种音频封装方式。这意味着音频内容需要使用杜比全景声以一种特殊的方式进行封装，然后播放设备需要能够解封装杜比全景声内容，这样你才能以空间音频的方式收听。可以想象，这在音乐创作过程和音乐收听过程中都增加了很多额外的步骤。

Focusrite Scarlett 2i2 and Scarlett Solo interfaces, CM25 MkIII condenser microphone, and some cables resting on a peg board.

让我们从音乐创作过程说起。杜比全景声采用基于对象的混音方式，这意味着可以在虚拟的三维空间中几乎任何位置分配声音。这要求制作人或混音工程师在为曲目制作杜比全景声混音时采取额外的步骤。这还需要一种特殊的技能组合，而且混音效果不佳的杜比全景声）曲目在任何杜比全景声音响系统上听起来都不会好听，就像混音效果差的立体声曲目在普通立体声设备上听起来也不好听一样。

除了使用杜比全景声渲染软件需要克服一定的学习曲线之外，在没有非常昂贵的音乐制作工作室的情况下，要制作出合适的杜比全景声（Dolby Atmos）混音是非常具有挑战性的。专业工作室需要配置价值数十万美元的扬声器矩阵，与当前"卧室制作人"主导的音乐产业趋势背道而驰。

与过去不同，如今我们听到的大多数音乐很可能不是在造价数百万美元的豪华音乐工作室录制的，而是在某人的家庭工作室里，通过他们的笔记本电脑录制的。

音乐制作软件已经取得了长足的进步，许多播放量超过十亿次的曲目都是由一个人在他们的卧室里，通过笔记本电脑制作出来的。例如，获得格莱美奖的专辑《当我们沉沉睡去，我们会去向何方？》（When We All Fall Asleep, Where Do We Go?）就是由 Billie Eilish 和 FINNEAS 完全在他们的卧室工作室里制作完成的。

为了正确地混音一首杜比全景声（Dolby Atmos）曲目，你需要在经过声学处理的房间里设置一个多声道环绕声扬声器系统。制作人可以使用杜比的双耳渲染工具在耳机上监听杜比全景声（Dolby Atmos）混音；然而，由于个体头部相关传递函数（HRTF）的差异，基于耳机的监听存在局限性。当声音绕过你身体中那些会影响声音的部分，直接进入你的耳朵时，你就错过了大脑所依赖的空间定位线索。

问题三：空间音频格式难以统一

格式标准的碎片化加剧了技术落地的复杂性。当你深入研究Apple Music应用时，会发现有许多歌曲和播放列表都标榜杜比全景声播放，但我发现，这并不是真正的杜比全景声，或者至少与其他平台上的杜比全景声播放效果不一样。

Apple Music上的杜比全景声混音是由苹果自己的空间音频渲染器处理的，这听起来可能与原始的杜比全景声混音有很大不同。出于这个原因，现在有一个来自 Audiomovers 的专用付费插件，用于专门让你听到你的杜比全景声作品在Apple Music上的播放效果。混音工程师不得不专门为Apple Music制作一个单独的混音版本，这一事实实在荒谬，并且给音乐分发过程增加了另一层复杂性。

Apple Music App on an iPhone X from the front

如果你使用AirPods等入耳式耳机，可能无法获得与头戴式耳机相同的空间音频效果。在定位声音方面，一般的层次是扬声器>头戴式耳机>入耳式耳机。

如果使用AirPods或Beats与iOS设备，你可以用“空间化立体声”功能将传入的立体声轨道转换为环绕声，但这通常会显著破坏混音的原声。除了Apple的耳机，我每年都会看到许多其他耳机发布，它们在配套应用中有一些形式的空间音频效果可以打开，但我还没有尝试过一种听起来像真正的环绕声扬声器设置。

市面上存在各种空间音频格式，比如Dolby Atmos、Sony 360 Reality、Apple Spatial Audio、Bose Immersive Audio、Marshall Soundstage等等，要以相同的格式来创作、分发和收听音乐存在着巨大的障碍。所有这些都被称为“空间音频”，但在实际中可能意味着不同的东西，从模拟各种房间的音效，到使用头部追踪来营造前方有扬声器的效果，再到添加诸如均衡器（EQ）和混响等效果。

Eclipsa Audio 是解决方案吗？

今年早些时候，谷歌和三星宣布了一种新的开源沉浸式音频格式，名为 Eclipsa Audio，旨在与杜比全景声竞争。由于 Eclipsa Audio 是开源且免费的，它消除了音乐艺术家、制造商和分销商之前面临的许多进入障碍。三星正在其 2025 年的电视产品线中启用 Eclipsa Audio，而谷歌表示艺术家很快将能够将 Eclipsa Audio 曲目上传到 YouTube。

Eclipsa Audio 能在整个音频行业实现标准化吗？有可能，但要实现这一点还需要很长时间。我们也可能会面临这样一种情况：一些产品只支持杜比全景声，而另一些产品支持 Eclipsa Audio，这将给所有人带来麻烦。

总结与展望

目前，空间音频仍然是一项小众功能，在个性化定制、内容创作和分发方面存在着很大障碍。如果像 Eclipsa Audio 这样的格式获得广泛认可，我们可能会看到一种更容易获得且更一致的空间音频体验 —— 但我们目前还没有达到那个阶段。

硬件技术的演进为空间音频提供了新的可能性。苹果 Vision Pro 搭载的 6 麦克风微型波束 forming 阵列，配合神经声场建模算法，实现了毫米级的声源定位精度。索尼 LinkBuds S 通过骨传导传感器补偿颅骨振动差异，高通 QCC5171 芯片内置的 AI 优化算法则能实时调整声场参数。这些创新正在重塑终端设备的声学表现，但个体生理差异带来的感知差异问题仍未得到根本解决。

在应用场景拓展方面，空间音频已从影视娱乐向虚拟现实、远程协作、车载系统等领域延伸。Meta Quest 3 的头部追踪技术、微软 Teams 的空间音频会议功能、哈曼卡顿为宝马 i7 开发的 3D 声场系统，共同构成了多维度的应用矩阵。

国际音频工程协会（AES）主席 Michael Gerzon 博士指出："空间音频的发展需要突破三个核心矛盾 —— 生理差异与标准化算法的矛盾、创作效率与沉浸体验的矛盾、格式壁垒与生态协同的矛盾。"

当前技术演进呈现出两条清晰路径：一是通过神经形态计算技术优化个性化声场建模，二是构建跨平台的开源标准生态。前者需要突破生物特征数据采集的伦理与技术瓶颈，后者则依赖产业巨头的战略协同。

从爱迪生留声机到杜比全景声，音频技术的每次跃迁都伴随着产业阵痛。当前空间音频面临的推广困境，恰似立体声技术在上世纪50年代的遭遇。随着Eclipsa Audio打破技术垄断，5G网络降低传输延迟，以及神经声学研究的突破，我们正站在沉浸式音频普及的前夜。

部分信息源于：soundguys