发布时间:05-23
编辑:215AM
透过沉浸式音频系统感受音乐的律动 - Part II
3. 感知实验
3.1 实验条件和听觉刺激物
在感知实验中,使用了3个不同的音频声轨,这些音轨作为不同音乐类别的范例。这些声轨是从我们拥有多轨录音文件的乐曲中提取的:
Track 1是La Reserve的“Dance with you”的16秒节选,可被归类于funk音乐,以下称为Funky(节奏:
124 BPM);
Track 2是La Reserve的“Coming home to you”的23秒节选,可归类于民谣音乐,以下称为Ballad(节奏:
86 BPM);
Track 3是Halina Rice的“Terrain”的15秒节选,可归类于电子音乐,以下称为EDM(节奏:
125 BPM)。
每个声轨都包含节奏声部和其他乐器声部。Track 1和Track 2包含鼓组和吉他(分别为funk吉他和琶音吉他)。Track 3包含电子鼓点和合成的贝斯。请注意,这些曲目和乐器组合是经过试听会挑选出来的,选择它们的原因是从乐器的演奏时序来说对乐曲的律动影响非常重要。
在实验中的听觉刺激是通过将和声乐器(吉他或贝斯)移至节奏乐器之前实现的。这种时间偏移方式已经被证明对感知的影响更为关键(参考文献 [4] 和 [5] )。实验使用了4级时间偏移设置:1/48、2/48、2/32和3/32拍。这相当于,Track 1和Track 3的偏移量约为10、20、30 和 45 ms,Track 2的偏移量约为15、30、45 和 67.5 ms。请注意,构成节奏声部的各元素之间的相对时间关系并未改变。
此外,我们对声音空间化处理的影响也进行了调查。在听觉刺激物中,节奏声部总是位于正前方(方位角0o),其他乐器则位于正前方或右侧30o处。由于听觉实验时使用耳机进行的,因此在听觉刺激物合成时使用了头部相关脉冲响应(HRIRs)。为了尽可能地反映现场活动的听音条件,HRIRs是在L-Acoustics总部的户外场地进行测量的,使用了Neumann KU100仿真人头话筒和L-Acoustics Kara II扬声器。
概括来说,我们对以下自变量进行了测试:音乐声轨(不同类型的音乐和乐器组合)、和声乐器的位置(0o和30o方位角)以及时间偏移持续时间。测试分为12次逐次测试,相当于每种声轨和空间化处理方法的组合进行两次测试。测试顺序采用随机方式。
3.2 测试方法
测试界面如Figure 5所示。测试方法的灵感来源于隐藏参考和锚点的多激励法(MUSHRA)。我们向参加测试的人提供了明确的参考,当中包含由音乐家演奏的原始版本乐曲。然后,他们被要求将5个刺激物与该参照物进行比较:当中4个刺激物为具有不同时间偏移幅度的降级版本,以及1个隐藏参照物。在每次测试中,受测刺激物的标签(从1至5)均为随机抽取。时间偏移量为3/32拍的刺激物被用作低锚点:这些时间偏移的持续时间长于大型音频系统模拟测试的偏移持续时长,但预计会对音轨的音乐品质造成持续可察觉的劣化。
测试参与者被要求根据与明确的参照物的对比,对5种情况(HRef、1/48、2/48、2/32、3/32 拍偏移)下对乐器之间的同步情况进行评分。品质评级采用从低品质到高品质的连续量表,最高品质意味着没有感知到品质下降。在每次测试中,测试参与者可以自由聆听不同的刺激物,可以不限次数的在不同刺激物之间来回切换。
除了品质评级之外,测试参与者还会被要求使用以下两个类别对感知到的品质劣化进行分类:
Pushed / Laid-back:
音乐律动的变化,以及主导乐器的变化;
Synch. Loss:
乐器之间的同步丢失
请注意,测试参与者被告知,如果他们没有感知到品质劣化就不要勾选任何方框,在刺激物当中包含隐藏参考物并没有明确告知参与者。
3.3 测试流程
测试是在安静的会议室中使用耳机(Sennheiser HD650)单独进行的。测试参与者使用配备了RME Digiface AVB音频接口的笔记本电脑,并通过一个MATLAB软件进行测试。耳机音量由测试组织者设定,以确保既能够听到音乐的细节,又可以保证在持续1小时的测试过程中保持舒适。此外,测试参与者可根据自己的喜好轻微调整耳机音量。
在聆听测试开始前,测试参与者会首先阅读测试说明。随后,组织者会与参与者就测试说明进行讨论,以确保参与者能够准确理解测试说明。接下来,组织者提出包含两个步骤的测试熟悉方案,以便参与者对测试界面和测试任务加以了解:
向参与者展示时序降级实例;
参与者进行简短的预测试,预测试界面与实际界面相同。
在熟悉阶段,使用了La Reserve的“End of the Road”片段,当中包含鼓组和贝斯。时序降级实例包括:贝斯信号向后偏移30 ms,作为“pushed / laid-back”降级示例;贝斯信号向后偏移60 ms,作为“synch. loss”示例。然后,参与者使用相同的音乐片段进行两次测试,时间偏移数值为:30 ms、45 ms和60 ms。熟悉阶段会持续5至10分钟,然后在开始实际测试之前,组织者会请参与者确认所有流程均已清晰明了。如有需要,参与者可在测试过程中短暂休息一到两次。
共15人(2名女性,13名男性,年龄介于23岁至52岁之间)参与了此次测试:当中包括8名来自法国广播电台的音频工程师,以及7名来自L-Acoustics R&D部门的工程师。所有参与者的听觉灵敏度均正常,可被视为专家型受测者。实际测试持续时间介于25分钟至60分钟之间,平均持续时间为40分钟。由于没有观察到参考文献 [3] 和 [4] 中描述的音乐教育背景的影响,因此这里没有将这项参数纳入考量。
3.4 测试结果
Kolmogorov-Smirnoff检验(Matlab中的kstest函数)表明,每个刺激物的质量评分均为正态分布。因此,可以使用参数发进行分析。对评分进行的方差分析(ANOVA)包含以下因子:测试参与者(N=15),音轨(N=3),声源位置(N=2),时间偏移(N=5)。参与者因素被视为随机因子,其他因素则被视为固定因子。我们对主效应和一阶交互效应均进行了分析,分析是使用 Matlab 的 anovan 函数进行的。
研究发现,有两个主要因子对质量评分有显著影响:时间偏移(F(4,895) = 192.34;p < 0.001),音轨(F(2,897) = 12.63;p < 0.001),以及这些因子之间的交互作用(F(8,891) = 5.98;p < 0.001)。但是,请注意音轨与时间偏移处理后的音轨之间的交互作用,其影响远小于时间偏移本身的影响。这表明,乐器之间的相对时间关系对音乐律动的感知其主要作用,但聆听者对乐器时序的敏感程度可能会由于乐曲本身或音乐类别的不同而出现变化。
另一方面,方差分析(ANOVA)结果表明,无论是作为主因子(F(1,898) = 0.88; p = 0.3635),还是它们与音轨 (F(2,897) = 1.85; p = 0.1579) 或时间偏移(F(4,895) = 0.1579)的交互作用,乐器的位置对质量评分都没有显著影响。这一结果表明,对音乐律动的感知主要由时序决定,而与空间无关。此外,研究中没有发现乐曲播放重复次数(F(1,898) = 0.75;p = 0.3996)对质量评分有任何影响,这显示出测试参与者的记忆对感知质量并无影响。
Figure 6中显示了平均评分和95%置信区间(CIs)与应用于3个音轨的时间偏移量的函数关系。评分最高的是隐藏参考物,大约为90/100。然后,对每一首乐曲来说,随着对象之间的时间偏移量的增加,呈现感知质量的持续下降的趋势。对于所有用于测试的乐曲来说,低锚点的评分最低(低于40/100)。尽管时间偏移量与乐曲速度相关,但在特定时间偏移量情况下,民谣风格乐曲的感知质量降级幅度却小于其他两个类别的乐曲。然而,在大部分时间偏移值上,与不同音轨相应的置信区间是重叠的。
对于每一个音轨来说,当时间偏移量为1/48拍时得到的评分均与隐藏参照物得到的评分有显著差异。在隐藏参照物和测试用音轨之间进行的t检测结果如下:音轨 1(Funky)p <0.001,音轨 2(Ballad)p =0.0059,音轨 3(EDM)p <0.001。因此,1/48拍时间偏移量高于音轨1和音轨3的可闻阈值,而对于音轨2来说可以被认为接近可闻阈值。
当时间偏移量大于1/48拍时,我们观察到EDM音轨的感知质量下降速度大于其他两个音轨:即便是2/48拍的较小偏移量,其平均评分也低于50/100。从参与者的“pushed / laid-back”和“synch. loss”劣化报告中,也可以观察到EDM音轨与其他两个音轨之间的差异也,如Figure 7所示。在时间偏移量为2/48拍时,超过50%的参与者感知到EDM音轨中的乐器不再是同步的。另一方面,Ballad音轨对时间偏移量的宽容度似乎高于其他两个音轨:在时间偏移量为2/48拍时,几乎没有参与者报告感知到同步丢失;当时间偏移量为2/32时,大部分参与者勾选了“pushed / laid-back”方框。
参考Figure 7所示,同步丢失的可感知比例看起来与质量评分有相关性。另一方面,“pushed / laid-back”的可感知比例呈现出略微不同的趋势。当时间偏移量大于或等于2/48拍时,“pushed / laid-back”的可感知比例呈下降趋势,而“synch. loss”的可感知比例则与之对称的呈上升趋势:换句话说,随着时间偏移量的增加,参与者趋向于将时间偏移感知为出现问题,而不再是视之为对音乐律动的可接受的变化。有趣的是,大约50%的参与者在聆听隐藏参考物时勾选了“pushed / laid-back”方框,这可能表明他们很难区分最小偏移量刺激物和隐藏参考物。也就是说,即使对于专家型受测者来说二者之间的差异也是微小的。
3.5 讨论
对于所有用于测试的音频刺激物来说,在乐器之间引入微时序偏差都会导致对音乐律动的感知质量下降。但是,当时间偏移量小于1/48拍(取决于音轨类型,为10 - 15 ms)时,感知质量仅出现轻微降级。如此小的偏移量不会引至产生同步丢失感知,但与隐藏参考物相比,会增加参与者感受到音乐律动出现向前”推进“或闲散慵懒的变化。但是,向前”推进“或闲散慵懒的概念并不一定与感知质量大幅下降有必然关系。这些测试结果与文献描述相符,表明小幅微时序偏差(低于20 ms)不会被感知为时序错误。根据参考文献 [5] 当中的描述,当贝斯信号相对于鼓组信号提早2/32拍时,音乐律动的感知质量可以得到保持。
当时间偏移量为2/48拍时,结果则在很大程度上取决于音轨。对于音轨2(Ballad,30 ms)来说,这个偏移量不可避免地被感知为音乐律动出现变化。对于音轨1(Funky,20 ms)来说,相当多参与者感知到乐器同步丢失,但大部分参与者都报告感知到“pushed / laid-back”律动变化。最后,对于音轨3(EDM,20 ms)来说,大部分参与者都感知到乐器同步丢失,并且评分相当低(低于50/100)。EDM音轨在1/48拍和2/48拍偏移量区间出现感知质量大幅下降的现象,也许可以通过原始音轨“紧贴节奏架构”的风格加以解释。由于原始音轨中不存在微时序偏差,因此任何可感知的时序变化都被视为一种人为的音乐律动感知质量劣化。最后,时间偏移量大于或等于2/32拍(30 - 67 ms)时,大部分参与者都会感知到同步丢失,并且相应的质量评分也最低。测试结果表明,对声音的空间化处理不会对感知质量产生影响。
请注意,这个测试并未包含几个潜在的重要参数,例如音轨的复杂性、是否存在混响声等。此外,选择测试中使用的音轨是基于预计它们相对来说对乐器的时序更加敏感。尽管如此,测试结果证实了,对于某些风格的音乐或乐器组合来说,30 - 40 ms的时间偏移量会导致音乐感知质量的明显下降。在接下来的章节,我们将会讨论如何在规划大型场地中的现场音乐活动时将这些测试结果纳入考量。
4. 预测在空间化混音时可能会出现的时序问题
先进的沉浸式音频系统提供了非常重要的扬声器覆盖范围共享,并为音频对象定位提供极高的自由度和极佳的精确度。但是,我们在前面的章节中已经确定了,使用这类系统对声音对象进行空间化处理可能会导致对象之间出现明显的时间偏差,这反过来又会改变听众对音乐律动的感知。换句话说,对于特定听音位置来说,可能需要在音频对象横跨的宽度与这些对象之间的时序偏差之间进行权衡。因此,在为现场活动混音进行准备时,必须小心谨慎地对各项因素综合考虑,以使听众在观众区的任意位置都能够获得最佳音质。
让我们回顾一下第2章节中的音频系统模型,当声音对象被路由至中央的3只扬声器(Figure2中的扬声器3 - 5)时,传播时间差小于10 ms,即使在距离观众区中心点最远的听音位置也是如此。依据章节3.4中的聆听测试结果,低于10 ms的时间偏差不会导致音乐感知质量的明显下降,因此使用中央扬声器重放的声音对象应当能够保持原始的律动感知质量。因此,我们建议将音乐中的核心节奏元素(例如鼓组和贝斯)的声像放置在舞台中央。请注意,这种声像定位设置方式符合常规实例:例如,在摇滚乐队中,贝斯手在舞台上的位置通常与鼓组非常近。
对于节奏律动较低的乐器或声部来说,例如在感知测试中的Ballad音乐中的琶音吉他,声音对象的声像定位自由度跟高一些。根据我们的模拟结果,仅在声音对象被路由至舞台边缘(扬声器2和扬声器6)时才会产生超过15 ms的时间差。此外,在远离观众区中心点的区域也会出现相近时间差,这部分区域大约占扬声器覆盖共享区域的15%。如果对于一小部分观众来说,微小的时间差变化被认为可以接受的话,某些乐器的声像可以沿整个舞台宽度(扬声器2至扬声器6)自由的定位。
此外,请注意本研究侧重于会使时序变化相对明显的音乐风格或乐器。但是,在本次研究过程中的非正式聆听环节中,我们注意到没有瞬态信号、效果声和环境元素的音轨对时序偏差的宽容度更高。因此,这类乐器和音乐元素的声像可以安全的沿正面扬声器系统(扬声器1至扬声器7)任意定位。
为了制定一套完整的混音指南,需要进行更多涵盖任何音乐风格和可能的声源的聆听测试。在任何情况下,都应当从不同的听众位置对沉浸式现场音频系统的空间化混音结果进行评估。空间化混音的准备工作通常在配备了小型音频系统的工作室中进行,这种情况下声音对象之间的时间偏差非常小,如Figure 3所示。不过,即使在工作室环境中,也可以通过模拟来协助我们预测可能会出现的时序偏差问题。这项工作的目的是,对观众区的一个特定位置上的传播延迟和电平差异进行模拟。L-Acoustics的L-ISA controller [11] 软件中提供了这类比例模拟工具(见Figure 8)。
5. 结论
对音乐律动的感知,或者广义上的音乐品质,很大程度上与乐器之间的节奏同步相关。如同我们在本文中所述,在大型场地中使用音频系统对声音对象进行空间化处理会导致对象之间出现传播时间差。时间偏差幅度取决于扬声器与听音位置的物理距离,与所使用的声像定位技术无关。
我们进行了一项感知实验,以确定沉浸式音频系统所导致的时间偏差到达什么幅度才会对音乐的感知质量产生影响。测试结果表明,音乐感知质量与空间化处理无关,但当时间偏差幅度增加时会出现感知质量下降的现象。此外,在特定时间偏差幅度条件下,感知质量下降看起来与音乐类型和/或乐器组合有关。当时间差较小(10 - 15 ms)时,测试中3个音乐选段的感知质量降级都较小。当时差较大(20 - 30 ms)时,感知质量很大程度上取决于音乐类型。
从聆听测试的结果中,可以推导出简单的混音准则。首先,将乐器信号路由至舞台中央区域的3只扬声器通常来说是安全的。因此,建议将节奏型最强的乐器声像定位在这些位置。其次,对于节奏性没那么强的乐器或音乐类型来说,声音对象的声像可以安全的定位在距离舞台中央更远的位置,甚至可以将瞬态信号较少的声源声像定位在舞台区域之外的位置。在准备现场活动的初期就可以将这些因素纳入考量,因为比例模拟工具使我们可以在工作室环境中实现在场地中任意位置合成混音并试听。
请注意,我们在测试中使用的音乐选段是经过挑选的,因为当乐器之间的时序偏差而导致对音乐律动的感知出现变化时,这些音乐选段表现得尤为明显。如需指定更为详尽的混音准则,还需要进一步的研究,并将音乐风格、速度和乐器类型等因素考虑在内。
文:Thomas Mouterde,Nicolas Epain,Samuel Moulin,Etienne Corteel
译:Stone
鸣谢
本文作者感谢法国广播电台和 Hervé Déjardin 邀请了他们的一些音频工程师参与感知实验。
参考文献
Moulin, S. and Corteel, E., “Spectral and spatial perceptions of comb-filtering for sound reinforcement applications.” in Audio Engineering Society Convention 152, Audio Engineering Society, 2022.
Keil, C., “Participatory discrepancies and the power of music,” Cultural Anthropology, 2(3), pp. 275–283, 1987.
Butterfield, M., “Participatory discrepancies and the perception of beats in jazz,” Music perception, 27(3), pp. 157–176, 2010.
Frühauf, J., Kopiez, R., and Platz, F., “Music on the timing grid: The influence of microtiming on the perceived groove quality of a simple drum pattern performance,” Musicae Scientiae, 17(2), pp. 246–260, 2013.
Matsushita, S. and Nomura, S., “The asymmetrical influence of timing asynchrony of bass guitar and drum sounds on groove,” Music Perception: An Interdisciplinary Journal, 34(2), pp. 123–131, 2016.
Corteel, E., Le Nost, G., and Roskam, F., “3D audio for live sound,” in 3D Audio, pp. 19–42, Routledge, 2021.
Berkhout, A. J., de Vries, D., and Vogel, P., “Acoustic control by wave field synthesis,” The Journal of the Acoustical Society of America, 93(5), pp. 2764–2778, 1993.
“d&b Audiotechnik Soundscape website,” https://www.dbsoundscape.com/global/en/, 2023.
“Adamson Fletcher Machine website,” https://adamson-fletcher-machine.com, 2023.
Pulkki, V., “Virtual sound source positioning using vector base amplitude panning,” journal of the audio engineering society, 45(6), pp. 456–466, 1997.
“L-Acoustics L-ISA website,” https://l-isa.lacoustics.com/, 2023.
我对产品很感兴趣,请尽快联系我!
请问我所在的地区有商家吗?
我想详细了解购买流程!
购买该产品享受八折优惠,还能得到技术支持?
我想购买请电话联系我!
购买所需要的费用有哪些?
产品很好,请尽快联系我详谈!
声明:该文观点仅代表作者本人,音频应用发布平台仅提供信息存储空间服务。加微信:254969084带你进群学习!百家号免费发布
发布
电话
微信客服
公众号
回顶部