当前位置:首页电脑音频音频软件音频应用音频正文

如何评估音频软件以提高音质

发布时间：10-03 编辑：音频应用

测试是软件开发不可分割的一部分。软件工程师深知在开发过程中测试其代码的重要性，以及在其代码成为整个产品的一部分时测试其结果的重要性。但音频的独特性意味着它对工程师提出了特殊的测试挑战。

如何评估音频软件以提高音质

代码行可以并排比较，并评估质量和错误。但你不能同时聆听两组音频输出，必须按顺序对它们进行评估，这不仅增加了比较的难度，也耗费了更多时间。而且，由于对预期结果可能存在分歧，评估工作也变得更加复杂。对声音的感知因人而异，这意味着 "好声音 "的定义不可避免地会因客户而异，因最终用户而异。

那么，如何评估音频软件，让自己的最终产品获得最佳音频效果呢？

主观评估与客观评估

也许这个问题的根源在于主观评估与客观评估之间的差异。两者在音频测试中都很重要，但需要的技术却截然不同。音频的主观评估是指让人聆听结果，然后给出他们的反应--或者是通过某种评分系统进行定量，或者是通过他们是否喜欢这种声音进行定性。客观评估则需要将音频录音通过专门设计的算法进行处理，从而根据各种预定指标给出分数。

哪种方法更好？答案是主观评估和客观评估都有各自的用途，但它们各有利弊。

人们可能会认为，主观评估是音频测试的黄金标准，因为如果真实的人喜欢你的软件所产生的声音，那么你的产品就会受到所有人的喜爱。但事实并非如此简单。首先，你需要决定由谁来评估你的音频。你可以选择使用 "专家听众"--他们都接受过聆听音频的培训，有能力使用行业标准来评估音频质量。他们会给你提供详细的反馈意见，这些反馈意见非常有用，能让你调整和改进输出。专家级听众知道他们在寻找什么，并能帮助你发现例如伪音和失真，而一般人几乎肯定听不到这些声音。

专家听众的局限性

但这里有一个危险--你产品的最终用户不是专家级听众，而是普通消费者，他们通常没有受过听力训练，也许也不太了解评估音频质量的技术方法。不过，他们知道自己喜欢什么；他们喜欢的声音很可能与专家听众 "认可 "的声音不同。这里还有一个警告--最终用户喜欢的声音对你来说可能也不那么好。因此，仅使用专家小组可能会给你带来很高的分数，但最终结果可能是没有人真正想要的产品。

另一方面，如果你让普通大众来评估你的音频，你需要考虑将进行什么样的测试。例如，你可以考虑使用国际电信联盟（ITU）等机构为正式听力测试制定的协议之一，也可以制定自己的协议。使用标准协议可以使你的测试在客户中具有可信度；开发和使用自己的测试协议可能更适合专门的用例。无论哪种情况，都必须通过统计结果来避免解释问题。

你还需要决定由哪些人组成听力小组，因为每个人的听力都不一样，而且随着年龄的增长，听高频的能力也会下降。你能招募到多少人？最少 10 人就能取得合理的结果。你是否会招募有一定程度听力障碍的人？如果是，程度如何？这里的决定因素是，你是使用一个针对某一类听力障碍者的测试小组，还是尝试组建一个包括各种听力障碍者的测试小组。如果你正在开发听力辅助产品，那么测试小组中必须有听力障碍人士。但是，你可能无法招募到很多听障人士。克服这一限制的方法是给每个人提供一系列具有不同调谐参数选择的选项，并要求他们对每个选项打分。

评估质量和可懂度

无论你的小组由哪些成员组成，你都应该要求小组成员对音频的两个不同方面进行评估：质量和可懂度。音频质量与用户的整体体验有关：听起来舒服还是不舒服？可懂度是指用户无需费力就能正确理解语音的程度。在设置调谐参数时，可能需要对这两个方面进行权衡。

例如，你可以通过增强某些频率来提高可懂度，这就需要对平坦频率响应的可取性进行权衡。平坦的频率响应能让音频听起来就像你在房间里与人交谈：清晰度调整可能会降低噪音，从而让音频听起来更有处理感。而在降噪方面，降噪的力度越大，就越会给你真正想要的声音带来明显的副作用，如 "泵声"。

最后，一些调整参数可能与产品的使用有关，例如涉及电池寿命。以提高音频性能为代价换取较短的电池寿命是否值得？你的听力面板会告诉你该如何选择。

当你计划进行主观评估时，最后需要决定的是测试环境。是在线测试还是现场测试？在线测试当然是最容易组织的，因为用户可以在家参加测试，而且测试只需要你用软件播放经过处理的音频。如果是面对面测试，你是在可以控制背景噪音的实验室受控环境中进行测试，还是将产品带到现实世界中，让用户在产品设计的场景中听到测试结果？两者都有其用武之地，而且并不相互排斥；最佳做法是先进行受控测试，然后再（可能是最后阶段）将产品带出去。

客观测试的性能指标

使用客观测试而非主观测试能否克服这些问题？答案是肯定的，但客观评估也有自己的问题。客观测试完全不需要人工：当你使用其算法处理音频时，测试会输出数字分数。通过这些测试对音频进行处理比招募人类听众更容易，而且能让你快速了解音频的哪个变体比另一个变体更好。目前常用的指标可分为性能指标 - 信号失真比 (SDR) 和信号干扰比 (SIR) - 以及可懂度指标，如短时间客观可懂度 (STOI)、语音质量感知评估 (PESQ) 和感知客观听力质量分析 (POLQA)。

所有这些方法都具有 "侵入 "性质，这意味着它们需要 "地面真实 "录音以及处理后的结果。公认的做法是在计算这些指标时使用真实的源图像。因此，无论你选择哪种测量方法，程序都是一样的：

在低噪声环境中，通过在阵列上分别录制每个声源来创建真实声源，同时尽可能保持所有其他环境因素相似。

人为混合单个声源图像以创建混音。麦克风在其动态范围内通常是非常线性的，因此只要避免削波和非常小的量化值，这是一个安全的近似值。

使用算法处理混合物。

通过比较算法输出和地面真实录音，计算所需的性能指标。

在使用这些指标进行客观评估时，需要注意以下几点：

地面实况需要与处理过的版本在时间上保持一致。即使是几毫秒的差异也会对测量结果造成损害。因此，你需要重新调整地面实况源图像，以考虑到处理延迟。

咖啡馆咿呀学语等噪音具有扩散性，应使用多个扬声器进行模拟，理想情况下扬声器数量应是麦克风数量的两倍。

在繁忙的咖啡馆等场所录制的真实嘈杂声可以用来验证模拟漫反射噪音的效果。

至少在部分声源图像录音中使用真人是个好主意，因为人与扬声器的特性不同，通常不像点声源。

你可以改变混合比例，将测试数据集的用途扩展到不同的声学场景。

处理一些在现场录制的完整混音录音，并进行听音测试，以验证人工混音的效果与真实情况相当。

但是，正如它们的名称所表明的，这些测试都侧重于特定类型的音频质量或失真。如果通过改变算法来改善其中一个指标的结果，就有可能导致混音失真。

音频测试规划

随着产品在开发生命周期中的不断发展，你的测试工作也应在这一层次结构中自下而上地进行，从内部测试到在现实世界中与最终用户一起工作。但你并不一定需要在每个阶段执行所列的所有评估。请根据上述考虑因素，选择你认为最适合你产品的测试。

Audio-Assessment-Diagram-AudioTelligence.webp.jpg

音频评估是在不同环境下进行的各种测试的层次结构：测试应从下至上，从内部测试到在真实世界中与最终用户一起工作。(资料来源：AudioTelligence）

不过，在开始之前，请确保你和你的客户就如何测试音频以及什么是双方都认为好的结果达成一致。他们会使用自己的指标来测量音频吗？他们是否会让自己的终端用户小组来听音频？如果客户不同意你的测试方法，不喜欢最终的音效，那么你认为最终的音效再好也没有用。

首先，测试将由工程师在内部完成。当你的代码仍处于开发阶段时，请使用自动质量评估：有许多不同的算法，或多或少都有一些复杂的算法，用于评估音频质量。一旦从这些评估中得到合理的结果，下一步就是在产品中使用的阵列上进行录音，并使用软件对其进行处理。确保团队中尽可能多的人都能听到结果并给出反馈。然后，当你有了第一批生产线原型时，就可以使用这些原型重复这一测试。

之后，你需要考虑外部测试。这里的层次是从将录音发送给训练有素的听众，到让训练有素的听众在受控环境中进行测试，再到在专门的测试环境中与真人进行测试。同样，你并不一定需要进行所有这些测试：从将录音发送给训练有素的听众，到在测试环境中用真人进行测试，可能就足够了。

真实世界测试在我们的层次结构中居于首位，因为它可以说是最重要的测试。但这一层次的成功取决于你的产品至少经历了下面的一些测试阶段。要开发音频产品，就不能直接进行真实世界测试，因为在开发的早期阶段，需要进行可重复的测试，而这只有在可以控制环境的情况下才能实现。

结论

考虑所有不同的音频评估方法和进行测试的各种环境可能会让人感到不知所措。要克服音频软件测试所带来的挑战，重要的是要记住你的最终目标：制作出产品最终用户认为足够好的声音，以确保产品在商业上取得成功。牢记这一目标，将测试过程分成几个阶段，并在开始工作之前，根据软件开发的每个阶段的需要，决定最合适、最有用的测试方法。不要忘记，所有这些测试所需的时间必然比你想象的要长--确保你在任何项目计划中都为测试结果预留了充足的时间。