当前位置:首页  音频新闻  音频数码  合成器音频正文

合成方式详解:到底什么是拼接合成 Concatenative Synthesis?

发布时间:02-18 编辑:键盘世界

不知道大家有没有发现,几乎所有类型的声音合成方式都可以与宏观层面的科学概念或学科相联系起来。举几个例子,减法合成和加法合成便利用了数学的基本规律;颗粒合成则从粒子物理学中汲取灵感;物理建模则与声学科学息息相关;混沌合成则将其同名理论声音化;FM合成则反映了波物理学的思想。

合成方式详解:到底什么是拼接合成 Concatenative Synthesis?






合成方式详解:到底什么是采样?

合成方式详解:到底什么是波表合成?

合成方式详解:到底什么是加法合成?

合成方式详解:到底什么是减法合成?


640_wx_fmt=webp&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1.jpg

借助这种分类方式,我们可以发现拼接合成正处于信号处理和数据科学的交汇点。拼接合成的进化根源可追溯到最早的磁带音乐。然而,直到20世纪90年代末,我们今天所知的数字数据驱动法才首次出现。从那时起,这种合成方法的技术、算法和整体理解都发生了巨大的变化。今天,我们将介绍拼接合成的原理、应用范围和历史发展。其次,我们想重点介绍几种目前可用的工具,帮大家拓展一下在声音合成世界里的想象力。最后,我们将再讨论几个实用的案例,看看这种拼接合成的实用性和创造性。

什么是拼接合成?

简单地说,拼接合成(Concatenative Sound Synthesis, 通常缩写为CSS或C-Cat)就是将录音分割成单个单元,然后重新组合,创造出新的声音。不过,这个定义比较模糊,同样也适用于「颗粒合成」和「再合成」等其他技术。

事实上,在定义上也确实存在一些重叠。拼接合成可视为两者的一个分支,但又有独特的不同之处。首先,是关于与再合成的相似之处,拼接合成可能涉及声音的系统“重建”。然而,与再合成不同的是,拼接合成的声音是通过重新组合录制的音频块来重建的。在拼接合成的行话中,这些音块被称为声音单元(sound unit),通常比颗粒合成的音粒持续时间更长,包括整个短语和模式。更重要的是,拼接合成是一种数据驱动的方法,由多个层次的音频和数据分析驱动。

640_wx_fmt=jpeg&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1.jpg


使用拼接合成技术制作的音色极富动态和层次,其“语料库”中既有原声乐器的音色,也有电子乐器的音色。拼接合成的声音效果也是多种多样,既有不可思议的sound-morphing、混合乐器、一系列世外桃源般的音色纹理、不断变化的声音环境、节奏等等。因此,拼接合成特别适用于声音设计、计算机辅助作曲、即兴创作和装置艺术。正如作曲家和研究人员Rodrigo Constanzo在他的C-Cat软件C-C-Combine中描述的那样,拼接合成可以让你“用任何东西演奏任何东西”。

磁带音乐之历史

通过拼接各种声音来创作音乐的概念并不新鲜。几乎就在人类发现如何在磁带上录制音频时,作曲家、艺术家和声音研究人员就开始探索这种媒介的创作潜力,并将录制的声音作为其创作策略的基本要素。在上个世纪大量的音乐作品和想法中,有一些便可以看作是拼接合成的先驱。

大约在20世纪50年代初,电子音乐的萌芽时期出现了两种截然不同的理念:一种是由法国作曲家兼广播工程师Pierre Schaeffer开创的无伴奏音乐(Musique concrète),另一种是由作曲家Karlheinz Stockhausen倡导的电子音乐(elektronische musik)。Stockhausen专注于利用振荡器、滤波器和其他原合成器设备产生的合成声音创作音乐。而Schaeffer的方法则是从具体的声源中寻找音乐性。他的方法主要是将自然和工业声音录制到磁带上,然后对这些录音进行编辑和拼接,从而创作出新的作品。

640_wx_fmt=jpeg&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1 (1).jpg

[上图:Pierre Schaeffer的“Tableau recapitulative de la typologie (TARTYP)”,选自《Traité des objets musicaux》—一种“提议”的声音分类系统。Lasse Thoresen将其复制用于有关频谱音乐和频谱形态学/音乐分析的现象学方法的多篇论文中]

这一时期发展起来的磁带处理技术包括拼接、反转、通过改变速度改变音高、分层、淡入淡出和交叉淡入淡出,这些技术业已成为音频工作的基础,如今也已成为任何数字音频工作站(DAW)的基本工具集。然而,与我们的讨论更相关的是Schaeffer的“声音对象”(objet sonore)概念,这是无伴奏音乐的核心思想。Schaeffer提议不考虑声音的来源或产生声音的背景,而是关注声音的内在品质和结构。他的方法包括记录各种声音,根据音高、响度、音色和节奏等声学特性对其进行分析和整理,以便日后在创作过程中检索。虽然这种手工方法不同于今天拼接合成中的快速算法分割,但两种方法之间的理念是相通的。

John Cage: Williams Mix (1952/1953)


语音合成之历史

虽然磁带音乐和录音在拼接合成的发展过程中起到了关键作用,但它们并不是唯一的影响因素。在拼接合成正式概念化之前的几十年,类似的方法和技术在语音合成中也起到了关键作用。正如我们在关于物理建模合成的文章中所探讨的那样,早在工业时代之前,人类就对让机器说话充满了向往,这种向往的动力来自于对人类声音复杂性的理解、对机器智能的探索,以及坦率地说,对让听众产生眼花缭乱、惊叹不已的反应的渴望。

640_wx_fmt=jpeg&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1 (2).jpg


[上图:Homer Dudley的Vocoder系统概念图]

Vocoder是这一叙述中最早和最重要的设备之一,由贝尔实验室工程师Homer Dudley于20世纪30年代开发。Dudley的开创性想法是,人类的语音可以被分解成离散的组成部分:声带产生连续的音调,喉咙将其塑造成形声字,口腔、牙齿、舌头和鼻窦进一步发音。Dudley的Vocoder分析人类语音,通过带通滤波器将其分解为频率成分,然后将这些成分传送到调谐到相应频率的振荡器Vocoder最初用于电信领域,将语音信号压缩后用于远距离通信,但最终还是进入了创意领域(如著名的Kraftwerk的“Autobahn”)。但Dudley的作品确确实实地强调了将声音解构为可识别特征进行合成重建的概念。

20世纪70年代,计算机和数字信号处理技术的出现都标志着下一个重要里程碑的到来。数字机器不断增强的处理能力促进了新的合成方法的发展,包括20世纪80年代的串联语音合成。这种方法存储和处理大量预先录制的语音单元数据库,从音素到更大的模式,根据目标语音参数进行连接。其目标是实现听起来更自然的语音,Dennis Klatt的DECtalk、MBROLA项目和贝尔实验室的各种系统等早期系统为这一目标奠定了基础。苹果公司的Siri和亚马逊的Alexa等语音助手的早期版本甚至都采用了这些技术。

 640_wx_fmt=jpeg&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1 (3).jpg


[MATConcat概念图,见Bob L. Sturm 2004年论文MATConcat:MATConcat: An Application for Exploring Concatenative Sound Synthesis Using MATLAB.]

如今的拼接合成

过去十年中,数据驱动声音合成领域最重要的进步之一就是将机器学习和人工智能算法整合到这一过程中。从更有效地处理大型数据库和提高音质,到创新的控制系统和扩展的实时应用,这一切都带来了实质性的改进。有趣的是,虽然在商业软件插件(如XLN Audio的XO和Ableton Live 12中的智能浏览系统)中出现了越来越多的拼接合成技术,但最吸引人和最具创造力的方面,即声音的实际合成,仍主要存在于Max/MSP、Pure Data和SuperCollider等音频编程环境中。熟悉这些平台对那些有兴趣深入研究拼接合成的人大有裨益。不过,即使大家对这些环境不熟悉,仍有一些方法可以探索这种方法,我们将在下文中讨论。

 640_wx_fmt=jpeg&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1 (4).jpg

[上图:Max/MSP中简单的SP工具设置]

我个人的拼接合成之旅涉及Max/MSP环境中的几个框架。其中一个值得注意的是Rodrigo Constanzo开发的SP-Tools软件包。SP-Tools利用Flucoma项目,为实时、低延迟交互提供了一套优化的机器学习工具。该项目最初是为感知打击乐传感器设计的,后来发展到可以容纳任何类型的音频或控制输入。该软件包提供了一个进入拼接合成的便捷入口,以及一系列用于音频分析、聚类、分类、处理、合成、建模等的工具。重要的是,SP-Tools虽然目前是Max的独有工具,但它是Flucoma项目的一部分,该项目已扩展到SuperCollider和Pure Data,因此只要稍加努力,就能广泛使用其功能。

我在拼接合成的背景下探索过的另一个重要系统是IRCAM的MuBu,这是另一个全面的Max扩展。MuBu由音乐手势交互研究员Norbert Schnell于2008年发起,通过一个功能强大的多缓冲区,增强了Max环境,能够容纳多层不同数据类型的同步音轨,如音频、声音描述符、分段标记、标签、乐谱和传感器数据。这使它成为拼接合成的理想平台,尤其是轻松灵活地实现Diemo Schwarz的CatART系统。对于那些不太倾向于使用Max编程的用户,IRCAM还提供了Max-for-Live适配软件SKataRT。虽然这是一个付费的、灵活性稍差的选项,但它却胜在了易用性和即时性。

拼接合成之艺术与实践

在整篇文章中,我都提到了拼接合成在制作丰富、有层次和自然声音纹理方面的潜力,以及它与众不同的合成方法。不过,我们还没有完全深入研究它在现实世界中的应用。在本节中,我们将讨论如何将拼接合成集成到各种工作流程中。

让我们从比较浅显易懂的地方开始。拼接合成依赖于音频采样,这意味着它所提供的音色调色板几乎是无限的。输出结果会根据“语料库”的内容发生显著变化。此外,附加的分析阶段会对声音进行上下文关联和组织,这使得拼接合成非常适合创建不断发展的生成内容。这对持续性算法创作、声音装置、互动系统和声音设计(无论是音乐、电影还是游戏)尤其有利,特别是在调整声音以适应任意长的时间框架时。

 640_wx_fmt=jpeg&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1 (5).jpg

[上图:Max/MSP中的CatART设置示例]

CatART等程序特别擅长创建复杂的音频拼贴。从加载完整的音乐作品(ploaphonics-style)到合成器序列和原声乐器采样的编辑集合,都能处理超大、超长的音频文件。从这些混音中产生的混合音色形式不断给人带来惊喜。在CatART的参数中加入多层调制,可进一步提高结果的动态复杂性。

最后,实时的再合成的潜力为现场使用也开辟了大量的创造可能性。这包括利用现有音源或现场生成的音源,使用吉他或鼓等乐器来驱动合成过程,从而创造出新颖的声音。较简单的音频控制合成需要对音源进行简化,以实现更准确的音高检测和包络跟踪,而拼接合成的综合描述符系统则不同,它允许使用结构复杂的音源和更自由的音乐表达。例如,经过一系列效果处理的吉他和弦,仍然可以产生“有意义”的输出。

在机器学习算法进步的推动下,以数据为驱动的音频创作方法正在兴起。本文限于篇幅,只是简要概述了拼接声音合成的本质、历史背景、当前方法和一系列创造性应用。需要注意的是,本文的概述还远远不够全面。拼接合成仍旧是一个相对较新且不断发展的领域。

与所有此类文章一样,我们的主要目的是让大家熟悉、了解和参与这种特殊的声音合成形式。当然了,对于那些渴望进一步探索拼接合成的同学,建议可以从Diemo Schwarz的著作开始。原文出处:

https://www.perfectcircuit.com/signal/what-is-concatenative-synthesis


声明:该文观点仅代表作者本人,音频应用信息发布平台,官网仅提供信息存储空间服务。
最新音频交流