在12月14日发表在《自然通讯》杂志上的一项研究中,由麦戈文(McGovern)脑研究所副研究员乔希·麦克德莫特(Josh McDermott)领导的研究人员使用计算模型来探索影响人类音高感知的因素。他们模型的音高感知与人类非常相似,但只有在使用音乐、语音或其他自然声音进行训练时才如此。
麻省理工学院神经科学家的最新研究表明,自然声景(soundscapes)塑造了我们的听觉,使其适合我们最常遇到的声音。
在12月14日发表在《自然通讯》杂志上的一项研究中,由麦戈文(McGovern)脑研究所副研究员乔希·麦克德莫特(Josh McDermott)领导的研究人员使用计算模型来探索影响人类音高感知的因素。他们模型的音高感知与人类非常相似,但只有在使用音乐、语音或其他自然声音进行训练时才如此。
人类识别音高的能力本质上是指声音的重复频率,它赋予音乐以旋律,赋予口语以细微差别。尽管这可以说是人类听力研究得最好的方面,但研究人员仍在争论哪些因素决定了音高感知的特性,以及为什么某些类型的声音比其他类型的声音更刺耳。麦克德莫特是麻省理工学院脑与认知科学系的副教授,也是麻省理工学院大脑、思维和机器中心(CBMM)的研究员。他对了解人类神经系统如何感知音高特别感兴趣,因为目前植入式人工耳蜗虽然可以向重度耳聋患者的大脑发送有关声音的电信号,但不能很好地复现人类听觉中关于音高感知的这部分功能。
图1:间距模型概述。a 模型结构示意图 DNN经过训练,可以估计嵌入在现实世界背景噪声
CBMM研究员Mark Saddler是该项目的共同领导者,也是K. Lisa Yang综合计算神经科学中心的首任研究生。他指出:“人工耳蜗可以很好地帮助人们理解语音,尤其是在安静的环境中时。但它们确实不能很好地再现音高的感知。了解听力正常的人的音高感知的详细基础非常重要,原因之一是这有助于我们了解如何在人工耳蜗中更好地复现音高感知。”
人工听觉Artificial hearing
音高感知始于耳蜗,即内耳中的蜗牛状结构,声音的振动在耳蜗内被转化为电信号并通过听觉神经传递到大脑。耳蜗的结构和功能有助于确定我们听声的方式和听到的内容。尽管无法通过实验来验证这个想法,但麦克德莫特的团队怀疑我们的“听觉饮食”也可能影响我们的听力。
为了探索我们的耳朵和环境如何影响音高感知,McDermott、Saddler 和研究助理Ray Gonzalez建立了一个称为深度神经网络(DNN)的计算机模型。神经网络是一种机器学习模型,广泛用于自动语音识别和其他人工智能应用。尽管人工神经网络的结构与大脑中神经元的连接性大致相似,工程应用中使用的模型实际上与人类的听觉方式不同,因此该团队开发了一种新模型来重现人类音高感知。他们的方法将人工神经网络与现有的哺乳动物耳朵模型相结合,将机器学习的力量与生物学知识联系起来。“这个新的机器学习模型的确是第一个可以被训练来完成复杂听觉任务的模型,而且它性能很好,达到了人类水平。”Saddler解释说。
研究人员通过让神经网络识别训练集中声音的重复频率,训练神经网络来估计音高,这使得他们能够灵活地更改产生音高感知的参数。他们可以控制输入给模型的声音类型,以及在将这些声音传递到神经网络之前处理这些声音的耳朵的属性。
当模型使用对人类很重要的声音(如语音和音乐)进行训练时,它学会了像人类一样估计音高。“我们很好地复制了人类感知的许多特征……这表明它使用来自声音和耳蜗表征的相似线索来完成任务。”Saddler说。
但是当模型使用更多的人工声音或在没有任何背景噪音的情况下进行训练时,它的行为就非常不同了。例如,Saddler说:“如果你优化这个理想化的世界,那里从来没有任何竞争性噪音源,你可以学习一种似乎与人类非常不同的音高策略,这表明,也许人类的音高系统真的经过了优化,以应对噪声有时会掩盖部分声音的情况。”
该团队还发现,耳蜗中神经信号启动的时机对于音高感知至关重要。麦克德莫特解释说,在健康的耳蜗中,神经细胞会随着到达内耳的声音振动而准确地发送信号。当研究人员在他们的模型中扭曲了这种关系,使得发送神经信号的时间与传入声音产生的振动不那么紧密相关时,音高感知偏离了正常的人类听觉。
麦克德莫特说,在研究人员努力开发更好的人工耳蜗时,考虑到这一点很重要。他说:“这确实表明,为了让人工耳蜗产生正常的音高感知,需要有一种方法在听觉神经中重现精细的时间信息。现在他们没有这么做,因为要实现这一点存在技术挑战。但建模结果非常清楚地表明,这就是你必须做的。”
参考文献:
作者: 宋芳葶、黄君如
https://medicalxpress.com/news/2021-12-pitch-perception.html