听觉系统中语音信号处理性质研究(2)

2019-04-02 14:39

华中科技大学硕士学位论文

摘要 ······································································································································································ I Abstract ·································································································································································· II 1 绪论

1.1 自下而上加工过程 ······························································································································ （1） 1.2 自上而下加工过程 ······························································································································ （7） 1.3 其他相关研究 ····································································································································· （10） 1.4 本文研究内容 ····································································································································· （10） 2 说话人辨识听觉线索研究

2.1 引言 ······················································································································································· （11） 2.2 实验1：不同元音所含音质特征信息测定 ················································································ （12） 2.3 小结 ······················································································································································· （15） 3 文本无关说话人识别心理模型研究

3.1 引言 ······················································································································································· （17） 3.2 实验2：顺/倒序语句判断测试 ····································································································· （18） 3.3 小结 ······················································································································································· （20） 4 时频结构检测听觉模型

4.1 引言 ······················································································································································· （21） 4.2 相关定义 ·············································································································································· （23） 4.3 听觉特征检测器模型 ······················································································································· （25） 4.4 小结 ······················································································································································· （26） 5 总结 ····················································································································································· （27）致谢 ·························································································································································· （29）参考文献 ····················································································································································· （30）附录攻读硕士学位期间发表论文 ······························································································· （39）

III

华中科技大学硕士学位论文

1 绪论

人们对于人类听觉系统的研究已经有超过半个世纪的历史。早期的研究主要着眼于一些基本的听觉性质，如听觉感知阈限、耳蜗滤波特性等。随后的研究中引入了双耳模型，做了大量关于双耳时间差，双耳强度差，双耳效应，空间定位等工作。后来学者们认为相对于机器语音信号处理系统，人类听觉系统的优越性在很大程度上被认为是由于其有关于意识、注意力、经验等要素影响的结果，研究的热点逐渐转向了听觉系统的高级功能领域。研究者们广泛认识到后者对于听觉过程的影响非常显著：意识及注意力主导着对于声音信号信息的选择，经验知识主导着对于声音信号模式的识别，而且它们共同指导着对于已识别信号的检验和修正，对于未来信号的预测过程。从某种意义上来说，当前机器听觉系统想要达到人类听觉系统信号处理能力水平，最缺乏的就是注意力和经验知识机制的建立。这并非一件容易的事情，需要整个认知科学领域研究的深入来予以支持[1]。自下而上分析过程的研究主要集中于时频、空间听觉流形成、优先效应、前向掩蔽等方面，而自上而下分析过程的研究由于其本身的复杂性，并不像自下而上过程的研究那么深入，主要涉及对于信息掩蔽，语音理解和注意力等方面的心理及生理实验研究，下面对这几个方面进行简要的介绍。

1.1 自下而上加工过程

自下而上的加工过程，是指听觉系统依据某些声学特征，将声信号中的不同感觉元素分配到相应的听觉流中。在这个过程中声音信息经由外耳，中耳，内耳到达中枢听觉神经系统，在传输的过程中同时完成声音的分解和重组。关于这个过程的特性研究，主要分成以下几个方向： 1.1.1 时频相关听觉流

声音信号中不同的感觉元素在加工时被分离重组到相应的听觉事件和声源中，这

华中科技大学硕士学位论文

个过程中分离和重组的特征依据已经发现的有不少，其中研究最多的就是依据声音信号中时频特征进行分离的过程。这类研究范式是给被试循环播放不同频率的短音A和B，即声音序列“ABAB”。被试可能听到一个声音序列“ABAB”,也可能听到“A”和“B”两个同时出现的声音。A和B之间频率差越大，序列播放速度越快，被试越容易听到两个单独的声音；反之容易听到一个声音序列。近年来对此现象背后的特点和机制研究更加深入。

Elyse S. Sussman[2]利用ERPs检测没有意识参与的被试的失匹配负波，实验证明了：（1）分离出来的听觉流各自保持着相对独立性；（2）听觉流形成过程发生在流内整合之前；（3）听觉事件的前后内容影响听觉系统对于该听觉事件的整合。这个研究的结果反映出了听觉流形成过程的一些性质。

Christophe Micheyl等人[3]研究了在听觉皮层水平上，这种感觉现象后面的神经机制。他们观察到了在初级听觉皮质区（A1）中听觉流形成的神经“微机制”。还利用功能性核磁共振 (fMRI)和脑磁描记法（MEG）从人脑得到的结果表明了来自不同于A1区域的皮层区域对于听觉流形成也起到了作用。除此以外，Yonatan I. Fishman等人[4]通过动物生理实验也找到了一些时频特征分流的生理依据。不过以动物为被试的实验得到的结果并不是总和人类被试结果一致。Akihiro Izumi[5]的实验结果表明猴子在处理声音序列区分任务时采用频率变化线索，而且猴子比人类更依赖于局部特征作为分离线索。

Elyse Sussman等人[6]采用了电生理指标来记录结果的方法判断在没有意识参与情况下不同年龄的被试听觉流分离能力。结果反映了当频率近似程度为分离线索时，听觉流分离机制在小学生和成人之间基本一致。但是在类似实验中，研究者[7]以不同年龄段的被试进行对照实验，却发现其频率分流能力的差异，这反映了自下而上信息加工过程受到了长期经验的影响。

双耳系统不能够跟踪信号快速变化的耳间相关性，这种双耳迟缓效应被称为“双耳短时窗”——一种平均移动滤波器，将一段时间上的双耳信息整合到一个声音事件中。Susan E. Boehnke等人[8]研究了这个短时窗的等效矩形窗长度，给出的结果是平均86ms。Hilmi R. Dajani等人[9]对于双耳效应的实验研究给出了47和4.4ms的两个

华中科技大学硕士学位论文

时间常数。前者可能反映了皮层的综合，和双耳感知的“呆滞现象”吻合。后者可能反映了脑干或者主要听觉皮层中相关性交互过程。

除了对正常听力者的研究以外，在对非正常听力者的对照研究也可以为我们提供一些关于声音信号加工过程的信息，同时在医学领域的应用，因而显得也颇有价值。Marina M. Rose等人[10]通过正常听觉者和听力缺失者的心理声学实验，发现依据频率分流时频率差FB和人的频率分辨能力的生理极限FDL在这两种被试中关系不一致，表明了频率分流时的频率差阈限不是由FDL单独决定的。Chandra S. Throckmorton等人[11]对于人工耳蜗的研究从一个侧面也对此结论予以了支持。Monita Chatterjee等人[12]通过对于耳蜗移植者的心理实验，表明有些人工耳蜗移植者还是可能基于耳蜗不同电极和时域包络听得到分离的感觉。Huw R. Cooper等人[13]发现被试报告听觉感受出现分离的时间比例是随着耳蜗电极分离距离增大而增加的，但是声音序列播放速度对此却没有什么明显影响。这个结果预示着耳蜗移植者是以通道为声音分离依据而不是以时频为依据的听觉流分离。Thomas H. Stainsby等人[14]通过对听力损伤者的研究，用来了解在序列流分离情况下短时线索的影响。发现成份相关系和通频带的不同都对于最小可探测延迟有明显的影响。这意味着短时结构对于流分流有很大影响。Etienne Gaudrain等人[15]用模拟听力缺失患者听觉效果的频率缺失的声音来测试正常听力的被试。在实验中发现元音的谱平滑处理（spectral smearing）能够在某些方面改善听力效果，这可能对于听力缺失患者的困难有所裨益。 1.1.2 空间相关听觉流

听觉系统将声信号中的不同感觉元素分配到相应的听觉流的过程中，声场中声源的空间分布也是一个很重要的线索，对应到听觉系统中的特征，目前已知的重要特征主要是双耳时间差ITD，双耳声强差ILD，双耳相位差IPD等。依据这些特征，我们人类在听觉过程中可以感受到各个声源不同的方位和距离，为注意力指导下的选择性听觉过程作基础。

对于静态的空间定位研究出现较早，研究空间感受分辨率与频率，方位等因素的

华中科技大学硕士学位论文

关系，讨论其背后的机制。Mao dongxing等人[16]研究了人在双耳听觉中整体响度感受的依赖因素，包括ILD和声音频率，发现了感受响度级对于ILD和频率的非线性依赖关系。Gregg H. Recanzone等人[17]采用短尾猿（和人的听觉能力相当类似）做心理听觉实验，发现声源定位精度随着声音强度变化而变化，也随着声源方位变化而变化。随后Andrew T. Sabin等人[18]研究了在不同声音信号强度下人类听觉的空间区分阈限，得出同样的结论。Ruth Y. Litovsky等人[19]在对特殊脑部受损的病例的研究中发现单侧的下丘损伤很大程度上损坏了病人的声源空间定位能力（错认为发生在下丘损伤一侧的声音源是在下丘正常一侧）。Mark I. Sanderson等人[20]在对蝙蝠定位声纳系统的研究中发现：只有适当地提高频率，在蝙蝠内耳的滤波响应才可以在并行过程中得到完全的相位信息，并且可以解释蝙蝠声纳的精确性(其精确性比实验室水平高一个数量级)。

在生理微观机制的研究中，发现了神经对于ITD的编码依赖于一个特殊的机制（对双耳输入信号进行比较），曾经提出了一个著名的双耳精确时差的假设模型jeffress模型。jeffress模型采用了同时性神经元检测阵列比较来自两侧的输入信号使得不同的ITD对应着阵列上不同的神经元。虽然jeffress这类模型成功地预言了人类对于ITD的敏感性，但是也有一些神经响应性质用这种模型不能完全解释。Douglas C. Fitzpatrick等人[21]就记录下了在某些情况中超出了jeffress模型框架的神经元的响应信号。

相对较晚时候开始出现了动态的空间定位研究。这类研究范式主要利用先出现的适配音来影响听觉系统对于后出现的目标音的空间感受。Stephan Getzmann[22]以这种范式进行的实验结果表明声源空间分辨力的增强只有在适配音有合适的空间位置和频率时才会出现。当适配音和目标音的频谱不一样的时候，这种影响效果则很不明显。 Phillips等人[23]的研究描述了针对ILD和ITD的感知通道的频率特定的选择适应性。两种不同频率的适配音轮流地、强偏向性地呈现在相反两边。在适配音出现前后，进行基于ITD和ILD的偏向性心理测量。在适配音之后，感知中心点朝着适配音的方向移动，而且两种频率有着相反的移动方向。这个结果支持声音侧向性编码的双通道逆过程模型。Bronwyn K. Vigneault-MacLean和Dennis P. Phillips等人[24-25]

共8页:

听觉系统中语音信号处理性质研究(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档