听觉系统中语音信号处理性质研究(3)

2019-04-02 14:39

华中科技大学硕士学位论文

的实验结果也支持这个结论。Dennis P. Phillips等人[26]后来又采用了相同的范式来研究ITD和ILD的感知过程的关系。发现基于ITD呈现的适配音对基于ITD的目标音感知中心点的偏移，反之亦然。这又提供了神经系统处理ITD和ILD时之间的相互关系的一些证据。同时还有实验表明ITD，ILD还和频率有联系：Alan R. Palmer等人[27]测量了麻醉的几内亚猪下丘72个细胞的ITD敏感性对于频率和ILD的函数关系。发现对于许多单元存在“null”频率，即频率上ILD的变化对于ITD敏感性峰值位置没有影响。

除此之外，还有一些与听觉有关的其他的感知觉研究也引入了听觉研究范围。Fr?hlich 效应指人类视觉对于中快速移动的信号的初始位置的判断会出现偏移。Stephan Getzmann[28]将Fr?hlich效应引入听觉的研究中，发现听觉系统处理声音信号时也存在该效应，而且随着注意力参与到听觉空间定位过程，该效应还会被放大。

1.1.3 优先效应

刚才提到的研究中虚拟声源的主观空间感受都是利用ITD或ILD来模拟的，这利用了优先效应的结论。左右耳听到的有短暂时间差的类似信号，或者同时到达的不同强度的类似信号，会在人脑中形成声音来自某个方向声源的主管感受，这就是优先效应。优先效应在听觉研究中应用很多，所以也有不少对于优先效应本身的研究。Kourosh Saberi和Joseph V. Antonio[29-30]研究了优先效应实验中不同参数的影响，发现了在不同的实验条件下受试对实验的熟悉程度对于实验结果的明显影响，被试们的测试阈限值，阈限分布等对训练有着高度依赖性。Richard A. Roberts等人[31]检测了短时音的回音检测阈限，即多长的延迟时间下听觉系统把两个声音当作一个听觉事件，而不是前后两个不同的听觉事件。发现相对于没有回音的环境,在回音环境中两个先后出现的同样声音更容易整合到一个听觉事件中. Liang Li等人[32]不像以往采用瞬时声音材料来研究优先效应，而是采用持续时间较长的声音材料，且材料中包含短时静音端点。结果发现人的听觉系统对于声音事件的整合与端点的整合规则并不一样。这为听觉场景分析研究中感觉元素的整合机制提供了一些有价值的

华中科技大学硕士学位论文

参考。Andrew J. Oxenham[33]在基频不同和声源空间位置两种情况下研究听觉系统中哪部分对端点检测贡献最大，结果发现听觉外周主导着听觉系统的端点检测能力,深层次的神经编码机制没有什么影响。现今语音识别算法中语音端点的检测是一个非常重要的环节，所以这个结论在端点检测算法的研究上有很大的指导意义。 1.1.4 前向掩蔽效应

听觉系统对于瞬时信号的检测和整合等加工过程和神经元的刺激不应期有很密切的关系。神经元对刺激产生响应后，短时间内对于接下来的刺激不会产生响应，这在宏观上的表现就是前向掩蔽效应。对于正常听力者,在相同的功率谱情况下,谐波复音在基底膜上产生的尖锐波形导致的前向掩蔽效果要低于一般复音在基底膜上产生平滑些的波形导致的前向掩蔽效果.通常认为差异主要归结为听觉外周部分的压缩和抑制联合效应，这两个过程都依赖于耳蜗中活动机制的操作。Brian C.J. Moore[34]通过对耳蜗听力受损的被试的实验，间接地支持了这种看法。前向掩蔽常常被认为是由于神经自身的非线性效应引起的。Andrew J. Oxenham的研究[35]却表明,只要引入了一些非线性参量,前向掩蔽是可以用线性过程来描述的。 1.1.5 神经编码不对称性

D.P. Phillips等人[36]发现人的听觉系统在处理声音信号时，信号各个部分对于听觉系统而言重要程度是不一样的。起始端的编码占有非常重要的位置，而结束端重要程度就相对低的多。Christian Borgmann等人[37]采用脑磁图MEG和脑电图EEG来测量对于不同信号人的听觉中枢延迟响应MLR。发现在同样强度下起始端变化强烈的刺激信号产生的听觉中枢响应不仅幅度大而且反应时间短。Janine C. Clarey等人[38]检测了自然音节的声音起始时间段(VOT)编码，语音呈现过程采用了不同的强度，实验对象为麻醉的老鼠的耳蜗腹核(ventral cochlear nucleus, VCN)神经元。细胞外纪录了VCN响应形式。结果表明BF高于第一共振峰频率的VCN细胞的响应对于语音起始端敏感，使得它们能够精确传达音节VOT的信息。

有相似的起始端的信号，不同的频率、相位排列方式也会让听觉系统响应有明显差异。Dau等人[39]证明了频率瞬间提高的声脉冲（up-chirp）可以通过同步基底膜上

华中科技大学硕士学位论文

所有频率通道的激励，增强听觉脑干响应ABR的V波。下降声脉冲(down-chirp)，是上升声脉冲在时域上的反转，可以增加耳蜗相位延迟，从而导致较小的ABR V波。Stefan Uppenkamp等人[40]采用了up-chirp和down-chirp来研究这种相位改变如何影响我们所听到的内容。结果感知的内容不同于在脑干水平上的研究结果，是down-chirp听起来更加的紧凑。 1.1.6 听觉外周

对于声音在外耳，中耳和内耳中的处理过程的研究，通常称为听觉外周模型研究。听觉外周由于其独特的非线性变换结构，对声音信号的处理时带有天然的频率选择性和抗噪性，在听觉信息加工过程中占有比较重要的地位。从总体上来说它是一个将声音信号由时域转化为频域的过程，但是其中还有许多细节尚未研究清楚，比如随机共振机制在听觉神经系统中的作用正被广泛的研究着。如Shahdad E. Behnam等人[41]的实验表明噪声明显增强了阈上谐波信号的分辨能力，尤其是在低强度信号伴随着阈上噪声的时候，这反映出合适的噪声强度可以优化听觉表现。对于听觉系统的研究，李朝晖等人[42]对此方面相关总结。

1.2 自上而下加工过程

自上而下的加工过程，主要是听觉中涉及的注意力，经验知识等内容的部分。人类听觉系统在对声音元素进行声源重组时，这些信息起到了非常重要的作用。在这些高级功能的支持下，人类才可以在复杂的声场环境中分辨目标信号，很大程度上提高对噪声的鲁棒性。但是由于这部分的研究涉及到对智能认知的深入理解，所以研究是以心理实验为主要研究手段，生理的实验研究大多较为局部。 1.2.1 信息掩蔽

当噪音和目标声音信号的信息模式有一定程度的相似时，例如两者都是语音信号时，噪音就会在心理加工过程中抢占一部分的心理资源，使人对于目标信号的信息加工受到影响，即目标信号受到了掩蔽作用。和前向掩蔽和频率掩蔽等低层次上的

华中科技大学硕士学位论文

掩蔽效应不同，信息掩蔽是一种在较高的神经和心理加工水平上所产生的掩蔽效应，即使同一时刻目标声音和噪声在频率上并没有重合。心理学实验证明了在同样的信噪比条件下，以语音为内容的噪声相对于普通噪声对于人的语音感知能力有着更大的干扰[43-44]，而且当噪声中的语言和被试的母语为同一种语言时这种干扰效果尤其明显[45]。这些结果确认了在“语言干涉”形式下噪声中句子识别中的信息屏蔽效应。H. Kozou等人[46]在不同声场环境下测试被试的MMN，结果显示了在嘈杂环境和安静环境中语音和非语音的处理方式是不同的。相比于非语音处理过程，语音处理过程更多地受到噪音环境的影响。此外，对于语音和非语音声音的预注意辨别力在不同类别的噪音下受到的的影响也是不同的。Xihong Wu等人[47]语音噪音干扰效应相对于频谱噪声更容易通过优先效应来消除，这也从一个侧面反映出其处理过程的神经机制某些特征。另外，Marisciel Litong-Palima等人[48]揭示出语音跟踪不同于语音识别，人类在多语音干扰的情况下跟踪目标语音的能力鲁棒性很好，其反应表现出来的是一个线性系统的特征。而语音识别在环境中不相关的语音源增多的情况下，其识别能力迅速恶化。 1.2.2 语音理解

在各种不同的实验条件下对语音的可理解度的研究，可以有助于我们了解听觉系统在信号中提取什么样的语音特征，如何提取这些语音特征以及知识体系在大脑记忆系统中的存储形式。同时，这种研究在应用层面，对于语音识别系统采用新的特征提取技术有一定的指导意义。

M. Kathleen Pichora-Fuller等人[49]采用短时抖动来干扰语音的周期性线索来研究这种扰动如何影响词的辨认，得出时域扭曲比低频成分的谱扭曲更能影响词识别的结论。Thomas Baer等人[50]设计了对于语音进行的smearing操作，发现对于安静环境中的语音信号进行smearing处理后，可理解性没什么影响；对于噪音环境中的语音信号进行smearing处理后，可理解性明显降低。F. Apoux等人[51]对正常听力者和听力受损者进行了语音信号时域包络扩充效应对于噪音环境中语音识别效果影响的研究。时域扩展在正常听力者识别得分上改进很小（约为5%），在听力受损者识别

华中科技大学硕士学位论文

得分上没有影响。在另一方面，结果显示扩展导致在所有被试反应时间都明显下降。两个实验组平均反应时间减少65ms。这些结果显示噪声环境中语音信号时域包络扩充可以让正常听力和听力受损者“容易听到”信号。Rob DrullmanZ等人[52]描述了相对于传统的单双耳的听觉呈现方式，3D听觉呈现方式在考虑可理解性和有竞争语音的环境中说话人识别任务中的优点。在进行识别人任务时，能够很有效的减少反应时间。

语音理解研究中一个重要发现是相同的声音信号可以被感知为不同的语音,这倚赖于前后的语音内容。虽然这种语音内容效应在语音感知中非常普遍,它的神经机制仍然很大程度上没有被了解。Lori L. Holt等人[53]通过回顾这方面的研究情况，说明了这个效应受到高级听觉过程的支配，提出了一种描述性框架来整理这些工作。同时进行了4个心理实验揭示出语音内容效应持续数百毫秒。Matthew H. Davis等人

[54]

回顾四个对于语音理解很重要的过程:感知整合(perceptual grouping)、词汇分

割(lexical segmentation)、感知学习(perceptual learning)和绝对感知(categorical perception)。提出并证明了自上而下信息驱动过程和语音输入解释抑制过程之间的高度相互作用。这些相互作用的认知和神经基础依赖于对听到的语音两种独立的表述方式：对于输入语音信号的表述和能够产生该语音的肌肉行为表述。 1.2.3 注意力

在整个认知科学研究领域里，注意力对于知觉的影响都受到了研究人员广泛的承认和重视。在人的听觉系统处理大量复杂声音信号时，注意力机制能够让人有选择的处理某一部分信号而忽略其他信号，同时也就对大量复杂噪声干扰具有强大的抗噪能力。在听觉研究领域，注意力的研究可以说是难点和核心之一。

Claude Alain[55]综述了多声源感知的研究进展，指出初级听觉皮层和颞平面在多声源感知过程中发挥重要作用,而且揭示了丘脑皮层活动和多路语音成功分离与确认之间的联系。A.R. Palmer等人[56]回顾了近年关于非被动听觉（即包括注意力等因素的听觉过程）的研究进展。Tomas hromadka等人[57]则站在神经生理和动物行为实

共8页:

听觉系统中语音信号处理性质研究(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档