听觉系统中语音信号处理性质研究(6)

2019-04-02 14:39

华中科技大学硕士学位论文

Xa中为9.95%，在对照组Xb中为6.81%，两者结果的差异性达到显著性（|Z|=1.97, p<0.05）。具体结果见表3。

表3 两个对照组中被试判断准确率的提升百分比（%）。先验准确率后验准确率准确率提升百分比顺序语句材料 (Xa) 49.77 59.72 9.95 倒序语句材料 (Xb) 61.98 68.79 6.81 在文本无关的说话人识别任务中，顺序语句对照组中的被试表现更好。当测试语句改成倒序语句时，虽然语音帧中没有任何信息损失，但是被试识别准确率的提高百分比明显下降。这个结果说明了人类在文本无关说话人识别过程中，不仅利用了短时谱特征的统计分布信息，还利用了词汇及更长尺度上的时间序列顺序信息。

3.3 小结

在这个研究中，我们发现了人类在进行文本无关的说话人识别任务中采用了不同于现有主流说话人识别系统的机制。现有说话人技术如UBM-GMM，SVM等主要利用了短时语音的统计信息来进行判断，而人类除了利用短时信息之外，还利用了词汇长度水平的语音信息作为辅助。从实验数据分析来看，这种较长时间尺度信息利用机制性质类似于常用词汇的DTW模型。这种辅助识别机制在训练样本和测试样本不匹配时作用尤其明显。这个结论揭示了噪声环境下现有文本无关说话人识别模型和人类说话人识别心理模型的差异，为现有模型鲁棒性研究提供了有力的支持。

华中科技大学硕士学位论文

4 时频结构检测听觉模型

4.1 引言

声源分离技术是一种依据声音信号波形中反映出的声源结构和行为特征来对声源进行分离的技术,复杂噪声处理是其最重要的应用之一。在实际应用中,目标声音信号总会受到各种不同类型的噪声源的干扰,使得在实验室环境下成熟的声源识别系统的性能迅速下降。尽管现代信号处理技术提供了大量噪声滤除方法,包括针对复杂非平稳噪声的自适应滤波器,但是这些滤波器都存在着各种局限性,尚不能很好地处理实际应用时遇到的各种类型的噪声，尤其是在当噪声声源与信号声源性质相似甚至相同的情况下。与此同时,人类听觉系统在复杂噪声环境中却表现良好。在复杂的多声源混合信号中,它能够有效地识别目标声源并加以跟踪,并且忽略其他干扰声源的信号[1],其优秀性能长期以来一直吸引了大量的科研人员对它的内在机制进行了大量深入的研究。人们期望通过对人类听觉系统的模拟,来实现计算机智能化的听觉能力。目前为止,虽然并没有彻底了解听觉系统所有的细节,但是我们也已经相当多的相关信息。

大量的实验研究暗示着人脑中存在着对于特定声源(如语音)的发音特征高度敏感的检测结构。神经生理研究很早就在动物的听皮质中发现了对于信号中不同特征敏感的神经元,从简单特征如频率变化[85]到复杂特征如人的语音[86]都存在着对应的检测细胞。同时, 脑成像研究发现了对于语音信号特征敏感的脑[87]区,心理学的追随耳实验研究也映证了人脑存在着对语音特征的检测功能[88]。不仅如此,从进化论的角度来看,对物种内发出的信息的敏感探测和准确识别对于生物个体生存非常重要。因此,认为人类听觉通路中存在对语音特征敏感的检测机制是十分合理的。

在这样的一个研究背景下,人们不禁要问:到底存在哪些子特征检测器,组成了对语音检测的机制呢?现在众多研究人员致力于寻找对声音信号中较复杂特征敏感的检测神经元,但是却遇到了不少的困难。与寻找简单特征不同,复杂特征的时频结构难以

华中科技大学硕士学位论文

预期,需要采用大量的特征集进行测试[89],而且神经元时频感受野的快速可塑性[90-91]也使得这种寻找工作变得更加困难。

从进化论的角度来考虑,由于在长期进化过程中人类听到的声音信号来自于自

然界,听觉系统对于人类常遇到的自然界声音具有非常高的适应性[92]，因此对可能的常见声音加以统计,将其共有特征加以概括和提取,并对这些特征进行实验验证和讨论是个行之有效的方法[93]。

人类对于声音信号的处理依据哪些规则，具有哪些特点？认知心理学很早就对

于这个问题有了较为全面的答案。Bregman在1990年对此方面的研究进行了详尽的总结，总结出了以格式塔规则为基础的一系列感知规则[94]。而对于人类听觉系统的模拟，则在Bregman的书出版之前就已经开始了。Weintraub在1985年建立了第一个模拟单耳声源分离原理的人工听觉模型，将两个语音信号成功分离[95]。后续的研究沿着类似的思想，不断地对模型进行完善[96-97]。时至今日，根据人类听觉信号处理规则和特点建立起来的听觉场景分析模型，已经达到了相当高的水平，能够较好的将基频分布范围处于相同频带上的多个同时语音进行分离。

但是，这并不代表听觉场景分析模型已经发展到尽头了。人类听觉系统还有些重

要特征尚未被充分借鉴。现有的听觉场景分析模型主要依赖对于多个声源的基频分析，以此将不同声源进行分离。但是，在这个过程中，并没有认为人类语音和其他声音在重要性方面有所区分，这是不符合实际情况的。人类听觉系统对于人类语音的敏感性和分辨力高于其他声音，处理时神经信号传递的通路都不同，甚至对于男声和女声，人脑对应的处理脑区也是不同的[98]。同时，人类也常常处理没有基频的语音信号，如耳语音。在有正常语音干扰的环境中去听取耳语音声音，是人类常常面对的情况。这种现象显示出了对于声源的分离，并不能单纯依赖于基频的分析[99]。所以，针对这种情况，现有模型还有需要改进的地步。

由于脑功能成像实验证实了存在分析频谱包络的特定脑区[100-101],认知心理学实验也显示出语音信号频谱包络对于语音的可懂性的重要意义[102-103],因此我们认为人脑在对语音信号特征分析的过程中,语音信号频谱包络特征具有非常重要的作用,由此假设人类听觉系统中存在对“频谱包络峰度”这样的复杂特征的检测机制。对语

华中科技大学硕士学位论文

音和自然环境背景噪声的频谱包络峰度特征的统计来看,二者的特征值分布存在明显差异。由此我们设计了一个听觉特征检测器模型,即采用频谱包络峰度作为判据的glimpsing模型[104]来模拟听觉通路中特征检测机制对混噪信号的处理模式。结果显示,对于被日常环境背景噪声(如汽车发动机噪声)干扰下的语音信号,信噪比能够得到明显提高。

4.2 相关定义

发音声道的结构特点导致了语音频谱具有相对固定的频谱结构,包括一定数量的共振峰。无论是在认知心理研究中还是语音信号处理技术中,语音的频谱包络都具有非常重要的意义。对于频谱包络的计算,应用最广泛的算法是线性预测分析。但是,由于我们要处理的声音信号是被类型不可预期的非稳定噪声干扰的语音信号,因此要对线性预测分析模型阶数进行估计存在困难。因此,我们在这项研究中得到的声音信号频谱包络是通过对频谱进行低通滤波的方法完成的。在下面的图3一组图中,显示了语音和汽车发动机噪声的频谱与频谱包络曲线。

图3 某帧语音的频谱及其频谱包络曲线（上），某帧发动机噪声的频谱及其频谱包络曲线（下）。

虽然频谱包络可以较好地描述频谱的形状特征,但是在噪声存在的情况下频谱包络很容易产生畸变。实际应用中人们需要找到一些这样的参数,既能刻画频谱的

华中科技大学硕士学位论文

特征,又具有更强的鲁棒性。因为共振峰特征对于语音频谱特征具有非常重要的意义,而共振峰信息在语音频谱中最难以被噪声频谱掩盖,共振峰处的时频信息具有很强的天然鲁棒性。所以我们设计了频谱包络峰度这样的参量来刻画频谱包络中共振峰的形态特征。频谱包络峰度的定义为:

KSEPi,j?(?Af(i?j)??Af(i?j))/2Af(i)

?1?Af(i?j)?Af(i?j)2Af(i)

其中,f(i)为共振峰的中心频率,f(i?j)为附近频率,距离中心频率j个步长。步长由模型参数确定,我们模型中一个步长为33.3Hz。A为幅度谱幅值。由一组取不同j构成一个参量组(这里我们选用5个子参量),可以较好得描述频谱中共振峰的形态特征。依据共振峰形态特征,我们就可以在混噪信号中找出语音共振峰所在的区间,从而将目标语音和背景噪声有效分离。为了通过频谱包络峰度特征对共振峰形态的定量化的表述的有效性,我们检验了语音和汽车噪声信号的频谱包络峰度特征值分布范围。见图4。

图4 一段汽车噪声信号的频谱包络峰度特征(j?3)分布（左）和一段语音信号的频谱包络峰度

特征(j?3)分布（右）。

图4中,左图和右图分别是汽车噪声和语音的频谱包络峰度特征(j?3)分布。图中横坐标是信号中各个帧上符合共振峰基本形态要求(峰频带宽度达到一定数值,峰高度

共8页:

听觉系统中语音信号处理性质研究(6).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档