听觉系统中语音信号处理性质研究(7)

2019-04-02 14:39

华中科技大学硕士学位论文

高于频谱平均高度一定倍数)的能量峰的频谱包络峰度,纵坐标是峰度分布区间上对应的能量峰的统计数目。这种分布范围显示出语音和汽车噪声的频谱包络曲线中共振峰形态具有明显差异。语音的共振峰峰度分布更集中,汽车噪声频谱包络峰峰度的分布则非常随机。这表明相对与汽车噪声,语音频谱包络中共振峰具有更多相似性。另外,两段声音信号长度一致,但是从统计数目上看,频谱中具有类似共振峰的峰的数量,汽车噪声明显少于语音。(这点从图中纵坐标数值很容易看出来),这也反映出了语音和街道噪声在频谱形态上的差异。

4.3 听觉特征检测器模型

4.3.1 模型的设计

现有研究暗示了人类听觉系统中存在一种基于复杂特征检测机制的信号检测与识别系统。我们根据已有的研究建立了一个基于频谱包络峰度特征的听觉检测glimpse模型来模拟人脑中的这种机制,并用它来进行在汽车噪声背景下的混噪语音的滤噪试验。

模型主要分成两个部分:在学习部分,系统需要用纯净的语音信号对它进行训练,使它掌握说话人语音的频谱包络峰度分布信息;在工作部分,系统依据语音共振峰分布频带的先验知识和已掌握的频谱包络峰度信息,在混噪信号的时频谱中语音共振峰可能出现的频带上寻找出具有语音共振峰形态的时频片段及其邻域,标定为语音片段。其他则认为是噪声完全掩盖了语音的时频片段,将其幅值归零。最后将处理后的时频谱转换成时域信号,得到滤噪后的语音信号。因为语音合成研究结果显示利用语音频谱前3个共振峰频率信息即合成出较好的语音信号,因此我们模型中对共振峰搜索的频带范围是260Hz~3600Hz。 4.3.2 模型的实际效果

对于语音-汽车噪声类型的混合信号,模型对其滤噪的效果如表4所示。即使在信噪比非常低的情况下模型依然可以使信号达到8dB的信噪比提升。随着初始信噪比的提

华中科技大学硕士学位论文

升,模型能够改善的能力也稍有增强,可达到接近10dB的信噪比提升效果。主观听觉感受的检验也证实了,混噪信号的听觉改善效果是明显的。

表4 模型在不同信噪比情况下能够使信噪比提升的分贝数

原始信噪比(dB) -15 -10 -5 0 5 10 15 处理后信噪比(dB) -6.7 -1.2 4.3 9.6 14.7 19.8 24.9 信噪比提高(dB) 8.3 8.8 9.3 9.6 9.7 9.8 9.9 4.4 小结

根据现有的神经生理学和认知心理学实验研究结果,我们这篇文章中假设了人类听觉系统中’频谱包络峰度’特征检测机制的存在,并以此作为语音声源识别线索,建立了针对在背景噪声中语音信号的听觉特征检测器模型。模拟结果显示,在处理语音-汽车噪声混合信号时,模型能够依据语音时频谱结构特征线索有效地区分语音和噪声,达到明显改善混噪声音信号的信噪比的目的。

但是,该模型还存在的一些不足。如果干扰信号是同样由类似声道的共振腔产生的声音,如乐器,鸟鸣等,模型进行滤噪时几乎没有效果。这是因为在求取频谱包络峰度特征后,模型仍无法有效区分语音和共振腔发音信号在时频谱结构细节的差别。在不借助其他听觉时频谱结构特征情况下,无论怎样改进频谱包络算法和调节特征参数范围,不会对结果产生大的改变。也就是说,单纯依赖于频谱包络峰度特征的单一特征检测器模型是无法有效分离语音与其他类似共振峰发音的。因此,想要扩大模型所能处理的噪声类型范围,需要进一步完善该模型,在现有基础上引入其他听觉特征,形成一个多特征并行检测听觉模型。

华中科技大学硕士学位论文

5 总结

本文简要介绍了听觉系统研究领域的重点研究方向，包括时频相关、空间相关听觉流形成，优先效应，前向掩蔽，神经编码不对称性，听觉外周，信息掩蔽，语音理解，注意力等，并对整个研究领域做了一些简单的概括。听觉研究领域中对于频域上的研究已经较为深入，对于耳蜗频率分析过程，信号频谱相关的心理实验研究，都已经发现和总结出了人类听觉系统很多的性质特征，但是对于声音信号在时域上的研究却相对大大落后。在对语音理解的研究中研究者注意到了听觉系统对于信号在时域上的重要性不同的性质，但是相关研究要么仅限于具体的神经层面和语音学层面的音素音节特征，要么过于抽象地关注于不同母语人之间的语言学差异。与此同时，在听觉系统的底层频域研究中，以往以神经生理学研究带动的听觉神经系统频率特征响应研究做出了大量的贡献，发现了许多重要的听觉感知基本要素和规则，但是随着需要寻找的时频谱特征越发复杂化，这方面的进步显得相当困难。在本文的研究中，我们对此进行了几项相对独立的研究，简要总结如下。

（1）对于听觉研究中已经发现的语音中不同音素在语音识别等过程中重要性不同的现象，我们进行了更加细致的心理声学实验研究。实验发现了在说话人识别过程中，同种类型的不同音素的重要性与其在自然语言环境中出现概率有密切关系。在自然语言环境中出现概率低的发音，其重要性更大，提供更多的关于说话人音色的信息，概率高的则相反。人类听觉系统的这个性质与信息论中所阐述的信息传输编码优化方法相当吻合。这反映了在长期进化过程中，人类听觉系统所具有的高效性。同时，这个现象对于现有的语音信号编码技术有着很强的借鉴性。这个新的听觉感知现象，为听觉信号压缩编码处理的进一步研究提供了一个心理学实验基础。

（2）现有的文本无关说话人识别西系统的主流模型是基于短时帧频谱特征统计的高斯混合模型，这类模型的主要思想是对短时频谱特征进行大量统计得到说话人的特征，与模板比较然后输出结果。但是我们的实验显示人类在进行文本无关说话人识别任务时，其判断准确率还和测试用的说话人语句内容相关。对于自然的语句识别率高，对于不自然的语句识别率降低。这个现象反映出人类听觉系统还具备词

华中科技大学硕士学位论文

汇及更长时间尺度上的声学模型作为判断的辅助。这可能是人类听觉系统在复杂声场环境中表现更优秀的原因。这个研究为文本无关是说话人识别研究提供了相关的心理声学实验基础。

（3）人类听觉系统在进行声音信号处理时，利用了信号中大量的线索信息来进行对声音信号的分解和组织。以往的研究中已经发现了相当多的基础的时频谱线索特征，并总结出了一系列声音感知的规则。但是随着所要寻找的特征复杂程度的提高，这种搜索工作越发显得困难。相当多的生理实验研究表明频谱包络是人脑皮层中处理声音音色的重要特征，但是其处理规则却难以和现有技术手段联系起来。我们依据现有生理实验研究材料，对其声音处理模式进行合理的猜测，提出一种基于频谱包络峰度的听觉处理模型并进行了模拟计算。计算显示其区分不同声源效果明显，并且为高级听觉特征线索的搜索工作提供了一条可能的寻找方案。以上是本文对于听觉研究领域较为热点的方向进行了三项实验及模拟计算研究，各在相关方向阐述了一些新的发现，为相关领域的深入研究提供了一些心理声学实验及模拟计算结果基础。

华中科技大学硕士学位论文

致谢

本文所做的选题、课题研究及论文撰写工作是在导师龙长才教授的悉心指导下完成的。龙老师思维敏锐，学识渊博，待人热情诚恳，对新事物的接受能力及对学术前沿深邃的洞察力，对我都产生了极大的影响。在龙老师的指导下，我不仅学术上有所收获，更培养起了自己独立思考，敢于怀疑的学术习惯，也培养了独立分析问题和解决问题的能力。在此向我的恩师表示崇高的敬意和衷心的感谢！在此我要感谢我的父亲母亲，没有他们的养育和支持，我不会走到现在；要感谢实验室的师兄师姐赵祥辉、张冰、杨楠、沈涛，师弟师妹王飞、田霖、叶兰，有了他们的帮助和陪伴，我才有了前进的动力！感谢所有在我成长路上给我帮助过的人们！

罗海风 2010年11月20日

共8页:

听觉系统中语音信号处理性质研究(7).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档