听觉系统中语音信号处理性质研究(4)

2019-04-02 14:39

华中科技大学硕士学位论文

验角度上,对于近年来有关注意力的生物实验研究作了回顾。

E. Ofek等人[58]采用提示注意范式研究了左耳优势现象的神经生理学关联，并且了评估刺激的方向和注意力的相互作用。Jonathan B. Fritz等人[59-60]在动物进行实验任务的同时记录它们大脑皮层信号，实验结果表明A1区中注意力引发的可塑变化可以很快的改变STRF形状（通过改变接受区域来增强特征/背景分离能力，通过对比匹配来滤掉背景，同时增强前景中目标声音的声学特征）。这些结果支持这样的观点：大脑可以动态的，和注意力相关地、自适应地可以根据当前面对的问题，快速改变其滤波性质和中枢连接。

1.3 其他相关研究

除了对于听觉系统本身的研究之外，还有不少相关工作涉及到听觉场景分析的系统实现，对于计算机智能化听觉作出有益的尝试。戴明扬等人[61]采用精细的听觉外周模型来提取信号特征，发现比常见的MFCC特征参数有更好的鲁棒性。赵鹤鸣等人[62]采用声源空间定位算法和简化的频率掩蔽算法实现了2个语音源的信号分离。Martin Cooke[63]模拟人的听觉过程中对于不完整信号的处理方法，采用数据丢失技术和基于不完整信息的模式识别技术来实现在不平稳噪声中语音信号的识别。不过由于对于生物听觉系统缺乏深入了解，这些人工系统听觉系统想要达到生物听觉的水平，还有相当长的路要走。

1.4 本文研究内容

以上对于听觉系统研究领域按照自下而上分析过程和自上而下分析过程两个大类进行了一些简单的介绍。本研究的工作是对听觉系统自上而下及自下而上分析过程中的一些特性进行了三个相关研究，包括声学实验及语音信号处理模拟计算。

华中科技大学硕士学位论文

2 说话人辨识听觉线索研究

2.1 引言

在多个说话人语音以及复杂的声环境中，辨识和跟踪某一个说话人的语音并提取语音信息，是语音识别技术走向应用面临的重要课题和难题。技术上是从接收的语音信号中提取某些特征，利用这些特征和一定的判据将语音信号进行分类。迄今，所取得的效果并不令人满意。但是，听觉系统却有很好的说话人跟踪和辨识能力，其工作模式和机理值得借鉴。在说话人辨识技术中，以MFCC为代表的主流语音特征在时域上对语音作均匀权重处理[64]。但是听觉系统是否按这种方式工作呢？由于说话人音质特征信息对于噪声环境中搜索目标语音起到了最为关键性的作用，这就转化成需要明确的具体问题：音质特征信息量在语音时域上如何分布? 语言学研究

[65]

表明在词汇处理上辅音音素起到支配性作用。类似地，如果语句字词识别过程中

辅音元音具有不同的重要性，提供不等的信息量，那么说话人语音特征信息量在元音/浊辅音中所含是否也不等呢？不同的元音对说话人识别过程的重要性是否一样的呢?如果不一样,那与什么因素有关?

直接对不同音素中语音音质特征信息量进行测量具有一定的难度，但是近年来心理声学研究中发现的“提示效应” [66-67]实验模式很好地解决了这个问题。提示效应是指通过预先播放与目标声音相关的提示音，能够有效提高人类在噪声中识别目标语音的能力的现象。我们研究了被试在进行说话人辨识任务时所依赖的提示信息，发现提示音中不同音素有着不同的提示效果，这反映出音素所包含的说话人语音特征信息是不等量的。同时，通过与自然语言环境中发音的统计结果相比较，不同音素所包含的说话人的特征信息，与信息论中的信息熵的估计是一致的。这些研究结果，为说话人听觉辨识机制的揭示，以及说话人辨识的语音特征时域非均匀权重处理提供了全新的思路和实验证据。

华中科技大学硕士学位论文

2.2 实验1：不同元音所含音质特征信息测定

2.2.1 实验参与者

26名华中科技大学本科生及研究生（20名女性和6位男性，年龄从20岁至25岁）参与实验担任被试人员。所有被试都通过面试确认拥有正常听力。 2.2.2 实验材料

实验语音材料是由6为男性说话人（华中科技大学研究生，年龄从23至25岁，普通话标准）录制，他们所有人都不认识参与实验的被试者。所有声音材料都是在隔音室中录制完成。录音材料最高频率为8kHz，保存格式为PCM（22.050kHz，16位，单声道）。

实验语音材料有三种不同内容：自然语句，非自然语句和元音串。自然语句是从常见流行书中随机抽取。对自然语句的统计分析可知，在总计2274个字中，各个元音的发音概率分别是：/i/ 46.9%, /a/ 29.1%, /e/ 25.9%, /u/ 24.8%, /o/ 20.6% and /v/ 3.39%。根据这个概率分布，针对性地设计了非自然语句。在保持原语句通顺有意义的前提下，通过将自然语句中某些词替换，得到非自然语句中各元音发音概率明显不同于原有语句：/u/ 32.1%, /e/ 30.7%, /o/ 25.5%, /i/ 23.7%, /a/ 22.7% and /v/ 5.97%。语句中元音发音概率分布见图1。

图1 在自然语句和非自然语句中各个元音的发音概率分布。自然语句经过修改后得到的非自然语句中，自然语句中出现概率高的元音变成了低概率元音，低概率元音变成了高概率元音（除了元音/v/，其在中文中的可搭配音素过少）。

华中科技大学硕士学位论文

自然语句经过修改后得到的非自然语句中，自然语句中出现概率高的元音变成了低概率元音，低概率元音变成了高概率元音。但是元音/v/例外，它在中文发音中十分特殊。因为缺乏与其能够结合成为C-V音节的辅音，元音/v/在中文语言环境中出现较少，所以无法将其在非自然语句中的出现概率设计成最高。所以实验中采用的两种不同的元音序列分别是：自然语句中的高概率元音（/i/，/a/和/e/）和低概率元音（/e/，/u/和/o/）。换句话说，前者在非自然语句中是低概率发音，后者在非自然语句中是高概率发音。在每个发音序列中，相邻元音的间隔为400ms左右。两个发音串中元音在语句中出现的平均概率如表1所示。

表1 两个元音串中元音在语句中出现的平均概率（%）

元音串 /i a e/ 自然语句类型非自然 25.7 29.4 34.0 /e u o/ 23.8

每个录音者所录的是1个完整的中文单元音序列(/a/, /o/, /e/, /i/, /u/ and /v/)，10个自然语句和10个非自然语句。两种类型的元音发音串是基于这个录音制作出来的，所有发音的平均声强级都被归一化了。录音和制作的工作都是用Cool Edit Pro 2.1完成的。 2.2.3 实验方法

实验采用2×2完全随机化设计，启动效应范式。因素A的两个水平表示两种不同的待判断语句（Xa1:自然语句；Xa2:非自然语句），因素B的两个水平表示提示元音串在自然语言环境中的出现概率（Xb1:提示元音在自然语句中出现较多，如/iae/；Xb2:提示元音在自然语句总出现较少，如/euo/）首先呈现元音串进行提示，两种提示元音串随机出现。元音串后间隔500ms，同时播放语句A和B。语句A和B长度均为4秒，具有相同的平均功率。A和B内容不同，且其说话人是从说话人集合中随机挑选。A和

华中科技大学硕士学位论文

B中有可能出现元音串的发音人，也可能没有。两个语句的类型相同，均为自然语句或非自然语句。两类型随机出现。被试被要求判断提示元音串发音人是否出现在语句发音人中。每个被试进行5组，每组10次，共50次测试。每完成一组测试，被试可以休息3分钟。整个测试在隔音室中进行，通过基于MATLAB R2007A 编写的人机交互界面程序实现声音信号呈现，被试结果记录等所有工作。实验过程中实验者不对被试施加任何提示或干扰。 2.2.4 实验结果

总共26个被试者参与了实验，每人进行了50次测试，总共应有1300次测试判断结果。由于疏忽等原因，只记录了1293个结果。在对照组Xa1b1348个判断结果中，219个是正确的，129个是错误的，判断准确率为62.9%；在对照组Xa1b2356个判断结果中，238个是正确的，112个是错误的，判断准确率为66.9%；在对照组Xa2b1297个判断结果中，176个是正确的，121个是错误的，判断准确率为59.3%；在对照组Xa2b2292个判断结果中，179个是正确的，113个是错误的，判断准确率为62.9%。在实验中，由于录音人总数是6个，而只需要选择一个，所以被试者如果选择“是”则导致16.7%的先验准确率，而选择“否”则导致了83.3%的先验准确率。因为每个被试的选择倾向性不同，所以4个对照组中先验准确率分别为Xa1b1: 53.6%, Xa1b2: 54.1%, Xa2b1: 54.0%, Xa2b2: 50.8%。在各个对照组中被试的准确率提高百分比如表2所示。

表2 实验中4个对照条件下被试者的说话人判断准确率提高百分比(%)。

提示音概率 (Xb) 高概率 (Xb1) 语句类型 (Xa) 自然(Xa1) 非自然(Xa2) 9.3 5.3 7.3 低概率(Xb2) 12.8 10.5 11.7 11.1 7.9 在Xa1水平上，共记录了704个判断结果，其中457个正确，247个错误。判断准确率为64.9%，由提示音带来的判断准确率的提高百分比为11.1%。在Xa2水平上，共记录了589个判断结果，其中355个正确，234个错误。判断准确率为60.3%，由提示音带来

共8页:

听觉系统中语音信号处理性质研究(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档