听觉系统中语音信号处理性质研究(5)

2019-04-02 14:39

华中科技大学硕士学位论文

的判断准确率的提高百分比为7.9%。当测试语句是自然语句时，判断准确率的提高百分比比当测试语句是非自然语句时更高。这两个结果差异显著(|Z|=1.9414, p<0.05)，说明测试语句是自然还是非自然对于说话人判断过程中的准确率有明显影响。

在Xb1水平上，共记录了645个判断结果，其中395个正确，250个错误。判断准确率为61.2%，由提示音带来的判断准确率的提高百分比为7.3%。在Xb2水平上，共记录了642个判断结果，其中417个正确，225个错误。判断准确率为65.0%，由提示音带来的判断准确率的提高百分比为11.7%。当提示元音串中元音是自然语言环境中出现概率低的元音时，判断准确率的提高百分比比当提示元音串中元音是自然语言环境中出现概率高的元音时更高。这两个结果差异显著(|Z|=2.6923, p<0.05)，说明提示元音在自然语言环境中发音概率高低对于说话人判断过程中的准确率有明显影响。

2.3 小结

通过该实验，我们发现人类在进行说话人识别处理时，不仅说话人语言的自然程度对其结果有影响，而且即使是自然语句中，在语言环境中出现概率高的发音和出现概率低的发音对结果也有明显影响。在这里我们着重讨论后一种现象。

在听觉心理现象研究中，D.P. Phillips等人[68]发现人的听觉系统在处理声音信号时，信号各个部分对于听觉系统而言重要程度是不一样的。起始端的编码占有非常重要的位置，而结束端重要程度就相对低的多。这和Boris New等人在研究字词识别时发现辅音对于字词识别的贡献大于元音的现象[69]是很类似的，后者还提出了这种现象可能与信息论有关：自然语言环境中，辅音数量明显多于元音，因此在搭配成音节时，辅音携带的信息量更多。而在我们的这个研究中，同样也发现了在听觉信号处理时，人类听觉系统对于信号在时域上的关注程度不一致。但是，我们的发现也不同于前面的研究：前面的研究反映出人类听觉神经系统和发音器官结构限制对于听觉理解的影响，而我们的研究则揭示了人类听觉系统在进行语音信号处理时，

华中科技大学硕士学位论文

不仅仅受到生理物理结构限制带来的条件约束，而且在长期语言环境的训练下，按照语言发音习惯等统计要素进行了合理的改进，依照信息论的思想对语音信号进行了编码处理，对高概率发音粗略编码，对低概率发音细致编码，这样可以充分地利用神经资源。

在视觉听觉信号的编码技术领域，能够对信号进行无损压缩的方法主要有两个途径：一个是通过数学手段，尽量减少信号的冗余性，提高信号传输效率，最终能够达到信息论所指出的编码极限；另一个就是利用人类感觉器官本身的性质，丢弃感觉器官不会注意的部分信息，达到数据压缩的效果。虽然这个方法实际上造成了信息的损失，但是由于丢失的部分信息是人感觉器官不关注的，所以不会对实际信息的理解带来困难。而我们的这个研究则为语音信号处理提供了一种全新的听觉器官特性，为听觉信号压缩编码处理的进一步研究提供了一个心理学实验基础。

华中科技大学硕士学位论文

3 文本无关说话人识别心理模型研究

3.1 引言

说话人识别作为语音技术中一个重要领域，在社会许多领域都具有非常重要的应用。其研究最早可以追溯到二十世纪六十年代。1962年，Bell实验室的L. G. Kersta首次提出了“声纹”的概念[70]。到七十年代后期，动态时间规整和矢量量化开始被应用到说话人识别中，这两项技术在语音研究领域具有重大的意义[71]，使得说话人识别的性能得到了大幅度的提高，该模型至今在一些特定情况下如小词库识别中仍在使用。八十年代中，借鉴与生理心理研究结果的Mel频率倒谱系数的引入，使说话人识别的正确率有了进一步的提高。同时，人工神经网络[72]和隐马尔可夫模型[73]开始在语音识别领域中得到了成功和应用，并且很快成为说话人识别的重要技术。特别是隐马尔可夫模型，作为概率统计模型，对发音过程的良好的描述，是语音识别研究历史上划时代的技术，已成为文本有关的说话人识别建模的首选[74-75]。九十年代以后，Reynolds将高斯混合模型[76]引入说话人识别领域。由于其无关文本内容的统计特性，模型计算复杂度大大低于隐马尔可夫模型，并且具有良好的鲁棒性，迅速成为当今与文本无关的说话人识别中的主流技术[77]。近年来备受关注的支持向量机也开始用于说话人识别模型并逐渐成为研究热点[78-79]。时至今日，文本相关的说话人识别和安静环境下的说话人识别系统已经达到而来相当优秀的性能。说话人识别领域的研究主要集中于提高文本无关的噪声环境中识别系统性能方面的工作。一年一度的NIST大赛主要测试条件也主要是文本无关的噪声环境。现有文本无关的说话人识别的主流技术常常采用UBM-GMM[80]，SVM[81]等等模型。其中，制约说话人识别系统应用的主要问题是实际应用环境中的噪声，这导致了说话人系统鲁棒性问题是研究的主要热点[82-83]。当前的许多说话人识别系统在低噪声、低失真的环境条件下的性能已经相当的高，但是一旦应用于噪声环境性能急剧下降。因此，要使说话人识别技术更进一步走向实用，必须解决抗环境噪声的问题。

华中科技大学硕士学位论文

如何进一步改进现有技术？现有研究很多专注于对于多种不同模型的融合以期

改进识别性能。但是，无论是GMM还是基于帧处理方法的SVM，都存在着一个共同点：都是以短时语音帧作为提取特征参数，进行聚类分类统计等工作的基本处理单元。即使是基于语句方法的SVM方法，其输入端也仅仅是增加了基于帧单元的处理统计环节，并没有和之前方法的本质差异。这些模型仅仅利用了说话人语音的声学分布，并没有充分利用到语音中蕴含文本、韵律等高层信息，因此人的语音中包含的信息还有进一步发掘的可能。很可能就是这种模型上的局限性，导致了当训练和测试条件匹配时，机器的能力已经接近和甚至超过了人的能力，但是当训练和测试条件不匹配时，人的识别效果会明显高于机器[84]。因此，了解在噪声环境下人类听觉系统的工作机制，对改进当前说话人识别技术有很重要的意义。本研究就通过心理实验，对存在干扰声源情况下的文本无关说话人识别任务中人类听觉系统的工作机制进行了研究。

3.2 实验2：顺/倒序语句判断测试

在实验1中，我们发现自然语音材料作为测试语句导致被试对于说话人识别的准确率的提高有影响，反映了人类在进行文本无关的说话人识别判断时，并不是仅仅采用短时谱统计特征，如类似GMM模型这样的处理方式，同时还利用了对于常用词汇的词汇长度声学模型进行辅助。为了更加直接的证实这样的模型存在，我们设计了实验2。实验2整体过程和实验1类似，不过对照组换成了顺序语句和倒序语句。因为声学模型显著的时间序列特性，基于声学模型的识别系统对于语音材料的时间顺序性十分敏感，而基于短时谱特征的统计模型则相反。通过比较这两个对照组的结果，我们可以更加直接的确认人类听觉系统中文本无关说话人识别过程所用模型。 3.2.1 实验参与者

24名华中科技大学本科生及研究生（15名女性和9位男性，年龄从20岁至25岁）参与实验担任被试人员。所有被试都通过面试确认拥有正常听力。

华中科技大学硕士学位论文

3.2.2 实验材料

所有语音材料均是随机从实验1所录制的语音库中挑选的。提示元音串为/a, o, e, i, u, v/，顺序语句和实验1中的自然语句相同，而倒序语句则是顺序语句在时间上反演。倒序的操作是通过Cool Edit Pro 2.1完成的，效果见图2。

图2 实验2中的一个顺序语句（上）和一个倒序语句（下）。

3.2.3 实验方法

实验采用完全随机化设计，启动效应范式。因素的两个水平表示两种不同的待判断语句（Xa1:顺序语句；Xa2:倒序语句）。在每次测试中，首先呈现元音串进行提示，两种提示元音串随机出现。元音串后间隔500ms，同时播放测试语句。语句长度均为4秒，具有相同的平均功率，且其内容和说话人是从声音材料集合中随机挑选。语句的可能是元音串的发音人，也可能不是。语句的类型随机出现，为顺序语句或倒序语句。实验的其他细节和实验1相同。 3.2.4 实验结果

实验中有24名被试者，记录了其1200个判断结果。对照组Xa中有588个结果，对照组Xb中有612个结果。在实验2中，被试总是选择“是”会导致16.7%的先验正确率，总是选择“否”会导致83.3%的先验正确率。被试判断准确率的提高百分比在对照组

共8页:

听觉系统中语音信号处理性质研究(5).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档