基于MATLAB的特定人语音识别算法设计 - 图文(3)

2019-08-26 18:47

①肺和气管产生气源；②喉和声带组成声门；③由咽腔、口腔、鼻腔组成声道，如图2.1（张雪英,2012.7）所示的发声器官模型。

图2.1 发声器官模型

肺的发声功能主要是产生压缩气体，通过气管传送到声音生成系统。气管连接着肺和喉，它是肺与声道联系的通道。

图2.2 喉的平面解剖图

喉是控制声带运动的软骨和肌肉的复杂系统，主要包括：环状软骨、甲状软骨、杓状软骨和声带。其中声带是重要的发声器官，它是伸展在喉前、后端之间的褶肉，如图2.2（张雪英,2012.7）所示，前段由甲状软骨支撑，后端由杓状软骨支撑，而杓状软骨又与环状软骨较高部分相联。这些软骨在环状软骨上的肌肉的控制下，能将两片声带合拢或分离。声带之间的间隙称为声门。声带的声学功能主要是产生激励。位于喉前呈圆形的甲状软骨称为喉结。

声道是指声门至嘴唇的所有发音器官，其纵剖面图如图2.3（张雪英,2012.7）所示。包括：咽喉、口腔和鼻腔。口腔包括上下唇、上下齿、上下齿龈、上下腭、舌和小舌等

部分。上腭又分为硬腭和软腭两部分；舌又分为舌尖、舌面和舌根三部分。鼻腔在口腔上面，靠软腭和小舌将其与口腔隔开。当小舌下垂时，鼻腔和口腔便耦合起来，当小舌上抬时，口腔与鼻腔是不相通的。口腔和鼻腔都是发生时的共鸣器。口腔中各器官能够协同动作，使空气流通过时形成各种不同情况的阻碍并产生振动，从而发出不同的声音来。声道可以看成是一根从声门一直延伸到嘴唇的具有非均匀截面的声管，其截面面积主要取决于唇、舌、腭和小舌的形状和位置，最小截面面积可以为零（对应于完全闭合的部位），最大截面积可以达到约20cm2。在产生语音的过程中，声道的非均匀截面又是随着时间在不断地变化的。成年男性的声道的平均长度约为17cm。当小舌下垂使鼻腔和口腔耦合时，将产生出鼻音来。

图2.3 声道纵剖面图

2.2.2 语音生成

在发声器官模型图2.1（张雪英,2012.7）中，空气由肺部排入喉部，经过声带进入声道，最后由嘴发声声波，形成语音。在声门（声带）以左，称为“声门子系统”，它负责产生激励震动；右边是“声道系统”和“辐射系统”。当发不同性质的语音时，激励和声道的情况是不同的，他们对应的模型也是不同的。 1. 发浊音的情况

空气流经过声带时，如果声带是崩紧的，则声带将产生张弛振动，即声带将周期性地启开和闭合。声带启开时空气流从声门喷射出来，形成一个脉冲，声带闭合时相应于脉冲序列的间隙期。因此，这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流流经过声道后最终从嘴唇辐射出声波，这便是浊音语音。 2. 发清音的情况

空气流经过声带时，如果声带是完全舒展开来的，则肺部发出的空气流将不受影响地通过声门。空气流经过声门后，会遇到两种不同情况。一种情况是，如果声道的某个部位发生收缩形成了一个狭窄的通道，当空气流达到此处时被迫以高速冲过收缩区，并在附近产生出空气湍流，这种湍流空气通过声道后便形成所谓的摩擦音或清音。第二种情况是，如果声道的某个部位完全闭合在一起，当空气流达到时便在此处建立起空气压力，闭合点突然开启便会让气压快速释放，经过声道后便形成所谓爆破音。这两种情况下发出的音称为清音。 2.3 语音的听觉机理

听觉是接受声音并将其转换成神经脉冲的过程。大脑受到听觉神经脉冲的刺激感知为确定的含义是一个非常复杂的过程，至今仍未完全清楚。 2.3.1 听觉器官

人的听觉器官分三个部分：外耳、中耳和内耳，如图2.4（张雪英,2012.7）所示。

图2.4 听觉器官

外耳由位于头颅两侧呈贝壳状和向内呈S状弯曲的外耳道组成，包括：耳廓、耳壳和外耳道。主要作用是收集声音、辨别声源，并对某些频率的声音有扩大作用。声音沿

外耳道传送至鼓膜，外耳道有许多共振频率，恰好落在语音频率范围内。

中耳主要由鼓膜和听骨链组成。听骨链由三块听小骨组成，分别为锤骨、砧骨和镫骨。其中锤骨柄与骨膜相连，镫骨底板与耳蜗的前庭窗相连。声音经骨膜至内耳的传输过程主要由听骨链来完成。由于鼓膜的面积比前庭窗大出许多倍（55:3.2），听骨链有类似杠杆的作用，所以人的声音从鼓膜到达内耳时，能量扩大了20多倍，补充声音在传播过程中的能量消耗。由于中耳将气体运动高效地转为液体运动，所以它实际上起到一种声阻抗匹配的作用，由此可以看出，整个中耳的主要生理功能是传音，即将声音由外耳道高效的传入耳蜗。

从上述分析可以看出，中耳的主要功能是改变增益，还有就是对外耳和内耳进行匹配阻抗。

内耳是颅骨腔内的一个小而复杂的体系，由前庭窗、圆窗和耳蜗构成，前庭窗在听觉机制中不起什么作用，圆窗可以为不可压缩液体缓解压力，耳蜗是内耳的主要器官，它是听觉的收纳器，形似蜗牛壳，为螺旋样骨管。蜗底面向内耳道，耳蜗神经穿过此处许多小孔进入耳蜗耳蜗中央有呈圆锥形骨质的蜗轴，从蜗轴有螺旋板伸入耳蜗管内，由耳蜗底盘旋上升，直到蜗顶。它由三个分割的部分组成：骨阶、中阶和前庭阶。骨阶与中耳通过圆窗相连，前庭阶与中耳的镫骨由前庭窗的膜相连，骨阶和前庭阶在耳蜗的顶端即蜗孔处是相通的。中阶的底膜称为基底膜（Basilar membrane），在基底膜之上是科蒂式器官（Oragan of Corti），它由耳蜗覆膜（Tectorial membrane）、外毛细胞（Outer hair cell）及内毛细胞（Inner hair cell）构成。如图2.5（张雪英,2012.7）所示。

图2.5 内耳结构图

2.3.2 耳蜗的信号处理原理

当声音经外耳传入中耳时，镫骨的运动引起耳窝内流体压强的变化，从而引起行波沿基底膜的传播。如图2.6（张雪英,2012.7）所示的流体波的简单表示。在耳蜗的底部基底膜的硬度很高，流体波传播的很快。随着波的传播，膜的硬度变得越来越小，波的传播也逐渐变缓。不同频率的声音产生不同的行波，而峰值出现在基底膜的不同位置上。频率较低时，基底膜振动的幅度峰值出现在基底膜的顶部附近；相反，频率较高时，基底膜振动的幅度峰值出现在基底膜的基部附近（靠近镫骨）。如果信号是一个多频率信号，则产生的行波将沿着基底膜在不同的位置产生最大的幅度如图2.7（张雪英,2012.7）所示。从这个意义上讲，耳蜗就像一个频谱分析仪，将复杂的信号分解成各种频率分量。

图2.6 耳蜗内流体波简单表示

图2.7 基底膜上6个不同点的频率响应

基底膜的振动引起毛细胞的运动，使得毛细胞上的绒毛发生弯曲。绒毛向一个方向的弯曲会使细胞产生去极化，即开启离子通道产生向内的离子流，从而使传入神经开放

共9页:

基于MATLAB的特定人语音识别算法设计 - 图文(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档