10116xx37周项勇-基于BP神经网络的语音识别系统-毕业设计论文(6)

2019-05-27 21:08

洛阳师范学院2012届本科生毕业设计

3.2 MEL频率倒谱系数（MFCC）

3.2.1 MEL频率倒谱分析原理

MEL频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)是将人耳的听觉特性与语音产生机制相结合的一种特征参数。在分析语音上，它具有较高的识别率和较好的噪声鲁棒性，被许多的语音识别系统广泛采用。

耳蜗中的基底膜是人耳语音感知的重要部分，它的一端宽而软，另一端窄而硬。对不同频率的声音基底膜的不同位置会产生不同程度的响应。频率较低时，基底膜的幅度峰值出现在宽而软的一端；随着声音频率的增加，产生峰值的位置向另一端移动。声音频率在基底膜上的分布具有对数特点。

如表3-1所示，这是基于人耳听觉特性的临界带宽的一种划分。临界带宽反映在同一频带内的连续声音，可由功率上相同的纯音等价描述，该纯音一般是该频带的中心频率。这些频带与基底膜有着密切联系。相应地，可以将基底膜分成许多小部分，每一部分对应着一个频带。

耳蜗基底膜的滤波作用在对数频率尺度上进行。Mel频率倒谱分析是类似于此的一组滤波器组。Mel滤波器组的频率特性变化，与临界带宽的变化类似。Mel频率描述了人耳对声音频率感知的非线性关系，表示为：

Mel(f)?2595log(1?f/700) (3-14)

它将人耳对声音频率的感知的对数特性，映射到Mel刻度上均匀特性。 Mel滤波器组定义为：

???a(i)?c(i)?b(i),a(i)???c(i)??b(i)??hi(?)??,c(i)???b(i)(3-15)

?b(i)?c(i)?0,else??其中，i?1,2...M表示Mel滤波器组的序号，M是滤波器个数。a(i)表示第个频带的频率下界；b(i)表示第个频带的频率上界；c(i)表示第个频带的中心频率。

表3-1 临界带宽表

Bark序号中心频率临界带宽频率下界频率上界(Hz) 1 50 (Hz) 80 22

(Hz) 20 (Hz) 100 基于BP神经网络的语音识别系统

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

150 250 350 450 570 700 840 1000 1170 1370 1600 1850 2150 2500 2900 3400 4000 4800 5800 7000 8500 10500 13500 100 100 100 110 120 140 150 160 190 210 240 280 320 380 450 550 700 900 1100 1300 1800 2500 3500 100 200 300 400 510 630 770 920 1080 1270 1480 1720 2000 2320 2700 3150 3700 4400 5300 6400 7700 9500 12000 200 300 400 510 630 770 920 1080 1270 1480 1720 2000 2320 2700 3150 3700 4400 5300 6400 7700 9500 12000 15500 3.2.2 MEL频率倒谱的实现

图3-2描述了MEL频率倒谱的实现过程，这个过程针对语音中的某一帧。首先需要对语音信号S(n)进行预加重、分帧、加窗，具体细节在第二章讨论了。

洛阳师范学院2012届本科生毕业设计

一帧语音预加重、分帧、加窗短时傅立叶变换得到频谱，求频谱平方信号能量谱用M个Mel滤波器滤波，对能M个频带功率量谱在每个频带的分量求和求M个频带功率对数，在作离散余弦变换L个MFCC系数

图3-2 Mel频率倒谱的实现过程

对预处理后的语音信号进行短时傅立叶变换，得到语音信号频谱f(?)：

nf(?)??S(ne)?j? (3-16)

n????然后，用频谱平方直接求出语音信号的能量谱：

p(?)?|f(?)|2 (3-17)

使用M个Mel带通滤波器进行滤波。对于第个滤波器，语音信号的能量谱的各个频率在该滤波器上都有分量，将这些分量求和，便是该滤波器的输出。显然，总共有M个这样的滤波器输出x，分别代表各个Mel频带的功率。a(i)表示第个频带的频率下界；b(i)表示第个频带的上界。

bi()xi???a(i)(?)h?),1?i?Mi(?p (3-18)

先对M个滤波器输出求对数，得到相应的对数功率谱；再进行离散余弦变换，得到L个Mel频率倒谱系数

c。

Mi?1 (3-19) clogcxs[(?i?0.5)/jM],j?1,2...L?j?io

基于BP神经网络的语音识别系统

第4章神经网络模型分析

4.1 神经网络基本模型

人工神经网络(Artificial Neural Networks, ANN)是由大量结构简单的神经元相互连接，模拟人类大脑神经系统处理信息的方式，对输入信息进行并行处理和非线性映射的网络系统。神经网络的信息处理通过神经元的相互作用来实现，具体表现为网络中神经元互相连接的强度系数。这些连接权值反映了神经元间的依赖程度关系，它们形成的权值矩阵统一决定了神经网络对知识和信息的学习结果。

4.1.1 神经元结构模型

人类大脑以神经元为基本元素，亿万个神经元紧密相连形成神经网络。信息在大脑中的传递，在细节上通过神经元与神经元之间的突触传递完成。突触传递的结果由膜电位变化来描述。上一个神经元传递过来的电脉冲信号，使得膜电位上升或者下降，前者称为兴奋性突触传递，后者称为抑制性传递。

神经元结构是一个多输入单输出的非线性构件模型，如图4-1。

xx1 wwi1 2i2?j??i y win xn

图4-1 神经元基本结构

神经元的数学模型可以描述为：

nui(t)??wijxj??i (4-1)

j?1yi?f[ut)] i( (4-2)

其中，x1,x2...xn是神经元在时间上的n个输入；w为神经元与其他神经元

的连接权值；?是神经元的阀值；ui(t)是神经元在时间的内部状态；是神

经元内部状态与输出的关系函数，称为传递函数；y是神经元的输出。

洛阳师范学院2012届本科生毕业设计

权值w描述了神经元间的结合强度，当w大于0时，神经信号经过此连接产

生兴奋性突触传递；当w小于0时，产生抑制性突触传递。阀值?衡量了神经元

输入的加权和对神经元内部状态的作用，当加权和超过阀值?时神经元处于兴奋状态，会引起兴奋性的输出。

神经元在输入输出和时间上连续时，数学模型可以描述为：

n?dui(t)???ui(t)??w?ijxj??idt (4-3) j?1??yi?f[ui(t)]?其中，?为膜电位变化的时间常数。

4.1.2 神经网络互连模式

大量的神经元按一定的拓扑结构连接起来，形成神经网络。按神经网络的物理拓扑，神经网络可分成相互结合型网络和分层型网络，如图4-2：

(a)相互结合型图4-2 神经网络物理拓扑结构

(b)分层型

分层型神经网络模拟人脑神经系统的功能独立性，即特定的部位负责完成特定的功能。分层型网络中的信息按一定的方向层层传播，每一层神经元只接受来自前一层神经元的输入。在相互结合型神经网络中，信息在神经元之间反复传递，网络状态改变的动态特性十分明显。网络中的连接存在着反馈。对比分层型网络，神经元在信息经过后，需要经过较多次的状态改变才达到某种平衡状态。

共8页:

10116xx37周项勇-基于BP神经网络的语音识别系统-毕业设计论文(6).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档