声纹识别(2)

2019-08-20 20:23

三· 模型假设

1、假设语音信号都在同一理想状态下录制，其声纹特征不受录音信道及

环境噪音的干扰而波动。

2、假设从语音信号中提取出的多为与身份相关且比较稳定的特征信息

3、假设对说话人进行声纹识别时说话人的身体状况、说话的方式等与录

入时无区别。

四·符号说明

En：短时能量；

S?n?：信号当前取样值；

?S?n?：预测信号

ak：加权系数；

e?n?：预测误差；

?：平均预测误差；

min：最小平均预测误差；

Mel(f)：梅尔頻率；

fs：声纹频率；

ccc：mfcc参数；

dtm：一阶差分参数；

五·模型建立与求解

5.1 问题一 5.1.1 语音读入

我们采用文本相关数据，在matlab环境中建立MFCC模型，首先使用wavread(file)函数读入，如图1所示为数字0的训练语音00.wav的信号波形图，第(I)幅图为完整的语音波形，第(II)、(III)幅图分别为语音的起始部分和结束部分的放大波形图。

Amplitude(normalized)(I) “00.wav”语音信号波形10.50-0.500.10.20.40.5Time:s(II) “00.wav”语音起始处放大波形图0.30.60.70.8Amplitude(normalized)10.50-0.50.20.210.220.230.250.260.27Time:s(III) “00.wav”语音结束处放大波形图0.240.280.290.3Amplitude(normalized)10.50-0.50.40.410.420.430.440.45Time:s0.460.470.480.490.5

图1 语音001.wav的信号波形图

5.1.2 分帧

语音信号是一种典型的非平稳信号，它的均值函数u(x)和自相关函数R(xl,x2)都随时间而发生较大的变化[5,9]。但研究发现，语音信号在短时间内频谱特性保持平稳，即具有短时平稳特性。因此，在实际处理时可以将语音信号分成很小的时间段(约10~30ms[5,7])，称之为“帧”，作为语音信号处理的最小单位，帧与帧的非重叠部分称为帧移，而将语音信号分成若干帧的过程称为分帧。分帧小能清楚地描绘语音信号的时变特征但计算量大；分帧大能减少计算量但相邻帧间变化不大，容易丢失信号特征。一般取帧长20ms，帧移为帧长的1/3~1/2。在Matlab环境中的分帧最常用的方法是使用函数enframe(x,len,inc)，其中x为语音信号，len

为帧长，inc为帧移。在本系统中帧长取256，帧移取80。

5.1.3 高频加重处理

对于语音信号的频谱，通常是频率越高幅值越小，在语音信号的频率增加两倍时，其功率谱的幅度下降6dB。因此必须对高频进行加重处理，一般是将语音信号通过一个一阶高通滤波器1-0.9375z-1，即为预加重滤波器。其目的是滤除低频干扰，特别是50Hz到60Hz的工频干扰，将对语音识别更为有用的高频部分进行频谱提升。在计算短时能量之前将语音信号通过预加重滤波器还可起到消除直流漂移、抑制随机噪声和提升清音部分能量的效果。预加重滤波器在Matlab中可由语句x=filter([1-0.9375],1,x)实现。

5.1.4 加窗

由于语音信号的能量随时间变化，清音和浊音之间的能量差别相当显著。因此对语音的短时能量进行分析，可以描述语音的这种特征变化情况。定义短时能量为：

En?m????[x(m)w(n?m)]采样幅度?2?m?n?N?1?n[x(m)w(n?m)]2，其中N为窗长

10-102000400060008000sample1000012000140001600018000N=502000400060008000sample1000012000140001600018000N=1502000400060008000sample1000012000140001600018000N=2502000400060008000sample1000012000140001600018000N=3502000400060008000sample1000012000140001600018000N=4502000400060008000sample1000012000140001600018000短时能量短时能量短时能量短时能量短时能量21004200105001050010500

图2 不同hamming窗长的短时能量函数

最后提取出声音信号中的采样值，频率和采样位数。

5.2 问题二 5.2.1 设计方案

语音识别属于模式识别范畴，它与人的认知过程一样，其过程分为训练和识别两个阶段。在训练阶段，语音识别系统对输入的语音信号进行学习。学习结束后，把学习内容组成语音模型库存储起来；在识别阶段，根据当前输入的待识别语音信号，在语音模型库中查找出相应的词义或语义。

语音识别系统与常规模式识别系统一样包括特征提取、模式匹配、模型库等3个基本单元，它的基本结构如图2所示

图3 语音识别系统基本结构图

本次设计主要是基于HMM模型（隐马尔可夫模型）。这是在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计，建立识别词条的统计模型，然后从待识别语音信号中提取特征，与这些模型进行匹配，通过比较匹配分数以获得识别结果。通过大量的语音，就能够获得一个稳健的统计模型，能够适应实际语音中的各种突发情况。并且，HMM算法具有良好的识别性能和抗噪性能。

5.2.2方案框图

图4 HMM语音识别系统

共4页:

声纹识别(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档