语音信号特征参数提取方法设计与实现毕业设计(4)

2019-04-22 18:45

[键入文字]

第2章语音信号分析

2.1 概述

语音信号分析是语音信号处理的前提和基础，只有分析出可表示语音信号本质特征的参数才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理。而且，语音合成的好坏，语音识别率的高低也取决于对语音信号分析的准确性和精确性。因此语音信号分析在语音信号处理应用中具有举足轻重的地位[4]。

贯穿于语音分析全过程的是―短时分析技术‖。因为，语音信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的，所以它是一个非平稳态过程，不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是语音信号在一个短时间范围内其特性基本保持不变即相对稳定，可以将其看做一个准稳态过程，即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在―短时‖的基础上，将语音信号分为一段一段来分析其特征参数，其中每一段称为一―帧‖，帧长一般取为10?30ms。这样，对于整体的语音信号来讲，分析出的是由每一帧特征参数组成的特征参数时间序列。

2.2 本文所用到的Matlab工具简介

2.2.1 信号处理工具箱

Matlab的信号处理工具箱是信号算法文件的集合，它的推出扩展了Matlab在信号处理领域的应用，为其研究和工程应用提供了有力的基础，应用此工具箱可直观、方便地进行信号分析、数值计算及系统设计等工作，从波形的产生到滤波器的实现和设计，参数建模，谱分析，简化了编程，节省了时间。它处理的基本对象是信号与系统，包含了信号处理中经常使用的近200个函数，根据其功能，可以分为20类，经常使用的函数如下所示。

滤波器分析：abs 求绝对值（幅值），conv 求卷积，filter 直接滤波器实现等；IIR滤波器设计： FIR滤波器设计：fir1 基于窗函数的FIR滤波器设计——标准响应，fir2 基于窗函数的FIR滤波器设计等；变换：czt 线性调频Z变换，idct 逆离散余弦变换，ifft 一维逆快速傅里叶变换等；窗函数：boxcar 矩形窗，hamming 海明窗，hanning 汉宁窗，chebwin 切比雪夫窗等；参数化建模：lpc 线性预测系数等。 2.2.2 录音工具

在Matlab环境中，可以通过多种编程方法驱动声卡，实现对语音信号的采集和回放。同

[键入文字]

时由于Matlab是一个数据分析和处理功能十分强大的工程使用软件，它的信号处理与分析工具箱提供了十分丰富的功能函数，利用这些函数可以快捷地完成语音信号处理和分析以及信号的可视化，使人机交互更加便捷。

在Matlab环境中，主要可以通过以下3种方法驱动声卡，采集语音信号：

1.将声卡作为对象处理采集语音信号。Matlab将声卡作为对象处理，其后一切操作都不与硬件直接相关，而是通过对该对象的操作来作用于硬件设备（声卡）。

2.调用wavrecord函数采集语音信号。wavrecord函数使用Windows声音输入设备录制声音。函数调用方式是―wavrecord(N,fs,ch,nbits);‖。其中N是采集样本数据量；fs是样本采集频率（8000Hz、11025Hz、22050Hz、44100Hz），其默认值是11025Hz；ch是样本采集通道，1为单声道，2为双声道，默认值为1（单声道）；nbit是每个样本的位数（或称解析度），?double‘、?single‘、?int16‘为16位，?int8‘为8位。

3.运用audiorecorder对象采集语音信号。函数调用方式为audiorecorder（fs,nbits,ch），可以创设一个audiorecorder对象。其中fs、nbits、ch的意义同wavrecorder函数。对象创设后，可以进行录音、暂停、停止、播放以及数据读取等操作[5]。

本文使用第二种方法进行录音。因为本文是对已存信号进行处理，不需要实时处理，对语音要求不高，所以只需选择处理简单的第二种方法。

2.3 语音数字化和预处理

在按帧进行语音分析，提取语音参数之前必须进行一些共同的短时分析技术，如语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等，这些也是不可忽视的语音信号分析的关键技术。 2.3.1 数字化

语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码（一般就是PCM码）；预处理一般包括预加重、加窗和分帧等。

语音信号首先进行反混叠滤波，反混叠滤波的目的有两个：第一，抑制输入信号各个频域分量中频率超出fs/2的所有分量（fs为采样频率），以防止混叠干扰；第二，抑制电源工频干扰。这样，反混叠滤波必须是一个带通滤波器，设其上、下截止频率分别是fH和fL，则对于绝大多数语音编译码器，fH=3400Hz、fL=60?100Hz，采样频率为fs=8kHz。语音信经过反混叠滤波和采样后由A/D变换器变换为二进制数字码。A/D变换中要对信号进行量化，

[键入文字]

量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差，又称为量化噪声。A/D变换器分为线性和非线性两类。目前采用的线性A/D变换器绝大部分是12位的（即每一个采样脉冲转换为12位二进制数字）；非线性A/D变换器则是8位的，它与12位线性变换器是等效的。有时为了后续处理，要将非线性的8位码转换为线性的12位码[6]。

数字化的反过程就是从数字化语音中重构语音波形，由于进行了以上的处理。所以在接收语音信号之前，必须在D/A之后加一个平滑滤波器，对重构的语音波形的高次谐波起平滑作用，以去除高次谐波失真。 2.3.2 预处理

已数字化的语音信号序列将依次存入一个数据去，在语音信号处理中一般用循环队列的方式来存储这些数据，以便用一个有限容量的数据去来应付赎两起大的语音信号，已处理完并已提取出了语音特征参数的一个时间段的语音数据可以一次抛弃，以让出存储空间来存储新数据。

由于语音信号的平均功率谱受声门激励和口鼻辐射影响，高频端大约在800HZ以上按6dB/倍频程跌落，所以求语音信号频谱时，频率越高相应的成分越小，高频部分的频谱比低频部分的难求，为此要在预处理中进行预加重处理。预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。预加重可在语音信号数字化时在反混叠器之前进行，这样不仅可以进行预加重，而且可以压缩信号的动态范围，有效地提高信噪比。但预加重一般是在语音信号数字化之后，在参数分析之前在计算机里用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现，它一般是一阶的数字滤波器：

)?1μ H(Z?式(2 -1)中，μ值接近于1。

?1 (2-1)z有时要恢复原信号，需要从做过预家中的信号频谱来求世纪的频谱是，要对测量值进行去加重处理，即加上6db/倍频的下降的频率特性来还原成原来的特性[7]。

进行预加重数字滤波处理后，接下来就要进行加窗分帧处理。一般每秒的帧数约为33到100帧，视实际情况而定。分帧可以采用连续分段的方法，但一般要采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取0?1/2。分帧是用可移动的有限长度窗口进行加权的方法来实现的，

[键入文字]

即用一定的窗函数w(n)乘s(n),从而形成加窗语音信号：

2.3.3 窗函数的选择

1.窗口形状

sw(n)?s(n)?w(n) (2-2)

?1,0?n?(N?1)w(n)??在语音信号处理中常用的窗函数是矩形窗和汉明窗等，它们的表达式如下（其中N为帧

?0,n?else长）：

πn/(N?1)],0?n?（N?1）?0.54?0.46cos[2矩形窗： w(n) ? ?

?0,n?else (2-3)

汉明窗：

(2-4)

窗函数的选择（形状和长度）对于短时分析参数的特性影响很大。为此应选择合适的窗口，使其短时参数更好地反映语音信号的特性变化。下面从窗口的形状和窗口的长度两方面来讨论这个问题。

一般来说一个好的窗函数的标准是：在时域因为是语音波形乘以窗函数，所以要减少时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，这样可以使截取出的语?1,0?n?(N?1)音波形缓慢降为零，减少语音帧的截断效应；在频域要有较宽的3dB带宽以及较小的边带最?0,n?else大值。这里对典型的矩形窗和汉明窗进行比较。矩形窗的单位函数响应的数字滤波器：

其频率响应：

(2-6)

(2-5)

h(n)??H(ej?T)??e?j?nT?n?0N?1sin(N?T/2)?j?T(N?1)/2esin(?T/2)

[键入文字]

它具有线性相位，其频率响应为第一个零值时所对应的频率为fs/N，其中fs为采样频率。而汉明窗的频率响应的第一个零值频率（即带宽）以及通带外的衰减都比矩形窗要大许多。矩形窗与汉明窗的一些参照数据示于下表。

表2-1 矩形窗与汉明窗的比较

窗类型矩形窗汉明窗

旁瓣峰值 -13 -41 主瓣宽度 4π/N 8π/N 最小阻带衰减 -21 -53 从表2-1可以看出，汉明窗的主瓣宽度比矩形窗大一倍，即带宽约增加一倍，同时其带外衰减也比矩形窗大一倍多。矩形窗的谱平滑性能较好，但损失了高频成分，使波形细节丢失；而汉明窗则相反，从这一方面来看，汉明窗比矩形窗更为合适[9]。

2.窗口的长度

采样周期Ts=1/fs、窗口长度N和频率分辨率?f之间存在下列关系：

1Fs? NTs (2-7)

可鉴，采样周期一定时，?f随窗口宽度N的增加而减小，即频率分辨率相应得到提高，但同时时间分辨率降低。；如果窗口取短，频率分辨率下降，而时间分辨率提高，因而二者是矛盾的。应根据不同的需要选择合适的窗口长度。

语音信号的数字化和预处理是一个很重要的环节，在对一个语音信号处理系统进行性能评价时，作为语音信号参数分析条件，采样频率和精度、采用了什么预加重、窗函数、帧长和帧移格式多少等都必须交代清楚以供参考。

经过以上处理，语音信号就已经被分割成了一帧一帧的加过窗函数的短时信号，然后再把没一个短时语音帧看成平稳的随机信号，利用数字信号处理技术来提取语音特征参数。在进行处理时，按帧从数据区中取出数据，处理完成好再取下一帧，等等，最后得到有每一帧参数组成的语音特征参数的时间序列。

共4页:

语音信号特征参数提取方法设计与实现毕业设计(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档