河南理工大学毕业设计(论文)说明书
很容易将DTW 算法移植到嵌入式设备上实现, 而且能满足实时性要求, 故其在孤立词语音识别系统中仍然得到了广泛的应用。DTW算法对于较长语音的识别,模板匹配运算量太大,但对短语音(有效语音长度低于3s)的识别既简单又有效,而且并不比其他方法识别率低,因此特别适用于短语音、特定人识别系统。但是传统固定端点匹配的DTW算法对声头和结尾的判断会存在较大的误差,因此本系统采用放宽端点限制的DTW算法。放宽端点限制引起的计算量增加并不大,还可以放松对端点检测的精度要求。经过这样的改进,在识别结果上有明显的改进。DTW算法基于动态规划技术,将一个复杂的全局优化问题转化为许多局部优化问题一步一步的进行决策,解决了说话人不同时期发音长短、语速不一样的匹配问题。
D就是处于最优时间规整情况下两矢量的距离。由于DTW不断地计算两矢量的距离以寻找最优的匹配路径,所以得到的是两矢量匹配时累积距离最小所对应的规整函数,这就保证了它们之间存在的最大声学相似性。 DTW 算法原理:
DTW 是把时间规整和距离测度计算结合起来的一种非线性规整技术。它寻找一个规整函数im=Ф(in),将测试矢量的时间轴n非线性地映射到参考模板的时间轴m上,并使该函数满足:
D=mini=1?d??T?i?,R?i??? (3-1)
其中: D —— 处于最优时间规整情况下两矢量的距离; d??T?i?,R?i???是第i 帧测试矢量T?i?和第j 帧模板矢量R?i?之间的距离测度。
DTW算法要求参考模板与测试模板采用相同类型的特征矢量、相同的帧长、相同的窗函数和相同的帧移。为了使动态路径搜索问题变得有实际意义,在规整函数上必须要加一些限制,不加限制使用式(3-1)找出的最优路径很可能使两个根本不同的模式之间的相似性很大,从而使模式比较变得毫无意义。通常规整函数必须满足如下的约束条件:
(1) 边界限制:当待比较的语音已经进行精确的端点检测,在这种情况下,规整发生在起点帧和端点帧之间,反映在规整函数上就是:
????1?=1 (3-2 ) ?????N?=M(2) 单调性限制由于语音在时间上的顺序性,规整函数必须保证匹配路径不违背语音信号各部分的时间顺序。即规整函数必须满足单调性限制:
??in+1????in? (3-3)
(3)
连续性限制有些特殊的音素有时会对正确的识别起到很大的帮
河南理工大学毕业设计(论文)说明书
助,某个音素的差异很可能就是区分不同的发声单元的依据,为了保证信息损失最小,规整函数一般规定不允许跳过任何一点。即:
??in+1?-??in??1 (3-4)
DTW算法的原理图如图3-2,把测试模板的各个帧号n=1~N在一个二维直角坐标系中的横轴上标出,把参考模板的各帧m=1~M在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格,网格中的每一个交叉点(ti,rj)表示测试模式中某一帧与训练模式中某一帧的交汇。DTW算法分两步进行,一是计算两个模式各帧之间的距离,即求出帧匹配距离矩阵,二是在帧匹配距离矩阵中找出一条最佳路径。搜索这条路径的过程可以描述如下:搜索从(1,1)点出发,对于局部路径约束如图5-3,点(in,im)可达到的前一个格点只可能是(in-1,im)、(in-1,im-l)和(in-1,im-2)。那么(in,im)一定选择这三个距离中的最小者所对应的点作为其前续格点,这时此路径的累积距离为:
D?in,im?=d??T?i?,R?i???+min?D?in-1,im?,D?in-1,im-1?,D?in-1,im-2??
这样从(l,1)点出发(令D(1,1)=0)搜索,反复递推,直到(N,M)就可以得到最优路径,而且D(N,M)就是最佳匹配路径所对应的匹配距离。在进行语音识别时,将测试模板与所有参考模板进行匹配,得到的最小匹配距离 Dmin(N,M)所对应语音即为识别结果。
M 时间规整函数 R im 2 1
1 2 3 in T
N
图3-2 DTW算法原理
放宽端点限制:
河南理工大学毕业设计(论文)说明书
普通DTW对端点检测比较敏感,端点信息是作为一组独立的参数提供给识别算法的。它要求两个比较模式起点对起点,终点对终点,对端点检测的精度要求比较高。当环境噪声比较大或语音由摩擦音构成时,端点检测不易进行,这就要求在动态时间规整过程中给以考虑。放松端点限制方法不严格要求端点对齐,克服由于端点算法不精确造成的测试模式和参考模式起点终点不能对齐的问题。一般情况下,起点和终点在纵横两个方向只要放宽2-3帧就可以,也就是起点可以在(1,1),(l,2),(1,3),(2,1),(3,l),终点可类似放松。如图3-3。
jrj 时间规整函数 Width Ck=(I,J) Ck=(ik,jk) R rj j=i+r r2 r1 j=i-r C1=(1,1) t1 t2 t3 ti 4 T
图3-3 改进的DTW算法原理图
tI I
在放宽端点限制的DTW算法中,累积距离矩阵中的元素(1,l),(l,2),(l,3),(2,l),(3,1)不是根据局部判决函数计算得到的,而是直接将帧匹配距离矩阵的元素填入,自动从其中选择最小的一个作为起点,对于终点也是从松弛终点的允许范围内选择一个最小值作为参考模式和未知模式的匹配距离。
3.3凌阳音频概述
通常所说的音频是指频率在20Hz~20KHz的声音信号,分为:波形声音、语音和音乐三种,其中波形声音就是自然界中所有的声音,是声音数字化的基础。语音也可以表示为波形声音,但波形声音表示不出语言、语音学的内涵。语音是对讲话声音的一次抽象,是语言的载体,是人类社会特有的一种信息系统,是社会交际工具的符号。音乐与语音相对更规范一些,是符号化了的声音。但音乐不能对所有的声音进行符号化。为了让数字计算机更加便利处理音频信号,需要将
河南理工大学毕业设计(论文)说明书
模拟的(连续的)声音波形数字化(离散化),该过程主要包括采样和量化两个方面。数字音频的质量取决于:采样频率和量化位数这两个重要参数。此外,声道的数目、相应的音频设备也是影响音频质量的原因。
语音处理技术是建立在语言学和数字信号处理基础之上的综合学科,其过程大致可以分为A/D采样输入、编码处理、存储、解码处理和D/A等。如今,要实现语音处理有多种渠道,可以选用专用语音芯片也可以选用单片机,二者区别参看表 1,如下:
表 1 语音处理器件性能对照表
所选器件 音质 语音播放长度和
段落
价格
专用语音芯片 单片机
好
由AD、DA精度、压缩算法等决定
受限制 由存储空间决定
较高 有优势
SPCE061A单片机具有八路10位ADC和两路10位DAC,两个16位可编程定时器/计数器,内置MIC放大器和自动增益控制(AGC)电路,CPU时钟主频最高达49MHz且具有DSP功能,有能力执行复杂压缩算法。所以在选择具有语音处理功能单片机时,SPCE061A单片机可谓是上上之选。SPCE061A将A/D、编码算法、解码算法、存储及D/A做成相应的模块,每个模块都有其应用程序接口API,要实现语音处理,只用了解每个模块所要实现的功能及参数的内容,然后调用该API函数即可。
不同音频质量等级的编码技术标准(频响)参看表 2,如下:
表 2音频质量等级编码技术标准
信号类型 电话话音 宽带音频 (AM质量) 调频广播 (FM质量) 高质量音频 (CD 质量)
频率范围(Hz) 200~3400 50~7000
采样率(KHz)
8 16
量化精度(位)
8 16
20~15K 37.8 16
20~20K 44.1 16
凌阳音频压缩算法处理的语音信号的范围是200Hz~3.4KHz的电话话音。
河南理工大学毕业设计(论文)说明书
音频压缩编码基础
音频压缩编码中的数据量:(采样频率×量化位数)/(字节数)×声道数目 压缩编码的目的,通过对资料的压缩,达到高效率存储和转换资料的结果,即在保证一定声音质量的条件下,以最小的资料率来表达和传送声音信息。
压缩编码的必要性,未经压缩编码的音频资料量很大,用来传输或存储是不容易实现的。所以要通过对信号趋势的预测和冗余信息处理,进行资料的压缩,这样就可以使我们用较少的资源建立更多的信息。
常见的几种音频压缩编码:
(1) 波形编码,将时间域信号直接变换为数字代码,尽量真实地还原波形。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样,然后将幅度样本分层量化,并用代码表示。译码是其反过程,将收到的数字序列经过译码和滤波恢复成模拟信号。
(2) 参数编码,参数编码又称为声源编码,是将信源信号在频率域或其它正交变换域提取特征参数,并将其变换成数字代码进行传输。译码为其反过程,将收到的数字序列经变换恢复特征参量,再根据特征参量重建语音信号。具体说,参数编码是通过对语音信号特征参数的提取和编码,尽量保持语音信号的可懂性,而还原后的波形可能与原波形差别很大。
(3) 混合编码,将波形编码和参数编码组合起来,克服了原有波形编码和参数编码的弱点,结合各自的长处,尽量保持波形编码的高质量和参数编码的低速率。 压缩分类
压缩分为无损压缩和有损压缩。无损压缩一般指磁盘文件,压缩比低,一般为:2:1~4:1;有损压缩是指音/视频文件,压缩比可高达100:1。凌阳音频压缩算法根据不同的压缩比分为以下几种:SACM-A2000、SACM-S480、SACM-S240。三者区别参看表 3,如下:
表 3 凌阳语音压缩算法区别
凌阳音频压缩
算法 SACM_A2000
编码方式 编码率(bps) 压缩比 音质
波形编码 16K, 20K, 24K 8:1, 8:1.25,
8:1.5
好
SACM_S480 SACM_S240
混合编码 参数编码
4.8K, 7.2K 2.4K
80:3, 80:1.5 80:1.5
中 差