题 目:基于院 系:专 业:班级学号:学生姓名:成 绩:
DSP的语音识别系统
在智能楼宇中的应用
目 录
目录 ............................................................................................................. 1 摘要 ............................................................................................................. 2 1 概述 ....................................................................................................... 3 2 语音识别的原理 .................................................................................. 4 3 系统的硬件设计 .................................................................................. 6 4 软件设计............................................................................................... 8 5 语音识别在智能楼宇系统中的具体应用 .......................................... 9 6 总结 ..................................................................................................... 10
1
摘要
随着DSP技术的发展,中小词汇量连续语音的实时识别已经被广泛应用到日常生活中,本文提出了一种基于TMS320VC5410的小词汇量的语音识别实时系统,对以TMS320VC5410为核心的系统硬件设计进行了研究,阐述了系统的结构。文章分析了系统的工作过程,引用已有的算法进行软件系统设计,软件模块包括预处理、端点检测、特征提取、模式匹配等。最后把此系统应用到智能楼宇系统中去,实现了对智能楼宇更加及时、方便的控制。
2
1 概述
语音识别是近二十几年发展起来的信息学科,语音识别具有自然、快速、方便等优点。始于二十世纪六十年代的语音识别研究,识别率有了很大的提高,基本可达实用水平。但是因为语音识别的计算量非常大,难以实时实现,因此一直制约着它的应用。随着DSP和专用集成电路技术的发展,语音识别尤其是小词汇量的说话人实时成为可能。
进入90年代以来,随着通信技术与网络技术的发展,楼宇控制网络也得到了很大的发展,并形成了以BACnet协议标准,构建在此标准上的智能楼宇已得到了广泛的应用。我们知道,智能楼宇的控制和管理的命令基本上是由很少数量的特定的词组和数字串构成,并且利用语音识别技术来进行智能楼宇中的某些控制也更加的实时、方便、有效。因此,把语音识别系统应用在智能楼宇控制网络中,是可实现并且有前途的。
目前的人机“交流”大多数是通过操作繁琐的键盘实现的,这就要求操作人员具备一定技能。语音识别技术的出现,使人们和机器通过自然语言交流成为可能,不仅解决了人机“交流”大众化中的障碍,提高了人机交互的效率,而且给人体无法接触或不便接触来实现操作控制的场合带来了极大的方便。虽然人们早已在实验室环境下突破了大诃汇量、连续语音和非特定人这三大障碍,但做此类研究需要一定的技术设备,并且难度较大。目前很多语音识别系统的识别率都很高,特别是中小词汇量非特定人语音识别系统识别精度已大于98%,特定人语音识别系统的识别精度就更高,这些技术已经能够满足通常应用的要求。本设计根据自身实际情况,选择特定人、小词汇量、孤立词来进行语音识别系统的研究。 DTW算法计算量较小,无需前期的长期训练,容易满足嵌入式应用要求,易于移植到DSP上实现语音识别 且能满足实时性要求,在特定场合可以得到较高的识别率,本设计以TMS320VC5410作为处理芯片系统利用DTW算法能够完成对特定人、小词汇量、孤立词的识别,并且能发出相应的控制信号,达到设计的要求。
3
2 语音识别的原理
语言是人类特有的功能,声音是人类常用的工具,是相互传递信息最重要也是最基本的手段,如何让计算机听懂人说的话,实现计算机与人之间的沟通和通信,这就涉及到语音识别的问题。语音识别本质上是一种模式识别的过程,主要包括语音信号预处理、特征提取、特征建模、相似性度量和后处理等几个功能模块。一个语音识别系统主要包括训练和识别两个阶段。无论哪个阶段,都需要首先对输人的原始语音进行预处理并进行特征提取。其基本的原理框图如图2.1所示。
图2.1 语音识别的原理图
(1)预处理:就是对输入的原始语音信号进行处理,滤除其中不必要的信息及噪声等,并进行语音信号的端点检测,即判定语音有效范围的开始和结束位置,并进行语音分帧和预加重处理等工作。 预处理主要有以下几步: ①A/D转换 ②量化编码 ③反混叠处理 ④预加重 ⑤短时过零率
(2)特征参数提取方法:语言信号完成分帧处理和端点检测后,下一步就是特征参数的提取,在语音识别中我们不能将原始波形直接用于识别,必须通过一定的变换。语音特征参数可以是能量、基因频率、共振峰值等语音参数,目前在语音识别中较为常用的特征参数为线性预测倒谱参数(LPCC)与Mel倒谱参数(MFCC)。本文采用基于LPC 的倒谱参数(LPCC)的特征提取方法,它是将语音从时域变换到倒谱域上,从人的发声模型角度出发,利用线性预测编码(LPC)技术求倒谱系数。 在说话人识别中采用倒谱系数(LPCC)和基音周期参数,而在控制命令的语音识别
4