河南理工大学毕业设计(论文)说明书
日常生活提供方便
1.4本文的内容与结构
本文的内容共分为六章。第一章绪论,概括了国内外语音识别技术的发展情况、面临的问题,本课题研究的目的和意义;第二章设计任务要求以及方案选择,论证了课题方案的选择问题;第三章系统硬件设计,简单介绍了单片机,重点介绍了凌阳61单片机的选用与相关特性,还介绍了外部扩展用到的SPLC501液晶显示模组 V5.1的相关知识;第四章系统的软件设计,介绍了所用的软件开发环境,并说明了语音识别的主要过程。第五章实物的制作,简要描述了一下实物的焊接和组装过程及遇到的一些小问题;简要说明一下遇到的问题和解决方法;第六章结论与展望,对所做的工作进行总结,并展望今后语音识别技术的发展。
河南理工大学毕业设计(论文)说明书
2 设计目标及方案
设计一个简单的电路使其能识别固定的人声音,将这一固定的语音信号提前输入报警器中,作为触发信号,使蜂鸣器发出报警信号,也可以结合LED做为报警信号,达到两者兼用的目的。
要求电路尽量设计得简单明了,使用的元器件尽可能的少,但是要求其功能明显,稳定性高,灵敏度高。
在日常生活中,经常使用的报警器中,机械报警器是属于传统的报警器。其缺点是:
1、 硬件电路复杂。 2、 灵敏度低。 3、 制作成本高。
本次设计的报警器是利用一个用于语音识别的芯片——凌阳61SPCE061A单片机,用于语音信号的接收和识别,再结合外围电路实现报警效果,不仅灵敏度高且制作成本也不高。
河南理工大学毕业设计(论文)说明书
3 语音识别原理及算法
3.1语音识别
语音识别一般分为两个步骤: 首先是系统的训练阶段, 其次是系统识别阶段。这两个阶段的任务重点各不相同, 在第一阶段中, 核心任务是建立识别基本单元的声学模型以及进行文法分析的语言模型等。在系统识别阶段中, 根据不同的识别算法, 分析出语音信号的特征参数, 然后按照一定的判别准则和测度与系统模型进行比较, 通过判决得出识别结果。 语音识别系统的分类如表一:
表一 语音识别系统分类
分类方式 发音方式
对应系统名称
孤立词语音识别系统、连续词语音识别系统、连续语音识别系统
应用对象 特定人语音识别系统、非特定人语音识别系统
识别词汇量 小词汇量识别系统、中等词汇量识别系统、大词汇量死别系统
但无论那种语音识别系统,其基本原理和处理方法都大体类似: 语音输入 预处理
特征提取 训练 模式匹配 识别结果 参考模板库
语音识别过程主要包括语音信号的预处理、特征提取、模式匹配几个部分。预处理阶段主要对语音信号中诸如呼吸气流、外部噪音等非平稳信号进行剔除,包括预滤波、采样和量化、加窗、端点检测、预加重等过程。语音信号识别最重要的一环就是特征参数提取和模式匹配。提取的特征参数必须满足以下的要求:
(1)提取的特征参数能有效地代表语音特征,具有很好的区分性; (2)各阶参数之间有良好的独立性;
河南理工大学毕业设计(论文)说明书
(3)特征参数要计算方便,最好有高效的算法,以保证语音识别的实时实现。
在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。同时,还可以在很多先验知识的帮助下,提高识别的准确率。
SPCE061A单片机对语音输入信号进行A/D转换具有其专门的通道,并对较弱的语音还设计了带自动增益控制的放大器。预加重的目的是平滑信号以消除声道模型中的极点带来的影响,便于进行频谱分析或声道采参数分析,采用一阶数字滤波器实现。加窗分帧是为提取特征参数做准备,分帧采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持信号的连续性和保证特征参数的相关性。端点检测目的是检测有无语音信号的存在,确定出语音的起始点和终止点。特征参数提取是语音识别的关键问题,特征参数选择的好坏直接影响语音识别的精度。 特定人语音识别技术中的难点: (1) 语音信号的多变性
语音信号是非平稳随机信号,不但不同发音者发音之间存在重大的差异,即使同一人同一语音的不同次发音,也存在很大差异。 (2) 噪声影响
当实际环境中有噪声存在时,容易造成训练与测试环境不匹配导致语音识别系统性能急剧下降。 (3) 端点检测
统计表明语音识别系统一半以上的识别错误来自端点检测错误。在安静环境下有声段和无声段时能量存在很大差异,由此判断语音的起点。但是当噪声的能量和语音信号的能量接近时就可能造成端点检测的误差从而导致识别结果错误
(4) 词与词的特征空间混叠
语音识别的常规方法是利用语音信号的短时周期特性将语音时域采样信号分为若干段,计算出每一段的特征矢量序列作为识别参数。但是很多不同的词语的矢量序列在特征空间中存在混叠现象,甚至有些不同词语的混叠程度会超过同一词语的不同次发音,从而降低识别率。
河南理工大学毕业设计(论文)说明书
语音识别的具体流程:
开始 开始 开始 初始化RAM 定时采集语言 初始化识别器 执行训练,获取训练结果 返回 获取识别结果 中断服务 训练成 识别出 语音指令 返回 语音特征模型 执行对应动作 返回 训练过程 识别过程
图3-1语音识别的具体流程
3.2语音识别算法
常见的语音识别方法有动态时间归整技术( DTW) 、矢量量化技术( VQ) 、隐马尔可夫模型( HMM) 、基于段长分布的非齐次隐马尔可夫模型( DDBHMM) 和人工神经元网络( ANN) 等。由于HMM 模型需要大量的前期训练工作和大量的存储资源,并且计算复杂,不太适合于在DSP 系统中实现,更适合于在PC 机上完成。DTW 算法计算量较小,无需前期的长期训练,容易满足嵌入式应用要求,易于移植到DSP 上实现语音识别,且能满足实时性要求,在特定场合可以得到较高的识别率。故本设计采用DTW算法。
DTW是较早的一种模式匹配和模型训练技术, 它应用动态规划的思想成功解决了语音信号特征参数序列比较时时长不等的难题, 在孤立词语音识别中获得了良好性能。虽然HMM 模型和ANN 在连续语音大词汇量语音识别系统优于DTW, 但由于DTW 算法计算量较少、无需前期的长期训练, 也