兰州工业学院毕业设计说明书(论文)
前言
1、背景介绍
语言是人类传递信息的主要手段,语音识别技术是目前世界上最热门和最具发展前景的新型信息技术之一。语音识别技术是近年来十分活跃的研究领域。语音识别系统的实用化研究是语音识别研究的一个主要方向。
语言是人类特有的功能,是人们思维最重要的寄托体,是人类交流最主要的途径。语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类社会科学文化发展紧密相连。
语音识别技术是让机器接收,识别和理解语音信号,并将其转换成相应的数字信号的技术。它是一门交叉学科,涉及到语音语言学、数理统计、计算机、信号处理等一系列学科。
2、发展历史
语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。60年代计算机的应用推动了语音识别技术的发展,提出两大重要研究成果:动态规划(Dynamic Planning, DP)和线性预测分析(Linear Predict, LP),其中后者较好的解决了语音信号产生模型的问题,对语音识别技术的发展产生了深远影响。70年代,语音识别领域取得突破性进展。线性预测编码技术(Linear Predict Coding, LPC)被Itakura成功应用于语音识别;Sakoe和Chiba将动态规划的思想应用到语音识别并提出动态时间规整算法,有效的解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。80年代,连续语音识别成为语音识别的研究重点之一。Meyers和Rabiner研究出多级动态规划语音识别算法(Level Building,LB)这一连续语音识别算法。80年代另一个重要的发展是概率统计方法成为语音识别研究方法的主流,其显著特征是HMM模型在语音识别中的成功应用。1988年,美国卡内基-梅隆大学(CMU)用VQ/HMM方法
1
兰州工业学院毕业设计说明书(论文)
实现了997词的非特定人连续语音识别系统SPHINX。在这一时期,人工神经网络在语音识别中也得到成功应用。进入90年代后,随着多媒体时代的来临,迫切要求语音识别系统从实验走向实用,许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统实用化的开发研究投以巨资。最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dectate系统。这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练便可在使用中不断提高识别率。
我国在七十年代末就开始了语音技术的研究,但在很长一段时间内,都处于缓慢发展的阶段。由于起步晚、基础薄弱,计算机水平不发达,导致在整个八十年代,我国在语音识别研究方面并没有形成自己的特色,更没有取得显著的成果和开发出大型性能优良的实验系统。但进入九十年代后,我国语音识别研究的步伐就逐渐紧追国际先进水平了,在“八五”、“九五”国家科技攻关计划、国家自然科学基金、国家863计划的支持下,我国在中文语音技术的基础研究方面也取得了一系列成果。但是,这些成果并没有得到很好的应用,没有转化成产业;相反,中文语音技术在技术、人才、市场等方面正面临着来自国际竞争环境中越来越严峻的挑战和压力。
3、具体应用
随着计算机技术、模式识别等技术的发展,适应不同场合的语音识别系统
相继被开发出来,语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域的应用越来越广泛。
目前,语音识别技术己经在生活中的诸多方面有了广泛的应用,而这方面的例子已经屡见不鲜,其主要的应用场合如下: (1)声控应用
在很多场合与特定环境中,使用声控系统可以大大提高生活质量和便利程度。比如司机通过语音进行电话拨号,可以减少交通事故的发生率,而很多行动不便的人通过声控系统更是可以将生活质量提高。
2
兰州工业学院毕业设计说明书(论文)
(2)数据库检索
在不少行业部门当中都需要对庞大的数据进行检索和查询,这是一项非常复杂的I作。语音识别的引入可以大大的减少劳动量,既方便又节约人力成本。
(3)语音听写机
用口述来代替人工输入文档,提高了输入速度,而且更加方便,可以为办公自动化带来革命性的变化。比如IBM出品的Via Voicc系列产品就是这个方面典型的应用。 (4)自动口译
将语音识别应用于自动口语翻译是未来的一大趋势,不仅可以节省大量的人力。同时也让翻译工作变得更加轻松简单。一些发达国家在自动口译方面的研究己经取得了一定的进展。目前,语音识别技术仍在高速发展之中。随着时代的进步,越来越多的领域开始引入这项技术,人类的日常生活会级此而带来更大改变。
本设计介绍了一种以ARM为核心的嵌入式语音识别模块的设计与实现。本模块以对话管理单元为中心,通过以LD 3320芯片为核心的硬件单元实现语音识别功能,经过大量的实验数据验证,本文设计的语音识别模块具有高实时性、高识别率、高稳定性的优点。
3
兰州工业学院毕业设计说明书(论文)
1 系统整体方案
1.1 总体方案
基于现有技术开发嵌入式语音交互系统,目前主要有两种方式:一种是直接在嵌入式处理器中调用语音开发包;另一种是嵌入式处理器外围扩展语音芯片。第一种方法程序量大,计算复杂,需要占用大量的处理器资源,开发周期长;第二种方法相对简单,只需要关注语音芯片的接口部分与微处理器相连,结构简单,搭建方便,微处理器的计算负担大大降低,增强了可靠性,缩短了开发周期。
本设计的语音识别方案是以嵌入式微处理器ARM S3C2410芯片为核心,
配合A/D, D/A 电路,控制电路,接口电路和存储电路来实现语音识别的训练和识别过程。外围加非特定人语音识别芯片及相关电路构成。语音识别芯片选用ICRoute公司的LD 3320芯片,由于LD 3320可以动态编辑的识别关键词语列表,因此其可以应用的范围大大超过了那些不可以改变识别列表的芯片。又由于LD 3320 是一颗真正的单芯片解决方案,不需要辅助的外围 Flash/RAM/AD,从而降低了系统的成本。在用户的语音进入语音识别部分后, LD 3320 将把处理过的数据并行传输到主控制器,主控制器处理后,发送命令数据到可扩展外围串行设备实现控制操作.所接收的数据最后通过带汉字库的12864液晶屏显示出相应的汉字。
1.2 语音识别原理
在计算机系统中,语音信号本身的不确定性、动态性和连续性是语音识别的难点,主流的语音识别技术是基于统计模式识别的基本理论,语音识别过程图语音识别通常需要两个阶段完成。第一阶段是训练,主要是提取语音特征,用户往往需要进行几次语音训练,经过预处理和特征提取后获得相应特征参数。第二阶段是识别,识别过程就是将输入的语音特征参数和模型库中的参数进行相似性比较,最后输出匹配度最高的特征参数完成识别过程。语音识别过程原理如图1-1所示:
4
兰州工业学院毕业设计说明书(论文)
输入 语音 预处理 特征 提取 识别 训练 模式 匹配 识别 后处理 结果 语音模型 库 图1-1 语音识别过程
语音识别过程图语音识别通常需要两个阶段完成。第一阶段是训练,主要是提取语音特征,用户往往需要进行几次语音训练,经过预处理和特征提取后获得相应特征参数。第二阶段是识别,识别过程就是将输入的语音特征参数和模型库中的参数进行相似性比较,最后输出匹配度最高的特征参数完成识别过程。
目前,语音识别技术按照识别对象的类型可以分为特定人和非特定人语音识别。特定人是指识别对象为专门的人,非特定人是指识别对象是针对大多数用户,一般需要采集多个人的语音进行录音和训练,经过学习,从而达到较高的识别率。
语音识别技术在国内外的发展十分迅速。在嵌入式应用领域,具有代表性的有凌阳的 SPCE061A、ICRoute 的 LD 3320。
本文的语音识别方案是以嵌入式微处理器为核心,外围加非特定人语音识别芯片LD 3320 及相关电路构成。
1、语音采集设备如话筒、电话等将语音转换成模拟信号。
2、数字化一般包括预滤波、采样和A/D变换。该过程将模拟信号转变成计算机能处理的数字信号。
3、预处理一般包括预加重、加窗分帧。经预处理后的信号被转换成了帧序列的加窗的短时信号。
4、参数分析是对短时信号进行分析,提取语音特征参数的过程,如时域、频域分析,矢量量化等。
5