内蒙古科技大学毕业设计说明书(毕业论文)
1.5 语音识别的发展历史及应用领域
1.5.1 国外研究历史及现状
语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。
但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ) 和隐马尔可夫模型(HMM) 理论。
随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。
实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(Carnegie Mellon University)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。
这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN) 在语音识别中的成功应用。HMM 模型的广泛应用应归功于AT&T Bell 实验室Rabiner 等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。
统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时
5
内蒙古科技大学毕业设计说明书(毕业论文)
稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。
20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有:IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking, Nuance公司的Nuance Voice Platform语音平台,Microsoft的Whisper, Sun的VoiceTone等。
其中IBM公司于1997 年开发出汉语ViaVoice 语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice98 。它带有一个32 000 词的基本词汇表,可以扩展到65 000 词,还包括办公常用词条,具有纠错机制,其平均识别率可以达到95 %。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。 1.5.2 国内研究历史及现状
我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。
清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。
6
内蒙古科技大学毕业设计说明书(毕业论文)
中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的天语中文语音系列产品——Pattek ASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。
7
内蒙古科技大学毕业设计说明书(毕业论文)
第二章 智能家居监控系统的方案设计
2.1 系统实现过程分析
在此设计中,主要体现了无线收发一体化,即无线在始终的进行着收和发,这样能更好的实现实时性。主控通过AT89C52单片机做控制,将数据通过串口发送至电脑上,通过上位机界面显示,在微软公司的语音识别包的基础上,以电脑为载体,可以通过语音来控制家中电器的工作,同时了解家中一切是否正常。这种方案的最大好处在于能够帮助一些行动不便的老人或者一些残疾人,在不需要走动的情况下了解家中安全状态,且可通过说话来直接控制家中电器的工作。如图2.1所示。
图2.1 系统整体结构框图
2.2 单片机最小系统板设计
本设计采用自己设计的最小系统开发板,分为四个模块,主控模块、现场控制模块、通信模块、电源模块。下面分别介绍各个模块。
8
内蒙古科技大学毕业设计说明书(毕业论文)
2.2.1 主控模块
该系统采用的是Atmel公司生产的AT89C52单片机为主控器。AT89C52是一个低电压,高性能CMOS 8位单片机,片内含8k bytes的可反复擦写的Flash只读程序存储器和256 bytes的随机存取数据存储器(RAM),器件采用ATMEL公司的高密度、非易失性存储技术生产,兼容标准MCS-51指令系统,片内置通用8位中央处理器和Flash存储单元,AT89C52单片机在电子行业中有着广泛的应用。
在单片机的引脚外围固定的引脚,如VCC(40),GND(20)已经正确固定到电源和地上。
X1(18),X2(19)是接晶振的引脚已经外接到11.0592MHZ和30PF的电容。RST(9)是单片机的复位引脚,通过RC回路,作为单片机的上电复位。
作为P3口的第二功能端口,P3.0(10),P3.1(11)为单片机的通信引脚,和MAX232芯片连接。方便在下载程序时,只要上电复位即可完成下载的硬件操作。
另外,为了提高P0口的驱动能力,在P0口的各引脚上接了上拉电阻5.1K到电源Vcc=5V。采用一片MAX232,为RS232与TTL电平的转换,使得可以方面使用电脑的COM口,对单片机进行程序的烧录。
图2.2 主控模块晶振电路
图2.3 复位电路
9