时变特征的参数表示法,由相互关联的两个随机过程共同描述信号的统计特性。模
型参数包括HMM拓扑结构,状态转移概率和描述观察符号统计特性的一组随机函数
。HMM的性能在很多应用中都可以和DTW相比,而计算代价只有后者的几分之一。采
用这种技术,我们要以一个只具有有限不同状态的系统作为语音生成模型。每个状
态皆可产生有限个输出。在生成一个单词时,系统不断地由一个状态转移到另一个
状态,每一个状态都产生一个输出,直到整个单词输出完毕。状态之间的转移是随
机的,每一状态下的输出也是随机的。由于允许随机转移和随机输出,所以HMM能
适应发音的各种微妙变化。在识别词表中,每一个单词都要用一个这样的模型来表
示。识别器要做的工作就是输出,识别的任务就是决定由哪一个模型提供输出。因
为模型本身对识别器来说是看不见的,它只能根据获得的数据推导出来,故称为隐
马尔可夫模型。
ANN在语音识别中的应用是目前研究的热点。该网络本质上是一个自适应非线
性动力学系统,模拟了人类大脑神经元活动的基本原理,具有学习、记忆判断、联
想、对比、推理、概括等能力。与HMM和ANN相比,DTW是较早的一种模式匹配和模
型训练技术,它应用动态规划法成功地解决了在语音信号特征参数序列比较时时长
不等的难题,在孤立词语音识别中获得了良好的性能。但由于它不适合连续语音大
词汇量语音识别系统,目前已被HMM和ANN所代替。
3.语音识别单元的选取
语音识别单元的选取是语音识别研究工作很重要的第一步,语音识别单元有单
词、音节、音素三种,具体选哪种,由研究任务决定。单词单元适用于中小词汇语
音识别系统,不适合于大词汇系统。因为庞大的模型库意味着繁重的模型训练任务
和复杂的模型匹配算法,这难以满足实时性要求。音节单元多见于汉语识别,主要
因为汉语是单音节结构的语言,而英语等语言是多音节。如果不考虑声调的话,汉
语大约有400个音节,这个数量相对较少。所以,对于大词汇量汉语语音识别系
统而言,以音节为识别单元是较为合适的。音素单元多用于英语语音识别研究,因
为英语是多音节语言。但大、中词汇汉语语音识别系统也在越来越多地采用。
毫无疑问,飞速发展的计算机技术推动了语音识别技术的突破性进展,语音识
别技术又反过来作用于计算机。假如微软公司的语音识别技术真正能使计算机彻底
丢掉键盘和鼠标的话,这将不仅是计算机发展史上的又一场革命,而且将改变我们
许多人的工作和生活方式,因为动口比动手要容易得多.