洛阳师范学院2012届本科生毕业设计
究中心在语音识别中采用了对频谱进行对数分析的方法,Sakai等则提出了过零率的分析方法。RCA实验室此时解决了语音在时间标尺上的非均匀问题。前苏联Vintsvuk首次将动态规划算法应用于语音对准问题,可以认为是后来的DTW算法的基础。Reddy尝试用动态跟踪音素的方法对连续语音进行识别。
到20世纪70年代,孤立词的语音识别有了突破性发展。日本学者Sakoe基于动态规划方法提出了DTW算法。DTW算法是把时间归正和距离测度计算结合起来的一种非线性归正技术。Itakura将应用于语音编码的线性预测编码(Linear Predictive Coding, LPC)引入语音识别中。此时期,IBM等研究机构开展了在连续语音识别方面的研究,Bell实验室也对非特定人语音识别进行了相关研究。
70年代末80年代初,Gray等人提出了矢量量化(Vector Quantization)技术,并将它应用到了语音识别、语音编码等方面。80年代语音识别方面很重要的进展,是隐马尔可夫模型(Hidden Markov Model, HMM)在语音识别上被Rabiner等人系统介绍之后得到广泛的响应。可以说,HMM标志着学者们的探索开始从模式匹配技术转向基于统计模型的技术,尝试从整体统计的角度来构建语音识别系统。目前,HMM仍为语音识别研究的主流技术。卡内基.梅隆大学使用VQ和HMM开发出了SPHINX系统,这是第一个非特定人、大词汇量、连续语音的识别系统,经过多次改进获得了较好的效果。
90年代以后,随着信息技术的快速发展,通讯手段的多样化,语音识别的研究热度越来越高。语音识别的研究工作在模型设计、特征参数提取、系统自适应等方面有了突出的进展。针对贝叶斯网络、人工神经网络的研究十分活跃,它们也被引入到语音识别的研究中。动态贝叶斯网络可以看作HMM的一种发展,它可以描述语音信号的动态特性,自适应地满足语音识别的要求。而人工神经网络在模式分类方面有较好的表现。
1.2.2 语音识别的应用现状
21世纪的信息技术发展日新月异,多媒体技术广泛应用到实际生活中,人机交互市场需求和语音识别技术的发展,促使语音识别系统从实验室走向实际应用。许多国家如美国、日本等,许多著名公司如微软、IBM、Intel、AT&T等为语音识别系统的应用研究投入巨资。IBM的Via Voice,Dragon System的Naturally Speaking,Nuance公司的Nuance Voice Platform,Microsoft的Whisper以及Sun的Voice Tone等都是具有代表性的语音识别系统。
语音识别的市场前景广阔,目前已经陆续应用到一些领域。语音识别技术,直接的应用是计算机将输入的语音信息进行处理,并转换成相应的命令或者文本。声控应用是指,计算机根据输入的语音,识别出其中的内容含义,并执行相应的动作。
2
基于BP神经网络的语音识别系统
这可以被运用到声控机器人、智能数字家庭、公共服务系统、信息网络查询、银行服务、工业控制等领域。目前最常见的有移动电话的语音拨号功能,用户可以通过语音输入要拨打的电话号码或者接收方的姓名,实现拨号。随着计算机技术的发展,各种移动设备日益增多。而语音识别能满足用户行走、开车时方便有效地与设备交互,类似于此的便捷性将成为语音识别研究进展的强大推力。当前互联网已经成为人们生活中不可或缺的一部分。可以想象,将语音识别应用到网站网页中,用户可以通过语音导航来浏览网页,该多方便。语音识别可以将语音转换成文本实现文字输入,当然提高这种输入方式的速度要求识别系统能对连续语音有很好的识别效果。Microsoft推出的Window Vista系统中含有语音识别的附件,可供用户初步体验语音到文本的转换。
语音翻译先进研究联盟(CSTAR)致力于口语翻译,结合语音识别、机器翻译和语音合成等技术,解决世界多语言的沟通问题。语音识别中说话人识别技术也别开生面,可以应用到信息安全相关领域,如网络传输加密、银行电话查询系统、家庭防盗系统等。传统的网络信息检索技术是基于文本搜索的,而随着网络技术的发展,基于语音信息检索的搜索引擎浮出水面。2008年,Google推出了语音检索服务GAUDI(Google Audio Indexing)。GAUDI可以根据语音内容对政治讲演视频进行检索。音频信息检索可以分为几个方面:基于语音内容的检索,如电视节目、采访录音、会议视频等;非语音音频检索,如动物声音、飞行物噪声等;音乐检索,如使用乐器音色、音乐节拍等检索。
语音信息在网络通路上被分割压缩成数据包进行传送。在网络环境下,对语音数据包进行获取、识别,也是一个有趣课题,它可以应用到电子商务、军事侦测等领域。鉴于世界语言的多样化,语音的语种识别也成为一个研究方向。语言因素集合、韵律特点、音节结构、语法语义等都可以成为供语种识别使用的语音特征。
近年来,随着中国市场需求的发展,汉语语音识别越来越来受到重视。IBM、Microsoft、DRAGON等公司相继设立了汉语语音识别研究机构。由于汉语语音的自身特点和使用的范围广,汉语语音识别逐渐成为学界的一个研究方向。上文提到的IBM的Via Voice就是汉语连续语音识别系统,经过改进后它具有较高的识别率和自学习功能。Microsoft在中国设立微软亚洲研究院,也将语音识别作为一项重点研究项目。
总的来说,随着计算机技术的发展与多媒体的广泛应用,仍未成熟的语音识别技术拥有相当大的研究空间和发展前景;语音识别也将会随着技术的进步,逐渐进入人们的生活,为我们提供便利。
3
洛阳师范学院2012届本科生毕业设计
1.3语音识别的主要技术
1.3.1 基于矢量量化的语音识别
矢量量化(Vector Quantization, VQ)是一种量化方法,它以R个采样值为单位组成一个R维矢量,并将矢量映射到R维的空间,必然落在某个子空间里;它的量化取值就是该子空间的中心矢量值。
基于矢量量化的语音识别的思想:假设共有M个语音需要识别,对语音进行R维的矢量量化,那么识别系统需要将R维空间划分为M个子空间。这个划分过程,是通过输入大量的语音样本信号矢量,识别系统对这些样本矢量进行分析统计,不断减小矢量在系统中的距离误差来实现的。语音识别时,则计算测试样本矢量落在哪个子空间,即可判断出语音属于哪个类别。每个子空间对应的中心矢量值称为码本,空间的一种划分方法就是码本的集合。
语音识别中常见的矢量量化方法有无时间归正的矢量量化和有记忆矢量量化。语音的识别过程如图1-1所示:
码本1测试样本码本2求最小值语音类别码本M
图 1-1 基于矢量量化的语音识别过程
1.3.2 动态时间弯曲的语音识别
语音信号是非稳定的随机信号,而且具有时序性。即使是同一个说话人说同一个词语,每次语音中的音素发音时间以及语音的总时间也不会完全相同。因此语音识别中将语音特征序列输入与语音特征序列模板进行匹配时,需要在时间轴上对语音特征序列进行处理,以解决同类语音因为时间持续长短的不同而带来的偏差。
动态时间弯曲(Dynamic Time Warping, DTW)是把时间弯曲和距离测度结合起来的一种非线性匹配技术。DTW基于动态规划技术(Dynamic Programming, DP),将
4
基于BP神经网络的语音识别系统
模板匹配过程的优化问题分解成许多优化子问题,寻求两个特征序列的时间点的映射关系,使得所有映射点对的平均距离误差最小。
y J (1, 1) I x
图1-2 基于动态时间弯曲的模板匹配
图1-2描述的是测试语音与模板在时间上的映射的情况。x轴表示测试语音样本特征序列的时间点,y轴表示识别系统参考模板特征序列的时间点,两者的取值范围不一定相同。动态时间弯曲是找到图上所示的从起点到终点的路径。
1.3.3 隐马尔科夫模型语音识别
隐马尔可夫模型(Hidden Markov Models, HMM)是语音信号处理的一种概率统计模型,它是由马尔可夫链变化而来的。
马尔可夫链的基本原理可以描述为:马尔可夫链是一个状态和时间都离散的随机过程。设一随机序列为X,t时刻它处在而且仅处在N个状态中的一个。从t到t+1时刻,X从一个状态到另个状态都有一个概率,称为状态转移概率。那么对于所有状态,这个马尔可夫链有个N×N的状态转移概率矩阵A。如果用大量数据对马尔可夫链进行训练,求出概率矩阵A,便可以使用A来进行状态预测,即对输入的测试数据输出下一个可能状态。
语音输入马尔可夫链A状态序列随机过程B观察值
图1-3 隐马尔可夫模型的语音识别过程
如图1-3,HMM可看作是双重的随机过程,A是马尔可夫链,描述状态的转移;而B则描述状态和状态转移同观察值的统计关系。隐含的状态表示语音中相对稳定的音段,那么状态的转移则反映了语音的变化情况;观察值表示语音的类别,它是从状态转移序列导出的。HMM既能描述语音信号特征的动态变化,又能很好的描述
5
洛阳师范学院2012届本科生毕业设计
语音特征统计分布,并且可以应用到连续语音识别。它不需要类似于DTW的方法进行语音信号的时间对齐。
1.3.4 基于神经网络的语音识别
人工神经网络(Artificial Neural Network, ANN)是模拟人脑组织结构和思维过程的非线性动力系统,它主要由神经元、学习训练算法和网络结构等要素描述。进行语音识别时,神经网络需要先经过一个训练过程,网络在此过程中不断地接受模式集合和每个特定模式所属类别这些信息的输入;完成训练的神经网络可以根据测试数据中提取的信息识别特定模式所属的类别。本质上,神经网络的语音识别是基于统计特性的,所有模式可以映射到多维空间中的区域,而判定边界由神经网络训练过程决定。如图1-4。
图1-4 基于神经网络的语音识别过程
语音数据
特征向量
特征提取 监督网络进行分析 m维 观察 空间 q维 特征 空间 r维 模式空间
到目前为止,用于语音识别的常见神经网络有反传网络(Back Propagation, BP)、自适应谐振理论和自组织特征映射网络(Self-Organizing Feature Map)等。
1.4 语音识别的基本原理
图1-5描述了语音识别系统的基本原理。由于语音信号的复杂性,对于语音输入语音识别系统需要先进行预处理,对信号进行适当放大和增益控制,按一定格式
6