基于MATLAB的特定人语音识别算法设计 - 图文(2)

2019-08-26 18:47

1前言

语言是人类交换信息最方便、最快捷的一种方式，在高度发达的信息社会中，用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。随着人类步入信息社会步伐的加快，越来越多的地方需要用到语音信号处理的知识。

而MATLAB作为一个语音信号处理的平台，是一个高性能的科学计算软件，广泛应用于数学计算、算法开发、数学建模、系统仿真、数据分析处理及可视化、科学和工程绘图、应用系统开发（包括建立用户界面）等。其语言是一种简单、高效、功能极强的高级语言，具有强大的矩阵运算能力和极高的编程效率，这一方面使得MATLAB程序可以被高度向量化，另一方面使得程序易读易写。

本设计主要围绕着MATLAB平台进行语音信号的录制及预处理,提取特征参数，建立两种模块，一组为参考模块，一组为测试模块，然后通过DTW算法进行匹配，算出匹配结果。主要通过用户开发界面直观地呈现出来。 1.1 语音识别的历史背景

早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的\Radio Rex\玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末，伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。1960年代，人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC)，及动态时间弯折Dynamic Time Warp(DTW)技术。

语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model（HMM）的应用。从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。

尽管多年来研究人员一直尝试将“听写机”推广，但是语音识别技术在目前还无法支持无限领域，无限说话人的听写机应用。

1.1.1 国外研究历史及现状

国外的语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统，它是第一个可以识别十个英文数字的语音识别系统。

但真正取得实质性进展，并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能，更重要的是语音信号线性预测编码（LPC）技术和动态时间规整（DTW）技术的提出，有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理，研究的领域局限在特定人，小词汇表的孤立词识别，实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统；同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

实验室语音识别研究的巨大突破产生于20世纪80年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。这一时期，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化，从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。

统计方法将研究者的视线从微观转向宏观，不再刻意追求语音特征的细化，而是更多地从整体平均（统计）的角度来建立最佳的语音识别系统。在声学模型方面，以Markov链为基础的语音序列建模方法HMM（隐式Markov链）比较有效地解决了语音信号短时稳定、长时时变的特性，并且能根据一些基本建模单元构造成连续语音的句子模型，达到了比较高的建模精度和建模灵活性。在语言层面上，通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外，人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。

20世纪90年代前期，许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有：IBM公司推出的ViaVoice和DragonSystem公司的

NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台，Microsoft的Whisper,Sun的VoiceTone等。

其中IBM公司于1997年开发出汉语ViaVoice语音识别系统，次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice'98。它带有一个32,000词的基本词汇表，可以扩展到65,000词,还包括办公常用词条，具有“纠错机制”，其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度，是目前具有代表性的汉语连续语音识别系统。 1.1.2 国内研究历史及现状

我国语音识别研究工作起步于五十年代，但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究，其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统的识别精度，达到94.8%（不定长数字串）和96.8%（定长数字串）。在有5%的拒识率情况下，系统识别率可以达到96.9%（不定长数字串）和98.7%（定长数字串），这是目前国际最好的识别结果之一，其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%，前三选识别率达99.96%；并且可以识别普通话与四川话两种语言，达到实用要求。

中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR，结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

如果从识别系统的词汇量大小考虑，也可以将识别系统分为3类：(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高，

识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。 1.2 语音识别技术的应用及研究方向

语音识别技术是计算机智能接口与人机交互的重要手段之一。从目前及整个社会的发展来看，已经诞生了全球首套多语种交谈式语音识别系统E-talk。这是全球唯一拥有中英混合语言的识别系统，可以识别出普通话、粤语和英语，还可以适应不同的地方口音。由于E-talk可以提高工作效率，降低运营成本，并为用户提供便捷的增值服务，它将成为电信、证券、金融等重视客户服务的行业争相引用的电子商务应用系统。

目前，飞利浦推出的语音识别自然会话平台SpeechPearl和SpeechMania已成功地应用于国内呼叫中心，SpeechPearl中的每个识别引擎可提供高达20万字的超大容量词库，尤其在具有大词汇量、识别准确性和灵活性等要求的各种电信增值服务中有着广泛的应用。对于语音编码而言，长期以来，在通信网的发展中，解决信息传输效率是一个极其重要的关键问题。目前科研人员已通过两个途径研究这一课题，其一是研究新的调制方法与技术，来提高信道传输信息的比特率，指标是每赫兹带宽所传送的比特数；其二是压缩信源编码的比特率。这对任何频率资源有限的传输环境来说，无疑是极为重要的，尤其是在无线通信技术决定今后通信发展命运的今天更显得重要。实际上，压缩语音编码比特率与话音存储、语音识别及语音合成等技术都直接相关。

数字语音编码技术从1938年提出PCM开始，其编码方法已有了很大的发展，如1968年提出的线性预测编码技术（LPC）、20世纪70年代末出现的隐马尔科夫技术（HMM）以及矢量量化（VQ）等。

随着技术的不断发展及网络技术的日益完善和普及，语音识别技术也出现了一些新的研究方向。

① 连续自然语音的识别。目的是能让计算机更好的理解人说的话，能让计算机更好的处理人类流畅的自然发音，该技术需要解决的难点很多，对它的研究是今后的目标之一。

②语音识别技术与多媒体技术的结合。今后的发展，人类对语音信号的需要将不仅仅局限于可懂性和正确性上了，而是需要在合成语音的美感的同时并输出辅助的视频特征，实现主持人的效果。

③不同语种的解决。不同民族有不同的语言，在如今开放的信息网络时代，不同语言之间的交流显得十分重要，因此，多语种的合成有着独特的应用价值。例如，在自动

电话翻译、有声电子邮件等应用中都涉及到了多语种合成的需求。 1.3 语音识别系统的基本构成

语音识别系统的总体结构如图1.1。首先通过语音的录制作为输入信号，输入的模拟语音信号要进行预处理，包括预滤波、采样和量化、加窗、端点检测、预加重等等。经过预处理后，接下来就是重要的一环：特征参数提取。要求是：（1）提取的特征参数要能有效地代表语音特征，具有很好的区分性。（2）各阶参数之间有良好的独立性。

（3）特征参数要计算方便，最好有高效的计算方法，以保证语音识别的实时实现。

语音输入预处理特征提取识别参考模块训练测度估计识别决策识别结果模板库专家知识图1.1 语音识别总体架构

训练阶段，将特征参数进行一定的处理之后，为每个词条得到一个模型，保存为模板库。在识别阶段，语音信号经过相同的通道得到语音参数，生成测试模板，与参考模板进行匹配，将匹配分数最高的参考模板作为识别结果。

2语音信号的数字模型及采集

2.1 概述

为了实现语音识别，首先得对语音信号产生的原理进行一个剖析，因此，我们只有在对人的发声器官和发声机理进行研究的基础上，才能够清晰的理解到语音信号产生的数学模型。当然，人类的发音过程过于复杂性和语音信息的丰富性及多样性，所以至今为止仍未找到一种能够准确描述语音产生过程。

同样，作为接受信息的人耳的听觉系统，其听觉机理也是相当复杂的。本章将简单介绍人发声及收听的基本原理，重点介绍计算机的模拟函数wavrecord和wavplay。 2.2 语音的发音原理 2.2.1 人的发声器官

人类的语音是由人的发声器官在大脑控制下的生理运动产生的。主要由三部分组成：

共9页:

基于MATLAB的特定人语音识别算法设计 - 图文(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档