10116xx37周项勇-基于BP神经网络的语音识别系统-毕业设计论文

2019-05-27 21:08

基于BP神经网络的语音识别系统

摘要

随着计算机技术与人工智能的快速发展与广泛应用，语音识别越来越受到人们的关注和重视。目前常见的语音识别技术主要包括，基于矢量量化(Vector Quantization, VQ)的识别技术、动态时间规整(Dynamic Time Warping, DTW)、隐马尔可夫模型(Hidden Markov Models, HMM)、人工神经网络(Artificial Neural Network, ANN)等等。

本文讨论了语音信号的处理技术，包括语音信号预处理、信号特征提取，分析论述了BP神经网络模型思想。在Matlab 7.0环境实现了语音信号的预加重、分帧加窗、端点检测等基本信号处理过程，提取出线性预测分析系数(Linear Prediction Coding, LPC)、Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)等特征数据。

针对语音识别，设计了三层的BP神经网络，对影响神经网络的关键参数进行了分析和调整。从统计角度上，分析对比了LPC和MFCC特征参数对应的BP神经网络的语音识别性能。

关键词：语音识别；神经网络；特征提取；语音信号处理；非稳定随机信号

洛阳师范学院2012届本科生毕业设计

Abstract

With speedy development and comprehensive application of computer technology and artificial intelligence, people began to focus on speech recognition. Up to now, there have been several speech recognition technologies being familiar by us, including Vector Quantization, Dynamic Time Warping, Hidden Markov Models, Artificial Neural Network, and so on.

This paper would go into details about some processing technologies of speech signal, including pre-process of speech signal and feature extraction, would relate and analyze the principle of the model of feedforward neural network based on back-propagation algorithm (BPNN). In Matlab2007 environment, those experiments have implemented some basic operation of signal processing, such as pre-emphasis, enframing, windowing and endpoint checking of speech signal, extracted corresponding Linear Prediction Coding Coefficient (LPC) and Mel Frequency Cepstrum Coefficient (MFCC) from speech’s data, and constructed BP neural network.

A endpoint checking algorithm having good performance is given in the paper. In the process, all the parameters are analyzed and setted properly in order to fetch the actual speech segment from the original speech accurately. A three-layer BPNN is designed for speech recognition system; the critical parameters of BPNN is studied. Statistically, it compares LPC’s BPNN with MFCC’s BPNN on the speech recognition ability. In the end, a strategy of reducing similar frame is proposed to solve the problem of the non-stationary of speech’s times. It also reduces the calculated amount of speech recognition system at the same time.

Keywords: Speech Recognition; Neural Network; Feature Extraction; Speech Signal Processing; Non-stationary Stochastic Signal

基于BP神经网络的语音识别系统

第1章绪论................................................................................................................... 1 1.1语音识别概述....................................................................................................... 1 1.2语音识别的发展................................................................................................... 1 1.2.1 语音识别的研究历史................................................................................... 1 1.2.2 语音识别的应用现状................................................................................... 2 1.3语音识别的主要技术........................................................................................... 4 1.3.1 基于矢量量化的语音识别........................................................................... 4 1.3.2 动态时间弯曲的语音识别........................................................................... 4 1.3.3 隐马尔科夫模型语音识别........................................................................... 5 1.3.4 基于神经网络的语音识别........................................................................... 6 1.4 语音识别的基本原理.......................................................................................... 6 第2章语音信号预处理............................................................................................... 8 2.1预加重................................................................................................................... 8 2.2分帧加窗............................................................................................................. 10 2.3 端点检测............................................................................................................ 12 第3章语音信号特征提取......................................................................................... 19 3.1线性预测系数..................................................................................................... 19 3.1.1 线性预测分析思想..................................................................................... 19 3.1.2 线性预测分析原理..................................................................................... 20 3.1.3 线性预测方程组的求解............................................................................. 21 3.2 MEL频率倒谱系数（MFCC） ........................................................................ 22 3.2.1 MEL频率倒谱分析原理 ............................................................................ 22 3.2.2 MEL频率倒谱的实现 ................................................................................ 23 第4章神经网络模型分析......................................................................................... 25 4.1 神经网络基本模型............................................................................................ 25 4.1.1 神经元结构模型......................................................................................... 25 4.1.2 神经网络互连模式..................................................................................... 26 4.1.3 神经网络的学习方式................................................................................. 27 4.2 BP神经网络基本模型....................................................................................... 27 4.2.1 BP神经网络结构分析................................................................................ 27 4.2.2 BP神经网络学习规则................................................................................ 28 4.2.3 传递函数..................................................................................................... 30 第5章语音识别系统的实现与分析......................................................................... 32

III

洛阳师范学院2012届本科生毕业设计

5.1语音识别系统前端............................................................................................. 32 5.1.1 语音库......................................................................................................... 32 5.1.2 实验环境..................................................................................................... 32 5.1.3 前端参数..................................................................................................... 32 5.2 BP神经网络实现与分析................................................................................... 34 5.2.1 BPNN的Matlab函数................................................................................. 34 5.2.2 BPNN的层次设计 ...................................................................................... 35 5.2.3 参数分析..................................................................................................... 35 5.2.4 LPC与MFCC效果分析 ............................................................................ 37 第6章总结和展望..................................................................................................... 39 6.1主要工作总结..................................................................................................... 39 6.2展望..................................................................................................................... 39 参考文献....................................................................................................................... 41 致谢............................................................................................................................... 42

基于BP神经网络的语音识别系统

第1章绪论

1.1语音识别概述

语言是人类相互间传达信息的最重要工具，它方便快捷有效。随着现代计算机技术的发展与广泛应用，人们越来越希望计算机不只是能理解和执行程序语言，也能理解人类自然语言，与人类进行沟通。早期根据语音只能模拟出连续变化的电压信号，并采用模拟电路进行传输和处理。数字技术的发展，使得对连续变化的信号可以进行采样量化。高效低耗的数字传输和处理技术促进了信号处理的快速发展，语音识别技术就是基于离散时间语音信号处理的。从20世纪中期起，开始有许多的科学工作者投身语音信号技术研究：语音识别、语音合成、语音编码等等。

语音识别(Speech Recognition)是指，计算机从人类获取语音信息，对语音信息进行分析处理，准确地识别该语音信息的内容、含义，并对语音信息响应的过程。语音识别是一门新兴学科，它与许多领域有着密切联系，其中包括数字信号处理、模式识别、人工智能、统计信息理论、语言学、声学、心理学等。语音识别与这些领域是相辅相成的。

语音识别一般可以分成以下类别：按说话人的说话方式，分为孤立词语识别系统、连接词语识别系统和连续语音识别系统；按对说话人的依赖程度，分为特定人语音识别系统和非特定人语音识别系统；根据词汇量的大小，分为小、中、大词汇量语音识别系统；根据通信方式，分为麦克风语音识别和电话语音识别系统；也有可识别说话人语言情感的系统等等。

语音信号具有非稳定随机特性，这使得语音识别的难度大。目前人类甚至仍没有完全理解自身听觉神经系统的构造与原理，那么要求计算机能像人类一样地识别语音信号很有挑战性。语音信号包含的信号量大，即使部分信号是无意义的噪声，因而处理信号时计算量大，不利于实时处理。

1.2语音识别的发展

1.2.1 语音识别的研究历史

对语音识别的研究始于20世纪50年代。1952年贝尔实验室Davis等人研制了特定说话人孤立数字识别系统。该系统利用每个数字元音部分的频谱特征进行识别。1956年普林斯顿大学的RCA实验室使用滤波器组获得频谱的方法开发了单音节词识别系统。MIT 林肯实验室也采用滤波器组获得频谱信息，同时采用时变估计技术对元音进行识别。

20世纪60年代，日本许多学者使用特殊硬件来进行语音识别。东京无线电研

共8页:

10116xx37周项勇-基于BP神经网络的语音识别系统-毕业设计论文.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档