哈尔滨学院本科毕业论文(设计)
Abstract
Pattern recognition is machine recognition, computer identification or machines automatic identification, for the purpose of machine, automatic identification machine can do things only by human beings to do before, have the person place has to all kinds of things and phenomena of description and analysis, part of the ability to judge. It is the purpose of the research is to use computer to classify physical objects in error probability, the smallest conditions, make the result of identification with consistent objective things as far as possible.
As people opposite artificial neural network of constantly understanding, neural network in certain degree and level of the cranial nerve system imitation of information processing, storage and retrieval function, thus has the learning, memory and calculation, intelligent processing function, and has good adaptive, self-learning function, can use such prominent characteristics of MATLAB neural network toolbox, neural network model for trained neural network can effectively extract signals, voice and image of perception mode characteristic, and can solve the existing heuristic pattern recognition system can't well settled invariant detection, abstract and generalization.
This paper introduces based on BP neural network pattern recognition. Put forward the BP neural network in different areas of application, identification, feature extraction method, finally to based on BP neural network to identify the letters, through experiment sample data, form good learning and training of network, finally to has trained network for inspection, concluded that the result of the experimentation.
Key words:pattern recognition;artificial neural network;neural network model;BP neural network
2
哈尔滨学院本科毕业论文(设计)
第一章 模式识别概述
1.1 引 言
模式识别作为一门新的学科,从1960年代开始逐渐应用于各科技及工业领域。尤其,人脸识别、声音识别、指纹识别、医学诊断领域的研究应用,使模式识别成为一门热门的学科。模式识别,研究的内容是让机器通过学习自动识别事物。但传统的模式识别方法,很难完成人脸识别、声音识别等需要直接感知外界信息领域的识别任务。因此,近些年来结合神经网络来研究模式识别成为一个新的课题。
神经科学作为一门科学起始于19世纪末。近几十年来,神经科学和脑功能研究的发展极为迅速。人工神经网络由于其自组织和非算法特性,在模式识别应用方面有很大的发展潜力。在神经网络模式识别系统中,用得最广泛的要算是BP神经网络。1986年,Rumelhart等人在多层神经网络模型的基础上,提出了多层神经网络模型的反向传播学习算法,它是基于误差前向传播(Error Back Propagation,简称BP)算法的一种具有非线性连续转移函数的多层前馈网络。BP算法,解决了多层前向神经网络的学习问题,证明了多层神经网络具有很强的学习能力,它可以完成许多学习任务,解决了许多实际的问题。
本文主要介绍BP神经网络在模式识别中的应用,并结合实例予以说明。
1.2 模式识别基本概念
模式识别就是机器识别、计算机识别或者机器自动化识别,目的在于让机器自动识别事物,使机器能做以前只能由人类才能做的事,具备人所具有的对各种事物与现象进行分析、描述与判断的部分能力。它研究的目的就是利用计算机对物理对象进行分类,在错误概率最小的条件下,使识别的结果尽量与客观事物相符合。机器辨别事物最基本的方法是计算,原则上说是对计算机要分析的事物与标准模板的相似程度进行比较计算。
对于一些比较简单的模式识别问题,可以认为模式识别就是模式分类。如对于识别“0”到“9”这10个阿拉伯数字的课题研究,可以将其转化为把待识别的字符分为从“0”到“9”这十类中某一类的问题。但是,对于比较复杂的识别问题,仅用简单的模式分类就很难实现模式识别,因此还需要对待识别模式进行有关特征描述。
在模式识别技术中,被待观测的每个对象称为样品。对于一个样品来说,必须确定一些与识别有关的因素作为研究的依据,每一个因素称为一个特征。模式就是样品所具有特征的描述。模式特征集又可用处于同一个特征空间的特征向量表示。如果一个样品X有n个特征,则可以把X看作一个n维列向量,该向量X称为特征向量。
3
哈尔滨学院本科毕业论文(设计)
这样,模式识别问题就是根据X的n个特征来判断模式属于哪一类。待识别的不同模式都在同一特征空间中考察,不同模式类由于性质上的不同,它们在各特征取值范围内有所不同,因而会在不同的特征空间的不同区域中出现,因此,模式识别系统的目标是在特征空间和解释空间之间找到一种映射关系。特征空间由从模式得到的对分类有用的度量、属性以及基元构成的空间。解释空间是由所有不同所属类别的集合构成。正因如此,在模式识别过程中,要对许多具体对象进行观测,以获得许多观测,其中有均值、方差、协方差和协方差矩阵等。
1.3 人工神经网络的发展历史
1943年,心理学家McCulloch和数学家Pitts提出了形式神经元的数学模型; 1949年,心理学家Hebb提出了神经元学习的准则;
20世纪50年代末,Rosenblatt提出了感知器模型,引起了神经元研究的广泛兴趣; 1969年,Minsky等人指出了感知器的局限性,神经网络的研究热潮下降; 1982年,Hopfield提出了一种神经网络的动力学模型,可以用于联想记忆和优化计算;
1986年,Rumelhart等人提出了多层感知器模型,克服了感知器模型的局限性,使得人工神经网络的研究再度受到重视。
1.4 模式识别系统
对于一个具体的模式识别问题,一般要进行数据采集、数据预处理、特征提取与选择以及模式分类四步骤。研究模式识别过程实际上就是实现由数据空间经特征空间到类别空间的映射。在模式识别中,通常将经数据预处理后的原始数据所在的空间称为测量空间,把分类进行的空间叫做特征空间。
4
哈尔滨学院本科毕业论文(设计)
一个模式识别系统是由学习模块和测试模块两个模块组成,如图1-1所示:
未知模式特征提取和选择 学习模块 位置模式 数据获取 数据预处理 模式分类决策 识别结果 测试模块 训练样品特征 数据获取 数据预处理 训练样本特征提取和选择 确定判别规则 调整特征提取与选择 误差检测 改进判别规则
图1-1 模式识别系统示意
在两个模块中都需要数据的预处理,而数据预处理功能是多方面的,如除去噪声信号的边缘影响;将研究有关的模式分离;对模式样品标准化等。训练模式样本的特征数据输入过程,就是将已知的模式样品进行数值化后载入计算机。这样对于输入样品进行分析,除去对分类无用或者易造成混淆的特征,尽量保留对分类判别有效的数值特征,于是完成模式识别的特征选择。接下来就是按照设定的分类判别模型对给定的训练样品进行训练,得到分类的判别规则,有了判别规则就可以进行模式识别过程,最后得到输出识别结果。
1.5 模式识别的主要方法
模板匹配方法、结构模式识别和统计模式识别是目前常用的模式识别方法。模板匹配模式识别是通过比较待识别模式和已有模式的相似程度来达到识别模式的目的,也是应用最早最简单的模式识别形式。随着科学技术的发展和研究对象的深入,模式识别问题也变得非常复杂多变,这就要求人们对于事物的识别不仅局限于简单的模式分类,还需要应对模式结构作全面完善的描述,从而需要运用结构模式识别方法。但是目前,研究最多也较为深入的模式识别方法是统计模式识别,神经网络模式识别技术也可以归为到这类方法中。在统计模式识别中,每一个模式采用多维特征或测量值来表示,最终的目的是由这些特征构成的空间能将各模式类有效的分离。
统计模式识别主要研究对象的因素包括特征的提取和优化、分类判别和聚类判别。如何确定合适的特征空间是设计模式识别系统一个非常重要的问题,对特征空间进行优化可以采用特征选择和特征组合优化两种基本方法。对于已知若干个样品的类别以及特征,我
5
哈尔滨学院本科毕业论文(设计)
们需要对分类问题建立一个样品库。根据这些样品库建立判别分类函数,这就让机器学习来实现,然后对某些未知的新对象分析它们的特征以至决定它们属于哪一类,就需要有教师学习的方法。有时候,已知若干对象和它们的特征,但不知道每个对象属于哪一类,而且事先也并不知道究竟分为几类。这样就可能需要考虑用某种相似性度量的方法,即运用“物以类聚,人以群分”的思想,把特征相似或相同的归为同一类,这样就采用了无教师的学习方法。
1.6 模式识别应用
模式识别技术已广泛应用于文字识别、语音识别、图像识别、指纹识别、身份识别、医学诊断、工业产品检测等众多科学领域。模式识别技术同时也是人工智能的基础技术。随着科学技术的不断发展,模式识别不断发展和完善,模糊理论、神经网络、遗传算法和支持向量机等研究成果也渗透进来,融合形成了解决复杂问题的一种有效机制。
在运用模式识别技术中,我们需要根据具体问题与模式识别方法结合起来,同时把人工神经网络、智能计算结合起来,逐步通过模式分类、网络训练、确定优化区域,找到优化准则,从而实现优化、应用和发展。
经过多年的科学发展,文字识别是模式识别领域发展最为成熟并应用最为广泛的方面。如手写体阿拉伯数字的识别在邮政信函自动分拣上起到重要的作用。语音识别的难度和复杂度都很高,因为要提取语音的特征,不仅要分析语音的结构和语音的物理过程,还要涉及听觉的物理和生理过程。但是,语音识别课题已在不同领域中运用,尤其在身份鉴别中起到很大作用。同样地,模式识别在医学上应用也很多,如医学图片分析、染色体的自动分类、癌细胞的分类等领域。应该可以这样说,模式识别技术在科学不断发展的推动下,已逐渐被人们所认知和认同,并能结合新的有关科学研究技术,可以有效的解决复杂多变的识别问题,提供了一种分析解决问题的重要工具。
6