人脸识别的研究始于60年代末,最早的研究见于文献[7],Bledsoe以人脸特征点的间距、比率等参数为特征,建成了一个半自动的人脸识别系统.而且早期人脸识别研究主要有两大方向:一是提取人脸几何特征的方法[7],包括人脸部件规一化的点间距离和比率以及人脸的一些特征点,如眼角、嘴角、鼻尖等部位所构成的二维拓扑结构;二是模板匹配的方法,主要是利用计算模板和图象灰度的自相关性来实现识别功能.Berto在1993年对这两类方法作了较全面的介绍和比较后认为,模板匹配的方法优于几何特征的方法[8].目前的研究也主要有两个方向:其一是基于整体的研究方法,它考虑了模式的整体属性,包括特征脸(Eigenface)方法、SVD分解的方法[9]、人脸等密度线分析匹配方法[10]、弹性图匹配(elasticgraphmatching)方法[11]、隐马尔可夫模型(HiddenMarkovModel)方法[12]以及神经网络的方法等;其二是基于特征分析的方法,也就是将人脸基准点的相对比率和其它描述人脸脸部特征的形状参数或类别参数等一起构成识别特征向量.这种基于整体脸的识别不仅保留了人脸部件之间的拓扑关系,而且也保留了各部件本身的信息,而基于部件的识别则是通过提取出局部轮廓信息及灰度信息来设计具体识别算法.文献[8]认为基于整个人脸的分析要优于基于部件的分析,理由是前者保留了更多信息,但是这种说法值得商榷,因为基于人脸部件的识别要比基于整体的方法来得直观,它提取并利用了最有用的特征,如关键点的位置以及部件的形状分析等,而对基于整个人脸的识别而言,由于把整个人脸图象作为模式,那么光照、视角以及人脸尺寸会对人脸识别有很大的影响,因此如何能够有效地去掉.,[6]
[3]
第11期张翠平等:人脸识别技术综述
887
脸识别方法而言也有困难,其难点在于如何建立好的模型来表达识别部件.近年来的一个趋势是将人脸的整体识别和特征分析的方法结合起来,如Kin-ManLam提出的基于分析和整体的方法,AndreasLanitis提出的利用可变形模型(FlexibleModels)来对人脸进行解释和编码的方法[14].
在介绍重要的人脸识别方法之前,先扼要说明一下应用于人脸识别的其它方法.其中SVD方法和特征脸识别方法同属统计分析的范畴,都是将表达人脸的大量图象数据降维后进行模式分类,其区别仅是变换基的给出不同;而等密度线的分析方法则试图通过从二维的人脸图上抽取等密度线(即等灰度线)来反映人脸的三维信息,其根据是地图上的等高线能反映地形特征,那么通过不同人脸的等密度线也可比较人脸的相似度;HMM是语音处理中成功的一种统计方法;而神经网络方法通常需要将人脸作为一个一维向量输入,因此输入节点庞大,其识别重要的一个目标就是降维处理.根据文献[15]对于自组织神经网络方法的分析,该文认为可采用自组织神经网络的P个节点来表达原始的N个输入(P<N),但由于将P个输出进行分类,其识别的效果仅相当于提取人脸空间特征向量后进行的识别分类,因此采用此类神经网络进行识别的效果只能是特征脸的水平,所以本文将不对神经网络作专门介绍.需要说明的是,由于人脸处于高维空间,如100×100的图象为10000维,这样神经网络的输入节点将很庞大,因此实际训练网络的时候参数繁多,实现起来很困难,但神经网络方法的优点是可以针对特定的问题进行子空间设计,如神经网络的方法可以用作性别识别等问题[15].
[13]
是训练样本集的总体散布矩阵,也可以是训练样本集的类间散布矩阵,即可采用同一人的数张图象的平均来进行训练,这样可在一定程度上消除光线等的干扰,且计算量也得到减少,而识别率不会下降.
也就是说,根据总体散布矩阵或类间散布矩阵可求出一组正交的特征向量u1,u2,…,un,其对应的全部特征值分别为λ1,λ2,…,λn,这样,在新的正交空间中,人脸样本X就可以表示为
n
X=
∑Xu
i=1
ii
(1)
若通过选用m(m<n)个特征向量作为正交基,则在该正交空间的子空间中,就可得到以下近似表达式
m
X=
∑Xu
i=1
ii
(2)
如将子空间的正交基按照图象阵列排列,则可以
看出这些正交基呈现人脸的形状,因此这些正交基也被称作特征脸,这种人脸识别方法也叫特征脸方法.关于正交基的选择有不同的考虑,即与较大特征值对应的正交基(也称主分量)可用来表达人脸的大体形状,而具体细节还需要用与小特征值对应的特征向量(也称次分量)来加以描述,因此也可理解为低频成分用主分量表示,而高频成分用次分量表示.其中,采用主分量作正交基的方法称为主分量方法(PCA).同时,也有人采用m个次分量作为正交基,原因是所有人脸的大体形状和结构相似,真正用来区别不同人脸的信息是那些用次分量表达的高频成分.由训练得到特征脸后,将待识别人脸投影到新的m维人脸空间,即用一系列特征脸的线性加权和来表示它,这样即得到一投影系数向量来代表待识别人脸,这时候,人脸识别问题已转化为m低维空间的坐标系数矢量分类问题,而分类最简单的做法是最小距离分类.KL变换在90年代初受到了很大的重视,实际用于人脸识别也取得了很好的效果,其识别率从70~100%不等,这取决于人脸库图象的质量.从压缩能量的角度来看,KL变换是最优的,它不仅使得从n维空间降到m维空间前后的均方误差最小,而且变换后的低维空间有很好的人脸表达能力,然而这不是说已经具有很好的人脸辨别能力.选择训练样本的散布矩阵作为KL变换的生成矩阵,是由于其最大特征向量抓住了该样本集合的主要分布,但这是图象统计,而不是人脸统计方法.它虽然考虑了图象之间所1 常用的人脸识别方法简介
1.1 基于KL变换的特征脸识别方法1.1.1 基本原理
KL变换是图象压缩中的一种最优正交变换.人们将它用于统计特征提取,从而形成了子空间法模式识别的基础.若将KL变换用于人脸识别,则需假设人脸处于低维线性空间,且不同人脸具有可分性.由于高维图象空间KL变换后可得到一组新的正交基,因此可通过保留部分正交基,以生成低维人脸空间.而低维空间的基则是通过分析人脸训练样
888
中国图象图形学报第5卷(A版)
变更或背景导致,还是属于人脸的内在差异,因此特征脸识别的方法用于人脸识别存在理论的缺陷.研究表明,特征脸的方法随着光线、角度及人脸的尺寸等因素的引入,识别率急剧下降.虽然可通过采用同一人的训练样本的平均来计算类间散布矩阵,但也只能在一定程度上纠正这个缺点.研究结果表明,主分量的方法使得变换后表达能力最佳,次分量的方法则考虑了高频的人脸区分能力.由于对KL变换而言,外在因素带来的图象差异和人脸本身带来的差异是不加任何区分的,因此,不管如何选择正交基,也不能根本解决问题.其改善的一个思路是针对干扰所在,对输入图象作规范化处理,其中包括将输入图的均值方差归一化、人脸尺寸归一化等;另一种改进是考虑到局部人脸图象受外在干扰相对较小,在进行人脸识别时,除计算特征脸之外,还可利用KL变换计算出特征眼睛、特征嘴巴等.然后将局部特征向量加权进行匹配,就能够得到一些好的效果.