a) 低密度 b) 中低密度 c) 中密度 d) 中高密度 e) 高密度
图2.9 密度等级图
2.3 人脸检测方法
目前,人脸检测是目标检测中较为成熟的一个方面。但由于人脸检测摄像机不定,检测场景不定,受光照等外在因素和人脸附着物等内在因素影响,人脸检测也更为复杂,挑战也更大,但方法也更多。
2.3.1 常用人脸检测方法
目标检测分为静态背景目标检测和动态背景目标检测两部分。本文研究的人脸检测属于运动背景目标检测的范畴。本文将目前人脸检测领域常用的算法归结为以下几类[40]:
a) 基于模板匹配的人脸检测方法
模板匹配法属于一种经典的模式识别方法。模板匹配方法易于实现,但是对于人脸检测来说,效率有限。早期的人脸检测主要以基于模板的方法为主,主要有预定义模板法和可变形模板法两种。预定义模板法根据人脸的先验知识先设计出一个标准的人脸模板,包括人脸轮廓模板和各个器官特征的子模板,然后用窗口缩放的方法对一幅输入图像进行全局搜索,对应不同尺寸的图像窗口,计算它们与人脸轮廓模板的相关系数,通过预先设定的阈值来判断该图像窗口是否包括人脸候选区域,最后利用器官特征子模板进一步检测人脸候选区域是否包含人脸。但是人脸特征变化较大,当得到固定的模板以后,也无法有效处理姿态的变化,所以后来引入了可变形模板。可变形模板定义一个人脸可变形参数模板和一个能量函数来描述人脸特征,通过线性最优化方法求得使能量函数取值最小的参数模板,此参数模板即被认为是所求人脸特征的描述。可变形模板充分考虑了人脸是个变形体的特点,较预定义模板法更加稳定可靠,而且与姿态和光照无关,缺点
是存在能量函数的系数难以适应一般情况和计算量大的问题。
b) 基于肤色区域分割的人脸检测方法
基于肤色分割的人脸检测方法是利用人脸的颜色与其它非目标颜色不同而将人脸与非目标区分开来进行人脸检测。颜色在目标检测和跟踪中有重要的作用。对于彩色图像,在确定肤色模型后,首先进行肤色检测,在检测出肤色区域后,根据它们在色度上的相似性和空间上的相关性分割出可能的人脸区域,同时利用区域的几何特征或灰度特征进行是否是人脸的验证,以排除其它色彩类似肤色的物体。区域分割与验证在很多方法中是密切结合、统一考虑的。聚类-归并-验证策略是目前基于肤色分割的较常用的方法:首先将肤色像素按照较为严格的颜色一致性和几何约束条件聚类为区域,然后按照一定规则进行归并,归并过程中或归并后利用其它特征进行验证。Garcia[41]等按照色度的差异将肤色进一步量化为不同类型,将类型相同且相邻的肤色像素聚类为区域,再根据几何区域、形状和色调相容性进行归并,归并过程中利用区域的小波特征进行验证。基于颜色分割并与验证相结合的人脸检测算法有一定的适用范围,当图像分辨率不高或者当人脸的姿态(图2.10)难以满足人脸本来的对称状态或者人脸被部分遮挡时,此种人脸检测算法漏检率上升。在图2.10中,第一幅图像和第二幅图像中,人脸被其它物体遮挡;第三幅图像和第四幅图像中,人脸姿态改变,分别向左和向右旋转。第五幅图像中,人脸姿态发生改变,发生了低头的动作。图2.10中所示图像均已不满足人脸的对称特性。
图2.10 不同姿态的人脸
c) 基于启发式模型的人脸检测方法
基于启发式模型的方法首先抽取几何形状、灰度纹理等特征,然后检验它们是否符合人脸的先验知识。人脸区域内的各个器官具有较为恒定的模式,因此一些方法首先检测器官(如双眼、鼻子、嘴等)局部特征,然后根据它们的相对位置关系判断整个区域是否为人脸。可以使用人工神经网络将检测出的眼睛、鼻子、嘴以及人脸的整体特征及相互间的位置关系输入一个模糊神经元网络,根据其中的领域知识判断被检测的区域是否为人脸。采用局部特征检测的方法还有基于双眼检测的方法、基于概率框架的局部特征聚类方法以及结构模型、纹理模型和特征模型相结合的方法等。人脸灰度模板也可以看作是一种启发式模型。梁路宏[40]等使用了直接的平均脸模板匹配方法。该方法考虑到眼睛在人类辨识人脸过程中的特殊作用,使用双眼模板首先进行粗筛选,然后使用不同高宽比的人脸模板进
行匹配,最后使用马赛克规则进行验证,使用的模板如图2.11所示。
图2.11双眼模板和不同高宽比的人脸模板
d) 基于表象的人脸检测方法
与模板匹配不同,基于表象的人脸检测模型是从一系列具有代表性脸部表观的训练图像学习而来,再将学习而成的模板用于人脸检测。现在常用的人脸检测算法均是基于表象的方法。基于表象的方法利用统计分析或机器学习技术来寻找人脸和非人脸图像的有关特性。学习而来的特性总结成分布模型或判别函数来检测人脸。基于表象的方法可以在概率论的框架中理解。特征向量可以看成随机变
)分别描述成量x,这个随机变量被分类条件密度函数p(x|face)和p(x|nonface人脸和非人脸。图像中备选的人脸或者非人脸位置可以用贝叶斯判决规则或者最大似然法来判别,将后验概率估计转化为一个似然度求解问题,如公式2.5所示。
p(x|face)??p(x|face)?faceface??p(face) (2.5)
p(face)基于机器学习的检测是目前比较流行的一种人脸检测方法,包括基于人工神经网络和SVM等。图2.12给出了Rowley[40]的基于人工神经网络的人脸检测框架。
目前基于人工神经网络和基于SVM等的检测方法都获得了较好的检测结果,并且基于人工神经网络和基于SVM等的方法也在人脸识别领域得到越来越广泛的研究与应用。
正面人脸检测输入图像窗口提取位姿估计预处理半侧面人脸检测结果判断检测结果侧面人脸检测图2.12 Rowley基于人工神经网络的人脸检测算法框架
2.3.2 主要问题
人脸具有相当复杂的细节变化,不同的外貌,如脸型、肤色等,不同的表情,如眼、嘴的开与闭等,甚至可能有器官的缺失。有可能人脸被人身体的附着物所遮挡,例如眼镜、头发和头部饰物等也有可能被其它外部物体所遮挡。由于成像
角度的不同可能造成人脸的多姿态,如平面内旋转、深度旋转以及上下旋转等,其中深度旋转影响较大。图像中的亮度、对比度的变化和阴影也会影响人脸检测。
虽然人脸检测技术有了较大的发展,但是由于各种变化因素的影响,还有很多需要解决的问题:
1) 目前的人脸检测还很难对任意姿态、光照和遮挡等变化进行处理,开发高性能的人脸检测方法仍是主要的研究方向。由于不同的人脸描述的方式有不同的特点,不同的分类器产生的分类结果也不尽相同,所以多种特征提取算法的融合和多个分类器的融合有可能有效提高检测性能。
2) 目前很多高性能的人脸检测算法不能实时性处理视频或图像,简单快速的人脸检测算法鲁棒性不高,检测准确率有待进一步提高。
3) 由于人脸模式具有多样性,导致人脸图像的空间分布非常复杂,有限的样本集难以覆盖全部人脸图像子空间,但是在高维空间中建立准确的分布模型比较困难。因此,如何有效地描述人脸在子空间的分布值得研究。人脸局部和整体信息的相互结合能有效地描述人脸特征,有效地提取和组合局部与整体信息也是提高系统性能的一个途径。
4) 在背景比较复杂的场景图像中,如何有效地区分类似人脸区域和真正的人脸区域很重要,也具有一定难度。神经网络、SVM和贝叶斯分类器等通常能获得好的分类结果,研究新的分类方法是提高检测性能的另一个重要途径。
随着图像处理、模式识别和人工智能等学科的研究发展,人脸检测技术必定会获得更广阔的发展。
2.4 人脸跟踪方法
人脸跟踪的技术特性主要包括跟踪速度和定位的准确度等。跟踪算法需要能够在任何复杂的背景中准确的定位到目标。进行人脸跟踪和信息提取前,需要一个图像坐标转换到世界坐标的过程。
2.4.1 常用摄像机标定算法
摄像头标定算法是计算目标运行速度和位置等参数的前提。摄像机标定是为了确定摄像机的位置、属性参数和建立成像模型,以便确定空间坐标系中物体点与它在图像平面上像素点之间的对应关系。标定分为二维标定和三维标定。单摄像头不能采集到图像的深度信息,二维标定主要针对单摄像头的拍摄情况。多个摄像头拍摄的情况下,根据多个摄像头的协作情况,可以得到图像的深度信息,得到世界的三维坐标,因此三维标定主要针对多摄像头协作拍摄情况。由于地铁环境中只有单摄像机进行拍摄,本文检测人脸进行客流的流量计算,并且对人脸
进行跟踪以计算速度,所以假设人脸均在距离地面1.7m的平面上,对此平面进行标定。
根据算法是否需要摄像头内参将摄像头标定算法分为两类。在将图像坐标转换为实际坐标时,在同样准确率的情况下,所需图像知识越少越好。摄像机模型是光学成像几何关系的简化,比较简单的模型是线性模型,或称为小孔成像模型。在理想的摄像头小孔成像模型中,现实世界坐标和图像坐标的关系如公式2.6所示。
公式2.6中(Xc,Yc,Zc)为摄像机坐标系下某点坐标;(u,v)为图像中像素坐标。Su,Sv,U0,V0,f均为摄像机内参。在理想的小孔成像模型下,若知道摄像机内参,可以得到图像像素坐标与世界坐标的一一对应关系。或得知两个坐标系中足够多像素对应关系,可以得到式2.6中摄像机内参,也可以得到图像像素坐标与世界坐标的一一对应关系。但是在摄像机成像过程中,由于摄像机的光学成像系统与理论模型之间的差异,图像产生不同程度的畸变,在不同图像位置对应的摄像机内参也不同。整幅图像采用同一种摄像机内参不能满足计算精度。
?f?S?u??u???0Zc?v?????1????0???0U00??X???c?f?YV00??c? (2.6)
?Z?Sv??c?010??1???文献[16]提出了摄像机的非线性模型。图2.13给出了此方法的标定过程。此方法是在摄像机线性模型基础上做的改进。由于不同图像位置对应不同的摄像机内参,此方法将图像分成多个网格,每个网格对应不同的摄像机内参,对每个网格分别进行拟合,求出摄像机内参进而求出每个网格中两个坐标系点与点间对应关系。此种方法精度有较大提高,但是由于对每个网格进行拟合,导致系统出现了几个缺点:(1)对系统消耗资源大。监控区域越大,所需网格数越多。所需的两个坐标系中对应的点数越多。而且,由于对每个网格单独进行拟合,每个网格中对应的摄像机内参不同。在计算图像某点坐标的世界坐标时,需要首先判断该点所在的网格区域,然后找出与此点对应的摄像机内参,才能求此点的世界坐标。(2)只能对网格区域进行准确标定。由于只能求出网格内摄像机内参,所以只能求网格区域内两个坐标系下点与点对应关系。