的序列,或者玩游戏是动作的序列。一些模型提取静态和动态显著图,并提出算法来融合他们(比如Jia Li等人[133]以及Marat等人[49])。在[103]中,提出一个基于视频时空注意力模型,通过组合两幅图像之间的差异的运动对比和从颜色直方图中计算出来的时间对比。视觉实现环境VR也被使用
[99][109][97]。一些其他处理时间维的模型是[105][108][103]。我们将在后面介绍这些模型。
因素f3显示了一个模型是否仅仅用到时域信息或者利用时空信息估计显著性。
2.3显式注意和隐式注意
基于显式的注意和隐式的注意是不同的。显示注意力是将视网膜导向激励的过程,而隐式注意力心理上注意一些可能的输入激励。隐式注意力的一个例子是,当一个人在说话时,他的视网膜周围区域也是关注着整个视觉区域。另一个例子是在开车中,司机在关注马路的同时,下意识地关注着路标和红绿灯的状态。当前的观点是隐式注意是一种用来快速扫描感兴趣区域。这种隐式转换与眼球运动回路有关,这种回路建立感兴趣区域的一个扫描回路[203]。然而,这也不能完全解释隐式注意和显示注意的复杂的交互关系。比如,有可能注意到右手边的角的视野,而同时积极的抑制眼球移动到那个位置。很多模型检查了那些吸引眼球的区域,但是很少能解释伴随着头的运动的眼睛的显示取向。缺少对显式注意计算框架的原因可能是显式注意的行为机制和功能依然是未知的。并且,我们不知道如何去度量显式注意。
由于显式注意和隐式注意的大量的重叠和他们也不是相互排斥的概念,显著模型能够考虑同时对显式机制和隐式机制进行建模。然而,对这个主题的深入探讨超出了本文的范围,也需要在其他地方做特殊的处理。 2.4 基于空间模型VS基于物体模型
对于注意力尺度的单元没有统一的认识:我们注意的是空间位置、是特征、还是物体?大量的心理学和神经生理学研究都是基于空间的注意力模型(比如Posner's spatial cueing paradigm[98][111])。同时也有大量的证据支持基于特征的注意力模型(在一个特征维度里检测就的东西[81]或者特征选择神经元的曲率调节[7])和基于物体的模型(选择性地注意到两个物体中的一个,比如人脸和花瓶的错觉图[112][113][84])。当前的观点认为这些理论并不相互排斥,视觉注意力能够分布到每个候选的单元点上,同时也暗示着没有单一的注意单元。人类有能力同时注意到多个感兴趣的区域[114][115]。
在现有的模型中,大多数模型都是基于空间的(见图7)。也可以认为人类以物体作为top-down注意的基本工作和推理单元[84](与纯像素值相比)。先前提出一些基于物体的模型,但他们没有对于眼睛注意力的解释(比如,Sun and Fisher[117],Borji等人[88])。这个缺点使得验证模型变得困难。比如,Sun and Fisher[117]模型的缺点是用人对图像进行分割,他引入了那些在前
注意阶段(在物体被认知的阶段之前)并不存在的信息。现有的带有物体标签的图像和视频库(比如 LabelMe Image and Video[116][188])能够在这个方向做有效的研究。基于物体和基于空间模型之间的关系有待将来解决。基于特征的模型(比如[51][83])调整特征探测器的属性,试图使在分散的背景中令物体变得更加显著。由于物体和视觉特征的紧密关系,本文将基于特征的模型归类到基于物体的模型,见图7.
第九个特征f9表示一个模型是否是基于空间的或者基于物体的,意味着他在物体上进行计算而不是单纯的像素值。 2.5 特征
传统上,根据特征组合理论(FIT)和行为研究[81][82][118],三个特征用于计算注意力的框架模型:亮度(或者亮度对比),颜色和方向。亮度同时是三个颜色通道的平均值(比如[14][117],然后通过受LGN和V1皮层内神经元响应启发的中心-周围对比处理。颜色受V1皮层内对比颜色神经元的启发,提取红绿和蓝黄通道。颜色同样也可以用其他空间,比如HSV[50]或Lab[160]。方向则通常利用方向Gabor滤波器处理。运动信息第一次在[119]中被使用,对图像使用定向模板(在大脑运动区域,主要包括MT和MST区域,主要感知运动方向)。一些研究同样加入一些特定的feature来引导注意力,比如皮肤色调[120],人脸[167],水平线[93],小波[133],gist[92][93],中心偏执[123],曲率[124],空间分辨率[125],光流[15][126],flicker[119],多重叠取向(交叉或角落)[127],墒[129],ellipses[128],对称性[136],纹理对比[131],above average saliency[131],深度[130]和局部中心-周围对比[189]。尽管很多模型使用有FIT[81]提出的特征,其他模型提出了一些其他特征,比如高斯差分(DOG)[144][141]和利用ICA和PCA方法从自然场景中提取的特征[92][142]。对于目标搜索,一些模型使用到了对于物体结构的描述子,比如局部方向直方图[87][199]。详细的关于视觉搜索和注意力导向的重要特征的描述,参考[118][81][82]。因素f10,基于模型使用的特征进行分类。
2.6激励和任务类型
视觉激励首先可以被分成静态(比如search arrays,静态图,因素f4)或动态(比如视频,游戏,因素f5)。视频游戏是互动的,并且高度动态的,因此很难保证每次运行时都有相同的自然顺序,尽管他们落后于自然统计,也不是具有相同的噪声分布。这个机制更加复杂,更自相矛盾,计算更复杂。他们同时包含了大量的认知行为。
第二个区分在于人工合成激励(Gabor录波器块,search arrays,漫画,虚拟环境,游戏,因素f6)和自然激励(图片,自然场景的视频,因素f7)。由于人们生活在动态的世界中,视频和交互场景提供了,相比静态图片,一个更具有说服力的面对视觉系统的任务表达方式。另外一个研究注意力行为的领域的
研究-虚拟现实场景代理-在Sprague and Ballard[109]的工作中体现。他们在VR中利用真实的human agent,并使用增强学习(RL)在导航任务中来协调行为选择和视觉感知,比如壁障,保持侧向行走和收集垃圾。
因素f8区分任务类型。三个主要的用来研究注意力模型的任务包括:(1)无约束观察任务,测试员自由的观察激励(没有任何任务或者问题,但是包含了内在的认知任务),(2)视觉搜索任务, 观测员被要求在自然场景中寻找旧的东西或者一个特定的物体,(3)交互任务。在很多现实条件下,像驾驶和踢足球这样的任务engage subjects tremendously。这些复杂的任务通常包括很多子任务,比如视觉搜索,物体跟踪和聚焦和分散注意力。 2.7 衡量准则
我们有个模型产出一个显著图S,我们必须通过与眼动数据G相比较来量化衡量。我们如何比较他们?我们把这些图想象成概率分布,利用
Kullback-Leibler(KL)或Percentile标准来衡量两个分布之间的距离。更或者我们考虑S是一个二值分类器,利用信号检测理论分析(ROC曲线下的面积AUC标准)评估这个分类器的性能。我们还能将S和G想象成随机变量,用相关系数(CC)或Normalized Scanpath Saliency(NSS)来衡量他们之间的统计关系。令一个方法是将G看成是眼动点的序列,并与从显著模型中抽取的注视点序列进行比较(编辑距离)。
从理论上将,任何模型都能用任何标准进行衡量,在图7中,我们列出因素f12表示每个模型中原作者用什么方式进行衡量。在其中,当我们使用
Estimated Saliency Map(ESM S),我们的意思是模型的显著图,我们使用Ground-truth Saliency Map(GSM G),我们的意思是通过收集所有的注意点组合成的图,或者组合所有经过人工标注的显著区域形成的图。
从另一个角度讲,注意力模型的衡量准则大体上能够分成三类:1)基于点的;2)基于区域的;3)主观评价。在基于点的评价中,从ESMs中抽取的点与从GSMs中抽取的点相比较。基于区域的评价对衡量注意力很有帮助,在区域显著数据库上通过比较从ESMs上显著区域和人工标注的区域(GSM人工标注)[133]。在[103]中,使用了评估显著图的主观分数,主观分数主要分为三个层次:“Good”,“Acceptable” 和“Field”。这个主观评价的问题在于很难讲起推广到大规模的数据库上。
下面我们将集中说明这些与文献中保持一致的评价标准,以及给他人提供参考(Percentile[134],and Fixation Saliency Method(FS)[131][182])。 Kullback-Leibler(KL)散度:KL散度通常用来衡量两个分布之间的距离。对于显著图讲,同通常是计算显著图值的分布和人眼随机注视点分布之间的距离[145][77]。令t(i)=1...N表示N个实验中的注视点。对于显著模型,ESM在人类注视点x(i,human)和随机点x(i,random)上进行采样。在这些采样点上,
显著值归一化到[0,1]之间,然后计算直方图。Hk和Rk分别表示第k个bin里的点的个数。最后KL的计算【参加原文公式1】。具有很高KL值的模型能更好的预测人类注视点的位置,因为观测者通常注视具有很大响应的小部分区域,而忽略具有很小响应的大部分区域。相对于其他评分策略[212][131]KL散度的优点在于:1)其他衡量准则往往计算Hk相对于Rk的右移值,而KL对两个直方图的任何不同都很敏感;2)KL对S的再参数化(比如S的平方,开方以及其他)具有不变性。但是KL的一个缺点是它没有明确的上界,如果两个直方图完全不同,则他们的KL散度将趋向无穷。
曲线形的面积(AUC):AUC是曲线ROC[195]下的面积。最为最流行的衡量准则,ROC用来衡量具有变量阈值的二值分类器的性能(通常用来在两种方法之间分类,像saliency VS random)。用这种方法,模型的ESM被看作是在图像每个像素点上的一个二值分类器。显著值在阈值之上的点看作是注视点,而在阈值之下的看作是非注视点[144][167]。人注视点看作是ground-truth。通过改变这个阈值,ROC曲线可以在false positive rate和true positive rate坐标上绘制出来。这个曲线下的面试显示了模型预测人眼注视点的能力大小。最理想的预测对应的score是1.这个准则具有平移不变形的优良特征,对于任何作用在saliency值上的单调递增函数,这个曲线下的面积保持不变。如何ROC的计算参考文献[192]。
线性相关系数(CC):这个衡量通常被用在比较两幅图的关系,比如图像校准,物体识别以及不等性衡量[196][197]。线性相关系数衡量两个变量的线性关系【见原文的公式2】。CC的一个有趣的优点是在单一尺度[-1 +1]下比较两个变量。当CC值接近+1/-1时,两个变量之间具有完美的线性关系。
字符串的编辑距离:为了使用这个衡量准则在显著模型产生的感兴趣区域和人眼注视点产生的感兴趣区域之间做比较,显著图和眼运动图首选要聚类成一些区域。这些感兴趣区域ROI用saliency值或者人眼注视值进行排序。结果是排好的字符串形式,像stringA=”abcfeffgdc”和StringB=“afbffdcdf”。编辑相似性距离被定义为:基于三种基本运算(删除,插入以及替换)的最佳方法。【参考其他书籍对编辑距离的阐述】参考[198][127]。对于这个范围的阐述见[127]。 2.8 数据库
已经有一些在静态图像中眼动数据库(研究静态显著性)和视频(用来研究动态显著性)。在图7中,我们列出因素f13来显示使用的数据库。这里,我们仅仅提及那些主要用来衡量和比较模型的数据库,尽管还有其他工作收集了一些特定目的的数据库(比如:驾驶,三明治制作以及block copying[135])。 图4和图5总结了图像和视频的眼动数据库。研究者同样适用鼠标滑动来跟踪注视点。尽管这些数据含有噪声,一些前期的结果表现出合理的较好的ground-truth估计。比如,Scheier and Egner[61]表明鼠标滑动模式与眼
动跟踪非常相近。基于网页的鼠标跟踪系统有TCTS实验室开发出来[110]。其他有潜力的数据库(不是眼动数据库)是手动标注的库,如PASCAL和Video LabelMe。一些工作用到了这类数据[116]。 3. 注意力模型
以下部分是对不同模型的称述和总结。本文不做翻译。具体请参考原文。 本文最重要的一副图在原文的图7.这里列出来以供参考。