2) 纹理特征
纹理是指图像像素灰度集或颜色的某种规律性变化,可认为是灰度(颜色)在空间以一定的形式变化而产生的图案。一般纹理图像中灰度分布具有某种周期性,具有一定的统计特性,而且通常和图像频谱中的高频分量是密切联系的。图像的基本纹理特征主要有六方面:粗糙度(coarseness) 、对比度(contrast ) 、方向度( directionality) 、线像度( line-likeness) 、规整度( regularity) 和粗略度( rough-ness) [13],其中最重要的特征主要是纹理的粗糙度、对比度和方向度。
目前纹理分析的方法基本可以分为统计法、结构法、模型法和空间/频率域联合分析法等四类[14],并将统计、分析的结果作为图像的索引。基于统计的方法是对图像中的颜色强度的空间分布信息进行统计,包括共生矩阵法(Haralick&Shanmugam,1973)、Laws 纹理能量法等[15,16];基于结构的方法将重点放在分析纹理元之间的相互关系和排列规则上;基于模型的方法假设纹理按某种类型分布,如Markov随机场模型、分形模型等;基于空间/频率域联合分析法主要包括Gabor变换法和小波变换法等。
在70年代,Haralick等人纯粹从数学上研究了图像纹理中灰度级的空间依赖关系,提出了纹理特征的共生矩阵表示法[17]。而Tamura等人则从视觉的心理学角度提出了纹理表示方法,表示的所有纹理性质都具有直观的视觉意义,很好地对应于人类视觉感知[13]。80年代,随机场模型开始用于纹理的分类和识别。F.S.Cohen等采用Gaussian Markov随机场模型(GMRF),对9种自然纹理的识别达到了99%至100%的正确率[18]。D.K.Panjwani和G-Healy进一步采用GMRF模型用于彩色纹理图像的分割,也取得了较好的效果[19]。进入90年代,小波变换理论被应用于纹理表示之中。人们采用小波变换后的系数作为图像的索引,如Smith和Chang从小波子波段中提取统计特征作为图像的纹理表示,取得了很好的检索效果[20]。Chang和Kuo探索了小波中波段的特征,采用树结构小波变换来进一步提高图像分类能力的准确度[21]。Ma和Manjunath评价了各种小波变换形式,发现基于Gabor小波变换的纹理检索方法的效果最好[22]。
3) 形状特征
形状是图像的一个显著特征,形状通常被认为是一条封闭的轮廓曲线所包围的区域,对形状的描述涉及到对轮廓边界的描述以及对这个边界所包围区域的描述。描述的结果是对图像区域边界的逼近表示。
目前的基于形状检索方法大多围绕着从形状的轮廓特征和形状的区域特征建立图像索引。关于对形状轮廓特征的描述主要有:直线段描述、样条拟合曲线、傅立叶描述子以及高
斯参数曲线等等。Jain等人将形状用封闭的直线段来描述,然后依靠线段斜率的统计斜率直方图进行匹配[23]。Gudivada采用样条曲线对形状的边界进行拟合,然后依靠形状边界上的各个控制点计算斜率、曲率的正负等信息进行检索[24]。Gunsel提出了采用傅立叶描述子描述形状的边界信息基于特征形状的图像检索方法[25]。实际上更常用的办法是采用区域特征和边界特征相结合来进行形状的相似检索。Eakins等人提出了一组重画规则并对形状轮廓用线段和圆弧进行简化表达,然后定义形状的邻接族和形状族,两种分族函数对形状进行分类[26]。
利用形状特征进行检索匹配的方法都是基于在图像中准确提取形状区域的前提下,但是模式识别中自动提取形状区域的各种方法还很不成熟,需要发展一种更加准确的方法。
4) 多特征综合检索
基于颜色、纹理、形状特征的图像检索都各有优、缺点,分别从不同角度反映图像的某个特征,为了更完整的描述图像内容,有效地提高检索的准确率,人们经常将不同类型的综合特征来检索图像,以取长补短。如综合颜色和纹理特征进行检索[27],综合颜色和形状特征进行检索[28,29],综合纹理和形状特征的检索[30,31],综合颜色和空间关系特征的检索[32]等。
对于多特征综合检索而言,除了特征的选择及其组合方式的选择之外,合理设置各个特征的权重是影响检索结果的另一个重要因素。
3.3.2 高层语义特征
无论是基于颜色、纹理、形状的检索方法,还是多特征综合的检索方法,都是属于对图像低层视觉内容表示的方法。基于颜色特征的图像检索技术将图像从计算机的角度看成一个个离散的像元点,像元之间是孤立的,只能表示图像在整体上所呈现的颜色一致性,而无法区分图像内部特征;基于纹理特征的检索是在颜色的基础上,考虑了相邻像元之间的关系,提出了规整度、粗糙度、方向度等来衡量图像的线性特征;基于形状的检索则将图像分割成封闭的区域,屏蔽图像中的诸如背景等细节元素,更加逼近人对图像的认知。
实际上图像是人对世界认知的间接表示,一幅图像充满了丰富语义信息,而不仅仅是颜色、纹理、形状,除此之外,图像上充满了一个个实体对象,对象之间在空间上存在某种关系,一幅或一系列图像可以表示一个具体的场景和动作,甚至某些图像蕴含了著作者丰富的感情色彩和寓意。
用户在图像检索时总是存在一个大致的概念,这个概念建立在图像所描述的对象、场景事件以及所表达的情感等图像的高层语义上,包含了人对图像内容的理解,所以近年来出现了对高层的基于语义内容的图像检索技术的研究,成为解决图像简单视觉特征和用户语义之
间存在的鸿沟的关键[33]。
1) 对象类别与空间关系
用图像中的对象及对象间的空间关系特征来进行图像检索一直是图像数据库检索的重要研究方向,Tanimoto提出了用图元方法来表示图像中的实体,并提出了用图元来作为图像对象索引[34]。随后被Chang采纳,并提出用二维符号串(2D-String)的表示方法来进行图像空间关系的检索[35],该方法简单并且对于部分图像来说可以从2D-String重构它们的符号图,因此被许多人采用和改进:Jungert根据图像对象的最小包围盒分别在x轴上和y轴上的投影区间之间的交叠关系来表示对象之间的空间关系[36];Lee和Hsu等人提出了2DC-String的方法
[37,38]
;Nabil综合2D-String方法和二维平面中对象之间的点集拓扑关系,提出了2D-PIR检索
方法[39]。
对图像内容的理解上升到了对象及其空间关系的理解,弥补了前面提到的方法中缺少空间信息约束的缺陷,如下是空间关系语义提取的结构图:
数字图像对象区域图像分割特征提取特征描述对象特征库对象识别物体类别空间对象关系对象关系分析 2) 场景与行为
识别出的对象及其空间关系可以成为获取场景语义的基础,作为获取场景和描述事件的辅助手段。然而由于现实图像场景的复杂性,以及目前通用对象识别技术还不完善,这种方法还只在一些有限领域得到运用。
在图像分割技术和对象识别技术不能满足需求的情况下,一些学者采用新的方法来是绕过对象识别这一过程,Smith等提出了组合区域模板方法;Cheong Yiu Fung提出的方法最有代表性,这些方法也进行图象分割,但它的分割是对图像的固定分割,即将图像划分成固定大小的子块,然后对这些图像子块分别确定其各自的语义类别,然后根据子块间的关系来确定整幅图像的语义。一旦子块的语义确定了,场景语义就能有效地使用现有统计方法从子块
的相关模式中获得,而特定场景对应的子块组台模式就要通过训练集学习获得。最简单的场景分类是户内和野外场景分类,现在的实验系统是进行十几种场景的分类。对于行为语义,通常无法通过单幅或者单帧图像来提取,往往要考虑图像序列的运动信息。
固定划分图像的场景分类的结构图如下[40]:
3) 情感语义
图像表达的情感语义相对其他特征而言,具有更多的主观成分,它涉及到人的认知模型、文化背景以及美学标准。
目前只是在艺术图像这个特定领域对于图像的情感语义有了一定程度的研究,因为艺术家在创造艺术图像的过程中,往往有意识地采用一些常用的艺术手法。而在这些艺术手法中,有艺术家们普遍认同的特定视觉特征和情感的对应。
对艺术图像与心理学关系的研究中,Arnheim探讨了艺术形式和视觉特征的关系[41];Itten 提出艺术图像中颜色的使用所表达的语义理论,提出了判断颜色组合是否和谐的Itten球模型(Itten,1985)。Itten发现不同的颜色组合导致和谐、不和谐、平静和兴奋等效果,比如红黄色调导致温暖的感觉,往往表达快乐、荣耀或者力量等,相反蓝绿色调会导致冷的感觉,常表达平静、放松或者忠诚等情感[42]。
除了颜色之外,纹理的疏密、线条的倾斜度、光滑度不同所表达的情感语意也截然不同,光滑的纹理给人细腻感,粗糙的纹理给人苍老感,坚硬的纹理给人以刚强感[43]。正方形易给人庄重感, 三角形的锐角易产生好斗和进取的感觉, 而圆形则容易产生松弛平易的运动感
[44]
。我国著名画家潘天寿指出绘画艺术主要是以笔、墨、色、形、位置的近远,光与影的
配置、虚实与疏密的分布以及艺术神情风韵来表达它的艺术情感[45]。如下两张图,线条的倾斜度比较平缓时带来安宁、祥和的氛围,而角度比较大时传递了一种紧张、动感的环境。
基于情感的图像检索系统框架图如下所示[33]:
以用户情感为线索检索图像,其目标是以图像可能激发的人的主观体验(即情感语义特征,或者感性特征) 为中间桥梁,实现用户检索需求与图像之间的匹配[46]。其检索流程包括感性提问的接收和转化、检索匹配、检索结果的反馈、相关反馈等几个过程。
3.4 国内外系统实例简介
近年来,CBIR已经成为一个非常活跃的研究领域,各国科研机构与公司已陆续推出了一些CBIR系统的产品[47],有的已经成功应用到医学、商标、专利检索等领域。
1) QBIC[48,49]
http://wwwqbic.almaden.ibm.com
IBM 的QBIC(Query By Image Content) 是第一个商业性的CBIR 系统。它提供了基于颜色、纹理、形状和手绘草图的图像索引方法。颜色特征的表达采用了平均色和颜色直方图两种方法;纹理特征的表达采用了纹理的粗糙度、对比度和方向性三者的综合。目前,QBIC 系统的基于内容检索技术已经在IBM 数字图书馆中得到了应用,实现了自动索引、归并、对比、特征抽取和翻译功能。
2) Visual Seek & Web Seek[50]
http://www.ee.columbia.edu/~afchang/demos.html Columbia 大学的Visual SEEK 提供了基于色彩和纹理的索引方法. 在Visual SEEK 中,整幅图像色彩的分布使用了全局色彩直方图,区域色彩的索引采用二进制色彩集表达方法. 它采用基于小波变换的方法来表示图像的纹理特征. 为加快检索速度,还开发出了基于二叉树的索引算法. 该系统具有Java 浏览器,可以在SGL 、SUN 和IBM PC平台上运行。
3) PhotoBook[51,52]