1.1.3.3 简单匹配系数
m(x,y)?a?e(1.12) n上式表明,这时匹配系数分子为(1-1)匹配特征数目与(0-0)匹配特征数目之和,分母为所选用的特征数目。
1.1.3.4 Dice 系数
2a2x'y(1.13) m(x,y)??''2a?b?cxx?yy
分子、分母无(0-0)匹配,对(1-1)匹配加权。
1.1.3.5 Kulzinsky 系数
ax'y(1.14) m(x,y)??'''b?cxx?yy?2xy上式分子为(1-1)匹配特征数目,分母为(1-0)和(0-0)匹配特征数目之和。
1.2 主观相似度
1.2.1 结构相似度(SSIM,structural similarity (SSIM) index
measurement)
(备注:该节引自项德良【SAR 图像相似度评估技术研究】,2012年国防科大硕士论文1.2节。)
结构相似性理论认为,自然图像信号是高度结构化的,即像素间有很强的相关性,特别是空域中最接近的像素,这种相关性蕴含着视觉场景中物体结构的重要信息;HVS的主要功能是从视野中提取结构信息,可以用对结构信息的度量作为图像感知质量的近似。结构相似性理论是一种不同于以往模拟HVS低阶的组成结构的全新思想,与基于HVS特性的方法相比,最大的区别是自顶向下与自底向上的区别。这一新思想的关键是从对感知误差度量到对感知结构失真度量的转变。它没有试图通过累加与心理物理学简单认知模式有关的误差来估计图像质量,而是直接估计两个复杂结构信号的结构改变,从而在某种程度上绕开了自然图像内容复杂性及多通道去相关的问题.作为结构相似性理论的实现,结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的,反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量。(from Internet)
Zhou Wang 在 2004 年提出一种结构相似度准则 SSIM(Structural Similarity Index Measurement)来衡量光学图像相似度。该准则分析了人眼视觉特性和图像结构之间的关系,从图像空间、人眼视觉和图像结构等方面对SSIM进行了研究,在光学图像的配准、目标识和图像质量评估方面得到了有效验证[16]。SSIM准则侧重人眼的主观感受,它是从图像的客观信息出发,通过建立模型从而得到的符合人眼视觉的准则。 结构相似度定义如下:
l(x,y)?2uxuy?C1u?u?C1N2x2y(1.2.1)
1l(x,y)为亮度相似度函数,其中ux?N义的常量。
对比度相似度函数定义如下:
1,xu??yiNi?1?yi?1Ni,C1为当ux、uy为零时定
c(x,y)?2?x?y?C2????C22x2y(1.16)
1N1N21/2其中?x?((xi?ux)),?y?((yi?uy)2)1/2。C2也为一个常量。 ??N?1i?1N?1i?1结构相似度函数定义如下:
s(x,y)??xy?C3(1.17)
?x?y?C31N其中?xy??(xi?ux)(yi?uy)。
N?1i?1综上,结构相似度指数(SSIM)定义如下:
SSIM(x,y)??l(x,y)??c(x,y)??s(x,y)?(1.18)
其中?、?、?均大于 0,为控制三个分量相似度权重的参数。 SSIM ( x , y )越接
近于 1,则表明x与 y 越相似,否则越不相似。
近年来基于语义测度的主观相似度准则得到越来越多学者的关注。该方法一般在图像分割的基础上,通过构建图像区域子块与语义元数据之间的统计映射关系,实现图像内容的统计语义描述,建立图像之间、图像与语义类别、语义类别之间的分层语义相似测度[23-26]。该方法充分考虑人眼视觉的语义层面,在图像检索等应用中得到有效验证。
???1.3 基于像素差值编码的相似度
1.3.1像素差值编码规则
给定一幅 SAR 图像G(J?K),J 和K 为图像高度和宽度。 G ( x , y )为图像在( x , y )处灰度值。 B 是对应的编码图像,其大小也为J?K, B ( x , y )为 ( x , y )处编码值,定义如下
?1,G(x,y?1)?G(x,y)(2.1) B(x,y)???0,其他式(2.1)中SAR图像像素值比较是按从左到右、从上到下的顺序。图 2.1所示为SAR 图像编码图示。
1.3.2相似性测度及其概率密度函数
G1和G2为待比较的两幅SAR图像,B1和B2分别为对应的编码图像,
基于像素差值编码的相似性测度(Intensity increment code-IIC)定义如下所示:
1JKriic??B1(x,y)?B2(x,y)?(1?B1(x,y))(1?B2(x,y))?(2.2) ??J?Kx?1y?1式(2.2)中,B1(x,y),B2(x,y)分别为编码图像B1和B2在 ( x , y )处编码值。riic衡量了两幅编码图像的相似性,也即反映了两幅SAR图像灰度变化是否一致,
评价:该方法对图像噪声、部分遮挡和一定程度模糊有一定鲁棒性。然而该方法着重统计全局图像灰度信息,较少考虑图像局部细节,因此对细节丰富的 SAR 图像并不太适用。
1.4 基于 KL 距离准则的相似度
比较灰度直方图相似性的方法很多,本文采用一种对称KL准则SKLD(Symmetry Kullback-Leibler Divergence)[64]。对两个局部梯度比率直方图H 和Q,定义SKLD如下:
NpnqSKLD(H,Q)??pnlog()??qnlog(n)(3.1)
qnpnn?1n?1N其中,pn和qn分别为 H 和 Q 的MLGRPH特征矢量,N 为特征矢量的维数。由于相似度范围为[0,1],即完全相似时,相似度为1,此时SKLD 为0,当完全不相似时,相似度
为0,SKLD 为??,因此这里需要将SKLD 变换为范围在[0,1]之间的相似度。我们采用最简单的高斯隶属度函数,如下所示:
2SKLD(H,Q)??Similarity?exp(?) (3.2)
?2其中,?为控制高斯函数宽度的参数,可通过?来控制距离与相似度变化关系。
1.5 基于hash方法的相似度计算
基于hash的相似度计算方法,是一种基于概率的高维度数据的维度削减的方法,主要用于
大规模数据的压缩与实时或者快速的计算场景下,基于hash方法的相似度计算经常用于高维度大数据量的情况下,将利用原始信息不可存储与计算的问题转化为映射空间的可存储计算问题,在海量文本重复性判断方面,近似文本查询方面有比较多的应用,google的网页去重[1],google news的协同过滤[2,3]等都是采用hash方法进行近似相似度的计算,比较常见的应用场景Near-duplicate detection、Image similarity identification、nearest neighbor search,常用的一些方法包括I-match,Shingling、Locality-Sensitive Hashing族等方法,下面针对几种常见的hash方法进行介绍。
1.5.1 minhash方法介绍
Minhash方法是Locality-sensitive hashing[4,5]算法族里的一个常用方法,基本的思想是,对于每一个对象的itemlist,将输入的item进行hash,这样相似的item具有很高的相似度被映射到相同的buckets里面,这样尽量保证了hash之后两个对象之间的相似程度和原来是高相似的,而buckets的数量是远远小于输入的item的,因此又达到降低复杂度的目的。 minhash方法用Jaccard进行相似度的计算方法,则对于两个集合性的计算方法为: ci和cj,ci和cj的相似
sim(ci,cj)?ci?cjci?cj(1.6.1) 当两个集合越相似,则该值越接近1,否则越接近0。用minhash方法,将一个集合映射到[0-R-1]之间的值,以相同的概率随机的抽取一个[0-R-1]的一个排列,依次排列查找第一次出现1的行。
设随机排列为43201(edcab),对于C1列,第一次出现1的行是R4,所以h(C1) = 3,同理有h(C2)=2, h(C3)=4, h(C4)=3。
通过多次抽取随机排列得到n个minhash函数h1,h2,…,hn,依此对每一列都计算n个minhash值。对于两个集合,看看n个值里面对应相等的比例,即可估计出两集合的Jaccard相似度。可以把每个集合的n个minhash值列为一列,得到一个n行C列的签名矩阵。因为n可远小于R,这样在压缩了数据规模的同时,并且仍能近似计算出相似度。
1.5.2 simhash方法介绍
simhash方法是在大文本重复识别常用的一个方法,该方法主要是通过将对象的原始特征集合映射为一个固定长度的签名,将对象之间的相似度的度量转化为签名的汉明距离,通过这样的方式,极大限度地进行了降低了计算和存储的消耗。
1.5.3 签名计算过程
该方法通过对输入特征集合的计算步骤可以描述如下:
1, 将一个f维的向量V初始化为0;f位的二进制数S初始化为0;
2, 对每一个特征:用传统的hash算法对该特征产生一个f位的签名b。对i=1到f: 如果b的第i位为1,则V的第i个元素加上该特征的权重; 否则,V的第i个元素减去该特征的权重。
1, 如果V的第i个元素大于0,则S的第i位为1,否则为0; 2, 输出S作为签名。
通过上述步骤将输入的表示对象的特征集合转化为该对象的一个签名,在完成签名之后,度量两个对象的相似度的差异即变成了对量二者的指纹的K位的差异情况。
1.5.4 汉明距离查找优化
对于如何快速查找出某一个签名是否与其存在最大差异不超过K个bit的指纹,Detecting Near-Duplicates for Web Crawling这篇论文中进行了介绍。该查找方法的基本思想是利用空间换时间的方法,该方法的依据是需要查找的两个指纹的差异很小,这样可以通过将原始指纹进行分块索引,如果两个指纹的差异很小,则合理的分块后,根据鸽笼原理,其中存在一定数量的块是一致的,通过利用相同的块进行相似的指纹的召回,只需要比对召回的块中有差异的块的bit差异,这样减少了需要比对的数量,节省了比对的时间开销。