1 相似度文献总结
相似度有两种基本类别:
(1)客观相似度,即对象之间的相似度是对象的多维特征之间的某种函数关系,比如对象之间的欧氏距离;(2)主观相似度,即相似度是人对研究对象的认知关系,换句话说,相似度是主观认知的结果,它取决于人及其所处的环境,主观相似度符合人眼视觉需求,带有一定的模糊性[13]。
1.1 客观相似度
客观相似度可分为距离测度、相似测度、匹配测度。它们都是衡量两对象客观上的相近程度。客观相似度满足下面的公理,假设对象 A与B 的相似度判别为?(A,B),有:
(1) 自相似度是一个常量:所有对象的自相似度是一个常数,通常为 1,即
?(A,A)??(B,B)?1
(2) 极大性:所有对象的自相似度均大于它与其他对象间的相似度,即
?(A,B)??(A,A)和?(A,B)??(B,B)。
(3) 对称性:两个对象间的相似度是对称的,即?(A,B)??(B,A)。 (4) 唯一性:?(A,B)?1,当且仅当A?B。
1.1.1 距离测度
这类测度以两个矢量矢端的距离为基础,因此距离测度值是两矢量各相应分量之差的函数。设x??x1,x2,?,xn?,y??y1,y2,?,yn?表示两个矢量,计算二者之间距离测度的具体方式有多种,最常用的有:
''1.1.1.1 欧氏距离:Euclidean Distance-based Similarity
最初用于计算欧几里德空间中两个点的距离,假设 x,y 是 n 维空间的两个点,它们之间的欧几里德距离是:
?n?d(x,y)?x?y???(xi?yi)2??i?1?1/2(1.1)
当x,y是两个直方图时,该方法可称为直方图匹配法。
可以看出,当 n=2 时,欧几里德距离就是平面上两个点的距离。当用欧几里德距离表示相似度,一般采用以下公式进行转换:距离越小,相似度越大。
(1.2)
范围:[0,1],值越大,说明d越小,也就是距离越近,则相似度越大。
说明:由于特征分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关。欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析。
优点:简单,应用广泛
缺点:没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果
1.1.1.2 曼哈顿距离,绝对值距离(街坊距离或 Manhattan 距离):
原理:曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果。同欧式距离相似,都是用于多维数据空间距离的测度
范围:[0,1],同欧式距离一致,值越小,说明距离值越大,相似度越大。 说明:比欧式距离计算量少,性能相对高。
d(x,y)??xi?yi(1.3)
i?1n1.1.1.3 切氏(Chebyshev)距离(棋盘距离/切比雪夫距离):
切比雪夫距离起源于国际象棋中国王的走法,我们知道国际象棋国王每次只能往周围的8格中走一步,那么从棋盘中A格(x1,y1)走到B格(x2,y2)最少需要走几步?
d(x,y)?maxxi?yi(1.3)
i1.1.1.4 明氏(Minkowski)距离/闵可夫斯基距离:
?n?d(x,y)???(xi?yi)m??i?1?1/m
(1.4)
可以看出,(1.1)、(1.2)、(1.3)式实际上是(1.4)式当m?2,1,?的特殊情况。在实际中较多地使用欧氏距离。显然,在观测量的量纲取定的条件下,两个矢量越相似,距离d(?)就越小,反之亦然。值得注意的是,在使用上述距离测度描述具体对象时,量纲选取不同会改变某特
征的判断依据,即改变该特征对判断贡献的大小,严重的可造成错误分类。这是因为改变特征矢量某分量的量纲,进行比较的两个矢量的相应的两个分量的数值也将改变。若变小,则其相应的特征在距离测度中“影响作用比重”将变小,即根据其判断分类的作用变小,反之将增大,这样便不能很好地反映事实。马氏(Mahalanobis)距离是不受量纲影响的。
1.1.1.5 马氏距离(Mahalanobis):
马氏距离定义如下:
设n维矢量xi和xj是矢量集?x1,x2,?,xn?中的两个矢量,它们的马氏距离 d 定义为
d2(xi,xj)?(xi?yi)'V?1(xi?yi)(1.5)
1n1n'式中,V?(xi?x)(xi?x),x??xi。V的含义是这个矢量集的协方差矩阵的?n?1i?1ni?1统计量。 适用场合:
1) 度量两个服从同一分布并且协方差矩阵为C的随机变量X与Y的差异程度
2) 度量X与某一类的均值向量的差异程度,判别样本的归属,此时Y为类均值向量。 优点:
1) 独立于分量量纲
2) 排除了样本之间的相关性影响
缺点:不同的特征不能差别对待,可能夸大弱特征
1.1.1.6 汉明距离(Hamming Distance)
在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另一个字符串所需要替换的字符个数。 例如:
1011101与1001001之间的汉明距离是2。 2143896与2233796之间的汉明距离是3。 “toned”与“roses”之间的汉明距离是3。
1.1.1.7 巴氏距离(Bhattacharyya)
巴氏距离常用于计算直方图间相似度,定义如下:
dBhattacharyya[x,y]??xi?yi (1.6)
i?1n其中,x、y为归一化数据向量。Bhattacharyya系数取值在0~1之间,越靠近1,表示两个模型之间相似度越高。如果,x、y向量未归一化,则巴氏系数的计算定义为:
dBhattacharyya(x,y)?1??i?1nxi?yi?x??yii?1i?1nn(1.7)
i1.1.1.8 Hausdorff距离:
Hausdorff距离(Hausdorff distance ,HD)是一种定义于两个点集上的最大最小距离,是描述两组点集之间的相似程度的一种量度,x、y之间的Hausdorff距离定义为:
H(x,y)?max(h(x,y),h(y,x))(1.8)
式中,h(x,y)?maxminxi?yj为x到y的有向Hausdorff距离;
xi?xyj?yh(y,x)?maxminxi?yj为y到x的有向Hausdorff距离;?为某种定义在点集x、y上
yj?yxi?x的距离范数。常用的是欧几里得范数。
如果定义d??min??yi,d??min??xi(?表示空间中的任意点)则Hausdorff
yi?yxi?x^^距离可定义为H(x,y)?max(maxdxi,maxdyi),这里称d?,d?分别为点集y和点集x在空
xi?xyi?y^间中的变化距离。
由于Hausdorff距离是度量两个点集之间最不匹配点的距离,因此它对远离中心的噪声、漏检点都非常敏感,而这一点,在提取图像特征点集特征时使不可避免的。为了克服这个缺点,需要对Hausdorff距离的定义进行扩展。
1.1.1.9 改进的部分Hausdorff距离:
为获得准确的匹配结果,Sim提出了改进的部分Hausdorff距离(LTS-HD),它是用距离序列的线性组合来定义的:
1khLTS(x,y)??minx?y(i)(1.9)
ki?1式中,k???f1?p??,p为x内点的个数,f1为一个属于[0,1]的百分数。把点集x中的所有
点到点集y的距离按由小到大的顺序排列,将序号为1~k的k个距离求和,再求平均。所以,该匹配方法不仅能消除远离中心的错误匹配点的影响,而且对零均值高斯噪声的消除能力明显。因袭,采用LTS-HD用于图像特征点集的匹配,力求在所有可能的变换空间中寻找图像特征点集之间的最优变换,以便通过使LTS-HD最小化来获得最优匹配结果。 设g为变换空间T(通常由旋转矩阵R、平移变换向量t、尺度c等变换组成)中的一个变换,则最优匹配变换g0满足
Mg0(x,y)?minH(x,gy) (1.10)
g?T1.1.1.10 相关度距离
常用于计算直方图间相似度,定义如下:
dcorrel(x,y)??x?yii?1nni(1.8)
2i?xi?1?yi21.1.1.11 卡方系数
常用于计算直方图间相似度,定义如下:
(xi?yi)2(1.9) dChi?square(x,y)??x?yi?1iin(备注:引自《基于混合图结构的图像相似度的研究_庄小芳》,2013年福建师范大学硕士
学位论文第一章,2.2节)
1.1.1.12 (未命名)
常用于计算直方图间相似度,定义如下:
(1.11)
其中,N表示图像颜色样点空间,比起前面几个计算公式,该式在给出图像相似度的计算中更为直接,操作也更加简便。
(备注:引自《基于混合图结构的图像相似度的研究_庄小芳》,2013年福建师范大学硕士学位论文第一章,2.2节)