1.1.1.13 直方图相交距离
直方图相交距离是常用于颜色特征相似性度量的一种方法,常用于计算直方图间相似度。如果有两幅图像X和Y,则它们的相交距离定义式如下:
S(X,Y)??min(f(X),f(Y))iii?1N?f(Y)ii?1N(1.12)
1.1.2 相似测度
这类测度是以两矢量的方向是否相近作为考虑的基础,矢量长度并不重要,同样设
x??x1,x2,?,xn?,y??y1,y2,?,yn?。
''1.1.2.1 角度相似系数(夹角余弦)
原理:多维空间两点与所设定的点形成夹角的余弦值。
范围:[-1,1],值越大,说明夹角越大,两点相距就越远,相似度就越小。
说明:在数学表达中,如果对两个项的属性进行了数据中心化,计算出来的余弦相似度和皮
尔森相似度是一样的,所以皮尔森相似度值也是数据中心化后的余弦相似度。 定义:矢量之间的相似度可用它们的夹角余弦来度量。两个矢量x和 y 的夹角余弦定义如下:
x'yx'ycos(x,y)??1/2(1.6) ''x?y??(xx)(yy)??与欧几里德距离类似,基于余弦相似度的计算方法也是把特征点作为n-维坐标系中的
一个点,通过连接这个点与坐标系的原点构成一条直线(向量),两个特征点之间的相似度值就是两条直线(向量)间夹角的余弦值。因为连接代表特征点与原点的直线都会相交于原点,夹角越小代表两个特征越相似,夹角越大代表两个特征的相似度越小。同时在三角系数中,角的余弦值是在[-1, 1]之间的,0度角的余弦值是1,180角的余弦值是-1。借助三维坐标系来看下欧氏距离和余弦相似度的区别:
从图上可以看出距离度量衡量的是空间各点间的绝对距离,跟各个点所在的位置坐标(即个体特征维度的数值)直接相关;而余弦相似度衡量的是空间向量的夹角,更加的是体现在方向上的差异,而不是位置。如果保持A点的位置不变,B点朝原方向远离坐标轴原点,那么这个时候余弦相似度cos是保持不变的,因为夹角不变,而A、B两点的距离显然在发生改变,这就是欧氏距离和余弦相似度的不同之处。
应用:Cosine 相似度被广泛应用于计算文档数据的相似度及数据挖掘类工作: 特点:余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。它对于坐标系的旋转和尺度的缩放是不变的(因矢量的长度已规格化),但对一般的线性变换和坐标系的平移不具有不变性。
1.1.2.2 调整余弦相似度—— Adjusted Cosine Similarity
在余弦相似度的介绍中说到:余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感。因此没法衡量每个维数值的差异,会导致这样一个情况:比如用户对内容评分,5分制,X和Y两个用户对两个内容的评分分别为(1,2)和(4,5),使用余弦相似度得出的结果是0.98,两者极为相似,但从评分上看X似乎不喜欢这两个内容,而Y比较喜欢,余弦相似度对数值的不敏感导致了结果的误差,
需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值,比如X和Y的评分均值都是3,那么调整后为(-2,-1)和(1,2),再用余弦相似度计算,得到-0.8,相似度为负值并且差异不小,但显然更加符合现实。
应用:调整余弦相似度和弦相似度,皮尔逊相关系数在推荐系统中应用较多。在基于项目的推荐中GroupLens有篇论文结果表明调整余弦相似度性能要由于余弦相似度和皮尔逊相关系数。
1.1.2.3 相关系数
它实际上是数据中心化后的矢量夹角余弦。
r(x,y)?(x?x)'(y?y)?(x?x)(x?x)(y?y)(y?y)???''1/2(1.7)
此处将x ,y视作两个数据集的样本,x和y分别是这两个数据集的平均矢量。相关系数对于坐标系的平移、旋转和尺度缩放是不变的。
(备注:该节引自项德良【SAR 图像相似度评估技术研究】,2012年国防科大硕士论文1.2节。)
1.1.2.4 指数相似系数
指数相似系数定义如下:
?3(xi?yi)2?1n(1.8) e(x,y)??exp???2ni?1?i?4?2?i式中,为相应分量的方差,n为矢量维数。它不受量纲变化的影响。从函数的构造
上看属于距离方式(类似于马氏距离),但从测度值和相似关系看属于相似测度。
(备注:该节引自项德良【SAR 图像相似度评估技术研究】,2012年国防科大硕士论文1.2节。)
1.1.2.5 对数似然相似度
Ted Dunning在1993年提出一种对数似然比的概念,主要应用于自然文本语言库中两个词的搭配关系问题。它是基于这样一种思想,即统计假设可以确定一个空间的很多子空间,而这个空间是被统计模型的位置参数所描述。似然比检验假设模型是已知的,但是模型的参数是未知的。
二项分布的对数似然比
对于二项分布的情况,似然函数为
?n1??n2?H(p1,p2;k1,n1,k2,n2)?p1k1(1?p1)n1?k1??p1k2(1?p2)n2?k2??(1.1)
?k1??k2?式中:H——的统计模型,k1,n1,k2,n2——试验结果的参数。p1,p2——给定模型的参数。 假设二项分布有相同的基本参数集合(p1,p2)p1?p2,那么对数似然比?就是
????maxpH(p,p;k1,n1,k2,n2)maxp1,p2H(p1,p2;k1,n1,k2,n2)(1.2)
式中:maxpH——当p取得某值时,统计模型H的最大值。
当p1?k1kk?k,p2?2时,分母取得最大值。当p?12时,分子取得最大值。 n1n2n1?n2所以对数似然比简化为
??maxpL(p,k1,n1)L(p,k2,n2)maxp1,p2L(p1,k1,n1)L(p2,k2,n2)(1.3)
式中:L——二项分布,n——实验重复的次数,p——某事发生的概率,k——该事件发生的次数,L(p,k,n)?pk(1?p)n?k。
两边取对数可以将对数似然比的公式变形为:
?2log??2[logL(p1,k1,n1)?logL(p2,k2,n2)?logL(p,k1,n1)?logL(p,k2,n2)](1.4)
由于二项分布的对数似然比能够合理的描述两个事物的相似模型,所以常用对数似然比来计算两个事物(用户或物品)的相似度。对数似然相似度基于两个用户共同评估过的物品数目,但在给定物品总数和每个用户评价的情况下,其最终结果衡量的是两个用户有这么多共同物品的“不可能性”,它是一种不考虑具体偏好值的方法。
比如在用户—物品偏好的二维矩阵中,我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。
备注:引自张明敏,张功萱《对数似然相似度算法的MapReduce并行化实现》《计算机工程与设计》2015,36卷,第5期。
1.1.2.6 Levenshtein 距离,又称编辑距离
两个字符串(链)的相似度可以用Levenshtein距离(Levenshtein distance)表示,该距离定义为将一个串变为另一个串所需的最小操作步数,可能的操作有删除、插入、替换[Schlesinger and Hlavac ,2002]。还可以给字符串元素变换赋一个变换代价,从而使计算得到的相似度(距离)更灵活,更敏感。同样的原理也可以用在图相似度的计算上。下定义可能的结点和弧的变换(删除、插入、替换、重新标注)集合,再给每种变换赋一个变换代价。任一变换序列的代价用单个步骤代价的组合表示(类似代价步骤的和)。将一个图变为另一个图的所有变换集合中具有最小代价值的那个集合就定义了这两幅图间的距离[Niemann,1990]。
用途:常用于字符串距离,类似可用于计算图的距离 备注:引用于《图像处理、分析与机器视觉(第三版)》Milan Sonka ,Vaclav Hlavac, Roger Boyle著,艾海舟,苏延超译P298,9.5.2 图的相似度
1.1.2.7 统计相关系数--皮尔逊相关系数(Pearson Correlation
Coefficient)
皮尔逊相关也称积差相关(积矩相关),即相关分析中的相关系数r,分别对X与Y基于自身总体标准化后计算余弦向量的标准夹角。是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。皮尔逊相关系数一般用来反映两个变量线性相关程度,它的取值在
[-1,+1] 之间。相关系数的绝对值越大,相关性越强。
假设有两个变量X,Y,那么;两个变量间的皮尔逊相关系数可以通过以下公式计算:
公式一:
?X,Y?cov(X,Y)?X?Y?E((X??X)(Y??Y))?X?Y?E(XY)?E(X)E(Y)E(X)?E(X)E(Y)?E(Y)2222
公式二:
?X,Y?公式三:
N?XY??X?YN?X?(?X)22N?Y?(?Y)22
?X,Y?公式四:
?(X?X)(Y?Y)?(X?X)(Y?Y)22 ?X,Y??XY???X2?(?X)N2X?YN(?Y)N2
?Y2?以上列出四个公式等价,其中E是数学期望,cov表示方差,N表示变量取值的个数。 适用范围:当两个变量对的标准差都不为0时,相关系数才有定义,皮尔逊系数适用于:
(1) 两个变量之间是线性关系,都是连续数据
(2) 两个变量的总体是正态分布,或接近正态的单峰分布 (3) 两个变量的观测值是成对的,每对观测值之间互相独立 特点:(1)当两个变量的线性关系增强时,相关系数趋于1或-1;
(2)当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;
(3)如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;
(4)如果相关系数等于0,表明它们之间不存在线性相关关系。
1.1.2.8 统计相关系数--斯皮尔曼相关(Spearman秩相关)系数
--Spearman Correlation
(1) 简介
在统计学中,斯皮尔曼等级相关系数以Charles Spearman命名,并经常用希腊字母?表示其值。斯皮尔曼等级相关系数用来估计两个变量X、Y之间的相关性,其中变量间的相关性可以用单调函数来描述。如果两个变量取值的两个集合中均不存在相同的两个元素,那么,当其中一个变量可以表示为另一个变量的很好的单调函数时(即两个变量的变化趋势相同),两个变量之间的?可以达到+1或-1。