相似度测度总结汇总(3)

2019-02-15 20:43

假设两个随机变量分别为X、Y(也可以看做是两个集合),它们的元素个数均为N,两个随机变量取的第i个值分别用Xi、Yi表示。对X、Y进行排序(同为升序或降序),得到两个元素排行集合x、y,其中元素xi、yi分别为Xi在X中的排行以及Yi在Y中的排行。将集合x、y中的元素对应相减得到一个排行差分集合d,其中di?xi?yi,1?i?N。随机变量X、Y之间的斯皮尔曼等级相关系数可由x、y或d计算得到,其计算方式如下: 公式一:由排行差分集合d计算而得():

??1?6?di2i?1nN(N2?1)

公式二:由排行集合x、y计算而得(斯皮尔曼等级相关系数同时也被认为是经过排行的两个随机变量的皮尔逊相关系数,以下实际是计算x、y的皮尔逊相关系数):

???(x?x)(yii?1n2nii?1i?1ni?y) 2?y)i?(x?x)?(y变量Xi 1 0.2 1.3 1.3 10 以下是一个计算集合中元素排行的例子(仅适用于斯皮尔曼等级相关系数的计算)

元素的位置(依降序排列) 5 4 3 2 1 变量的排行(xi) 4 5 (2+3)/2=2.5 (2+3)/2=2.5 1 这里需要注意:当变量的两个值相同时,它们的排行是通过对它们的位置进行平均得到的。 (2) 适用范围

斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的整体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。

原理:Spearman秩相关系数通常被认为是排列后的变量之间的Pearson线性相关系数。

(3)取值范围:{-1.0,1.0},当一致时为1.0,不一致时为-1.0。

(4)说明:计算非常慢,有大量排序。针对推荐系统中的数据集来讲,用Spearman秩相关

系数作为相似度量是不合适的。一般用于学术研究或者是小规模的计算。 (5)Spearman相关系数的特点:

Spearman相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”

1, Spearman相关系数对原始变量的分布不做要求,属于非参数统计方法。因此

它的适用范围比Pearson相关系数要广的多。即使原始数据是等级资料也可以

计算Spearman相关系数。对于服从Pearson相关系数的数据也可以计算Spearman相关系数,

2, 统计效能比Pearson相关系数要低一些(不容易检测出两者事实上存在的相关

关系)。

3, spearman只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观

测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。

注:spearman与pearson:

1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以,就是效率没有pearson相关系数高。

2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。 3.两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数。

4 .只要在X和Y具有单调的函数关系的关系,那么X和Y就是完全Spearman相关的,这与Pearson相关性不同,后者只有在变量之间具有线性关系时才是完全相关的。

1.1.2.9 统计相关系数--Kendall Rank(肯德尔等级)相关系数

(1) 简介

在统计学中,肯德尔相关系数是以Maurice Kendall命名的,并经常用希腊字母?(tau)表示其值。肯德尔相关系数是一个用来测量两个随机变量相关性的统计值。一个肯德尔检验是一个无参假设检验,它使用计算而得的相关系数去检验两个随机变量的统计依赖性。肯德尔相关系数的取值范围在-1到1之间,当?为1时,表示两个随机变量拥有一致的等级相关性,当?为-1时,表示两个随机变量拥有完全相反的等级相关性,当?为0时,表示两个随机变量是相互独立的。

假设两个随机变量分别为X、Y(也可以看做是两个集合),它们的元素个数均为N,两个随机变量取的第i个值分别用Xi、Yi表示。X、Y中的对应元素组成一个元素对集合

XY,其包含的元素为(Xi,Yi)。当集合XY中任意两个元素(Xi,Yi)与(Xj,Yj)的排行相同

时(也就是说当出现情况1或2时;情况1:Xi?Xj且Yi?Yj,情况2:Xi?Xj且Yi?Yj),这两个元素就被认为是一致的。当出现情况3或4时(情况3:Xi?Xj且Yi?Yj,情况4:,这两个元素就被认为是不一致的。当出现情况5或6时(情况5:Xi?Xj,Xi?Xj且Yi?Yj)

情况6:Yi?Yj),这两个元素既不是一致也不是不一致的。

这里有三个公式计算肯德尔相关系数的值: 公式一:

??a?C?D1N(N?1)2

其中C表示XY中拥有一致性的元素对数(两个元素为一对),D表示XY中拥有不一致

性的元素对数。

注意:这一公式仅适用于集合X与Y中不存在相同元素的情况(集合中各个元素唯一) 公式二:

??b?C?D (N3?N1)(N3?N2)注意:这一公式适用于集合X或Y中存在相同元素的情况(当然,如果X或Y中均不存在相同的元素时,公式二便等同于公式一)。

其中C、D与公式一相同;

ss111N3?N(N?1);N1??Ui(Ui?1);N2??Vi(Vi?1)

2i?12i?12N1、N2分别是针对集合X、Y计算的,现在以计算N1为例,给出N1的由来(N2的计

算可以类推):

将X中的相同元素分别组合成小集合,s表示集合X中拥有的小集合数(例如X包含元素:1 2 3 4 3 3 2,那么这里得到的s则为2,因为只有2、3有相同的元素),Ui表示第i个小集合所包含的元素数。N2在集合Y的基础上计算而得。

公式三:

??c?C?D

12M?1N2M注意:这一公式中没有再考虑集合X、或者Y中存在相同元素给最后的统计值带来的

影响。公式三的这一计算形式仅适用于用表格表示的随机变量X、Y之间相关系数的计算(下面会介绍),参数M稍后会做介绍。

以上都是围绕用集合表示的随机变量而计算肯德尔相关系数的,下面所讲的则是围绕用表格表示的随机变量而计算肯德尔相关系数的。

通常人们会将两个随机变量的取值制作成一个表格,例如有10个样本,对每个样本进行两项指标些事X、Y(指标X、Y的取值均为1到3)。根据样本的X、Y指标取值,得到以下二维表格(表1):

表1 2 3 Sum X 1 Y 1 2 3 sum 1 1 0 2 2 2 1 5 0 1 2 3 3 4 3 10 由表1 可以得到X及Y的可以以集合的形式表示为:

X?{11,,2,2,2,2,2,3,3,3};Y?{1,2,11,,2,2,3,2,3,3};

得到X、Y的集合形式后就可以使用以上的公式一或公式二计算X、Y的肯德尔相关

系数了(注意公式一、公式二的适用条件)

当然如果给定X、Y的集合形式,那么也是很容易得到它们的表格形式的。 这里需要注意的是:公式二也可以用来计算表格形式表示的二维变量的肯德尔相关系是,不过它一般用来计算由正方形表格表示的二维变量的肯德尔相关系数,公式三则只是用来计算由长方形表格表示的二维变量的Kendall相关系数。这里给出公式三种字母M的含义,M表示长方形表格中行数与列数中较小的一个。表1的行数及列数均为三。 (2) 适用范围

肯德尔相关系数与斯皮尔曼相关系数对数据的条件要求相同。

1.1.2.10 Tanimoto 系数(Tanimoto Coefficient)

Tanimoto 系数也称为广义Jaccard 系数,是 Cosine 相似度的扩展,通常应用于x、y为布尔向量,即各分量只取0或1的时候,此时表示的是x、y的公共特征占x、y具有的所有特征的比例。其实质就是集合交集与并集的比。也多用于计算文档数据的相似度,或两个集合之间的相似程度。

范围:[0,1],越接近1说明越相似。

1.1.2.11 Jaccard 系数

Jaccard 系数主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard 系数只关心个体间共同具有的特征是否一致这个问题。如果比较

X与Y的Jaccard 相似系数,只比较xi和yi中相同的个数,

公式如下:

也就是关联的交集除以关联的并集。

范围:其值介于[0, 1]之间,如果两个个体间的特征完全相同,交集等于并集,值为1;如果没有任何关联,交集为空,值为0。

1.1.3 匹配测度

(备注:该节引自项德良【SAR 图像相似度评估技术研究】,2012年国防科大硕士论文1.2节。)

这种测度常用于医学和生物的分类中。在有些情况下,特征只有两个状态,对象或具有此特征或不具有此特征。此时,若对象具有此特征,则相应分量定义为 1,而相应分量为 0 表示对象无此特征,这就是所谓的二值特征。对于给定的二值特征矢量x和 y 中的某两个相应分量xi和yi,若xi?1和yi?1,则称xi和yi是(1-1)匹配,若xi?1和yi?0,则称xi和yi是(1-0)匹配;若xi?0和yi?1,则称xi和yi是(0-1)匹配;若yi?0和xi?0,则称xi和yi是(0-0)匹配,令

a??xiyib??yi(1?xi)

iic??xi(1?yi)d??(1?xi)(1?yi)(1.9)

ii则a等于两矢量 x 和 y 的(1-1)匹配的特征的数目,b 等于 x 和 y 的(0-1)匹配的特征的数目,c等于x和 y 的(1-0)匹配的特征的数目,e等于x和 y 的(0-0)匹配的特征的数目。对于二值n维特征矢量可定义如下相似性测度:

1.1.3.1 Tanimoto 测度

ax'y(1.10) s(x,y)??a?b?cx'x?y'y?x'y可以看出, s ( x , y )等于x 和 y 都具有的特征的数目与 x和 y 分别具有的特征种类 总数之比。这里只考虑(1-1)匹配而不考虑(0-0)匹配。

1.1.3.2 Rao 测度

ax'ys(x,y)??(1.11)

a?b?c?en上式等于(1-1)匹配特征数目和所选用的特征数目之比。


相似度测度总结汇总(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:2. - 英国学科门类设置情况

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: