D(xi,zj(I)),i?1,2,?,n (4) 如果满足D(xi,zj(I))?min{D(xi,zj(I))},i?1,2,?,n,xi?wk; 3、计算误差平方和准则函数JC,公式如下:
JC(I)???xkj?Zj(I) (5)
j?1k?1knj24、判断是否满足聚类算法结束条件:如果JC(I)?JC(I?1)??,则表示算法结束,否则,I=I+1,计算下一个新的聚类中心,并返回2,新的聚类中心计算公式如下:
1 Zj(I?1)?nj?Xi?1kji ,j?1,2,?,k (6)
距离:对重复个案结果进行聚类时,“靠近”往往由某种距离来刻画。 令xij表示第i个重复个案结果的第j个指标,dij表示第i个重复个案与第j个重复个案之间的距离,最常见计算距离的方法是:欧几里德距离
dij(2)?[?(xik?xjk)2]1/2 (7)
k?1p ????????? 上式即为欧氏距离。 (3)相关性分析:
相关分析是描述两个变量间关系的密切程度,主要由相关系数值表示,当相关系数r的绝对值越接近于1,则表示两个变量间的相关性越显著。双变量系数测量的主要指标有卡方类测量、Spearman相关系数、pearson相关系数等,在进行两者间的相关性检验时用pearson相关系数来判断,其公式为:
r??(x?x)(y?y)?(x?x)?(y?y)ii2ii2 (8)
Pearson简单相关系数检验统计量为:
5
t?rn?21?r2 (9)
其中t统计量服从n?2个自由度的t分布。
5.1.3模型一的求解
(1)考虑到单价、数量、总价之间的相互影响,对这三个变量进行了双变量相关分析,图8为三个变量的相关性分析统计表, 图9单价、数量、总价的简单3-D散点图。
表-1单价、数量、总价相关分析统计表
6
图-1单价,数量,总价的简单3-D散点图
(2)用k均值聚类分析对医嘱子类、单价、数量、总价进行聚类。最终聚类中心结果见表-2,表-3是这四个变量的单因素方差分析表,表-4是运用k-均值聚类分析求出的重复个案数。
表-2 病人ID号重复个案的最终聚类中心
表-3 医嘱子类、单价、数量、总价的单因素方差分析表
7
图-2 医嘱子类、单价、数量、总价的最终聚类中心条形图
表-4 k均值聚类分析中的重复个案聚类
上述所有统计结构的分析:
(1)从相关分析的统计表中,可以看出单价与总价的相关性为0.456(弱相关),而数量与总价的相关性为0.116(不相关),所以认为,单价与总价有一定的相关性。
(2)从图10中看出,将医嘱子类、单价、数量、总价分为10类;图12为医嘱子
8
类、单价、数量、总价的每个聚类的案例数,发现第1、2、4类的单价过高;第3、10类退药数量大,第8类买药数量大;第1、3类单张处方退药金额大;第2、4、6类单张处方药费高。以上所述的都有可能为医保欺诈记录。
(3)图14统计出病人ID号重复个案占总数的77.6%,对此再进行聚类分析,结果见图15;由图16可知,第5、7、8、10类案例数较少,这些类的最终聚类中心大于25,此特征可能为欺诈。
(4)根据图17绘制的下医嘱科室与病人科室简单线图,可以看出有个别记录不在y=x线上,即为下医嘱科室与病人科室不一致,因此为医保欺诈行为。 (5)在图11的单因素方差分析中,医嘱子类、单价、数量、总价的P值均为0,说明各类在统计学上均有明显差异,将其作为分类标准是合适的。
5.2模型二的建立与求解 5.2.1logit模型的建立
我们把事件发生的情况定义为1,事件未发生的情况定义为0。这样在保险欺诈识别模型中,取值为0、1的因变量可以写作:
?1,医疗欺诈 ? (10)
?0,非医疗欺诈?我们通常以p表示事件发生的概率(则事件未发生的概率为1-p),并把p看作自变量x的函数。在本论文中,医疗保险是医疗欺诈的概率为p。 对于y是0-1型Bernoulli模型,有如下分布:
率?p?P(y?1/x),自变量为x时y?1的概率,即医疗欺诈概 ? (11)
概率?1-p?P(y?0/x),自变量为x时y?0的概率,即非医疗欺诈通过logistic转换,索赔事件的对数概率发生比写成logit模型:
?p? logit(p)?In?(12) ?1?p??
?? Logit一方面表达出它是医疗欺诈索赔概率p的转换单位;另一方面,它作为回归
9