数学建模医保欺诈行为的主动发现(2)

2019-03-28 16:28

D(xi,zj(I)),i?1,2,?,n （4）如果满足D(xi,zj(I))?min{D(xi,zj(I))},i?1,2,?,n,xi?wk； 3、计算误差平方和准则函数JC，公式如下：

JC(I)???xkj?Zj(I) （5）

j?1k?1knj24、判断是否满足聚类算法结束条件：如果JC(I)?JC(I?1)??，则表示算法结束，否则，I=I+1，计算下一个新的聚类中心，并返回2,新的聚类中心计算公式如下:

1 Zj(I?1)?nj?Xi?1kji ,j?1,2,?,k （6）

距离：对重复个案结果进行聚类时，“靠近”往往由某种距离来刻画。令xij表示第i个重复个案结果的第j个指标，dij表示第i个重复个案与第j个重复个案之间的距离，最常见计算距离的方法是：欧几里德距离

dij(2)?[?(xik?xjk)2]1/2 （7）

k?1p ????????? 上式即为欧氏距离。（3）相关性分析：

相关分析是描述两个变量间关系的密切程度，主要由相关系数值表示，当相关系数r的绝对值越接近于1，则表示两个变量间的相关性越显著。双变量系数测量的主要指标有卡方类测量、Spearman相关系数、pearson相关系数等，在进行两者间的相关性检验时用pearson相关系数来判断，其公式为：

r??(x?x)(y?y)?(x?x)?(y?y)ii2ii2 （8）

Pearson简单相关系数检验统计量为：

t?rn?21?r2 （9）

其中t统计量服从n?2个自由度的t分布。

5.1.3模型一的求解

（1）考虑到单价、数量、总价之间的相互影响，对这三个变量进行了双变量相关分析，图8为三个变量的相关性分析统计表，图9单价、数量、总价的简单3-D散点图。

表-1单价、数量、总价相关分析统计表

图-1单价，数量，总价的简单3-D散点图

(2)用k均值聚类分析对医嘱子类、单价、数量、总价进行聚类。最终聚类中心结果见表-2，表-3是这四个变量的单因素方差分析表，表-4是运用k-均值聚类分析求出的重复个案数。

表-2 病人ID号重复个案的最终聚类中心

表-3 医嘱子类、单价、数量、总价的单因素方差分析表

图-2 医嘱子类、单价、数量、总价的最终聚类中心条形图

表-4 k均值聚类分析中的重复个案聚类

上述所有统计结构的分析：

（1）从相关分析的统计表中，可以看出单价与总价的相关性为0.456（弱相关），而数量与总价的相关性为0.116（不相关），所以认为，单价与总价有一定的相关性。

（2）从图10中看出，将医嘱子类、单价、数量、总价分为10类；图12为医嘱子

类、单价、数量、总价的每个聚类的案例数，发现第1、2、4类的单价过高；第3、10类退药数量大，第8类买药数量大；第1、3类单张处方退药金额大；第2、4、6类单张处方药费高。以上所述的都有可能为医保欺诈记录。

（3）图14统计出病人ID号重复个案占总数的77.6%，对此再进行聚类分析，结果见图15；由图16可知，第5、7、8、10类案例数较少，这些类的最终聚类中心大于25，此特征可能为欺诈。

（4）根据图17绘制的下医嘱科室与病人科室简单线图，可以看出有个别记录不在y=x线上，即为下医嘱科室与病人科室不一致，因此为医保欺诈行为。（5）在图11的单因素方差分析中，医嘱子类、单价、数量、总价的P值均为0，说明各类在统计学上均有明显差异，将其作为分类标准是合适的。

5.2模型二的建立与求解 5.2.1logit模型的建立

我们把事件发生的情况定义为1，事件未发生的情况定义为0。这样在保险欺诈识别模型中，取值为0、1的因变量可以写作：

?1，医疗欺诈 ? （10）

?0,非医疗欺诈?我们通常以p表示事件发生的概率（则事件未发生的概率为1-p），并把p看作自变量x的函数。在本论文中，医疗保险是医疗欺诈的概率为p。对于y是0-1型Bernoulli模型，有如下分布：

率?p?P(y?1/x),自变量为x时y?1的概率，即医疗欺诈概 ? （11）

概率?1-p?P(y?0/x),自变量为x时y?0的概率，即非医疗欺诈通过logistic转换，索赔事件的对数概率发生比写成logit模型：

?p? logit(p)?In?（12） ?1?p??

?? Logit一方面表达出它是医疗欺诈索赔概率p的转换单位;另一方面，它作为回归

数学建模医保欺诈行为的主动发现(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

数学建模 医保欺诈行为的主动发现(2)