医保欺诈行为的主动发现
摘要
对于医保诈骗行为,我们认为仅通过一个模型直接找出所有的欺诈类型既不准确,操作起来又比较困难。所以我们根据题附件中的费用明细表,通过分析费用数据与诈骗行为之间的关系建立模型一;根据各个表中出现的异常值,我们将异常值视为可能是医保欺诈行为,并由此建立模型二。
针对模型一,我们从三方面考虑。首先,单张处方的总价过高可能为欺诈,但是考虑到总价与单价、数量之间的相互影响,对此我们先对单价、数量、总价进行相关分析,发现单价与总价呈弱相关;然后用聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人ID号标记重复个案,由于重复个案所占比例较大,对重复个案进一步进行了聚类分析;最后,若下医嘱科室与病人科室不一致则可能为欺诈,对此我们绘制了简单线图,不在y=x直线上的即为欺诈记录。
针对模型二,建立合理的欺诈评判标准,检测其中的异常数据,进而对医保行为作出识别。首先,构建基于Logistic分析的精炼欺诈识别因子模型。建立Logit回归模型并用SPSS软件进行统计分析,通过分析回归模型的拟合优度和因素显著性检验,提取出具有显著有效性的欺诈识别因子作为后续模型的学习样本标准。构建无导师学习的自组织特征映射(SOFM)神经网络模型。即以Logit统计分析提取的具有显著有效性的欺诈识别因子作为输入变量建立SOFM神经网络模型,导入所有待检测数据,通过SOFM神经网络模型仿真,将所有数据信息进行分类,输出结果为不同类型的数据,即可对医保欺诈行为进行主动识别。
关键词: 医保欺诈 标记重复个案 相关分析 logit模型 SOFM神经网络
一、问题重述
1.1问题的背景
随着我国社会医疗保险体系的不断发展,人民的医保福利水平日益提高,一些
医保体系中的问题也日益显著,其中焦点问题之一就是医保诈骗行为。
1.2问题的复述
医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险
费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。请根据附件中的数据,找出可能的欺诈记录。
二、问题分析
根据问题中对骗保人进行医保欺诈时的常用手段,以及可能属于医保欺诈行为
的情况,经过分析我们可以将问题分为以下几个方面来解决。
1、判断是否为医保欺诈行为,需要从病人资料中的身份证号、医保手册号、Userupdate(用户更新次数)这三方面考虑。对此利用SPSS软件使用标识重复个案、聚类分析的方法,通过分析运行结果,做出重复个案与主个案所占比例、聚类中两类所占比例的饼状图。通过饼状图,可直观看出,所占比例的小的可能为欺诈记录。
2、首先第一步,对数据进行分析,构建基于Logistic分析的精炼欺诈识别因子模
型。
基于第一步处理的欺诈案评判标准数据间的关系,建立Logit回归模型并用SPSS软件进行统计分析,通过分析回归模型的拟合优度和因素显著性检验,提取出具有显著有效性的欺诈识别因子作为后续模型的学习样本标准。
1
第三步,构建无导师学习的自组织特征映射(SOFM)神经网络模型。即以Logit统计分析提取的具有显著有效性的欺诈识别因子作为输入变量建立SOFM神经网络模型,在待检测数据中抽取一部分样本数据训练SOFM神经网络,得到欺诈行为识别模型。
第四步,导入所有待检测数据,通过SOFM神经网络模型仿真,将所有数据信息进行分类,输出结果为不同类型的数据,即可对医保欺诈行为进行主动识别。
三、问题的假设
1、假设医保欺诈只是患者单方面行为,不存在医患合谋和医疗机构“引至欺诈”情况。
2、假设数据来源真实有效。 3,、假设分析过程中,数据无缺失。
4、假设对每个聚类分析结果,使用同一评判标准。 5、假设附所有保险的有关规定没各个指标。 6、假设所有的相关数据具有独立性相呼影响。
四、符号说明
xij sj
变量 标准方差
初始聚类中心 样本与聚类中心的距离 误差平方和准则函数
zj(I) D(xi,zj(I))
JC
2
dij(2)
欧式距离 新聚类中心 Pearson相关系数 Pearson相关系数检验统计量
2个一级指标i=1,2 5个二级指标i=1,2j=1,2,3
zj(I?1)
r
t Bi
cij
wi =
3个成对比矩阵i=1,2,3
矩阵按行求和
矩阵的最大特征值 5个指标最终权重 一致性检验指标 随机一致性指标 一致性比率 欺诈程度阈值
? W CT RI CR t1
五、模型的建立与求解
5.1模型一:基于费用明细的医保欺诈行为主动发现
5.1.1模型一的分析
医疗保险欺诈行为,通过分析病人的费用明细表中的各项数据也可以找出可能的欺诈行为表现,主要从单张处方的总价过高、病人ID号是否重复过多、下医嘱科室与病人科室是否一致这三个方面考虑。
3
在附件给出的表2中,通过对各个变量进行K均值聚类分析,可以将数据分为几类,案例数少的则可能是欺诈行为。但是考虑到单价、数量、总价之间的相互影响,对此我们使用了SPSS中相关性分析找出三个变量的相关性,并用图标构建程序绘制了简单3-D散点图。对于病人ID号与模型一的分析一样,使用标记重复个案的方法,找到重复的记录,即可能为医保欺诈行为。而下医嘱科室与病人科室应该是一致的,若不一致即为欺诈,因此对下医嘱科室和病人科室绘制简单线图。 5.1.2模型一的建立: (1)数据标准化
由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有n个样本,m个指标,则每个变量可表示为xij,均值
1n xj??xij (1)
ni?1标准方差为
1n sj? (xij?xij)2 (2)?n?1i?1标准化以后的式子为
xij?(2)聚类分析
系统聚类,将n个重复个案结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。
1、设有n个样本,令I=1,选取K个初始聚类中心:zj(I),j?1,2,?,k; 2、计算每一个数据样本与聚类中心之间距离:
*xij?xjsj(sj?0) (3)
4