的因变量就可以与自变量识别因子之间的依存关系保持传统回归模型:
logitp??0??1x1??2x2????kxk??0?X? (13) 其中x1,x2,?,xk分别为k个识别因子:?0为常数项,?1,?2,?,?k分别为k个自变量的回归系数。 5.2.2 logit模型的求解 1、欺诈识别因子的选取
欺诈识别因子是指可以观测或测量到的,能够刻画保险欺诈特征的有效信息点,用以作为欺诈识别模型的解释变量。根据给出的数据,本文选取了一下13个指标作为识别因子: (1)被保人特征:
性别、年龄、是否有固定单位、是否死亡、是否留有手机号。 (2)医保单特征:
医嘱日期和结算日期间隔、下医嘱科室、医嘱子类、医嘱数量、执行科室、核算分类、费用、单价。
2、选取部分记录进行初步判定
由于logist模型的要求,必须先对一小部分记录进行初步判定,利用sql语句(详见附录2)选取每一栏目中异常数据,然后利用统计学分布等知识选取判定这一小部分数据,结果如下表:
表-5部分记录判定结果
10
3、欺诈识别因子的精炼
运用二元离散选择模型对选取的13个欺诈识别因子经行逻辑回归分析,从中获取具有显著性的因子。本文通过SPSS 19.0软件实现样本数据的logit回归分析,所得结果见下表:
参数设定为:方法-进入 步进概率:进入(N)=0.05,删除(V)=0.1;分类标准值(U):0.5;最大迭代次数:50; Exp(B)的C.l.(X):95%。
表-6 分类表a,b
表-7 迭代历史记录a,b,c
11
Block拟合的是只含有常数的无效模型,表3为迭代历史记录,估计在迭代终止初始的对数似然值达到825.358;表4为分类预测表,可见在600例观察值记录中,269例被预测为0,331被预测为1。
表-8 logit回归包含在防潮层中的变量估计值以及检验
在没有引入任何变量时方程的变量估计值及检验值如表5所示,常变量系数值为0.27,概率为0.082,可见常量对方程有显著性意义。因为回归采用Enter方法,处了检查容忍度 之外,没有其他任何进入标准,所有选择的变量都会进入回归方程。将变量分别引入回归方程后对方程的显著性影响如表6所示。可见性别、医嘱子类、是否留有手机号、执行科室、单价等五个因子引入方程对方程没有显著性影响。
表-9 logit回归不包含在方程中的变量进入方程
12
5.2.3医疗欺诈识别的SOFM神经网络模型
以Logit统计分析提取的具有显著有效性的欺诈识别因子作为输入变量建立SOFM神经网络模型,在待检测数据中抽取一部分样本数据训练SOFM神经网络,得到欺诈行为识别模型。导入所有待检测数据,通过SOFM神经网络模型仿真,将所有数据信息进行分类,输出结果不同类型的数据,即可对医保欺诈行为进行主动识别。
SOFM神经网络结构模型的基本结构如下图所示:
13
图-3 SOFM神经网络结构模型基本结构图
基于SOFM神经网络算法的基本功能函数,神经元i的输出可以采用两种方式:
(1)内积形式
n wi,x??wxijj?1j ?wiTx (14)(2)欧氏距离形式 ??2? (w?x) di?wi?x??(15) j??ij??j?
1/2 接下来运用处理之后的数据对构建的神经网络模型进行训练,基于最小均方误差算法,以均方误差作为反映模型预测精度的标准,与最速下降法没有本质上的差别。最标准最速下降法实际应用中往往收敛速度慢,因此作为改进权值更新阶段
14