答卷编号(竞赛组委会填写):
答卷编号(竞赛组委会填写):
论文题目: 手机用户精准识别模型(B) 选择方向: 异网高端用户识别(1)
参赛队员:
1.姓名: 王文天 学院:材料学院 学号:0607100625 电话:13739063059
2.姓名: 姚湘筱 学院:材料学院 学号:0605100520 电话:15873147459
3.姓名:肖佩豪杰 学院: 材料学院 学号: 0607100819 电话:
指导老师:潘克家
评阅1. 评阅2. 评阅 3.
答卷编号(参赛报名号):
答卷编号(竞赛组委会填写):
评阅情况(评阅专家填写):
手机用户异网高端识别
摘要
本文用已有的本网手机用户资料对部分本网用户高端能力进行了研究,并利用这部分本网用户资料对其它本网用户及异网手机用户的行为特征进行了预测,并给出了一个靓号分级模型。
对于问题一,本队首先使用svm神经网络模型对缺失数据进行了补充并对影响用户高端程度的数据进行了归一化与极大化处理。之后,本队采用层次分析法给上述数据赋予权值,再采用聚类分析的方法将用户分为1000级。将各项数据与对应乘积的加和可以得到一个反应用户高端程度的具体数值,对分好的1000类求其高端指数的均值,并按照指数的升序重新排列命名这1000类,使第1组用户为最低端,1000组为最高端。以此1000个级别判别相对高端用户,再结合运营商的具体服务能力确定绝对高端用户。
对于问题二,本队假定手机用户在选择手机号码时不考虑本网异网差别,并且通话短信行为上有差别。因此可以由本网用户的高端预测结果加上所有用户的通话行为来预测异网用户的高端程度及营销优先级别。预测异网用户的分类时,本队利用本网用户的高端分类对用户的通化行为进行标定,得到94个行为变量,再对两个用户求算行为差异度,将任意一个没有分类的用户用一个第一问已经分类的用户替代,迭代不断利用其它用户矫正过的分类信息矫正某一用户通话行为,再用该用户的通化行为矫正该用户的分类信息,最后得到分类结果。由于内存与篇幅有限,本文列举出随机抽样的30名异网用户分类结果以及通话费预测值。并抽样了本网1000名用户进行一次迭代预测检验,得到分类误差在100组以内的用户比例为
,并且有一定的可区分性,预测分布方差为
组。
对于问题三,本队从判别准则合理性的评价、异网手机用户月均消费金额的估算评价、需改进的地方及改进方法三个方面着手分析。本队认为已建立模型可以对相关数据进行较为精准的分析。但是家用计算机对本算法的操作可行度不高,算法简化余地不大。同时给出了利用本队方法更精确预测异网用户高端与否的资料要求:一小部分但数量庞大的异网用户的用户资料。
对于问题四,本队创造性地运用了问卷调查法来预测人们对靓号的偏好。并对数据进行了科学的计算与统计,并得出了相应靓号分级系统,将各种号码分为54个级别。
关键字: 层次分析法 聚类分析 差异度分析 svm神经网络 问卷调查法
1
一、 问题重述
随着科技发展和经济的全球化,手机用户日益增多,各网运营商之间的竞争也愈加激烈。手机用户的级别划分成为了手机运营商必须解决的问题。手机用户的级别高低应从用户的消费力度、通话量、手机交往圈大小、个性服务使用、手机档次等因素来考虑,并使用一些题给数据来度量这几个因素。经过这种分级后,通过手机用户所在级别亦可反推其消费力度、通话量等行为特征。本题要求用数学建模的方法,利用附件中的数据解决以下四个问题:
问题一:通过本网手机用户资料,给本网手机用户分类。从多方面因素全面考察各个类别手机用户的级别高低,并确定好分级标准,给本网用户一个明确的分级。
问题二:参考对本网手机用户行为特征的研究对异网手机用户进行级别划分,并在获知异网手机用户一定量相关信息后,估计其月均消费金额。
问题三:对所设立的分级标准进行评价,并对已做模型进行评价和改进。 问题四:收集靓号以确定靓号范围;了解人们对靓号的偏好情况,并根据人们对靓号的偏好设计一个靓号分级系统。
二、 问题分析
用户组成对于运营商来说极其重要,直接影响其经济效益和长远发展计划。而高端用户则是其中很重要的组成部分,其往往更关注信号强度和通话质量,能促进运营商提高服务质量。所以从用户中分辨出高端用户至关重要。
本题主要是在三个数据表格的基础上,给出本网与异网高端用户的判别准则以及营销优先级,然后再判断结果是否准确。
本网高端用户的预测属于统计预测类数学问题,要从大数据里面分析出高端用户的行为准则,可以运用聚类分析的方法,先通过分析数据,运用层次分析法确定权值,再聚类分析,通过比较类与类之间的差异以及相似度,确定高端用户及其判别准则,再制定营销优先级。
对于问题2,如果能知道异网用户的月均消费额与高端用户的多少等重要信息,运营商便可以制定出更好的商业政策,使自己的利益最大化。故研究这类问题很有意义。对于异网的用户,因为只知道与本网用户少量的通话记录以及短信记录,而要估算出其月均消费额,便要用已知本网的数据区拟合,通过一系列假设将异网用户的消费行为与本网用户的行为比较,找到与之行为最相似的本网
2
用户,从而判断其的月均消费额。
关于靓号分级,因为主观因素太强,本队认为可采用调查问卷的形式,然后收集数据进行分析,得到结果。
三、 模型假设
(1) 附件数据能真实反映用户行为。
(2) 异网用户与本网用户的消费数额在整体上与本网用户没有差异。 (3) 异网用户面临的手机消费环境,入套餐等跟本网没有差别 (4) 用户选择哪个运营商,跟用户本身高端与否没有任何关系,在本题可以看
做是按一个固定概率随机选择运营商。 (5) 对于本网用户,通话记录和短信记录应该是用户的完整记录;对于异网用
户,得到的通话记录与短信记录只有该用户的一部分,并假设对于同一个运营商来说每位用户记录的可见部分与不可见部分之间的比例是定值,且可见部分的通话行为与不可见部分的通化行为的期望是相等的。 (6) 靓号类型为顺子号、连号以及吉祥号
四、 符号说明
用户数 用户的性态指标 最大特征值 一致性指标 随机一致性指标 一致性比率 相应的特征向量 性态指标矩 第i个用户m个性态指标的总和 3
第r类用户性态指标和的平均值 显著度 观测样本比例 本网内部月总通话数量 本网用户与其他运营商用户通话量 其它运营商参与被叫的人数 时间复杂度 残差绝对值的数学期望 标准差 预测分布方差 分组残差绝对值小于100的比例 行为差异度 本网参与被叫记录的人数 五、 模型的建立与求解
5.1 问题1的模型
问题1是要研究本网手机用户行为特征,给出本网高端手机用户的判别准则以及营销优先级。现在,手机用户数量众多,相关数据统计和分析都十分困难。所以,本项研究对本网营销方面可起到一定的参考与应用价值。
问题1属于一种评价问题,对此类问题,本队先从附件中所给文件入手建立了如下模型。
4
本网用户高端手机用户判别模型
高端手机用户的定义:高端手机用户在消费力度,通话量、以及手机交往圈(与之有通信行为的所有手机用户构成其手机交往圈)大小等方面均远高于整体平均水平。高端用户往往更关注信号强度和通话质量,追求个性化服务。因此定义高端用户为消费力度大、通话量大、手机交往圈大、个性服务多、手机高档(…的用户,并定义增值费、套餐档次、是否3G用户、上网流量、手机操作系统的加权值为用户高端程度的量化值。
5.1.1模型的准备
(一)
缺失资料的补充
经过本队的观察,用户资料缺失的情况主要发生在城乡用户识别资料,性别资料以及年龄资料三个变量上,而且其中各个变量的缺失比例不太一样,例如用户城乡资料有大约25%左右的缺失而年龄资料只有10%的缺失。
对于缺失资料的用户,本队首先采取的办法是做预测,通过数据挖掘来尽量使缺失值减少。
首先本队进行双变量之间的相关性分析。
采用SPSS进行双侧相关性检验后,结果如附录1所示。
由附录1可知,各个变量之间虽然存在显著的相关性,但相关性系数任然小于0.5,要进行预测有一定的难度。经讨论本队决定使用神经网络的模型来解决此问题。
首先对城乡资料与性别资料进行预测:由于这个变量是定类变量,因此本队选用一种比较合适的分类方法。这里本队组采用matlab环境下的svm神经网络进行分类。
SVM神经网络(支持向量机)的原理是通过在超维空间中利用支持向量来建立一个决策超平面,以该平面跟支持向量同时进行分类。这样,虽然城乡分类、性别分类与单个其它变量(如总通话费等)的关联不大,但如果分类是可以在多变量所正交的空间中产生明显决策超平面,则预测也是可能实现的。之所以不采用其它神经网络例如简单的bp,是考虑到分类器对于变量的敏感性问题,由于用于决策的变量较多,且在相关性检测表格中可以看出决策变量内部的自相关性也不强,因此本队不敢轻易对变量做降维(主成分提取)处理。
5
图1
svm神经网络基本分类原
理:——利用支持向量设置
本队对归一化后的变量直接使用svm工具箱处理(这里,本队队采用的是台湾大学林志仁教授的科研小组研发的libsvm工具箱,它也是当今公认的在各个领域平台上发挥最稳定的工具箱)。
使用步骤为: 1.训练分类器 训 自变量与练 因变量 集 已 知2.利用分类器对部分测试数据分类 数 据 自变量 测 试 集 因变量 调整训练方法, 或重新对数据预处理 3.计算测试数据分类准确率 6
自变量
初始测试时本队提取出所有的有全纪录的用户资料作为训练集以及测试集的提取。由于总体数目庞大,本队队采用1%的数据作为训练样本,0.5%的数据作为测试样本进行训练。首先处理城乡资料预测,得到的预测准确率稳定在66%左右。但是本队发现,总体样本中有66%的人全部属于同一个类别(城镇),也就是说完全蒙城镇也能有66%的准确率,因此预测失败。那是不是说决策平面就无法建立呢?是否缺失变量真的预测不了呢?
为了验证变量之间是否可能预测,本队重新选择测试集和训练集,本队分别提取两个类别(城镇,农村)的用户各占50%,测试集也同样处理,发现预测准确率能达到58%,也就是说,完全蒙的话,准确率是在50%,而高出的准确率可以表示预测是由一定效果的。
而之前的分类效果差的原因在于归一化处理不得当。本队尝试着把本队已经归一到[0,1]之间的变量重新归一到更大的区间内,而不同的自变量也并不归一到完全相同的区间而是根据预测性能找到一个最佳的收敛区间内。因此本队去掉了很多没有明显相关性的变量(发现这些变量归一区间大小并不影响预测结果),并用梯度收敛的办法找到了一个较优的收敛区间,大部分变量归一到[-41,41]的区间,而不同变量之间的比例依靠收敛计算出来的权值而定。
收敛权值:
最终分类器的结果稳定在了82%,高出最低水平约16个百分点。 性别分类也是同样的方法得到的预测结果收敛至75%,高出最低水平5个百分点。
7
关于预测结果的评判:由于分类预测已经能达到70%以上的准确率,基本上可以拿来预测缺失值。由于变量之间的相关性实在太低(一般相关系数要在0.6以上才能做预测),能得到有一定水平的准确预测结果已经很不容易。考虑到总体分类准确率还比较高,因此本队就使用svm预测结果来进行数据填充。
对于年龄预测:
年龄属于定距变量,本队队最先采用svm回归预测来处理,但得到的结果离差太大,并且把预测的测试数据结果分布图与测试数据的分布比较,发现形状有比较大的差别。之后本队任然采用归一化收敛的办法处理,并且还使用了降维技术提取出5个主成分,但预测结果本队任然认为不够准确(见图),由于年龄缺失用户的比例并不大,本队最后决定舍弃这些用户的资料(但并不表示本队没有对这些用户进行高端识别,只是在这里本队把它们与那些不知道用户资料的用户归为同一类处理而已)。
数据的归一化
全部个人资料都有的用户的性态指标
=334090
(当月出账金额,是否为VIP用户,增值费,套餐档次,
是否为3G用户,上网流量,手机操作系统,城乡标识,手机价格,市话,长途,漫游) 设论域
于是可以得到原始数据矩阵A=
。
,每个
A中不同的数据有不同的性质和不同的量纲,为了使原始数据适合模糊聚类的要求,欲将原始数据矩阵A用平移—标准差变换 作归一化处理, 即令
其中
(i=1,2,3,……,n,j=1,2,……,m)
(j=1,2,…m)
8
目标层标准层子标准层
得到结果后发现其中还有一些
(j=1,2,…,m) 显然所有的,且也不存在量纲应属的影响,从而可以得到标准矩阵
R=
然后用层次分析法来确定各个性态指标的权数,以便于聚类分析,处理第一问。
5.1.2 模型的建立
层次结构模型
1. 建立层次结构模型如下图
划分用户级别消费力度个性服务通话质量通话量手机圈大小当是月否套是手出餐否上机手通短账VIP增值操城机市长漫话信金用费档3G网次用流作乡价话途游圈圈额户户量系标格大大统识小小
9
2.构造成准则层对比较矩阵如下: A 消费力度 通话量 手机圈大小 个性服务 通话质量 消费力度 1 1/5 1/7 1/8 1/9 通话量 5 1 1/4 1/5 1/6
A的最大特征值λ
max=5.34
手机圈大小 7 4 1 1 1/3 个性服务 8 5 1 1 1/4 通话质量 9 6 3 4 1 相应的特征向量为W(2)?(0.5895,0.2281,0.0732,0.0754,0.0338)T, 一致性指标CI和随机一致性指标RI分别为:
??5CI?max?0.0859 5?1RI?1.12一致性比率:
CR?CI?0.0767?0.1 RI通过一致性检验。
3.依次构造子标准层对比较矩阵。
① 消费力度 B1 当月出账金额
1 当月出账金额
1/5 是否VIP用户
B1的最大特征值λ
max=2
是否VIP用户 5 1 相应的特征向量为W(31)?(5/6,1/6)T 一致性指标CI为:
10
CI?0 一致性比率:
CI?0?0.1 CR?RI通过一致性检验。
② 个性服务
B2 增值费 套餐档次 是否3G用户 上网流量 手机操作系统 B2的
=5.28
增值费 1 1/4 1/6 1/5 1/7 套餐档次 4 1 1/4 1/3 1/5 是否3G用户 6 4 1 3 1/2 上网流量 5 3 1/3 1 1/4 手机操作系统 7 5 2 4 1
为:
CI?
为:
RI?1.12
11
?max?55?1?0.070 3通过一致性检验。
③ 通话质量 B3
城乡标识
手机价格
B3的最大特征值λmax=2
城乡标识 1 1/5 手机价格 5 1 相应的特征向量为W(33)?(5/6,1/6)T 一致性指标CI为:
CI?0 一致性比率:
CI?0?0.1 CR?RI通过一致性检验。
④ 通话量
B4 市话费 长途费 漫游费 12
市话费 长途费 漫游费
B4的最大特征值λ
max=3.00
1 5 9 1/5 1 2 1/9 1/2 1 相应的特征向量为W(34)?(0.066,0.3187,0.6153)T 一致性指标CI为:
CI??max?33?1?0.000 6随机一致性指标RI为:
RI?0.58 一致性比率:
CI0.0006??0.001?0.1 CR?RI0.58通过一致性检验。
⑤ 手机圈大小
通话圈大小
B5的最大特征值λ
max=2
B5 通话圈大小 短信圈大小 1 5 短信圈大小 1/5 1 相应的特征向量为W(33)?(5/6,1/6)T 一致性指标CI为:
CI?0 一致性比率:
13
CR?通过一致性检验。
4.组合权向量计算
CI?0?0.1 RI 子标准层对目标层的权向量是w(3)?W(3)w(2),
~(31)、w~(32)、w~(33)、w~(34)、w~(35)为列向量的15×5的矩 W(3)是以下列5个向量w阵。
~(31)?(w(31)T,0,0,0,0,0,0,0,0,0,0,0,0)w~(32)?(0,0,w(32)T0,0,0,0,0,0,0)w~(33)?(0,0,0,0,0,0,0,w(33)T,0,0,0,0,0) w~(34)?(0,0,0,0,0,0,0,0,0,w(34)T,0,0)w~(35)?(0,0,0,0,0,0,0,0,0,0,0,0,w(31)T)wW(3)=
~(31),w~(32),w~(33),w~(34),w~(35) w?因为w(3)?W(3)w(2),
使用matlab的矩阵求算功能,可以得出子标准层各个因素(当月出账金额,是否为VIP用户,增值费,套餐档次,是否为3G用户,上网流量,手机操作系统,城乡标识,手机价格,市话,长途,漫游,通话圈大小,短信圈大小)对目标层的影响加权:
w(3)?(0.49112,0.0980,0.1209,0.0531,0.0147,0.0294,0.0100,0.0610,0.0122,0.0050,
0.0240,0.0464,0.0282,0.0056)
基于K均值的聚类模型
? 将上一步的得到的性态指标权数乘以相应的性态指标,得到加权后的性态指标矩
其中
(i=1,2,…,n,j=1,2,…,m)
14
? K均值聚类
K 均值聚类是聚类分析中最常用的聚类算法之一。K 均值聚类算法随机选取k 个点,假设作为各类的代表点,然后通过多次迭代来逼近最佳聚类的各个类的重心,算法步骤如下:
1) 从 n 个数据对象任意选择k 个对象作为初始聚类中心; 2) 循环 3)到4),直到每个聚类不再发生变化;
3) 根据每个聚类对象的均值,计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;
4) 重新计算每个(有变化)聚类的均值(中心对象)。
将加权归一化好的数据用SPSS软件进行k均值聚类分析,快速聚类数定为1000类,得到的聚类分布表如附录2 然后令:
为第i个用户m个性态指标的总和。 为第r类用户性态指标和的平均值
因为性态指标已经进行过了加权处理,故其大小便可以用来判断该用户在所处类别的优先顺序,值越大优先级越高。
其他类均按照此类处理,得到此1000类性态指标和的平均值。按照
的
大小,将这1000类升序排列,本队询问电信知高端用户所占的百分比约为1%,故我们认为排在前面10类的用户为高端用户。
用Matlab将其提取出来(程序见附录),进一步分析他们的行为,分析得到,这些用户的共同特点为:用户均为VIP用户,且等级较高。套餐等级高,通话量多,绝大多数为城市用户,上网流量也偏高等。
而按照公众的消费观念,一般会按照自己的消费额来确定自己的套餐档次,故在此给出本网高端手机用户的判别准则:
(1)手机用户为城市类型,且年龄在25岁以上 (2)用户等级为最高 (3)套餐在160元以上
(4)为VIP用户,3G用户且等级较高
依据营销级别的划分对应用户的高端程度即可确定该用户的营销优先级。如:将营销优先级平均划为5等,则用户高端程度处于前200级的可以享受一级营销,用户高端程度处于前400~200级的可以享受二级营销,用户高端程度处于前600~400级的可以享受三级营销,用户高端程度处于前600~800级的可以享受四级营销,用户高端程度处于后200的可以享受五级营销。当然,具体情况需要参考服务商的服务能力以及消费者的分布情况来定,但定距变量分组与消费者在这些组中分布已经求出,只需参考运营商服务能力即可判断服务区分点位置。
15
注:此问只解决了有用户资料的本网用户的高端判别,对于没有资料的本网用户,由于其观察方法与异网用户的观察方法基本相同,故放在了第二问的模型中一起解决。
5.2 问题2的模型
问题2是要研究异网手机用户的行为特征。如今,各大手机网络之间竞争激烈,而知己知彼方能百战百胜,因此,异网手机用户行为特征研究在各营销商的竞争中起到了关键作用。
问题2属于预测问题,又因为我们只有本网手机用户数据,所以本队决定使用假设2来预测异网手机用户行为特征,并提出迭代收敛的方法来提高预测的精准度。
5.2.1 模型的建立
由于本网有一部分用户拥有通话记录,但并没有用户资料记录,并且所有异网可见用户也全部都只有部分的被叫通话记录,因此要判别异网用户分组,只能通过其通话行为特征进行判断。
又由于通话记录是一个不定维度的数据,直接比较两通电话或者短信来确定通话双方(短信双方)的分组变量是没有意义的。对此,本队先对用户的通话与短信进行统计处理。本队在此阶段考虑到模型应该尽量简单为的原则,并同时兼顾了本队的工作量,对此暂时只对通话记录进行处理。
由于短信记录本身包含有所有的特征,通话记录中都有相应的特征(例如通话条数以及发起者接受者),因此对短信记录的处理可以直接仿照下面本队对通话记录的处理来做。
异网手机用户的月均消费金额估算模型
对异网手机用户用户的聚类分组 16
用户行为特征的表示 用户行为的校准与迭代补充
1.用户行为特征的表示
月消费金额估算 第一次模糊化统计:
由于本网一部分用户已经分组,与这些用户经常通话的用户的部分行为特征可以得到统计。这里我们把用户的通话行为分为100个变量表示
其中
其中Ti表示该用户与第i组用户通话的总时间。
第二次模糊化处理:
由于事先分好的1000组是经过平均高端值排序过后的,因此其用户分组序数就已经可以反映高端与否,两用户孰优孰劣可以以所在分组的序号比较得到。因此这里把类别相近的分组合并进行行为计算。同时考虑到组与组之间任然存在可能的混搭,例如第一组与第二组的分界线实际上就是原有的第10类与11类的分界线,那么10跟11组的相近行为就不能表现出来。因此引入第二步模糊化处理,将100组行为分为94组。
其中
这里以指数递减权值的方式将相邻的7项行为加和得到新的行为项,这样,最初的通话记录与定类分组变量就被统计处理成了95类行为变量,其均为定距变量。
2.用户行为的校准与迭代补充
显著度α矫正:
显著度是本队生造的一个函数量,某位用户的显著度其定义由下式给出:设与该用户通话记录中有a通电话的另一方用户已经分类(已经分入1—1000类中),有b通电话的另一方分类未知。则显著度
17
对于
的用户,暂时无法解出其所属分组,但对于
的用户,可以
校准其真实的通话时间。
.观测样本比例矫正:
对于本网用户,本队默认每个用户的所有通电全部有记录,并把呼叫者与被呼叫者做等同处理。但对于异网用户,本队认为其只有部分通话记录被本网运营商所获得,对于一个异网用户来说,还存在有很多通电话并未被本网运营商记录在案。在此假设异网用户平均通话量与本网用户基本一致。 设本网内部月总通话数量为
本网用户与其他运营商用户通话量为本网参与被叫记录的人数为 其它运营商参与被叫的人数为
其中 n为运营商编号,1代表本网
的计算结果表
各项指标 运营商 28147760 41710753 6305439 1435818 4083287 646286 1 1 2 3
1.91913851666116 2.00934201563453 18
参考文献
[1] 李海涛,邓樱 《MATLAB程序设计教程》, 北京:高等教育出版社,2002 [2] 姜启源,谢金星,叶俊,《数学模型》, 北京:高等教育出版社,2006
[3] 郑州顺,张鸿雁,《科学计算与数学建模》, 上海:复旦大学出版社,2010 [4] 赖国毅,陈超,《SPSS.17中文版统计分析典型实例精粹》,北京:电子工业出版社,2010
[5] 史峰,王小川,郁磊,李洋,《MATLAB神经网络30个案例分析》,北京:北京航空航天大学出版社
39