数据分析实务与案例(9)

2020-05-08 08:44

(2) 单击?是?可以察看运行结果。Insight运行结果将数据源以二维表视图的形式

显示

(3) 单击SAS主菜单中的?分析?,选择下拉菜单中的?分布?,将弹出选择察看

分布的变量的窗口

(4) 单击第一个变量PURCHASE后将滚动条拖到最后一个变量,按住Shift键单

击最后一个变量SEX,当所有的变量都被选择上后单击?Y”按钮,然后确定,会出现所有变量的分布窗口。其中包括每个变量的分布图和一些重要的统计变量以及一组分位数。

在这个例子中我们重点要看的是DINING的分布。可以看到DINING的值从0到28,0值居多。那么我们要建立预测客户购买Dining产品倾向的模型,应该把目标锁定在目标变量Dining的值大于0的客户身上。

(5) 数据探索完毕,关闭分布窗口和EMDATA.VIEW_QMY窗口返回到EM工作

区。

3.3 准备建模数据

此例将准备建模数据阶段分成了四个环节:建立目标变量、设臵目标变量、数据分割和替换缺失值。

3.3.1

建立目标变量

前面已经分析了我们的目标人群是Dining变量大于0的客户群,但是对于目前数据集SASUSER.CUSDET1中的Dining变量的值是从0到28的一个分布,而我们只关心Dining值大于或者小于0,所以这里要对Dining变量作个转换,让大于0的Dining值为1。

EM中用来建立变量的工具是Transform Variables节点,步骤如下: (1)

将Transform Variables节点拖拽到工作区中Input Data Source节点的右侧连接Input Data Source节点到Transform Variables节点

(2)

双击Transform Variables节点,出现Transform variables窗口

(3)

单击工作区上方工具栏中的Create variable图标 窗口

,出现Create Variable

(4) (5)

在Name区域输入Dinebin,在Label区域输入Dining No/Yes 单击Define,出现Customize窗口

(6) (7)

在DINEBIN(N)=formula域中输入?dining〉0?

单击OK按钮,关闭Transform Variable窗口,选择?是?保存修改,则DINEBIN即为我们建立好的目标变量。

3.3.2

设臵目标变量

EM实现对目标变量的设臵使用的工具是Data Set Attributes节点 (1) 将Data Set Attributes节点拖放到Transform Variable节点右侧 (2) 连接Transform Variable节点到Data Set Attributes节点

(3) 双击Data Set Attributes节点,出现Data Set Attributes窗口 (4) 单击Variables标签

(5) 找到DINEBIN变量,右单击DINEBIN变量的New Model Role属性(input值),

选择弹出菜单中的Set New Model Role,选择target,则原来的input值变为target值

在这个建立和设臵目标变量的过程中隐藏着一个问题。DINEBIN的值是建立在DINING的基础上的,而DINGING的值又是建立在另外三个变量KITCHEN, DISHES和 FLATWARE的基础上的,这将导致目标变量与这四个预测变量之间的完全线性相关。这样就产生了一个逻辑循环,即输入导出的预测值是我们已知的,也就是说这种输入的结果是我们通过已知变量就可以知道的,而失去了预测的意义。所以,在我们建立预测模型时必须将形成目标变量的四个变量排除在外。

(6) 在Data Set Attributes窗口中分别找到KITCHEN、DISHES、FLATWARE 和

DINING变量,右键单击变量的New Model Role属性值,在弹出菜单中选择


数据分析实务与案例(9).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:《工业药剂学实验》实验教学讲义

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: