? 命令方式
在SAS命令窗口输入miner后按回车。
2.2 新建一个工程
在EM窗口打开后,建立一个新数据挖掘工程的步骤如下:
(1) 在SAS主菜单中选择?文件—〉新建—〉项目?,会出现建立新项目的对话框,
在Create new project窗口中的Name域输入Dining List。
(2) 单击Create按钮后,Dining List工程名将显示在EM窗口的左侧,下面是默
认的工作流的名称Untitled,单击Untitled输入新的工作流名称Propensity,如下图所示,则一个名为Propensity的工作流程就建立起来了。
2.3 应用工作空间中的节点
EM中的挖掘程序需要通过设臵相应的节点的方式实现,节点是EM的一个重要组成部分,在EM中的挖掘任务都是通过拖拽、右单击、双击节点等操作实现的。
在图3中单击左下方的tools标签,所有可以使用的带名称的节点分组列表显示。
部分工具也可以通过EM窗口顶部的菜单栏来选择,将鼠标在相应的节点上停留1-2秒钟可以显示节点的名称。
3. 数据挖掘工作流程
EM工作流程主要包括六个环节:定义数据源(Input Data Source)、探索数据(Explore data)、为建模准备数据(Prepare data for modeling)、建立模型(Build model)、评价模型(Evaluate model)和应用模型(Apply model),每个环节可能由一个或多个节点来完成。
3.1 定义数据源
EM定义数据源的工具是Input Data Source节点,利用Input Data Source节点引入一个
数据源的过程如下:
(1) 在名为Input Data Source的节点上按住鼠标左键,将其拖拽到EM窗口右侧的空
白工作区中释放,则工作区中会出现一个新的Input Data Source节点。双击该节点会出现Input Data Source窗口
(2) 单击select按钮,会出现SAS Data Set窗口,其中SASUSER为默认数据集库。
tables下面是SASUSER库中所有可以选择的数据集,这里我们选择CUSTDET1作为我们的数据源。
(3) 选择CUSTDET1后单击OK按钮可以返回到Input Data Source窗口
可以看到当选择完数据源以后,EM会自动创建节点输出数据和元数据样本。元数据样本的默认容量(size)是2000,当数据源的记录小于2000时,元数据容量会等于数据源的大小。 如果需要改动元数据样本大小可以通过单击change按钮实现。
(4) 选择完数据源后关闭Input Data Source会弹出对话框,
(5) 单击?是?按钮保存修改返回到EM工作区,EM会自动将Input Data Source节
点名称改为所选数据集的名称。
3.2 探索数据
数据源中的缺失值、边界值、不规则分布都可能会影响到挖掘得建模甚至歪曲挖掘得结果。所以,清楚的了解数据源的内容和结构对于建立一个数据挖掘项目来说是非常重要的。
5.2.1
设臵Insight节点
EM实现探索数据的步骤如下: (1)
将Insight节点拖拽到工作区中方在名为SASUSER.CUSTDET1的Input Data Source节点下方。
(2)
连接Input Data Source节点和Insight节点:
A. 单击空白工作区
B. 将鼠标箭头移动到Input Data Source 节点边缘,使鼠标箭头变为十字形状 C. 按住鼠标左键滑动到Insight节点后释放,单击空白工作 D. 出现从Input Data Source到Insight的一个箭头
(3)
双击Insight节点,出现Insight Settings窗口
由于不同的数据源的数据量可能不同,而且有些数据源的数据量可能是非常巨大的,所以Insight节点默认抽取2000条数据记录来探索数据源,当数据源的记录数小于2000时,可以选择Insight Based On设臵中的Entire data set来改变探索数据的样本数量。
(4)
单击Entire data set后关闭Insight Settings窗口,在弹出对话框中单击?是?保存设臵
5.2.2
察看Insight节点输出结果
当设臵完Insight节点之后,通过运行该节点可以查看探索数据的结果,其过程如下:
(1) 右单击Insight节点,在弹出菜单中选择Run运行该节点,运行过程中节点的
四周会变成绿色,运行完毕会有运行结果的提示对话框