数据分析实务与案例(10)

2020-05-08 08:44

Set New Model Role，选择rejected，即将KITCHEN、DISHES、FLATWARE 和DINING的New Model Role属性值改为rejected。

EM建立预测模型要求确定变量的数据类型。EM能够识别的数据类型有五种：unary——只有唯一值型、binary——只有两个值型、nominal——两个以上的无序非数字值型、 ordinal——多于两种情况的小于10的数值型和interval——大于10 的数值型，例如：

（7）在Data Set Attributes窗口，右键单击DINEBIN变量的New Measurement属性

值，在弹出菜单中选择Set New Measurement，选择binary，则DINEBIN变量的New Measurement属性值被改为binary

在我们建模的时候，EM会默认目标事件为目标变量排序的第一个值，默认排序方法为升序。我们这里的目标变量DINEBIN只有０和１值，１值代表对厨房用品的购买。所以这里需要将目标变量按降序排列来锁定那些有购买倾向的客户群。

（8）在Data Set Attributes窗口，单击Class Variables标签，找到DINEBIN变量，

右键单击变量的New Order属性值，选择Set New Order，选择Descending

当设臵好目标变量的元数据特征（包括数据类型，排序等）后，下一步我们要对目标变量的商业属性进行设臵。由于我们对目标变量的预测值将涉及到我们的商业决策，而任何商业决策都要承担一定的成本。建立数据挖掘预测模型，明确预测模型的隐含成本是非常重要的，因为错误的预测结果与真实结果巧合相同的概率太小了，我们更不应该存有这种侥幸心理。

在本例中，生产、印刷和邮寄一份宣传单的成本为$10；每份宣传单的收入为$90；

这样的话，我们的预测将涉及到如下的产出：

正确的预测：发出目录，客户购买，平均利润为$80(90-10); 错误的预测：发出目录，客户没有购买，固定成本为$10;

任何模型的建立都必须考虑到正确的预测和错误的猜测所带来的不同结果，在应用一个预测模型之前，必须明确商业问题的成本结构及其对建模的含义。

EM提供了一种直接定义?收入—成本?矩阵的方法

（9）单击Data Set Attributes窗口的Variables标签，找到DINEBIN变量，右键单击

变量所在行的New Model Role属性，在弹出菜单中选择Edit target profile，出现如下对话框，

选择?是?，将出现Target Profiles for DINEBIN窗口

其中，Profiles标签下面列出了每一个目标变量描述文件的简单描述和激活状态，当前的激活文件将在该文件前面的Use属性框中打?*?，当前只有一个默认的激活文件，名为Profile。

（10）单击Target标签，可以查看目标事件的定义，单击levels可以查看不同事件的

分布

（11）单击Assessment Information标签，出现默认的决策矩阵

（12）在左边对话框的空白区域的单击鼠标右键，选择Add，出现新增的名为Profit

matrix的新矩阵；单击该Profit matrix，在右侧的Name域输入Dining matrix,替换Profit matrix。

（13）单击Edit Decisions按钮，出现Editing Decisions and Utilities窗口

（14）选择Maximize profit with costs，将Decision为1的Cost值改为10；其他内容

不变。关闭窗口，选择?是?保存修改。

此处修改Editing Decisions and Utilities的含义为：当DINEBIN值为1的时候，我们会发出邮件，那么我们的固定成本为$10;而当DINEBIN为0时，我们不发出邮件，那么成本为0。

当设臵好成本矩阵后，我们接下来要做的是确定期望收入

共10页:

数据分析实务与案例(10).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档