数据挖掘-决策分析

2019-08-26 18:02

实验报告一:决策树方法

实验目的:

使用SQL Server Business Intelligence Development Studio对上述数据建立数据立方体,并进行数据挖掘分析,挖掘的知识类型不限,将挖掘过程和结果形成实验报告。 实验内容:

(1) 利用给定的数据库,新建一个数据挖掘项目;

(2) 依次建立数据源,数据源视图,维度,多维度数据集,挖掘机构; (3) 选择不同的算法对挖掘的结果进行分析,预测. (4) 根据以上分析,提出可以执行的决策 实验步骤:

创建 Analysis Services 项目 更改存储数据挖掘对象的实例

创建数据源视图

创建用于目标邮件方案的挖掘结构

创建目标邮件方案的第一步是使用 Business Intelligence

Development Studio 中的数据挖掘向导创建新的挖掘结构和决策树挖掘模型。

在本任务中,您将基于 Microsoft 决策树算法创建初始挖掘结构。若要创建此结构,需要首先选择表和视图,然后标识将用于定型的列和将用于测试的列

1. 在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘向导。

2. 在“欢迎使用数据挖掘向导”页上,单击“下一步”。

3. 在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。

4. 在“创建数据挖掘结构”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft 决策树”。 5. 单击“下一步”。

6. 在“选择数据源视图”页上的“可用数据源视图”窗格中,选择 Targeted Mailing。可单击“浏览”查看数据源视图中的各表,然后单击“关闭”返回该向导。 7. 单击“下一步”。

8. 在“指定表类型”页上,选中 vTargetMail 的“事例”列中的复选框以将其用作事例表,然后单击“下一步”。稍后您将使用 ProspectiveBuyer 表进行测试,不过现在可以忽略它。 9. 在“指定定型数据”页上,您将为模型至少标识一个可预测列、一个键列以及一个输入列。选中 BikeBuyer 行中的“可预测”列中的复选框。 10.

单击“建议”打开“提供相关列建议”对话框。

只要选中至少一个可预测属性,即可启用“建议”按钮。“提供相关列建议”对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。显著相关的列(置信度高于 95%)将被自动选中以添加到模型中。 查看建议,然后单击“取消”忽略建议。 11.

确认在 CustomerKey 行中已选中“键”列中的复选框。

12. 选中以下行中“输入”列中的复选框。可通过下面的方法来同时

选中多个列:突出显示一系列单元格,然后在按住 Ctrl 的同时选中一个复选框。 1. Age

2. CommuteDistance 3. EnglishEducation 4. EnglishOccupation 5. Gender

6. GeographyKey 7. HouseOwnerFlag 8. MaritalStatus 9. NumberCarsOwned 10. NumberChildrenAtHome 11. Region 12. TotalChildren 13. YearlyIncome 13.

在该页的最左侧的列中,选中以下行中的复选框。 1. AddressLine1 2. AddressLine2 3. DateFirstPurchase 4. EmailAddress 5. FirstName

6. LastName

确保这些行仅选择了左侧列中的复选标记。这些列将添加到结构中,但不会包含在模型中。但是,模型生成后,它们将可用于钻取和测试。有关钻取的详细信息,请参阅针对挖掘模型和挖掘结构使用钻取(Analysis Services – 数据挖掘)。 14.

单击“下一步”。

检查和修改每列的内容类型和数据类型

15.

在“指定列的内容和数据类型”页上,单击“检测”运行用来确定

每列的默认数据类型和内容类型的算法。 16.

查看“内容类型”和“数据类型”列中的各项;如有必要,请进行

更改,以确保设置与下表所示一致。

通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本处理。例如,GeographyKey 应作为文本处理,因为对此标识符进行数学运算是不对的。

列 Address Line1 Address Line2 Age Bike Buyer Commute Distance CustomerKey 内容类型 Discrete Discrete 数据类型 Text Text Continuous Long Discrete Discrete Key Long Text Long DateLastPurchase Email Address English Education English Occupation FirstName Gender Geography Key House Owner Flag Last Name Marital Status Number Cars Owned Number Children At Home Region Total Children Yearly Income 17.

单击“下一步”。

Continuous Date Discrete Discrete Discrete Discrete Discrete Discrete Discrete Discrete Discrete Discrete Discrete Discrete Discrete Text Text Text Text Text Text Text Text Text Long Long Text Long Continuous Double 指定测试集

1. 2. 3.

在“创建测试集”页上,将“测试数据百分比”保留其默认值:30。 对于“测试数据集中的最大事例数”,请键入 1000。 单击“下一步”。


数据挖掘-决策分析.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:武汉理工大学土建学院硕士生导师

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: