第3章 数据泛化 数据挖掘的分类
描述性挖掘:以简洁概要的方式描述数据,并提供数据的有意义的一般性质。
预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。 概念描述(泛化):为数据的特征化和比较产生描述(当所描述的概念所指的是一类对象时,也称为类描述)
特征化:提供给定数据集的简洁汇总。例如按专业的成绩分布表 区分:提供两个或多个数据集的比较描述。如男生与女生的对比。
面向属性的归纳 :是一种数据泛化方法,可以从大量数据中找出其中的一般性规律 什么是数据泛化?数据库中的数据和对象通常包含原始概念层的细节信息,数据泛化就是将数据库中数据集从较低的概念层抽象到较高的概念层的过程。用较高层次的概念来代替较低层次的概念。例如:用老、中、青分别代替(20-35,36-50,51-70)的年龄区间值。 用省代替地市级的概念等
面向属性的归纳的基本步骤
1、数据聚焦,获得初始数据关系 2、 进行面向属性的归纳
基本操作是数据概化,对有大量不同值的属性,进行以下操作:属性删除、属性概化 属性概化控制:控制概化过程,确定有多少不同的值才算是有大量不同值的属性 属性概化临界值控制:如果一个属性的不同值个数大于属性概化临界值,则应当进一步删除或者概化该属性。 概化(广义)关系临界值控制:如果概化关系中不同元组的个数超过概化(广义)关系临界值,则应当进一步概化。
属性删除的适用规则:对初始工作关系中具有大量不同值的属性,符合以下情况,应使用属性删除:在此属性上没有概化操作符(比如该属性没有定义相关的概念分层)、该属性的较高层概念用其他属性表示
如:name: 要被删除的属性 phone#:要被删除的属性 属性概化控制的两种常用方法: 属性概化临界值控制:对所有属性设置一个概化临界值或者是对每个属性都分别设置一个临界值(一般为2到8)
概化关系临界值控制: 为概化关系设置一个临界值,确定概化后的关系中,不同元组个数的最大值。(通常为10到30,应该允许在实际应用中进行调整) 第4章 关联规则 关联规则挖掘:从事务数据库、关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、项与项之间的关联
应用:购物篮分析、分类设计、捆绑销售和亏本销售分析、病理分析、文本挖掘、网络故障分析等
经典的关联规则挖掘算法:Apriori算法和FP-growth算法
设Ⅰ={i1,i2,…,im}是m个不同项目的集合,每个ik(k=1,2,……,m)称为一个项目(item)。 项目的集合Ⅰ称为项目集合(itemset),简称为项集。其元素个数称为项集的长度,长度为k的项集称为k-项集(k-itemset)。
Ⅰ={bread, cream, milk, tea, cake, beer } 该超市出售6种商品,项集Ⅰ包含6个项目,Ⅰ的长度为6. 对于项集{cake, beer }包含2个项目,成为2-项集。
每笔交易T(Transaction)是项集Ⅰ上的一个子集,即T?Ⅰ,但通常T?Ⅰ。对应每一个交易有一个唯一的标识——交易号,记作TID交易的全体构成了交易数据库D,或称交易记录集D,
简称交易集D。交易集D中包含交易的个数记为|D|。表4.1所示的交易记录集D中包含10笔交易T1—T10,则|D|=10。每笔交易中,顾客购买的商品集合(即项集),是所有商品的项集Ⅰ的一个子集。
对于项集X,X?Ⅰ,设定count(X?T)为交易集D中包含X的交易的数量,则项集X的支持度support(X)就是项集X出现的概率,从而描述了X的重要性。
count(X?T)support(X)?项集X的支持度为: |D |
项集的最小支持度与频繁项集 要发现有意义的关联规则,要求项集必须满足的用户给定的最小支持阈值,称为项集的最小支持度(Minimum Support),记为supmin。 从统计意义上讲,它表示用户关心的关联规则必须满足的最低重要性。只有满足最小支持度的项集才能产生关联规则。
大于或等于supmin的项集称为频繁项集,反之则称为非频繁项集。通常k-项集如果满足supmin,称为k-频繁项集,记作Lk。 关联规则
关联规则(Association Rule)可以表示为一个蕴含式: R:X?Y(读作:X与Y关联,或者Y关联于X) 其中:X?Ⅰ,Y?Ⅰ,并且X∩Y=?
如果R:X?Y 是一个关联规则,那么{X,Y}是一个项集。反之,如果{X,Y}是一个项集,则X?Y可以构成一个关联规则。 例如{bread ,milk}是一个项集,则R1:{bread} ? {milk}是一个关联规则 。关联规则不一定有意义。 关联规则的支持度
对于关联规则R:X?Y,其中X?Ⅰ,Y?Ⅰ,并且X?Y=?,规则R的的支持度(Support)是交易集中同时包含X和Y的交易数与所有交易数之比。 count(X?Y)support(X?Y)? |D|关联规则的可信度
对于关联规则R:X?Y,其中X?Ⅰ,Y?Ⅰ,并且X?Y=?,规则R的可信度(Confidence)是指包含X和Y的交易数与包含X的交易数之比
support(X?Y) confidence (X?Y)?support(X)
关联规则的最小支持度和最小可信度
关联规则的最小支持度也就是衡量频繁集的最小支持度(Minimum Support),记为supmin,它用于衡量规则需要满足的最低重要性。
规则的最小可信度(Minimum Confidence)记为confmin,它表示关联规则需要满足的最低可靠性。
强关联规则
如果规则X?Y满足:support(X?Y)?supmin且confidence(X?Y)?confmin,称关联规则X?Y为强关联规则,否则称关联规则X?Y为弱关联规则。
在挖掘关联规则时,产生的关联规则要经过supmin和confmin的衡量,筛选出来的强关联规则才能用于指导商家的决策。
Apriori性质:频繁项集的所有非空子集也必须是频繁的。
(即如果某个K-项集A是频繁的,则A的所有非空子集也是频繁的) Apriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通过相
同的测试。 例如: 假设{B, C, E}是频繁的,则它的所有非空子集{B,C},{B,E},{C,E},{B},{C},{E}肯定是频繁的。 假设{A,C}是非频繁的,则{A,B,C}也一定是非频繁的。
因此对于一个项集,如果其中有一个子集是非频繁的,则该项集也一定是非频繁的。 由频繁项集生成强关联规则
同时满足最小支持度和最小置信度的才是强关联规则,从频繁项集产生的规则都满足支持度要求,而其置信度则可由一下公式计算:
support_count(A?B)confidence(A?B)?P(A|B)?
第5章 数据分类 分类的定义:按照事务特征将给定的事务个体分配到指定的类别中去。把无规律的事务分为有规律的过程。 分类与预测的区别
分类:预测分类标号(离散值),根据训练数据集和类标号属性构建分类模型,对新数据进行分类. 例如:信任度等级划分问题 预测:预测函数值(连续值),根据训练数据集,建立连续函数值模型,然后利用该模型计算新数据的函数值
分类与聚类的区别1)分类:有指导的学习2)聚类:无指导的学习
描述属性可以是连续型属性,也可以是离散型属性;而类别属性必须是离散型属性。 1、试叙述数据挖掘的步骤。(给出步骤标题,并予以简要说明)
数据挖掘的步骤为: 1) 数据归集; 2) 数据预处理; 3) 数据挖掘; 4) 评估与表示。
2、ODS是什么意思?它的作用是什么?
1)ODS全称为Operational Data Store,即操作型数据存储。
2)作用:操作数据存储在通常的数据仓库架构中都是一个可选的部件,它和数据仓库
起到互相补充的作用。
3、什么是特征化?在面向属性的归纳的特征化过程中,有两个参数分别是属性概化临界值和概化(广义)关系临界值,试叙述这两个参数的意义。
1)特征化:即对一个关系模式的给定数据集进行简洁汇总的过程。(4分)
2)属性概化临界值控制:对所有属性设置一个概化临界值或者是对每个属性都分别设置一个临界值(一般为2到8)(2分)
3)概化关系临界值控制:为概化关系设置一个临界值,确定概化后的关系中,不同元组个数的最大值。(通常为10到30,应该允许在实际应用中进行调整)(2分) 4、叙述使用遗传算法的基本步骤(给出步骤标题,并予以简要说明)。
1)编码:把所需要选择的特征进行编号,每一个特征就是一个基因,一个解就是一串基因
support_count(A)的组合;2)初始群体的生成:随机产生N个初始串结构数据;3)交换:交换操作是遗传算法中最主要的遗传操作;4)适度值评价检测:计算交换产生的新个体的适应度;5)选择:从交换后的群体中寻找优良的个体;6)变异;7)中止。
1、 叙述ETL的基本概念,以及主要方法。
ETL是数据挖掘的预处理过程,该过程将分布的异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。(4分) 主要方法有:1)异种数据源中的数据提取方法
2)数据的清洗与转换方法,如:空值处理,格式格式,数据压缩等方法 3)数据装载后的索引方法(4分)
3、多维数据模型是由维表和事实表构成,请叙述维表与事实表之间的联系。
多维数据集由维表和事实表构成,其中事实表是数据集合的主体,它由相关属性的主键与数据度量两个部分组成,其中相关属性的主键是维表的外键(2分),事实表中这些相关属性的外键复合成为事实表的主键(2分);而事实表中的相关属性的外键是对应维表的主键。(其它综合4分)
4、给出在SQL server 2005中进行聚类分析的基本步骤。
1)创建数据分析项目2)创建数据源3)创建数据源视图4)创建聚类分析挖掘结构 5)部署项目并处理挖掘模型6)模型解释
四、计算与应用(20分)
请利用Apriori算法求项目集I={ I1,I2,I3,I4,I5}中,根据下列事务表:
TID 项ID的列表 T100 I1,I2,I4 T200 I1,I3 T300 I2,I4 T400 I1,I4,I5 T500 I1,I3 T600 I2,I3 T700 I1,I4 T800 I1,I2,I4,I5 T900 I1,I2,I3 完成:(1) 假定最小支持度设定为2,请找出所有的频繁项集;
(2)假定最小置信度设定为65%,请求出最大项目集的关联规则; (3)分析你所得到的结论。
1、 解:
1) (8分)
2) (8分)
(4分)
同理可得频繁项集I={I1,I2,I4}:
(4分)
五:已知数据库中有关表格如下
学生成绩表:成绩表(学号,课程号,教师号,成绩)
学生信息表:学生(学号,年龄,姓名)
课程信息表: 课程(课程号,课程名称,课时) 教师信息表:教师(教师号,教师姓名,职称) 要求:
画出基于维表—事实表的数据仓库的星星结构逻辑模型; 在图中标示出主键和外键。
? 两层数据仓库体系结构
抽取Extract处理过程: 清洗(clean)调和(reconcile)导出(derive)抽取Extract 匹配(match)合并(combine) 消除重复清洗的维数据(remove dups)标准化 抽取Extract(standardize)内部的 转换(transform)E输出到仓库 (export to DW)抽取ExtractT 外部的 源数据系统数据集结区(Source Data Systems)(Data Staging Area)
查询结果与挖掘结果数据展示:加载LoadL数据仓库Data Warehouse填充Feed查询工具报表生成器终端用户应用建模与挖掘工具可视化工具唯一的、企业级的数据仓库数据及元数据存储区(Data & Metadata Storage Area)终端用户表示工具(End-User Presentation Tools)