第31卷第2期2010年3月
吉首大学学报(自然科学版)
JournalofJishouUniversity(NaturalScienceEdition)
V01.31No.2
Mar.2010
文章编号:1007—2985(2010)02—0038—05
数据挖掘中关联规则集的优化
高永惠
(怀化学院计算机系,湖南怀化418008)
摘要:尝试重新定义了正关联规则和负关联规则,并给出它们的兴趣度,从而统一了正、负关联规则的评价标准.在此基础上,采用逻辑的方法查找极小矛盾集以判定关联规则集的一致性,通过修改极小矛盾集中的规则消除关联规则集的不一致,从而优化原有的关联规则集.
关键词:数据挖掘;关联规则;评价中图分类号-TP311。l
文献标识码:A
通常数据挖掘所得到的关联规则都是肯定的规则,否定的关联规则的加入扩充了规则集的表达能力,然而,它可能导致规则集的不一致.类似地,文献[1—2]提到的否定的关联规则buyRuffles---buyPepsi和buy
tea---buy
coffee也可能导致规
则集的不一致.文献E2]已经提到规则的不一致问题,认为也许是“支持度一置信度”框架的缺陷造成的,但他们并没有进一步研究.实际上,即使所有规则都符合正性相关,负规则的引入仍然可能导致规则集的不一致,使得人们无从使用所挖掘出的关联规则.文献[31提出对正关联规则和各种形式的负关联规则分别设置不同的最小置信度;文献[4]提出使用两级支持度来约束正负关联规则的挖掘.更多的是采用对满足最小支持度和最小置信度的规则再进行相关度度量,这些做法不仅繁琐,还容易遗漏一些有价值的关联规则.
笔者对初始关联规则集∑进行尽量少的修改得到一致的规则集合∑M,并进一步扩充关联规则的表达能力.从目前的关联规则价值衡量方法可以看出,客观层面考虑的是单条规则的前件和后件之间的关系,主观层面考虑的是用户的兴趣取向,而整个规则集各规则之间的关系并没有被考虑,所以不可能发现和处理规则之间存在的矛盾.笔者尝试考虑规则之间的相互关系,以解决关联规则集的不一致问题,并且认为这对数据挖掘方法本身以及用户有效地利用关联规则是有积极意义的.
1基本概念
设f={i,,i:,…,厶)是项集,记D为事务T的集合,事务T是项的集合,并且T篁I.对应每一个事务有唯一的标识,如事务号记作订D.设X是f中项的集合,如果X∈T,那么称事务T包含X.
定义l
正关联规则是形如X—y的蕴涵式,其中Xcj,yc,,并且XnY=现负关联规则是形如X一]y的蕴涵式,其中XcJ,ycJ,并且XnY=统
正、负关联规则的兴趣度(interest)是规则前件成立时后件发生的概率与规则前件不成立时后件发生的概率
X)一P(Y
定义2
定义3
的差值,即Int(X—y)=P(Y
X).
I]X),Int(X一]聊=P(7
Y
X)一P(7Y
1
X)=P(YI]X)一P(Y
可以采用下述方法计算正、负关联规则的兴趣度.其中Count(YUX)表示数据集中同时包含x和y的事务数,Count(X)表示数据集中包含x的事务数,Count(Y)表示数据集中包含y的事务数,Count(D)表示数据集中的事务总数.只要计算出P(Y
P(Y
X)和P(YI]x),就可以计算出正、负关联规则的兴趣度:
1
f的=Count(YUX)/COunt(X);P(YX)=(Count(y)一Count(YUX))/(Count(D)一Count(X)).
文中定义的兴趣度具有以下性质:
*收稿日期:2010—02—12
作者简介:高永惠(1962一),女,湖南常德人,怀化学院计算机系讲师,主要从事计算机应用及教学研究.
第2期
性质1性质2性质3性质4性质5
性质6
高水惠:数据挖掘中关联规则集的优化
兴趣度(interest)的取值范围是[~1,1].interest—o,规则前件和后件无关.interest>o,规则前件和后件正相关.interest<O,规则前件和后件负相关.
interest=1,规则前件是后件的充分必要条件.interest=一1,规则前件是后件的非的充分必要条件.
39
文中重新定义了肯定、否定的关联规则,并且定义了它们的兴趣度.包含正、负关联规则的规则集是关于兴趣度的全序集,所以可以将兴趣度作为正、负关联规则统一的价值衡量标准.
为了便于考虑规则间的关系。选用命题逻辑[钼语言来描述正、负关联规则.正关联规则x—y可以写为形如i1A
∈Y,is
i2
A
i3…一“1^妇^“3…的蕴涵式,其中il,iz,i3.. ∈X,“1,谝,i一…
A
Ai2Ai3…为规则的前件,iHl^i啪^瓴3.. 为规则的后件.
i2
负关联规则x一1y可以写为形如i1Aoz,iM…∈Y,i1A
定义4
i2
i3…一]“1^]“^]03.. 的蕴涵式,其中i1,i2,i。…∈X,“1,
Ai3.. 为规则的前件,]讧1^1如+2^]缸+3…为规则的后件.
规则集∑是矛盾的,当且仅当存在前提x能在∑中推出结论Y和]弘卜6|,即∑u{x}一且∑u
称规则集f是极小矛盾集,当且仅当J’是矛盾的且r的任意真子集都是一致的[7].
{x}hy.如果规则集>:不是矛盾的,那么是一致的.
定义5
定理1
关联规则集≥:是一致的,当且仅当不存在极小矛盾集r互≥:.
2
优化的解决方法
文中主要解决的问题是找出关联规则集≥:中的每个极小矛盾集.首先是采用纯文字删除法压缩子句集,通过使用支
2.1方法概述
持集策略对压缩后子句集进行归结得到备选矛盾集,进而从备选矛盾集中找出极小矛盾集.为得到一致的关联规则集合,最简单的方法就是在每个极小矛盾集中删除1条规则.因为产生极小矛盾集时删除了一些规则,所以通过扩充修改关联规则集来增强表达能力.