计算机研究与发展2015,52(2)5.2评估与结果分析应增加,相应数据传输时间增加,而集中发现的耗费时间在每种情况下基本相同,因此算法总的响应时间有增加的趋势.由于算法FMFD仅在各个节点利用局部数据并行发现,最后还是使用集中式方法进行剩余函数依赖的发现,因此并行度相对较低,在增加节点的情况下,算法的响应时间减少幅度相对较小.算法FDc叭一Discover使用并行方法进行函数依赖发现和剪枝,有效提高了负载均衡,因此在增加节点的情况下响应时间明显减少.本文设计了6组实验,分别基于不同的数据集对本文提出的集中式发现算法FDCeI—Discover、文献[12]中提出的发现算法FMFD以及本文提出的适合大数据的FDPar—Discover算法进行测试.在实验中,分别改变节点的个数(ISI)、数据的规模(1DI)以及数据分布的均匀程度,每一组实验均在相同条件下运行3次,取实验结果的平均值为最终结果值.1)测试算法基于节点的扩展性.为了评价算法在不同分块数(节点数)情况下的扩展性,本文在数据规模固定的情况下,增加节点数Si从2~8,分别基于数据集ofp厂8和sfM矗。,对算法的执行时间进行测试.为了减少因数据的分布对算法的影响,使数据尽量均匀地分布在各个节点.图7和图8反映了算法FDC叭一Discover,FMFD和FDPar~Discover在不同节点下响应时间情况.和预想的情况类似,算法FMFD和FDParDiscover的响应时间随着节点的增加呈现减少的趋势.由于算法FDC烈一Discover随着节点的增加,数据迁移量相2)测试算法基于数据的扩展性.为了评价算法在不同数据规模情况下的扩展性,本文在节点个数固定(4个节点)的情况下,增加数据规模IDI从2000万条元组到1.2亿条元组,分别基于数据集o£夕厂1:和sf“d。:对算法的响应时间进行测试.图9和图10反映了算法FDCetDiscover,FMFD和FDPar—Discover在不同数据规模下响应时间情况.从图中可以看出,3种算法的响应时间随着数据规模的增加而增大,数据规模的增大直接影响到函数依赖发现的时问消耗及数据传输时间,因Fig.7ScalahilitywithS}()fo,p/jFlg.9Scalal)ilitywlthDof。fp、,11图7州/J/。关于节点的扩展性图9o,p./,:关于数据的扩展性NumberofSltesF崤8图8Scalal)ilitywithSofN,£f巩Fig.1OScalabilltywithDofs,“d12mr√。关于节点的扩展惮图10mr(,12关于数据的扩展性万方数据李卫榜等:分布式大数据函数依赖发现293此数据规模与算法响应时间呈正相关.整体来看,算法FDPar_Discover比算法FMFD和FDCetDiscover应时间较数据分布均匀时短.算法FMFD在数据存在较大倾斜的情况下响应时间较数据分布均匀时略微增加.算法FDPar—Disc。ver在数据存在较大倾斜的情况下响应时间较数据分布均匀时有所增加,由于算法FDPar—Discover在进行散列时是在各个节点并行进行,因此在数据分布存在较大倾斜情况下,总的散列时长取决于数据分布最多的节点的散列时长,因此会导致算法的响应时间增加.的响应时间更少,说明算法FDPar—Discover由于并行进行函数依赖发现,效率更高.而且不难看出,随着数据规模的不断增大,算法FDPar—Discover与算法FMFD和FDC吼一Discover相比,在响应时间方面优势更为明显.3)测试算法在不同数据分布均匀度下的表现.为了评价算法在数据分布不同均匀度情况下的表现,本文在节点个数固定(4个节点)的情况下,增加数据规模ID『从2000万条元组到1亿条,基于数据集s£“d。。,在数据分布均匀和存在较大倾斜的情况下分别对算法的响应时间进行测试.图11和图12分别反映了算法FDC叭一Discover,FMFD和FDPar—Discover在不同数据分布均匀度下响应时间情况.其中图11是数据在各个节点均匀分布时的情况,图12是数据分布存在较大倾斜时的情况.通过对比可以看出,算法FDPar—Discover在数据存在较大倾斜的情况下由于减少了数据迁移量,因此响6结束语随着大数据时代的到来,传统的函数依赖挖掘算法局限性日渐显现.本文提出一种适用于分布式大数据的函数依赖并行挖掘方法,在各个节点利用本地数据并行进行函数依赖发现算法,基于以上发现的结果对函数依赖候选集进行剪枝,利用候选函数依赖的左部LHS的特征对其进行分组,并针对不同的分组并行进行函数依赖的发现.实验结果表明,我们的算法在检测效率方面与已有方法相比有着明显的提升.本文提出的分布式大数据函数依赖挖掘算法基芝Q董卜譬于已有的发现结果对候选函数依赖集进行剪枝以及对数据重分布,因此函数依赖的稀疏程度和数据分布情况会对算法的效率产生影响.下~步考虑在数据分布不均衡及函数依赖较为密集的情况下如何提高算法的执行效率.g毋蛊×甲2参Fig.1lData考文献distributeduniformly(s£Mdlo)图11数据均匀分布(s,“(f,。)[1]MengXiaofeng,cixiang.Bigdatamanagement:concepts,technologyandchanges[J].JournalofcomputerResearchandDeveloDment,2013,50(1):146—169(inChinese)(盂小峰,慈祥.大数据管理:概念、技术与挑战口].计算机研究与发展,2013,50(1):146—169)[2]LiJianzhong,Liuxianmin.AnimportantDatausaaspectofbigdata:andbility[J].JournalofComputerResearchDevelopment,2013,50(6):1147—1162(inChinese)(李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147一ll62)[3]HuhtalaY,KarkkainenJ,PorkkaP,eta1.TANE:Anefflcientalgorithmfordiscoveringfunctionalandapproximatedependencjes[J].c。mpu£erJournal,1999,42(2):loo—11】[4]Fig.12DataNovelliN,cicchettiR.Fun:AnefflcientalgorithmforofminingfunctionalandembeddedofDatabasedependencies[C]/,ProcNewdistributedtipsiIy(sf“dl。)the8thIntConf2001:189—203Theory.York:ACM,图12数据倾斜分布(sf“(,m)万方数据294,计算机研究与发展2015,52(2)[5]WvssC。GiannellaC,Robe九sonE,FastFDs:Aheu“stic—driven,depth—firstalgorithmforminingfunctionalorthe3rdInt[18]Fanwenfei,FlorisGeerts,Mashuai,eta1.Detectinginc。nsistenciesinConf7Sond蕊ributeddata[c]//Procofthe26thIntdependenciesfromrelationConf。nDatainstances[c]//ProcDataEngineering.Alamitos,CA:IEEE,2010:64—WarehousingandKnowledgeDiscovery.New[19]Chengfei,etYork:ACM,2001:lOl一110unitedstates10一1DepartmentofTransportation[()I。].[2014—[6]I,iuJixue,I。iJiuyong,fromdataaI,iua1.DiscoVerTrans。n2].http://apps.bts.gov,Xml/ontimesummarystatistics/dependenciesreview[J].1EEEsrc九ndex.xmlKnowledgeandDataEngineering,2012,24(2):251—264[7]HongYao,HowardfromJ,Hamilton.DataMiningandfunctIonalKnowledgeLiinWeibang,borntheC01legeofin1979.PhDcandidateindependenciesdata[J].MiningComputerScienceDiscovery.2008.16(2):197—219NorthwesternXi’an,PolytechnicalHisUniversity,interests[8]I。opesS,PetitJ.I。akhalI..del)endenciesandarmstro“gIntC。nfonEfricientdiscoveryoffunctionalChina.researchrelations[c]/,ProcTechnology.ofthe7thYork:includedataquality,cloudcomputingandExtendingDatabaseNewACM,2000:350一364[9]RonaldS,JamesJ.Disc。veryoffunctionalandapproxImatefuncti。naldependenciesinrelationaldatabases[J].LiZhanhuai,Journalborninl961.HisProfessorandmainresearchandofAppliedMathematicsand49—59Dec淄。nSciences,2003.7(1):PhDsupervisor.interestsP.Ferr垂S,Ridoux().functionalaincludedatabasetheory[10]AllardDiscoveringtechn0109yanddatamanagement(1izhh@nwpu.edu,cn).dependenciesandassoclationrulesbynavigatingin()I.AP1atticeofandviews[J].Pr。ceedlngsoftheconceptI。atticestheirApplications,2010,1(1):199—210ChenDFD:EfficientAcMQun,bornin1976.Professormainand[11]AbedianZ.SchulzeP,NaumannF.PhDsupervisor.HisresearchfunctionaldependencyIntConfondiscovery[c]//Proconofthe23rdandinterestsandincludeRFIDdatamanagementConf1nformationKnowledgecloudcomputing(chenbenben@nwpu.Management.NewYork:ACM,2014:949—958edu.cn).[12]YeFeiyue,I.iuforminingJixue,QianJin.XueXiaofeng.Aframeworkdependenciesof2010fromlarge。nfunctionaldi趴ributedJiangTao,bornin1983.ArtificialHisPhDcandidate.includebiologicaldatadatabases[c]/,ProcIntconfresearchinterestsIntelligenceandComputationalIntelIigence.1EEE.2010109一l13GeertsF,Jianzhongdependenciesl。,etAlamitos,CA:dataa1.IEEEDiscoveringTransonmanagementandRFID[13]Wen崩F,conditlonalmanagement(406389193@qq.com).functional[J].KnowledgeandDataEngineering,2011.23(5):683—698[14]chiangF,MillerRJ.Disc。veringdataqualityrules[J].LiuHailong,PhD.databornin1980.I,ecturerandProceedingsoftheVI。DB1l77Endowment,2008,1(1):1166—Hismainresearchqualityinterestsincludedatamanagement,databig[15]DialloT,NovelliN,PetitJ.Discovering(frequent)constantconditionalfunctionalofData20anaIytics,RFIDdataWebmanagementanddependencies[J].InternationalJournalmanagement(1iuhailong@Mining.ModellingandManagement,20lO,l(1):l一[16]I,oanT,JinliC,WennyR.Discoveringconditionalofthe22ndPanPhD.Wei,Hisbornin1977.interestsLecturerandcloudandfunctionaldependenciesinxMI.data[c]/,ProcresearchincludeAustralasianDatabaseConference.New115(1):143一l52York:ACM,2011.computing,data—intensivein—memorycomputing[17]computing(panweil002@AbiteboulS,HullR.VianuV,Founda“onsofDatabases:M].NewYork:Addison—wesley,l995nwpu.edu.cn).万方数据分布式大数据函数依赖发现
作者:作者单位:刊名:英文刊名:年,卷(期):
李卫榜, 李战怀, 陈群, 姜涛, 刘海龙, 潘巍, Li Weibang, Li Zhanhuai, Chen Qun,Jiang Tao, Liu Hailong, Pan Wei西北工业大学计算机科学学院 西安710072计算机研究与发展
Journal of Computer Research and Development2015,52(2)
参考文献(19条)
1.孟小峰;慈祥 大数据管理:概念、技术与挑战[期刊论文]-计算机研究与发展 2013(01)2.李建中;刘显敏 大数据的一个重要方面:数据可用性[期刊论文]-计算机研究与发展 2013(06)
3.Huhtala Y;Karkkainen J;Porkka P TANE:An efficient algorithm for discovering functional and approximatedependencies 1999(02)
4.Novelli N;Cieehetti R Fun:An efficient algorithm for mining functional and embedded dependencies 2001
5.WyssC;Giannella C;Robertson E FastFDs:A heuristicdriven,depth-first algorithm for mining functional dependenciesfrom relation instances 2001
6.Liu Jixue;Li Jiuyong;Liu Chengfei Discover dependencies from data-a review 2012(02)7.Hong Yao;Howard J;Hamilton Mining functional dependencies from data 2008(02)
8.Lopes S;Petit J;Lakhal L Efficient discovery of functional dependencies and armstrong relations 20009.Ronald S;James J Discovery of functional and approximate functional dependencies in relational databases2003(01)
10.Allard P;Ferré S;Ridoux O Discovering functional dependencies and association rules by navigating in a latticeof OLAP views 2010(01)
11.Abedjan Z;Schulze P;Naumann F DFD:Efficient functional dependency discovery 2014
12.YeFeiyue;LiuJixue;QianJin;XueXiaofeng Aframework for mining functional dependencies from large distributeddatabases 2010
13.Wenfei F;Geerts F;Jianzhong L Discovering conditional functional dependencies 2011(05)14.Chiang F;Miller R J Discovering data quality rules 2008(01)
15.DialloT;NovelliN;PetitJ Discovering (frequent) constant conditional functional dependencies 2010(01)16.Loan T;Jinli C;Wenny R Discovering conditional functional dependencies in XML data 201117.AbiteboulS;Hull R;Vianu V Foundations of Databases 1995
18.Fan Wenfei;Floris Geerts;Ma Shuai Detecting inconsistencies in distributed data 201019.United States Department of Transportation 2014
引用本文格式:李卫榜.李战怀.陈群.姜涛.刘海龙.潘巍.Li Weibang.Li Zhanhuai.Chen Qun.Jiang Tao.Liu Hailong.Pan Wei 分布式大数据函数依赖发现[期刊论文]-计算机研究与发展 2015(2)