分布式大数据函数依赖发现(3)

2019-02-14 23:52

计算机研究与发展２０１５，５２（２）５．２评估与结果分析应增加，相应数据传输时间增加，而集中发现的耗费时间在每种情况下基本相同，因此算法总的响应时间有增加的趋势．由于算法ＦＭＦＤ仅在各个节点利用局部数据并行发现，最后还是使用集中式方法进行剩余函数依赖的发现，因此并行度相对较低，在增加节点的情况下，算法的响应时间减少幅度相对较小．算法ＦＤｃ叭一Ｄｉｓｃｏｖｅｒ使用并行方法进行函数依赖发现和剪枝，有效提高了负载均衡，因此在增加节点的情况下响应时间明显减少．本文设计了６组实验，分别基于不同的数据集对本文提出的集中式发现算法ＦＤＣｅＩ—Ｄｉｓｃｏｖｅｒ、文献［１２］中提出的发现算法ＦＭＦＤ以及本文提出的适合大数据的ＦＤＰａｒ—Ｄｉｓｃｏｖｅｒ算法进行测试．在实验中，分别改变节点的个数（ＩＳＩ）、数据的规模（１ＤＩ）以及数据分布的均匀程度，每一组实验均在相同条件下运行３次，取实验结果的平均值为最终结果值．１）测试算法基于节点的扩展性．为了评价算法在不同分块数（节点数）情况下的扩展性，本文在数据规模固定的情况下，增加节点数Ｓｉ从２～８，分别基于数据集ｏｆｐ厂８和ｓｆＭ矗。，对算法的执行时间进行测试．为了减少因数据的分布对算法的影响，使数据尽量均匀地分布在各个节点．图７和图８反映了算法ＦＤＣ叭一Ｄｉｓｃｏｖｅｒ，ＦＭＦＤ和ＦＤＰａｒ～Ｄｉｓｃｏｖｅｒ在不同节点下响应时间情况．和预想的情况类似，算法ＦＭＦＤ和ＦＤＰａｒＤｉｓｃｏｖｅｒ的响应时间随着节点的增加呈现减少的趋势．由于算法ＦＤＣ烈一Ｄｉｓｃｏｖｅｒ随着节点的增加，数据迁移量相２）测试算法基于数据的扩展性．为了评价算法在不同数据规模情况下的扩展性，本文在节点个数固定（４个节点）的情况下，增加数据规模ＩＤＩ从２０００万条元组到１．２亿条元组，分别基于数据集ｏ￡夕厂１：和ｓｆ“ｄ。：对算法的响应时间进行测试．图９和图１０反映了算法ＦＤＣｅｔＤｉｓｃｏｖｅｒ，ＦＭＦＤ和ＦＤＰａｒ—Ｄｉｓｃｏｖｅｒ在不同数据规模下响应时间情况．从图中可以看出，３种算法的响应时间随着数据规模的增加而增大，数据规模的增大直接影响到函数依赖发现的时问消耗及数据传输时间，因Ｆｉｇ．７ＳｃａｌａｈｉｌｉｔｙｗｉｔｈＳ｝（）ｆｏ，ｐ／ｊＦｌｇ．９Ｓｃａｌａｌ）ｉｌｉｔｙｗｌｔｈＤｏｆ。ｆｐ、，１１图７州／Ｊ／。关于节点的扩展性图９ｏ，ｐ．／，：关于数据的扩展性ＮｕｍｂｅｒｏｆＳｌｔｅｓＦ崤８图８Ｓｃａｌａｌ）ｉｌｉｔｙｗｉｔｈＳｏｆＮ，￡ｆ巩Ｆｉｇ．１ＯＳｃａｌａｂｉｌｌｔｙｗｉｔｈＤｏｆｓ，“ｄ１２ｍｒ√。关于节点的扩展惮图１０ｍｒ（，１２关于数据的扩展性万方数据李卫榜等：分布式大数据函数依赖发现２９３此数据规模与算法响应时间呈正相关．整体来看，算法ＦＤＰａｒ＿Ｄｉｓｃｏｖｅｒ比算法ＦＭＦＤ和ＦＤＣｅｔＤｉｓｃｏｖｅｒ应时间较数据分布均匀时短．算法ＦＭＦＤ在数据存在较大倾斜的情况下响应时间较数据分布均匀时略微增加．算法ＦＤＰａｒ—Ｄｉｓｃ。ｖｅｒ在数据存在较大倾斜的情况下响应时间较数据分布均匀时有所增加，由于算法ＦＤＰａｒ—Ｄｉｓｃｏｖｅｒ在进行散列时是在各个节点并行进行，因此在数据分布存在较大倾斜情况下，总的散列时长取决于数据分布最多的节点的散列时长，因此会导致算法的响应时间增加．的响应时间更少，说明算法ＦＤＰａｒ—Ｄｉｓｃｏｖｅｒ由于并行进行函数依赖发现，效率更高．而且不难看出，随着数据规模的不断增大，算法ＦＤＰａｒ—Ｄｉｓｃｏｖｅｒ与算法ＦＭＦＤ和ＦＤＣ吼一Ｄｉｓｃｏｖｅｒ相比，在响应时间方面优势更为明显．３）测试算法在不同数据分布均匀度下的表现．为了评价算法在数据分布不同均匀度情况下的表现，本文在节点个数固定（４个节点）的情况下，增加数据规模ＩＤ『从２０００万条元组到１亿条，基于数据集ｓ￡“ｄ。。，在数据分布均匀和存在较大倾斜的情况下分别对算法的响应时间进行测试．图１１和图１２分别反映了算法ＦＤＣ叭一Ｄｉｓｃｏｖｅｒ，ＦＭＦＤ和ＦＤＰａｒ—Ｄｉｓｃｏｖｅｒ在不同数据分布均匀度下响应时间情况．其中图１１是数据在各个节点均匀分布时的情况，图１２是数据分布存在较大倾斜时的情况．通过对比可以看出，算法ＦＤＰａｒ—Ｄｉｓｃｏｖｅｒ在数据存在较大倾斜的情况下由于减少了数据迁移量，因此响６结束语随着大数据时代的到来，传统的函数依赖挖掘算法局限性日渐显现．本文提出一种适用于分布式大数据的函数依赖并行挖掘方法，在各个节点利用本地数据并行进行函数依赖发现算法，基于以上发现的结果对函数依赖候选集进行剪枝，利用候选函数依赖的左部ＬＨＳ的特征对其进行分组，并针对不同的分组并行进行函数依赖的发现．实验结果表明，我们的算法在检测效率方面与已有方法相比有着明显的提升．本文提出的分布式大数据函数依赖挖掘算法基芝Ｑ董卜譬于已有的发现结果对候选函数依赖集进行剪枝以及对数据重分布，因此函数依赖的稀疏程度和数据分布情况会对算法的效率产生影响．下～步考虑在数据分布不均衡及函数依赖较为密集的情况下如何提高算法的执行效率．ｇ毋蛊×甲２参Ｆｉｇ．１ｌＤａｔａ考文献ｄｉｓｔｒｉｂｕｔｅｄｕｎｉｆｏｒｍｌｙ（ｓ￡Ｍｄｌｏ）图１１数据均匀分布（ｓ，“（ｆ，。）［１］ＭｅｎｇＸｉａｏｆｅｎｇ，ｃｉｘｉａｎｇ．Ｂｉｇｄａｔａｍａｎａｇｅｍｅｎｔ：ｃｏｎｃｅｐｔｓ，ｔｅｃｈｎｏｌｏｇｙａｎｄｃｈａｎｇｅｓ［Ｊ］．ＪｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏＤｍｅｎｔ，２０１３，５０（１）：１４６—１６９（ｉｎＣｈｉｎｅｓｅ）（盂小峰，慈祥．大数据管理：概念、技术与挑战口］．计算机研究与发展，２０１３，５０（１）：１４６—１６９）［２］ＬｉＪｉａｎｚｈｏｎｇ，Ｌｉｕｘｉａｎｍｉｎ．ＡｎｉｍｐｏｒｔａｎｔＤａｔａｕｓａａｓｐｅｃｔｏｆｂｉｇｄａｔａ：ａｎｄｂｉｌｉｔｙ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＲｅｓｅａｒｃｈＤｅｖｅｌｏｐｍｅｎｔ，２０１３，５０（６）：１１４７—１１６２（ｉｎＣｈｉｎｅｓｅ）（李建中，刘显敏．大数据的一个重要方面：数据可用性［Ｊ］．计算机研究与发展，２０１３，５０（６）：１１４７一ｌｌ６２）［３］ＨｕｈｔａｌａＹ，ＫａｒｋｋａｉｎｅｎＪ，ＰｏｒｋｋａＰ，ｅｔａ１．ＴＡＮＥ：Ａｎｅｆｆｌｃｉｅｎｔａｌｇｏｒｉｔｈｍｆｏｒｄｉｓｃｏｖｅｒｉｎｇｆｕｎｃｔｉｏｎａｌａｎｄａｐｐｒｏｘｉｍａｔｅｄｅｐｅｎｄｅｎｃｊｅｓ［Ｊ］．ｃ。ｍｐｕ￡ｅｒＪｏｕｒｎａｌ，１９９９，４２（２）：ｌｏｏ—１１】［４］Ｆｉｇ．１２ＤａｔａＮｏｖｅｌｌｉＮ，ｃｉｃｃｈｅｔｔｉＲ．Ｆｕｎ：ＡｎｅｆｆｌｃｉｅｎｔａｌｇｏｒｉｔｈｍｆｏｒｏｆｍｉｎｉｎｇｆｕｎｃｔｉｏｎａｌａｎｄｅｍｂｅｄｄｅｄｏｆＤａｔａｂａｓｅｄｅｐｅｎｄｅｎｃｉｅｓ［Ｃ］／，ＰｒｏｃＮｅｗｄｉｓｔｒｉｂｕｔｅｄｔｉｐｓｉＩｙ（ｓｆ“ｄｌ。）ｔｈｅ８ｔｈＩｎｔＣｏｎｆ２００１：１８９—２０３Ｔｈｅｏｒｙ．Ｙｏｒｋ：ＡＣＭ，图１２数据倾斜分布（ｓｆ“（，ｍ）万方数据２９４，计算机研究与发展２０１５，５２（２）［５］ＷｖｓｓＣ。ＧｉａｎｎｅｌｌａＣ，Ｒｏｂｅ九ｓｏｎＥ，ＦａｓｔＦＤｓ：Ａｈｅｕ“ｓｔｉｃ—ｄｒｉｖｅｎ，ｄｅｐｔｈ—ｆｉｒｓｔａｌｇｏｒｉｔｈｍｆｏｒｍｉｎｉｎｇｆｕｎｃｔｉｏｎａｌｏｒｔｈｅ３ｒｄＩｎｔ［１８］Ｆａｎｗｅｎｆｅｉ，ＦｌｏｒｉｓＧｅｅｒｔｓ，Ｍａｓｈｕａｉ，ｅｔａ１．Ｄｅｔｅｃｔｉｎｇｉｎｃ。ｎｓｉｓｔｅｎｃｉｅｓｉｎＣｏｎｆ７Ｓｏｎｄ蕊ｒｉｂｕｔｅｄｄａｔａ［ｃ］／／Ｐｒｏｃｏｆｔｈｅ２６ｔｈＩｎｔｄｅｐｅｎｄｅｎｃｉｅｓｆｒｏｍｒｅｌａｔｉｏｎＣｏｎｆ。ｎＤａｔａｉｎｓｔａｎｃｅｓ［ｃ］／／ＰｒｏｃＤａｔａＥｎｇｉｎｅｅｒｉｎｇ．Ａｌａｍｉｔｏｓ，ＣＡ：ＩＥＥＥ，２０１０：６４—ＷａｒｅｈｏｕｓｉｎｇａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ．Ｎｅｗ［１９］Ｃｈｅｎｇｆｅｉ，ｅｔＹｏｒｋ：ＡＣＭ，２００１：ｌＯｌ一１１０ｕｎｉｔｅｄｓｔａｔｅｓ１０一１ＤｅｐａｒｔｍｅｎｔｏｆＴｒａｎｓｐｏｒｔａｔｉｏｎ［（）Ｉ。］．［２０１４—［６］Ｉ，ｉｕＪｉｘｕｅ，Ｉ。ｉＪｉｕｙｏｎｇ，ｆｒｏｍｄａｔａａＩ，ｉｕａ１．ＤｉｓｃｏＶｅｒＴｒａｎｓ。ｎ２］．ｈｔｔｐ：／／ａｐｐｓ．ｂｔｓ．ｇｏｖ，Ｘｍｌ／ｏｎｔｉｍｅｓｕｍｍａｒｙｓｔａｔｉｓｔｉｃｓ／ｄｅｐｅｎｄｅｎｃｉｅｓｒｅｖｉｅｗ［Ｊ］．１ＥＥＥｓｒｃ九ｎｄｅｘ．ｘｍｌＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２０１２，２４（２）：２５１—２６４［７］ＨｏｎｇＹａｏ，ＨｏｗａｒｄｆｒｏｍＪ，Ｈａｍｉｌｔｏｎ．ＤａｔａＭｉｎｉｎｇａｎｄｆｕｎｃｔＩｏｎａｌＫｎｏｗｌｅｄｇｅＬｉｉｎＷｅｉｂａｎｇ，ｂｏｒｎｔｈｅＣ０１ｌｅｇｅｏｆｉｎ１９７９．ＰｈＤｃａｎｄｉｄａｔｅｉｎｄｅｐｅｎｄｅｎｃｉｅｓｄａｔａ［Ｊ］．ＭｉｎｉｎｇＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅＤｉｓｃｏｖｅｒｙ．２００８．１６（２）：１９７—２１９ＮｏｒｔｈｗｅｓｔｅｒｎＸｉ’ａｎ，ＰｏｌｙｔｅｃｈｎｉｃａｌＨｉｓＵｎｉｖｅｒｓｉｔｙ，ｉｎｔｅｒｅｓｔｓ［８］Ｉ。ｏｐｅｓＳ，ＰｅｔｉｔＪ．Ｉ。ａｋｈａｌＩ．．ｄｅｌ）ｅｎｄｅｎｃｉｅｓａｎｄａｒｍｓｔｒｏ“ｇＩｎｔＣ。ｎｆｏｎＥｆｒｉｃｉｅｎｔｄｉｓｃｏｖｅｒｙｏｆｆｕｎｃｔｉｏｎａｌＣｈｉｎａ．ｒｅｓｅａｒｃｈｒｅｌａｔｉｏｎｓ［ｃ］／，ＰｒｏｃＴｅｃｈｎｏｌｏｇｙ．ｏｆｔｈｅ７ｔｈＹｏｒｋ：ｉｎｃｌｕｄｅｄａｔａｑｕａｌｉｔｙ，ｃｌｏｕｄｃｏｍｐｕｔｉｎｇａｎｄＥｘｔｅｎｄｉｎｇＤａｔａｂａｓｅＮｅｗＡＣＭ，２０００：３５０一３６４［９］ＲｏｎａｌｄＳ，ＪａｍｅｓＪ．Ｄｉｓｃ。ｖｅｒｙｏｆｆｕｎｃｔｉｏｎａｌａｎｄａｐｐｒｏｘＩｍａｔｅｆｕｎｃｔｉ。ｎａｌｄｅｐｅｎｄｅｎｃｉｅｓｉｎｒｅｌａｔｉｏｎａｌｄａｔａｂａｓｅｓ［Ｊ］．ＬｉＺｈａｎｈｕａｉ，Ｊｏｕｒｎａｌｂｏｒｎｉｎｌ９６１．ＨｉｓＰｒｏｆｅｓｓｏｒａｎｄｍａｉｎｒｅｓｅａｒｃｈａｎｄｏｆＡｐｐｌｉｅｄＭａｔｈｅｍａｔｉｃｓａｎｄ４９—５９Ｄｅｃ淄。ｎＳｃｉｅｎｃｅｓ，２００３．７（１）：ＰｈＤｓｕｐｅｒｖｉｓｏｒ．ｉｎｔｅｒｅｓｔｓＰ．Ｆｅｒｒ垂Ｓ，Ｒｉｄｏｕｘ（）．ｆｕｎｃｔｉｏｎａｌａｉｎｃｌｕｄｅｄａｔａｂａｓｅｔｈｅｏｒｙ［１０］ＡｌｌａｒｄＤｉｓｃｏｖｅｒｉｎｇｔｅｃｈｎ０１０９ｙａｎｄｄａｔａｍａｎａｇｅｍｅｎｔ（１ｉｚｈｈ＠ｎｗｐｕ．ｅｄｕ，ｃｎ）．ｄｅｐｅｎｄｅｎｃｉｅｓａｎｄａｓｓｏｃｌａｔｉｏｎｒｕｌｅｓｂｙｎａｖｉｇａｔｉｎｇｉｎ（）Ｉ．ＡＰ１ａｔｔｉｃｅｏｆａｎｄｖｉｅｗｓ［Ｊ］．Ｐｒ。ｃｅｅｄｌｎｇｓｏｆｔｈｅｃｏｎｃｅｐｔＩ。ａｔｔｉｃｅｓｔｈｅｉｒＡｐｐｌｉｃａｔｉｏｎｓ，２０１０，１（１）：１９９—２１０ＣｈｅｎＤＦＤ：ＥｆｆｉｃｉｅｎｔＡｃＭＱｕｎ，ｂｏｒｎｉｎ１９７６．Ｐｒｏｆｅｓｓｏｒｍａｉｎａｎｄ［１１］ＡｂｅｄｉａｎＺ．ＳｃｈｕｌｚｅＰ，ＮａｕｍａｎｎＦ．ＰｈＤｓｕｐｅｒｖｉｓｏｒ．ＨｉｓｒｅｓｅａｒｃｈｆｕｎｃｔｉｏｎａｌｄｅｐｅｎｄｅｎｃｙＩｎｔＣｏｎｆｏｎｄｉｓｃｏｖｅｒｙ［ｃ］／／Ｐｒｏｃｏｎｏｆｔｈｅ２３ｒｄａｎｄｉｎｔｅｒｅｓｔｓａｎｄｉｎｃｌｕｄｅＲＦＩＤｄａｔａｍａｎａｇｅｍｅｎｔＣｏｎｆ１ｎｆｏｒｍａｔｉｏｎＫｎｏｗｌｅｄｇｅｃｌｏｕｄｃｏｍｐｕｔｉｎｇ（ｃｈｅｎｂｅｎｂｅｎ＠ｎｗｐｕ．Ｍａｎａｇｅｍｅｎｔ．ＮｅｗＹｏｒｋ：ＡＣＭ，２０１４：９４９—９５８ｅｄｕ．ｃｎ）．［１２］ＹｅＦｅｉｙｕｅ，Ｉ．ｉｕｆｏｒｍｉｎｉｎｇＪｉｘｕｅ，ＱｉａｎＪｉｎ．ＸｕｅＸｉａｏｆｅｎｇ．Ａｆｒａｍｅｗｏｒｋｄｅｐｅｎｄｅｎｃｉｅｓｏｆ２０１０ｆｒｏｍｌａｒｇｅ。ｎｆｕｎｃｔｉｏｎａｌｄｉ趴ｒｉｂｕｔｅｄＪｉａｎｇＴａｏ，ｂｏｒｎｉｎ１９８３．ＡｒｔｉｆｉｃｉａｌＨｉｓＰｈＤｃａｎｄｉｄａｔｅ．ｉｎｃｌｕｄｅｂｉｏｌｏｇｉｃａｌｄａｔａｄａｔａｂａｓｅｓ［ｃ］／，ＰｒｏｃＩｎｔｃｏｎｆｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌＩｉｇｅｎｃｅ．１ＥＥＥ．２０１０１０９一ｌ１３ＧｅｅｒｔｓＦ，Ｊｉａｎｚｈｏｎｇｄｅｐｅｎｄｅｎｃｉｅｓｌ。，ｅｔＡｌａｍｉｔｏｓ，ＣＡ：ｄａｔａａ１．ＩＥＥＥＤｉｓｃｏｖｅｒｉｎｇＴｒａｎｓｏｎｍａｎａｇｅｍｅｎｔａｎｄＲＦＩＤ［１３］Ｗｅｎ崩Ｆ，ｃｏｎｄｉｔｌｏｎａｌｍａｎａｇｅｍｅｎｔ（４０６３８９１９３＠ｑｑ．ｃｏｍ）．ｆｕｎｃｔｉｏｎａｌ［Ｊ］．ＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２０１１．２３（５）：６８３—６９８［１４］ｃｈｉａｎｇＦ，ＭｉｌｌｅｒＲＪ．Ｄｉｓｃ。ｖｅｒｉｎｇｄａｔａｑｕａｌｉｔｙｒｕｌｅｓ［Ｊ］．ＬｉｕＨａｉｌｏｎｇ，ＰｈＤ．ｄａｔａｂｏｒｎｉｎ１９８０．Ｉ，ｅｃｔｕｒｅｒａｎｄＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＩ。ＤＢ１ｌ７７Ｅｎｄｏｗｍｅｎｔ，２００８，１（１）：１１６６—Ｈｉｓｍａｉｎｒｅｓｅａｒｃｈｑｕａｌｉｔｙｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｄａｔａｍａｎａｇｅｍｅｎｔ，ｄａｔａｂｉｇ［１５］ＤｉａｌｌｏＴ，ＮｏｖｅｌｌｉＮ，ＰｅｔｉｔＪ．Ｄｉｓｃｏｖｅｒｉｎｇ（ｆｒｅｑｕｅｎｔ）ｃｏｎｓｔａｎｔｃｏｎｄｉｔｉｏｎａｌｆｕｎｃｔｉｏｎａｌｏｆＤａｔａ２０ａｎａＩｙｔｉｃｓ，ＲＦＩＤｄａｔａＷｅｂｍａｎａｇｅｍｅｎｔａｎｄｄｅｐｅｎｄｅｎｃｉｅｓ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｍａｎａｇｅｍｅｎｔ（１ｉｕｈａｉｌｏｎｇ＠Ｍｉｎｉｎｇ．ＭｏｄｅｌｌｉｎｇａｎｄＭａｎａｇｅｍｅｎｔ，２０ｌＯ，ｌ（１）：ｌ一［１６］Ｉ，ｏａｎＴ，ＪｉｎｌｉＣ，ＷｅｎｎｙＲ．Ｄｉｓｃｏｖｅｒｉｎｇｃｏｎｄｉｔｉｏｎａｌｏｆｔｈｅ２２ｎｄＰａｎＰｈＤ．Ｗｅｉ，Ｈｉｓｂｏｒｎｉｎ１９７７．ｉｎｔｅｒｅｓｔｓＬｅｃｔｕｒｅｒａｎｄｃｌｏｕｄａｎｄｆｕｎｃｔｉｏｎａｌｄｅｐｅｎｄｅｎｃｉｅｓｉｎｘＭＩ．ｄａｔａ［ｃ］／，ＰｒｏｃｒｅｓｅａｒｃｈｉｎｃｌｕｄｅＡｕｓｔｒａｌａｓｉａｎＤａｔａｂａｓｅＣｏｎｆｅｒｅｎｃｅ．Ｎｅｗ１１５（１）：１４３一ｌ５２Ｙｏｒｋ：ＡＣＭ，２０１１．ｃｏｍｐｕｔｉｎｇ，ｄａｔａ—ｉｎｔｅｎｓｉｖｅｉｎ—ｍｅｍｏｒｙｃｏｍｐｕｔｉｎｇ［１７］ｃｏｍｐｕｔｉｎｇ（ｐａｎｗｅｉｌ００２＠ＡｂｉｔｅｂｏｕｌＳ，ＨｕｌｌＲ．ＶｉａｎｕＶ，Ｆｏｕｎｄａ“ｏｎｓｏｆＤａｔａｂａｓｅｓ：Ｍ］．ＮｅｗＹｏｒｋ：Ａｄｄｉｓｏｎ—ｗｅｓｌｅｙ，ｌ９９５ｎｗｐｕ．ｅｄｕ．ｃｎ）．万方数据分布式大数据函数依赖发现

作者：作者单位：刊名：英文刊名：年，卷(期)：

李卫榜，李战怀，陈群，姜涛，刘海龙，潘巍， Li Weibang， Li Zhanhuai， Chen Qun，Jiang Tao， Liu Hailong， Pan Wei西北工业大学计算机科学学院西安710072计算机研究与发展

Journal of Computer Research and Development2015,52(2)

参考文献(19条)

1.孟小峰;慈祥大数据管理:概念、技术与挑战[期刊论文]-计算机研究与发展 2013(01)2.李建中;刘显敏大数据的一个重要方面:数据可用性[期刊论文]-计算机研究与发展 2013(06)

3.Huhtala Y;Karkkainen J;Porkka P TANE:An efficient algorithm for discovering functional and approximatedependencies 1999(02)

4.Novelli N;Cieehetti R Fun:An efficient algorithm for mining functional and embedded dependencies 2001

5.WyssC;Giannella C;Robertson E FastFDs:A heuristicdriven,depth-first algorithm for mining functional dependenciesfrom relation instances 2001

6.Liu Jixue;Li Jiuyong;Liu Chengfei Discover dependencies from data-a review 2012(02)7.Hong Yao;Howard J;Hamilton Mining functional dependencies from data 2008(02)

8.Lopes S;Petit J;Lakhal L Efficient discovery of functional dependencies and armstrong relations 20009.Ronald S;James J Discovery of functional and approximate functional dependencies in relational databases2003(01)

10.Allard P;Ferré S;Ridoux O Discovering functional dependencies and association rules by navigating in a latticeof OLAP views 2010(01)

11.Abedjan Z;Schulze P;Naumann F DFD:Efficient functional dependency discovery 2014

12.YeFeiyue;LiuJixue;QianJin;XueXiaofeng Aframework for mining functional dependencies from large distributeddatabases 2010

13.Wenfei F;Geerts F;Jianzhong L Discovering conditional functional dependencies 2011(05)14.Chiang F;Miller R J Discovering data quality rules 2008(01)

15.DialloT;NovelliN;PetitJ Discovering (frequent) constant conditional functional dependencies 2010(01)16.Loan T;Jinli C;Wenny R Discovering conditional functional dependencies in XML data 201117.AbiteboulS;Hull R;Vianu V Foundations of Databases 1995

18.Fan Wenfei;Floris Geerts;Ma Shuai Detecting inconsistencies in distributed data 201019.United States Department of Transportation 2014

引用本文格式：李卫榜.李战怀.陈群.姜涛.刘海龙.潘巍.Li Weibang.Li Zhanhuai.Chen Qun.Jiang Tao.Liu Hailong.Pan Wei 分布式大数据函数依赖发现[期刊论文]-计算机研究与发展 2015(2)

共3页:

分布式大数据函数依赖发现(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档