深度解析分布式数据流系统(2)

2012-08-21 20:27


  对于基于滑动窗口的数据流处理的join操作,如果有两个数据流,查询处理基于时间的窗口,进行join操作的两个数据流时间范围较长,那么要求在一个节点上维护操作符的状态信息将会变得非常困难,join算子状态信息存储要求的内存空间可能非常大,则会进行操作符分割操作。在该节点的近邻节点上同时进行join操作,最终将各个节点上的状态信息进行合并操作即可。 
  算子迁移、算子合并、算子分割等操作在基于DHT的系统上实现具有良好的扩展性。DHT层为数据流处理系统在荷载大的情况下进行负载脱落、查询计划间并行、查询计划内并行提供了可以随意扩展的基础平台。 
   
  3结束语 
   
  本文给出了基于structured overlay network 的分布式数据流查询处理模型,考虑了对于到达系统的大量数据流的分片存放策略;同时在查询处理中对查询内的并行、查询间的并行、算子在分布式节点的迁移等提供了很好的支持。对系统catalog目录信息的分布式存放维护,从而消除了单节点查询处理引擎在资源(CPU、内存)上的约束。本文没有考虑分布式查询模型在网络带宽资源方面的问题,这将是以后要完善的地方。基于结构化覆盖网的分布式数据流查询模型提高了系统性能、查询服务质量,并且基于Chord实现,具有很好的扩展性。 
   
  参考文献: 
  [1]BRIAN B, SHIVNATH B, JENNIFER W. Models and issues in data stream systems[C]//Proc of the 21st ACM Symposium on Principles of Database Systems,2002. 
 ?[2]BALAKRISHNAN H, BALAZINSKA M, CARNEY D, ?et al?. ?Retrospective on Aurora[J]. VLDB Journal, 2004,13(4):370-383. 
  [3]ABADI D, CARNEY D, STONEBRAKER M, ?et al?. Aurora: a new model and architecture for data stream management[J]. VLDB Journal,2003,12(2):120-139. 
  [4]ZDONIK S, STONEBRAKER M, CHERNIACK M,?et al?. The Aurora and Medusa Projects[J].IEEE Data Engineering Bulletin, 2003,26(1):3-10. 
  [5]CHERNIACK M, BALAKRISHNAN H, BALAZINSKA M, ?et al?. Scalable distributed stream processing[C]//Proc of the 1st Biennial Conference on Innovative Data Systems Research. Asilomar, California:[s.n.],2003. 
  [6]ABADI D J, AHMAD Y, BALAZINSKA M, ?et al?. The design of the Borealis stream processing engine[C]//Proc of the 2nd Biennial Conference on Innovative Data Systems Research (CIDR’05). Asilomar:[s.n.],2005. 
  [7]TATBUL N, ZDONIK S.Dealing with overload in distributed stream processing systems[C]//Proc of IEEE International Workshop on Networking Meets Databases (NetDB’06). Atlanta:[s.n.],2006. 

深度解析分布式数据流系统(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:计算机技术在电力调度运行中的应用

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: