第2章 系统架构
图2-1 XX系统架构图
如上图所示,XX是一款大数据管理分析平台,基于底层的基础平台,自下而上可以分四层,依次是数据存储层、数据总线、数据处理层以及业务适配层。同时具有高性能和高可用的特征。
? 数据存储层:支持海量异构数据的统一可靠的存储管理,对外提供统一的分布式调用接
口。
? 数据总线:支持数据采集、过滤、缓存、中转分发调度等。数据总线是计算与存储的枢
纽,同时是内外数据交换的通道,完成数据在组件间及层次间中转、缓冲及调度。 ? 数据处理层:基于支持多种计算模型的分布式计算框架,为上层业务系统提供专业的计
算处理库,包括 文本处理、搜索引擎、数据挖掘等。
? 业务适配层:为上层业务系统提供各种不同协议和标准的访问接口。
? 高性能高可用保障:通过软硬件多方优化配置和深度研究,保证整个平台的高可用和高
性能。 产品特点:
? 面向网络内容及社会计算领域,通过多年积累 数据处理层的特有业务处理引擎 ? 深度业务适配及衍生的垂直解决方案
? 以数据总线为中心进行数据全生命周期调度及价值实现的数据流驱动视角
第3章 数据存储
XX为用户提供企业级大数据平台软件一体化解决方案;并支持特殊应用场景下的定制化硬件加速。面对结构复杂、需求多变的异构数据处理业务,XX不仅提供统一、稳定、高效的存储子系统,还整合了先进的分布式集群资源管理和进程调度方案、高性能数据总线技术、全并行架构分布式关系数据库、面向图计算的并行图数据库、分布式KV存数据库,以及面向用户业务的各类工具软件和库支持。基于XX平台,用户可以以非常低的时间代价构建大规模企业大数据一体化解决方案。
文档数据库图片音视频流式数据DB邮件消息多维数据GraphDB关系型数据Hbase非关系型数据HDFSDSQL龙威集群存储(申威国产平台) 图 3-1:XX数据存储子系统结构图
上图是XX存储组件的结构图,主要包括如下功能组件: ? 分布式集群存储: 基于对象的高性能分布式文件存储系统。 ? TBase:分布式Key-Value数据库。 ? DSQL:分布式关系数据库。
? GraphDB:并行图数据库。
3.1 分布式集群存储分布式文件系统
分布式集群存储是一款针对海量数据存储应用而设计的大规模通用集群存储系统,采用通用硬件设备作为基本的构建单元,为应用提供全局统一的系统映像和完全POSIX兼容的API接口。
分布式集群存储系统采用了存储服务器集群和元数据服务器集群通过千兆以太网络/万兆以太网络/ Infiniband网络构建,具备极高的扩展性和可靠性。利用分布式集群存储的相关软件功能消除集群内的单点故障,避免因为故障而导致服务中断或者数据丢失等影响,并且打破了传统存储系统架构上的限制。其基本架构如图 3-2所示。
图 3-2: 分布式集群存储 系统架构
图 3-2:分布式集群存储系统架构分布式集群存储为异构数据提供统一的存储方案;不仅对大文件应用场景提供良好的性能支持,元数据集群、高效检索、横向扩展等特性使得它在复杂的大数据应用场景中有更好的表现。除了100% POSIX兼容外,还提供完全的Hadoop API兼容。这意味着Hadoop生态群的计算框架和组件可以透明运行于分布式集群存储之上。分布式集群存储提供如下关键特性: ? 元数据集群
多个元数据服务器组成集群提供互备HA及动态负载分担,可有效分载对目录树热点区域的访问,同时可在线扩展对元数据高密集型应用提供支撑。
? 并发数据恢复
消除传统RAID恢复技术中单盘性能瓶颈,采用多对多的方式,从所有节点的所有磁盘并发进行数据恢复,可提供极高的聚合恢复带宽,从而有效缩短因设备出错导致的全系统降级运行时间。 ? 兼容POSIX/Hadoop
通过提供hadoop接口,可使数据分析直接基于在线生产环境进行,避免大量的数据迁移操作。
? 动态扩展&容量均衡
分布式集群存储提供在线的容量及处理能力扩展,包括数据存储节点及元数据处理节点,并自动在扩容后对全系统容量和热点访问进行均衡。 ? 分布式EC
数据可靠性方面,分布式集群存储除了提供副本方式之外还提供基于Erasure code技术的冗余方式,包括Raid5及N+1等多种策略。其数据分布也是跨节点跨磁盘的。
3.2 HBase-分布列式数据库
HBase是适合大数据场景的一款海量分布式列数据库产品。其架构上兼容了Hadoop体系的高可扩展性,可支持大于几十个节点,PB存储规模的scale-out;性能上其针对具体大数据应用场景进行深度定制和调优,尤其对于高吞吐率入库和实时检索场景;功能上除了支持标准的K-V访问接口之外,XXBase还可较好的兼容SQL标准及JDBC接口,可以很好的与既有数据分析业务对接。尤其在索引性能优化及对后缀和全文索 引的支持上XXBase 都有显著优势。
图 3-3:TBase 系统架构
在应用场景方面,TBase 常被用作全量基础数据的组织和存储(包括结构化及半结构化数据),同时提供对此全量数据的实时查询;此外TBase 可兼容传统数据仓库OLAP 场景,对复杂SQL 分析可提供近实时的分析性能。从而可同时支持对大数据的实时查询和复杂离线分析。 TBase 底层架构在HDFS(或兼容Hadoop 的文件系统、例如分布式集群存储)和MapReduce 之上,功能层分别提供数据压缩/解压缩、数据导入、索引、计算、SQL 访问以及访问控制和应用隔离等主要功能。其系统架构如下图所示。
图 3-4:TBase 基于HBase 的优化增强 TBase 架构基于分布式列存模型进行扩展。其实现参考开源Hbase 的技术架构,并在其基础上针对应用场景进行了深度性能调优,并基于业务场景的实际需求对功能进行了扩展增强。其优化点涉及从客户端到底层存储的各个环节,如图3-3 所示。
TBase 提供如下关键特性: ? SQL 实时短查询
对全量数据的实时简单查询,包括单表多条件的组合查询 ? SQL长查询@OLAP