XXXX大数据平台 技术白皮书
文档版本号: 文档密级: 编写人: V1.0 文档编号: 归属部门/项目: 编写日期: 产品部 2018.04.21
XXXX有限公司
修订记录:
版本号 V 3.0 修订人 修订日期 修订描述
2018版权所有 XXXX科技有限公司 保留所有权利 版权声明:
本文档著作权由XXXX科技有限公司享有。文中涉及XXXX科技有限公司的专有信息,未经XXXX科技有限公司书面许可,任何单位和个人不得使用和泄漏该文档以及该文档包含的任何图片、表格、数据及其他信息。
本文档中的信息随着XXXX科技有限公司产品和技术的进步将不断更新,XXXX科技有限公司不再通知此类信息的更新。
目录
第1章 产品概述 .................................................................................................................... 3 第2章 系统架构 .................................................................................................................... 4 第3章 数据存储 .................................................................................................................... 5
3.1 分布式集群存储分布式文件系统 ........................................................................... 6 3.2 HBase-分布列式数据库 ............................................................................................ 7 3.3 Hive-数据仓库 ........................................................................................................... 9 3.4 GraphDB-大规模分布式并行图数据库 ................................................................. 12 第4章 数据总线 .................................................................................................................. 13
4.1 数据采集与交换 ..................................................................................................... 15 4.2 数据预处理 ............................................................................................................. 16
4.2.1 规则过滤 ...................................................................................................... 17 4.2.2 定制化ETL .................................................................................................. 19
第5章 计算引擎 .................................................................................................................. 21
5.1 功能 ......................................................................................................................... 21 5.2 组成 ......................................................................................................................... 21 5.3 计算框架 ................................................................................................................. 23 5.4 通用算子 ................................................................................................................. 23 5.5 专用算子及分析模板 ............................................................................................. 25 第6章 高性能高可用 .......................................................................................................... 29
6.1 高性能 ..................................................................................................................... 29 6.2 高可用 ..................................................................................................................... 30 第7章 可视化分析 .............................................................................................................. 30
7.1 功能特色 ................................................................................................................. 30 7.2 效果展示 ................................................................................................................. 31 第8章 运维管理平台 .......................................................................................................... 33
8.1 系统监控界面 ......................................................................................................... 33 8.2 系统配置界面 ......................................................................................................... 33
8.3 SQL查询分析.......................................................................................................... 34 8.4 批量数据导入导出 ................................................................................................. 35 第9章 产品规格 .................................................................................................................. 35
9.1 产品指标 ................................................................................................................. 35
9.1.1 平台规模 ...................................................................................................... 35 9.1.2 系统能力 ...................................................................................................... 35 9.1.3 系统运营 ...................................................................................................... 36 9.2 硬件环境 ................................................................................................................. 36 9.3 软件环境 ................................................................................................................. 36 9.4 参考配置 ................................................................................................................. 36
第1章 产品概述
XX大数据引擎平台UDE(United Data Engine)是一款大数据通用平台软件产品,支持海量数据的采集、过滤、转换、存储、搜索、查询、统计、分析、可视化与安全管理等大数据全生命周期管理,各种行业应用和最终用户,可以通过平台提供的丰富的接口,完成大规模行业数据的挖掘分析和应用对接管理。对外提供大容量数据分析和查询能力,为解决各大企业的以下需求: ? 软硬件国产自主可控 ? 多源异构数据接入 ? 数据关联融合、统一访问 ? 大规模、高性能、可扩展 ? 高可靠、高可用
XXXX在开源Hadoop版本的基础上对HBase、 HDFS和MapReduce等组件增加了HA、查询和分析功能,并进行了性能优化。产品定位如图1-1所示: