表4-5硬件配置列表
服务器 节点数量 CPU 内存 推荐配置及说明 一期16个节点,未来规划150节点 两路8核处理器 2*E5-2650 v3 256GB ECC DDR3 10个600GB的SAS硬盘, 15000RPM,不使用RAID; 硬盘 2个300G的SAS硬盘,15000RPM, RAID1,作为系统盘 网络 固态硬盘 双电口万兆(10Gbps)以太网卡 800GB 星环科技作为大数据平台技术提供商,在恒丰银行大数据平台建设项目中,为客户提供了强大平台技术支持,同时与应用厂商进行紧密的配合,确保了项目一期建设的顺利上线。
表4-6 项目实施概况
项目各个阶段实施进度以及人员参与情况 所需求 编角色 号 公2015.7架构 设计 2015.7~ 2015.7 概要 设计 2015.7 ~ 2015.8 详细 设计 2015.7 ~ 2015.8 应用开发/迁移 系统测试 2015.10~ 2015.11 试运行 2015.11~ 2015.11 上线 运行 2015.12~ 至今 属分析 司 ~ 2015.7 2015.8~ 2015.10 星1 架构师 环2 实施工科 √ √ √ √ √ √ √ √ √ √ 46
程师 项目经3 理 实施工4 程师1 实施工5 程师2 实施工6 程师3 实施工7 程师4 技 √ √ √ √ √ √ √ √ 应用 厂商 √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √
物理拓扑图:
47
总行用户分行用户支行用户银行内部网络网关统一认证服务器应用服务器应用服务器1应用服务器3应用服务器4应用服务器2大数据平台(企业级数据仓库)大数据平台(历史数据+业务探索)外部服务器大数据1……大数据8大数据1……大数据8外部服务器 图4-7恒丰银行大数据平台网络拓扑
性能指标:
? 日终批处理时间
数据平台每日几千个数据处理作业,日终时间窗口控制在3个小时到4个小时之间。日终扫描数据量达10TB,按照业务系统供数最晚时间1:30计算,在凌晨5点左右全部完成数据处理作业,个别作业错误不影响整体进度。
? 最大并发查询用户
1000个用户同时使用数据平台查询数据,简单查询响应时间在100毫秒以内,关联统计查询在200毫米以内,复杂的统计分析应用响应时间在分钟级。
3.3.2.3 项目成果
恒丰银行所搭建的基于星环科技Transwarp Data Hub的大数据平台是国内第一
48
个完全采用Hadoop来搭建金融机构企业级数据仓库平台的成功案例。在短短半年的时间内,就将原有Oracle数据仓库的复杂数据处理过程,以及金融机构的模型,迁移至星环Transwarp Data Hub平台,同时在数据仓库上面,建设了客户关系管理集市和审计集市,同时存储了恒丰银行多年来全部数据,接入了30几个业务系统,批处理性能比原有Oracle数据库平台提升5倍以上,历史数据查询的性能比原来提升几十倍,90%的历史查询应用都可以在200毫秒内返回结果,而总体投资仅占原有平台的1/3。
图4-8恒丰银行大数据平台数仓架构
本项目充分证明,星环科技Transwarp Data Hub大数据平台,能够全面支撑企业级数据仓库的搭建。
3.3.2.4 项目意义
恒丰银行大数据平台的一期建设完成了将传统基于Oracle的数据仓库迁移至星环大数据平台,并在基于星环Transwarp Data Hub大数据平台的数据仓库上搭建了基于三范式模型的数据集市,充分证明了星环Transwarp Data Hub平台能够支持企业在大数据平台建设数据仓库、数据集市的应用,同时如果已有数据仓库平台,也可以短期内
49
快速完成数据仓库的迁移。
恒丰银行基于Transwarp Data Hub大数据平台的数据仓库项目,是大数据技术在行业复杂应用落地项目中的重要里程碑,充分证明星环Transwarp Data Hub平台能够支持企业最重要也最复杂的数据仓库应用。
全球著名大数据调研机构Gartner在近期的大数据市场调研报告中,已经将星环Transwarp Data Hub平台列入数据仓库魔力象限,并在技术成熟度,技术领先度的维度中,排名全球大数据厂商第一名。
图4-9 Gartner数据仓库魔力象限
因此,恒丰银行基于大数据平台的数据仓库建设经验,可以为此次集团大数据平台建设提供宝贵的经验。目前从全球大数据厂商来看,除星环科技外,还没有其他厂商能够在金融、银行这样的高端行业,拥有完全通过大数据技术实现企业数据仓库的成功案例。
50
集团大数据平台 整体方案建议书
1
目 录
1
项目概述 ................................................................................................................................ 14 1.1
建设背景 ............................................................................................................................. 14
1.1.1 集团已有基础 ................................................................................................................ 14 1.1.2 痛点及需提升的能力 .................................................................................................... 14 1.1.3 大数据趋势 .................................................................................................................... 15
1.2
建设目标 ............................................................................................................................. 15
1.2.1 总体目标 ........................................................................................................................ 15 1.2.2 分阶段建设目标 ............................................................................................................ 16
1.3
与相关系统的关系 ............................................................................................................. 16
1.3.1 数据分析综合服务平台 ................................................................................................ 16 1.3.2 量收系统 ........................................................................................................................ 17 1.3.3 金融大数据平台 ............................................................................................................ 18 1.3.4 各生产系统 .................................................................................................................... 18 1.3.5 CRM ............................................................................................................................... 18
1.4
公司介绍和优势特点 ......................................................................................................... 18
1.4.1 IDEADATA ..................................................................................................................... 18 1.4.2 TRANSWARP ............................................................................................................... 20 1.4.3 我们的优势 .................................................................................................................... 21
2
业务需求分析......................................................................................................................... 24 2.1 2.2
总体需求 ............................................................................................................................. 24 数据管理 ............................................................................................................................. 25
2
2.2.1 数据采集 ........................................................................................................................ 26 2.2.2 数据交换 ........................................................................................................................ 26 2.2.3 数据存储与管理 ............................................................................................................ 26 2.2.4 数据加工清洗 ................................................................................................................ 27 2.2.5 数据查询计算 ................................................................................................................ 27
2.3 2.4 2.5 2.6 3
数据管控 ............................................................................................................................. 28 数据分析与挖掘 ................................................................................................................. 29 数据展现 ............................................................................................................................. 29 量收系统功能迁移 ............................................................................................................. 30
系统架构设计......................................................................................................................... 31 3.1 3.2 3.3
总体设计目标 ..................................................................................................................... 31 总体设计原则 ..................................................................................................................... 31 案例分析建议 ..................................................................................................................... 32
3.3.1 中国联通大数据平台 .................................................................................................... 32 3.3.2 恒丰银行大数据平台 .................................................................................................... 39 3.3.3 华通CDN运营商海量日志采集分析系统 .................................................................. 51 3.3.4 案例总结 ........................................................................................................................ 56
3.4
系统总体架构设计 ............................................................................................................. 57
3.4.1 总体技术框架 ................................................................................................................ 57 3.4.2 系统总体逻辑结构 ........................................................................................................ 60 3.4.3 平台组件关系 ................................................................................................................ 62 3.4.4 系统接口设计 ................................................................................................................ 67
3
3.4.5 系统网络结构 ................................................................................................................ 71
4
系统功能设计......................................................................................................................... 73 4.1 4.2
概述 ..................................................................................................................................... 73 平台管理功能 ..................................................................................................................... 73
4.2.1 多应用管理 .................................................................................................................... 73 4.2.2 多租户管理 .................................................................................................................... 77 4.2.3 统一运维监控 ................................................................................................................ 78 4.2.4 作业调度管理 ................................................................................................................ 97
4.3
数据管理 ............................................................................................................................. 99
4.3.1 数据管理框架 ................................................................................................................ 99 4.3.2 数据采集 ...................................................................................................................... 101 4.3.3 数据交换 ...................................................................................................................... 104 4.3.4 数据存储与管理 .......................................................................................................... 105 4.3.5 数据加工清洗 .............................................................................................................. 123 4.3.6 数据计算 ...................................................................................................................... 124 4.3.7 数据查询 ...................................................................................................................... 139
4.4
数据管控 ........................................................................................................................... 158
4.4.1 主数据管理 .................................................................................................................. 158 4.4.2 元数据管理技术 .......................................................................................................... 160 4.4.3 数据质量 ...................................................................................................................... 163
4.5 4.6
数据ETL ........................................................................................................................... 170 数据分析与挖掘 ............................................................................................................... 172
4
4.6.1 数据分析流程 .............................................................................................................. 174 4.6.2 R语言开发环境与接口 ............................................................................................... 175 4.6.3 并行化R算法支持 ...................................................................................................... 176 4.6.4 可视化R软件包 .......................................................................................................... 179 4.6.5 编程语言支持 .............................................................................................................. 181 4.6.6 自然语言处理和文本挖掘 .......................................................................................... 181 4.6.7 实时分析 ...................................................................................................................... 182 4.6.8 分析管理 ...................................................................................................................... 182 4.6.9 分析支持 ...................................................................................................................... 186 4.6.10 4.6.11 4.6.12 4.6.13
4.7
指标维护 ................................................................................................................. 186 分析流程固化 ......................................................................................................... 187 分析结果发布 ......................................................................................................... 187 环境支持 ................................................................................................................. 187
数据展现 ........................................................................................................................... 188
4.7.1 交互式报表 .................................................................................................................. 190 4.7.2 仪表盘 .......................................................................................................................... 195 4.7.3 即席查询 ...................................................................................................................... 196 4.7.4 内存分析 ...................................................................................................................... 197 4.7.5 移动分析 ...................................................................................................................... 198 4.7.6 电子地图支持 .............................................................................................................. 198
5
技术要求实现....................................................................................................................... 200 5.1
产品架构 ........................................................................................................................... 200
5
工、建模等,把先前无法利用的数据充分利用,提升对数据的认识,抓住机遇为恒丰银行数据平台建设做好最基础、最扎实的工作。
根据恒丰银行的实际应用需要,分别搭建基于大数据平台的企业数据仓库和历史数据分析探索平台,满足海量数据的低成本高效存储、加工、使用,完成企业数据仓库应用的迁移和优化重构,满足移动互联渠道场景的高并发低延时数据服务需求,协助业务数据分析团队自主的数据探索和业务建模。
恒丰银行传统数据仓库是建立在IOE体系之下,支持TB级别数据存储并提供复杂数据查询功能的数据管理体系。传统数据仓库建设多年,已接入数据源30多个,配套监管数据集市、数据分析集市,风险数据集市三个数据集市,负责十几个管理应用和监管系统的数据需求,下游建有银行管理类系统如综合经营分析系统(管理驾驶舱)、自定义查询平台等,并为各分行提供数据下发服务。
随着恒丰银行业务发展,与外部机构的跨界合作的展开,历史数据越来越多,半结构化数据、非结构数据也越来越多,数据的统一存储和处理已面临硬件成本压力。
充分发挥大数据平台的技术优势,确保系统平稳安全运行,恒丰银行基于星环科技Transwarp Data Hub大数据技术构建全新的IT信息系统架构,为各数据应用系统提供功能完善、稳定可靠的大数据应用基础技术平台,更好的支持各类型海量业务数据的存储、加工、使用和数据价值提炼。
基于星环科技Transwarp Data Hub平台,恒丰银行将原有的基于Oracle的数据仓库平台平滑迁移至星环大数据平台,提升数据仓库的批处理能力,同时也建设历史数据探索的能力,基于大数据架构,完成了符合恒丰银行现状的开创型应用,例如:准实时系统日志分析应用、客户实时风险监测、基于互联网点击流数据的用户体验优化与客户行为分析、客户标签化画像应用等。
41
源数据层核心系统工具层基于星环TDH的数据仓库/数据集市平台 应用层业务层信息门户信息管理平台规章制度分析报告……总账系统卡系统数据卸载平台国际结算系统票据系统信贷系统源数据层支付系统统一调度监控平台工具层文件交换区文件交换区ODM贴源数据FDM基础数据模型ADM汇总数据层数据模型数据分析集市数据分析集市综合经营分析(管理驾驶舱)风险盈利规模……存款查询自定义查询应用层报表系统贷款查询票据查询……业务层固定报表存贷款标准化反洗钱1104监管集市数据标准管理平台PISA监管集市监管平台客户风险EAST指标管理平台绩效考核CRM风险集市数据质量管理平台数据服务接口数据仓库数据图4-3恒丰银行大平台架构
恒丰银行搭建的基于星环科技Transwarp Data Hub的大数据平台承载了恒丰银行分布在全国的数千万用户数据,服务于全国用户与行内业务人员,数据总存储量达到几十TB。
根据恒丰银行的项目建设的需求,我们推荐恒丰银行采用基于星环Transwarp Data Hub大数据平台来构建新一代数字银行平台,满足恒丰银行数据仓库的迁移、数据集市的搭建,同时协助恒丰银行构建客户360度视图应用,准实时日志和精准营销等应用。
技术组件和相关方案如下所示:
(1) Transwarp Hadoop,完成海量数据的存储。
(2) Transwarp Inceptor,完成传统基于关系型数据库SQL应用的语义解析和编译,
使得基于传统关系型数据库的应用可以直接迁移至星环大数据平台,在Transwarp Data Hub平台实现企业级数据仓库的核心组件。
(3) Transwarp Hyperbase,完成银行海量历史交易明细数据的存储,支持高并发
42
的快速查询。
(4) Transwarp Discover,完成客户画像,风险预警等分析挖掘任务。 (5) Transwarp Stream,完成实时日志的采集与报警。
3.3.2.2 项目实施情况
星环科技协助恒丰银行搭建了行内统一基于Transwarp Data Hub的数据平台,一期工作完成将原有Oracle数据仓库中的全量数据进行迁移,同时在大数据平台完成了数据批处理、数据建模、数据集市等工作。
数据移植说明:
数据仓库原有数据全部移植到新的大数据平台之上,并对数据结构进行重构。数据移植的基本流程如下图所示:
数据移植数据抽取阶段数据还原阶段Oracle数据仓库表:1500张左右数据量:20TBTDH平台HDFS文件系统Sqoop生成数据文件/tpPL/SQL存储过程TDH平台HDM层按照日期快照存储将数据还原为业务系统源表结构职能图4-4恒丰银行大平台数据移植流程
除Sqoop数据抽取阶段,剩下的主要的数据处理阶段放在大数据平台上实现,避免了对原数据仓库正常运行的影响。
数据仓库日终ETL体系流程说明:
(1) 每日业务系统日终完成后会生成相关数据文件提供给数据平台,数据平台获
取文件并加载文件数据。
(2) 对每个业务系统提供的数据文件,数据平台必须对文件进行合法性校验。合
43
法则加载文本,不合法通知业务系统人员对数据文本的导出进行调整。
(3) ODM构建文本的映射外表,通过PL/SQL存储过程将ODM数据备份到
HDM层。
(4) 部分原数据仓库的基础整合模型保留在FDM层,通过PL/SQL还原原仓库
数据处理程序,并逐步将FDM层数据转移到CDM层公共模型中。
(5) ODM层数据每日经过清洗、加工、整合后放在CDM层公共数据模型层,
在公共模型层之上构建DSI服务接口,向外部集市或应用提供数据服务。
(6) 集市回流数据依照ODM-->HDM的处理方法进行数据的备份。
如图所示:
业务系统数据平台获取文件合法ODMHDM数据服务接口监管集市日终后生成提供给数据平台的数据文件分析集市非法文本校验FDMCDM客户关系集市在线数据平台图4-5恒丰银行大数据平台数据同步流程
(1) 每日在线数据平台处理数据经过处理后,经数据复制将数据同步到历史数据
平台。
(2) 校验成功后的文本同步到历史数据平台进行归档。 (3) 历史数据平台的数据与在线数据平台保持一致,存期延长。 (4) 历史数据平台之上建立历史数据查询模型,提供历史数据查询服务。
44
业务系统数据文件Col1~@~Col2文件 归档HDMHDM数据服务CDMCDM在线数据平台历史数据平台
图4-6恒丰银行大数据平台数据模型转换
为完整支持恒丰银行数据仓库项目的建设,星环科技为恒丰银行提供了如下技术组件与模块:
表4-4 组件列表
组件名称 组件功能 TDH平台组件服务,提供对SQL99, Transwarp Inceptor SQL2003的完整支持,同时支持数据仓库、数据集市、Oracle PL/SQL,为原有应用平滑迁移批处理、ETL 提供基础 Transwarp Hyperbase Transwarp Discover Transwarp Stream Transwarp Hadoop TDH平台组件服务,提供对海量历史历史数据存储与查数据的快速存储与高并发访问 TDH平台组件服务,对海量数据进行快速的分析和挖掘 计算 询、数据集市 客户画像、风险监测 支持运行的应用 TDH平台组件服务,对实时数据进行实时交易预警、实时点击流分析 点击流数据存储 TDH平台组件服务,TDH管理工具,管理功能 TDH平台组件服务,分布式基础平台 影像存储、日志存储、Transwarp Manager 图形化、自动化安装、部署、配置、监控、报警
经过恒丰银行的测试确认,从性能的角度出发,恒丰银行采用如下硬件设备:
45
3 系统架构设计
3.1 总体设计目标
建立集团的企业级数据中心,实现集团数据资源(结构化、半结构化和非结构化数据)的归集、整理、加工和分析,并利用大数据相关技术及数据分析挖掘工具,建立数据应用模型,为全网提供决策支持、产品创新、交叉营销、流程优化、服务支撑以及风险管控等服务,有效地挖掘数据的价值,实现集团数据资源的“共享、共用、共赢”。
3.2 总体设计原则
(一) 标准化:本系统采用的技术架构均遵循网络协议和传输标准的要求,
相关开源及原创技术均符合国际技术组织条款规范。提供文档标准化,满足GB8567-1988、GB/T11457-89的行业标准;
(二)
可扩展性:由于用户以后的需求会不断发展,使用人数将随之扩大,
业务压力不断上升,只要横向扩展增加服务器台数,不用添加其它附加设备,以保证用户的原投资被利用。
(三)
可用性和可靠性:我们的方案在充分考虑用户实际情况的基础上,选
用F5作为负载均衡器,采用了Weblogic作为Web应用容器,操作系统采用红旗版Linux,从而减少了其它因素造成的故障。
(四)
易用性:该系统使用界面良好,用户无需安装客户端软件,只需通过
IE 浏览器就可进行实时操作,同时系统架构设计优良,可以很方便进行系统升级。
31
(五) 开发式结构:该系统内置“数据交换适配平台”可以与第三方系统相
融合,可以读取第三方系统的相关数据,可以为第三方系统提供其需要的相关数据,提供标准的Web Service接口,具有开放式结构。
(六)
完善和可靠性:具有设计独到的功能使用及数据访问权限控制,保证
统一、规范管理,支持3DES和RSA加密技术,使数据存储和传输安全牢不可破。系统具有错误故障日志记录功能,便于快速诊断定位问题。
(七) (八)
实时性:该系统支持负载均衡技术,及时响应多人实时并发操作。 先进性:基于统一的整体架构,采用先进的、成熟的、可靠的技术与
软硬件平台,保证数据仓库系统易扩展、易升级、易操作、易维护等特性。
(九)
高效性:线性扩展的TDH的数据仓库平台,保证了ETL时间的窗口
以及查询效率,数据抽取的特殊性,通常在夜间业务稀少的情况下进行数据抽取,减少了对其他系统的影响。
(十)
正确性:数据质量贯穿数据仓库系统建设的每个环节,数据仓库系统
通过合理的数据质量管理方法论保证数据质量。
3.3 案例分析建议
3.3.1 中国联通大数据平台
联通集团公司按照工信部的的要求(见《工业和信息化部、国务院国有资产监督管理委员会关于开展基础电信企业网络与信息安全责任考核有关工作的指导意见》和《工业和信息化部办公厅关于印发<2013年省级基础电信企业网络与信息安全工作考核要点与评分标准>的通知》),于2013年启动IDC/ISP日志留存系统的建设,其中集团侧
32
的集中留存系统软件由联通研究院负责开发。为了满足海量数据条件下的处理效率的要求,集团侧集中留存系统软件除研究院自主开发外,基于Hadoop的数据存储部分计划进行外包,通过软件技术服务,来进行系统优化和维护支撑。
3.3.1.1 项目概述
目前,联通集团公司全国IDC出口的访问日志预计两个月产生的数据量约20PB至30PB,每秒写入大概6千万至7千万条数据,在如此巨大的数据量下,原有Teradata和Oracle已经不能满足快速读写的性能要求了。同时为了实现快速检索以及分析处理的性能要求,需要引入分布式大数据平台,利用分布式文件存储系统,提高数据的存储入库能力,利用Hadoop/HBase架构克服磁盘I/O瓶颈导致的数据读写延迟;基于联通IDC出口流量详单数据进行快速存储和检索以及分析处理,同样要求数据处理平台具备快速读写的高性能。
中国联通公司全国IDC日至留存项目对分布式集群的要求非常高: (1) 日志数据量非常大,存储的总日志数据量将达到20PB-30PB。
(2) 要求集群的数据吞吐量非常高,每秒的日志写入量将达到6千万至七千万条,
未来还会增长更多,每秒的数据写入量为上百GB
(3) 数据访问的性能要求非常高,对日志的分析需要分钟级、甚至秒级返回结果。 (4) 数据计算量大,日常日志扫描任务就需要扫描上百TB,甚至上PB的数据。 (5) 集群的扩展性要求非常高,能够灵活扩展至上千个节点的集群。
根据此次中国联通的需求,以及项目的特点和技术要求,推荐采用商用的、成熟的、基于星环Transwarp Data Hub的企业级大数据平台套件,构建中国联通IDC日志留存平台的基础大数据平台,用于满足海量日志的高速存储、计算、分析、挖掘的需求。
33
3.3.1.2 项目实施情况
星环科技通过协助联通集团搭建基于星环Transwarp Data Hub的大数据平台,成功为联通集团搭建了信息安全管理系统大数据存储处理子系统项目所采用的平台系统。分布式大数据平台采用Hadoop/HBase架构,能够支持对联通IDC出口流量详单的存储和快速检索和分析处理。
系统拓扑:
图4-1联通大数据平台技术架构
整个集群由FTP集群和Hadoop集群组成,其中: FTP集群:
? 由129台服务器组成,hostname对应为idcisp-ftp-001 ~ idcisp-ftp-129
? 功能:主要存放从各大机房传输过来的数据,放到对应目录下 由SuperListen进程进行监控,并将数据统一传输到Hadoop集群的HDFS上 Hadoop集群:
34
? 组成:Zookeeper 11台,NameNode 2台,Resource Manager 1台,hamster 5台, DataNode921台
? 功能:安装了tdh相关的组件Hadoop、Hyperbase、Inceptor,存储从ftp服务器传输过来的数据,并定时导入到Hyperbase中,供上层应用或程序的调用快速返回查询结果,同时也可以通过inceptor进行统计分析,暂时保存的数据是2+1月
每天存储Hyperbase中的数据大概10T左右,存储的是2+1月,除了存储在Hyperbase中的数据,HDFS也会有原始数据的备份,现在空间占用大概在65%左右。
Transwarp Data Hub平台部署拓扑图:
图4-2联通大数据平台网络拓扑
实际部署星环的Hadoop集群,存储能力达到全国IDC出口访问日志两个月的存储能力,约为20PB,总带宽16764G,每G每秒生成话单4000条计算,每秒新写入数据为67056000条访问日志。
入库方式:
35
? 传统的API put方式平均每秒每台机器只能入库约2万条数据,900台机器的极限是1.8千万条/秒。远远低于数据灌入速度。
? Bulkload是唯一的选择:定制化的Bulkload入库效率约为单节点每秒12万,900台机器的入库能力超过10.8千万条/秒
? 数据通过通过FTP服务器集群中部署HDFS写入Agent方式直接由ftp集群直接上传到HDFS中。
注:之前IP溯源Bulkload对三张表(一张内容表+2张索引表)的入库效率为4万条/秒/节点。此次为了最大限度的利用Bulkload的效率,一方面去除了2张索引表,另一方面也优化了已有Bulkload 代码。
优化内容:
? 数据入库时负载均衡,优化rowkey中日期时间,避免数据写热点。 ? 8位UUID尾缀避免同一时间点上的数据相互覆盖。
? Rowkey上优化时间排序,加速读过程,保证数据从最近到最远排序。 ? 保留60天历史数据,每天各建一张表,提升每张表的可管理性 ? 建表时预设15000个Region,提升Bulkload入库效率。
? 不建索引表,改用定制化的API满足查询需求,进一步增大入库带宽。 根据中国联通对IDC出口的流量详单的存储与快速检索、分析的处理的要求,星环科技为联通集团提供了如下技术组件与模块:
表4-1 组件列表
组件名称 Transwarp Inceptor 组件功能 TDH平台组件服务,提供对SQL99, SQL2003的完整支持,同时支持日志统计与分析 Oracle PL/SQL,快速开发 36
支持运行的应用
Transwarp Hyperbase Transwarp Hadoop TDH平台组件服务,提供对海量日志数据的快速存储与高并发访问,提供高效的索引功能 针对存储的日志数据的快速检索 TDH平台组件服务,分布式基础平台 对高吞吐量的日志数据进行快速的存储 TDH平台组件服务,TDH管理工具,管理功能 Transwarp Manager 图形化、自动化安装、部署、配置、监控、报警 联通集团搭建的信息安全管理系统大数据存储处理子系统,所采用的硬件设备如下表所示:
表4-2 节点配置表
服务器 节点数量 CPU 内存 推荐配置及说明 目前已经超过900个节点 两路8核处理器 2*E5-2620 64GB ECC DDR3 10个2TB的SATA硬盘, 15000RPM,不使用RAID; 硬盘 2个300G的SAS硬盘,15000RPM, RAID1,作为系统盘 网络 双电口万兆(10Gbps)以太网卡 星环科技作为大数据平台技术提供商,集团侧集中留存系统软件除研究院自主开发外,基于Hadoop的数据存储部分计划进行外包,通过软件技术服务,来进行系统优化和维护支撑。
表4-3 项目概况
所属 公司 编号 项目各个阶段实施进度以及人员参与情况 人员 架设计 集群部署 37 概要设计 详细设计 应用开发 系统测试 试运行 上线运行
2014.12~ 2014.12 2015.1~ 2015.1 2015.1~ 2015.1 2015.1~ 2015.3 2015.3~ 2015.6 2015.6 2015.8 2015.8~ 2015.11 2015.10 联通研究院参与人员 1 2 3 4 1 2 系统设计师 开发工程师1 开发工程师2 开发工程师3 架构师 实施工程师 √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ 星环科技人员 3 运维工程师 √ √ √ √ √ √ √ √ 服务外包公司人员 1 2 3 4 项目经理 开发工程师1 开发工程师2 开发工程师3 √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √
3.3.1.3 项目成果
项目所搭建的星环Transwarp Data Hub平台,克服在海量数据的条件下,因磁盘I/O性能带来的数据处理瓶颈,分布式大数据平台采用Hadoop/HBase架构,项目成果如下:
搭建了超过900个节点的星环Transwarp Data Hub集群,满足约20000T(20PB)至30000T(30PB)的数据存储能力以及每秒写入大概6千万至7千万条数据的读写性能。
经测算,数据平台的性能为:
? 高速数据插入吞吐量远高于单节点30MB/S; ? 单节点在索引上检索性能不低于1W条/秒;
? 提供数据据高并发查询,单节点SQL并发度不低于3000次/秒; ? 提供SQL对数据的高速统计分析,线性扫描性能单节点不低于80MB/S。
38
通过Hyperbase对外提供的SQL接口,上层应用通过SQL进行数据访问和查询,极大的降低了对开发人员专业技能的要求,降低了系统维护成本,同时提高了应用开发效率。
通过Hyperbase集成的Elastic Search功能,应用层可以通过全文索引进行日志数据的检索,根据关键字的检索响应时间在20ms以内,整个集群可以承载的基于关键词的检索并发度远高于100万/秒。
对海量IDC出口访问日志的分析性能极为高效,日扫描数据量超过100TB。 入库效率单节点每秒12万条日志,集群总体入库能力目前超过10.8千万条/秒。每天Hyperbase新增存储日志量超过50TB。
3.3.1.4 项目意义
基于星环Transwarp Data Hub搭建的中国联通IDC日志留存大数据平台,目前已经部署了900多个x86服务器节点,是目前国内非互联网公司范围内规模最大的单一客户、单一集群的企业级大数据平台,从全球的非互联网行业看,如此大的部署规模也不常见,是国内集团级、总部级客户中非常成功的落地项目,充分证明星环科技Transwarp Data Hub大数据平台可以为企业级客户提供成熟的、稳定的的大规模部署方案,中国联通IDC日志留存大数据平台为集团大数据平台的建设提供了宝贵的经验,可以帮助集团搭成功建起高效、稳定的、充分满足集团需求以及符合集团特色的大数据平台。
3.3.2 恒丰银行大数据平台
恒丰银行股份有限公司是12家全国性股份制商业银行之一,其前身为1987年经
39
国务院同意、中国人民银行批准成立的烟台住房储蓄银行。2003年经中国人民银行批准,正式改制为恒丰银行股份有限公司,成为全国性股份制商业银行。
目前,恒丰银行在全国设有14家一级分行,2家总行直管行,共256家分支机构;另外还发起设立了5家村镇银行。
截至2015年末,恒丰银行资产规模达到1.05万亿元,全年净利润同比增长14%,净资产收益率ROE超过15%,新增分支机构74家,与上年相比实现翻番,创历年新高。
在英国《银行家》杂志发布的“2015年全球银行1000强”排名中,恒丰银行位列第170位。
恒丰银行较好的实现了盈利与稳健发展的平衡。盈利能力方面,恒丰银行在香港中文大学发布的《亚洲银行竞争力研究报告》中位列亚洲银行业第5位;稳健发展能力方面,恒丰银行在中国银行业协会发布的“商业银行稳健发展能力‘陀螺(GYROSCOPE)评价体系’”中,在综合能力排名中位列全国性商业银行第7位,全国性股份制商业银行前三。
3.3.2.1 项目概述
随着利率市场化进程加快、互联网金融业态的发展,传统银行与实体经济的业务横向联系与深度融合进展迅速,业务数据的内容不断丰富,建立在数据处理技术之上业务洞察能力也需要不断提升。
恒丰银行处于业务发展的新阶段,新业务模式的创新离不开数据的支持,也对数据信息服务的总体能力提出了新的要求。基于大数据平台技术,整合现有行内数据,接入行外数据,搭建处理能力更强,更易于扩展,性能更高的统一数据平台。不仅可以很好的满足高计算、高存储、高负载的要求,更能够对海量的数据进行数据存储、清洗、加
40