可以用新洞察丰
富现有数据,或创建可由各种用户使用的输出。该分析可以在事件发生的同时实时发生,或使用批量模式,根据收集到的数据获得洞察。作为可以分析的静态数据的示例,某电信公司可能构建客户流失模型,包括分析呼叫数据记录、社交数据和事务数据。作为分析运动数据的示例,预测某个给定事务正在经历欺诈的需求必须实时或近实时地发生。
图 7. 专用和预测分析复合模式
图 7 说明了这种模式的多个维度。所执行的处理可以是标准的或预测性的,并且可以包括决策。
此外,可以将通知发送给与特定任务或消息有关的系统或用户。该通知可以使用可视化功能。该处理可实时发生或以批量模式发生。
3.4.3 OLAP在线分析
大数据解决方案的最高级形式是,对数据集执行分析,并且基于可重复的过去的行动或行动矩阵来暗示行动。该操作可以是手动、半自动或全自动的。基础分析需要高度准确。行动是预定义的,分析的结果被映射到行动。可操作分析中所涉及的典型步骤是:
分析数据以获得洞察。 ? 制定决策。
? 激活相应的渠道,对正确的使用者采取行动。 图 8. 可操作的分析复合模式
图 8 说明该分析可以是手动、半自动或全自动的。如图中的说明所示,它使用了原子模式。
手动操作 意味着系统基于分析的结果来提供建议操作,并由人类决定和执行操作。半自动 意味着,分析建议操作,但不需要通过人类干预来启动操作,或从一组建议的操作中进行选择。全自动 表示在决策之后,系统立即执行操作。例如,在设备被预测会发生故障之后,系统可以自动创建一个工作订单。
3.4.4 原子模式和符合模式的映射
下面的矩阵显示了如何将原子模式映射到复合模式,复合模式是原子模式的组合。每个复合模式都被设计为针对具有一组特定特征的数据在特定情况下使用。矩阵显示了模式的典型组合。必须对模式进行调整,以满足特定的情况和需求。在矩阵中,按照从最简单到最复杂的顺序列出了复合模式。“store and explore(存储和探索)”模式是最简单的。
图 9. 复合模式对原子模式的映射
3.4.4.1.1 图 10. 将原子模式映射到架构层 3.5 解决方案模式(模拟应用场景) 4 技术架构实现方案 4.1 概述
4.2 技术架构的关键问题 4.2.1 hadoop
此方案基于开源Apache Hadoop的框架实现。因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上
4.2.2 数据库
此方案实际上是综合利用传统数据库/数据仓库、NOSQL等多种数据库组合。 传统的数据库/数据仓库用于存储结构化和半结构化的数据,NOSQL数据库用于存储非结构化的数据。
之所以选择组合的多数据库并存方案,主要是考虑到气象行业的数据存储现状比较复杂,在大叔据项目实施过程中很多分析是需要传统数据和文件分析同时进行的。另外,从NOSQL数据到数据仓库需要一个缓冲处理。当然,这种混合使用的方案会要求大量的ETL过程来进行数据的转换和存储。
4.2.3 流计算
在传统的数据分析策略中,数据被收集到一个数据库中,并被搜索或查询答案。这种分析方法更多地依赖于数据库平台的资源。
Streams 计算软件,这是一个突破性的移动数据分析平台。流计算动态收集多个数据流,使用先进的算法来提供近乎瞬时的分析。,流计算颠覆了这种策略,可用于需要立即作出决定的复杂动态情况
4.2.4 数据治理
4.2.5 分布式存储与分布式应用
4.3 服务平台的硬件架构与调整 4.4 数据库与数据仓库 4.5 NOSQL数据库 4.6 数据集成工具 4.7 数据分析软件
4.8 Web应用以及Web开发的关键问题 5 我们的研发策略 5.1 效益 5.2 目前的形势
5.3 针对目前直接的应用需求 5.4 技术储备与项目应用 5.5 如何保证将来的扩展