气象大数据资料(5)

2019-04-23 14:54

3.3.1.2 即席发现组件

创建满足所有业务需求的标准报告往往是不可行的，因为企业的业务数据查询会有不同的需求。用户在查找特定信息时，可能需要获得根据问题的上下文执行即席查询的能力。

即席分析可以帮助数据专家和关键业务用户了解业务数据的行为。即席处理中涉及的复杂性来自多种因素：

多个数据源可用于相同的域。 ? 单一的查询可以有多个结果。

? 输出可以是静态的，并具有多种格式（视频、音频、图形和文本）。 ? 输出可以是动态和交互式的。

3.3.1.3 数据转储组件

在大数据的初步探索中，许多企业选择使用现有的分析平台来降低成本，并依赖于现有的技能。加强现有的数据存储有助于拓宽可用于现有分析的数据的范围，包括驻留在组织边界内外的数据，比如社交媒体数据，它可以丰富主数据。通过拓宽数据范围，使之包含现有存储中的新事实表、维度和主数据，并从社交媒体获取客户数据，组织可以获得更深入的客户洞察。

但要牢记的是，新的数据集通常比较大，而现有的提取、转换和加载工具可能不足以处理它。您可能需要使用具有大规模并行处理能力的高级工具来解决数据的数量、多样性、真实性和速度特征。

3.3.1.4 信息推送/通知组件

大数据洞察使人类、企业和机器可以通过使用事件通知而立即采取行动。通知平台必须能够处理及时发送出去的预计数量的通知。这些通知与大量邮件或群发短信不同，因为内容一般是特定于使用者的。例如，推荐引擎可以提供有关世界各地的庞大客户群的洞察，而且可以将通知发送给这样的客户。

3.3.1.5 自动响应组件

从大数据获得的业务洞察，可用于触发或启动其他业务流程或事务 3.3.2 数据处理组件

无论数据是处于静止状态还是在运动中，都可以处理大数据。具体情况取决于分析的复杂性，有可能不需要对数据进行实时处理。这种模式解决了对大数据进行实时、近实时或批量处理的方式。

以下高级的大数据处理类别适用于大多数分析。这些类别通常也适用于基于 RDBMS 的传统系统。惟一的区别是庞大规模的数据、多样性和速度。在处理大数据时，要使用机器学习、复杂事件处理、事件流处理、决策管理和统计模型管理等技术。

3.3.2.1 历史数据分析组件

传统的历史数据分析仅限于预定义的数据时间段，这通常取决于数据保留策略。由于处理和存储的限制，超出此时间段的数据通常会被归档或清除。基于 Hadoop 的系统和其他等效的系统可以克服这些限制，因为它们具有丰富的存储以及分布式大规模并行处理能力。运营、业务和数据仓库的数据被移动到大数据存储，您通过使用大数据平台功能对它们进行处理。

历史分析包括分析给定时间段、季节组合和产品的历史趋势，并与最新的可用数据进行比较。为了能够存储和处理如此庞大的数据，您可以使用 HDFS、

NoSQL、SPSS? 和 InfoSphere? BigInsights?。 3.3.2.2 高级分析组件

大数据提供了很多实现创意洞察的机会。不同的数据集可以在多种上下文中存在关联。发现这些关系需要创新的复杂算法和技术。

高级分析包括预测、决策、推理过程、模拟、上下文信息标识和实体解析。高级分析的应用包括生物统计数据分析（例如，DNA 分析）、空间分析、基于位置的分析、科学分析、研究，等等。高级分析要求大量的计算来管理大量的数据。

数据专家可以指导您识别合适的技术、算法和数据集，以及在给定上下文中解决问题所需的数据源。比如 SPSS、InfoSphere Streams 和 InfoSphere BigInsights 等工具提供了这类功能。这些工具访问存储在大数据存储系统（比如 BigTable、HBase，等等）中的非结构化数据和结构化数据（例如，JSON 数据）。

3.3.2.3 预处理原始数据组件

大数据解决方案主要由基于 MapReduce 的 Hadoop 系统和技术组成，MapReduce 是开箱即用的分布式存储和处理解决方案。然而，从非结构化数据提取数据（例如，图像、音频、视频、二进制提要，甚至是文本）是一项复杂的任务，需要具有机器学习能力并掌握自然语言处理等技术。另一个主要挑战是如何验证这些技术和算法的输出的准确度和正确性。

要对任何数据执行分析，数据都必须是某种结构化格式。从多个数据源访问的非结构化数据可以按原样存储，然后被转化成结构化数据（例如 JSON），并

被再次存储到大数据存储系统中。非结构化文本可以转换成半结构化或结构化数据。同样，图像、音频和视频数据需要转换成可用于分析的格式。此外，使用预测和统计算法的高级分析的准确性和正确性取决于用来训练其模型的数据和算法的数量。

下面的列表显示了将非结构化数据转换成结构化数据所需的算法和活动： ? 文档和文本分类

? 特征提取 ? 图像和文本分割

? 关联特征、变量和时间，然后提取包含时间的值

? 输出的准确度检查使用了混淆矩阵（confusion matrix）等技术和其他手动活动

? 数据专家可以帮助用户选择合适的技术和算法。 3.3.2.4 即席分析组件

处理大数据的即席查询所带来的挑战不同于对结构化数据执行即席查询时所面临的挑战，由于数据源和数据格式不是固定的，所以需要使用不同的机制来检索和处理数据。

虽然大数据供应商可以处理简单的即席查询，但在大多数情况下，查询是复杂的，因为必须在运行时动态地发现数据、算法、格式和实体解析。所以需要利用数据专家和业务用户的专业知识来定义下列任务所需的分析：

? 识别并发现计算和算法 ? 识别并发现数据源

? 定义所需的可以由计算使用的格式 ? 对数据执行并行计算 3.3.3 数据访问组件

在大数据解决方案中，有许多数据源，还有很多访问数据的方式，本节将介绍最常见的几种。

3.3.3.1 web和社交媒体访问组件

Internet 是提供许多目前可以获得的洞察的数据源。在几乎所有分析中，都会用到 Web 和社交媒体，但获得这种数据需要不同的访问机制。

在所有数据源中，因为 Web 和社交媒体的多样性、速度和数量，所以 Web 和社交媒体是最为复杂的。网站大约有 40-50 个类别，每一个类别都需要使用不同的方式来访问数据。本节将列出这些类别，并介绍一些访问机制。从大数据的角度讲，高级的类别是商业站点、社交媒体站点，以及具有特定和通用组件的站点。有关的访问机制见图 3。如果需要的话，在完成预处理后，可将所访问的数据存储在数据存储中。

Web 和社交媒体访问

需要执行以下步骤来访问 Web 媒体信息。图大数据访问步骤

共7页:

气象大数据资料(5).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档