修订版旅游大数据平台方案(4)

2019-02-14 22:41

近,这使得词语的向量化建模更加精确,可以改善现有方法并提高鲁棒性。词向量已被证明在许多自然语言处理问题,如:机器翻译,标注问题,实体识别等问题中具有非常重要的作用。Word2Vec具有两种模型,其一是 CBOW ,其思想是通过每个词的上下文窗口词词向量来预测中心词的词向量。其二是 Skip-gram,其思想是通过每个中心词来预测其上下文窗口词,并根据预测结果来修正中心词的词向量。该组件目前只支持后者。 53 文本分析 词频统计 在对文章进行分词的基础上,按行保序输出对应文章ID列(docId)对应文章的词,统计指定文章ID列(docId)对应文章内容(docContent)的词频。 54 文本分析 文本摘要 通过pagerank算法计算得到的重要性最高的若干句子可以当作摘要。 55 文本分析 关键词提取 全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语 56 文本分析 长句拆分 根据长句中的标点符号将句子进行分割成多个短句 57 工具算法 sql脚本 用户可以在该组件自定义的SQL脚本从而完成对数据的转换处理 58 统计分析 单样本T检验 单样本T检验:单样本t检验(one-sample t-test)又称单样本均数t检验,适用于样本均数x与已知总体均数u0的比较,其比较目的是检验样本均数x所代表的总体均数u0是否与已知总体均数u0有差别。已知总体均数u0,一般为标准值、理论值或经大量观察得到的较稳定的指标值。T检验的前提是样本总体服从正态分布 59 统计分析 配对样本均数T检验 配对样本均数t检验(paired t test),又称非独立两样本均数t检验,适用于配对设计计量资料均数的比较,其比较目的是检验两相关样本均数所代表的未知总体均数是否有差别。 60 统计分析 两独立样本均数T检验 两独立样本t检验(two-sample t-test),又称成组t检验,它适用于完全随机设计的两样本均数的比较,其目的是检验两样本所来自总体的均数是否相等。完全随机设计是将受试对象随机地分配到两组中,每组对象分别接受不同的处理,分析比较两组的处理效应。 61 统计分析 方差齐性检验 由两样本方差推断两总体方差是否相同。有三种方差齐性检验的方法可供选择。选用Bartlett检验:如果我们的数据服从正态分布,那么这种方法将是最为适用的。对于正态分布的数据,这种检验极为灵敏;而当数据为非正态分布时,使用该方法则很容易导致假阳性误判。Levene检验:当样本数据偏态或者非正态性的情况下,选用Levene检验鲁棒..

性与精度比Bartlett检验好。Fligner-Killeen检验: 这是一个非参数的检验方法,完全不依赖于对分布的假设。 62 统计分析 卡方适配度检验 卡方适配度检验,Chi-Square Goodness of Fit Test.验证一组观察值的次数分配是否异于理论上的分配。其 H0 假设(虚无假设,null hypothesis)为一个样本中已发生事件的次数分配会服从某个特定的理论分配。通常情况下这个特定的理论分配指的是均匀分配 63 统计分析 卡方独立性检验 卡方独立性检测,Chi-Square Independence Test,验证从两个变量抽出的配对观察值组是否互相独立。其虚无假设是:两个变量呈统计独立性。 64 65 66 统计分析 统计分析 统计分析 百分位 皮尔森相关系数矩阵 全表统计 对一个存在的表,单列数据计算百分位 计算两两字段(数值型)的皮尔森相关系数。 分别计算全表的每个字段的统计信息,包括缺省值、最大最小值、方差、偏值等等。 67 68 69 统计分析 统计分析 统计分析 Quantile 协方差矩阵 箱线图 分位数统计信息指标 协方差用于衡量两个变量的总体误差 它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。 70 统计分析 洛伦兹曲线 称为洛伦士曲线,洛伦兹曲线,是美国统计学家洛伦兹提出的用来描述社会收入分配状况的一种曲线,它由累积的一定人口数占总人口中的百分比与这部分人口所获得的收入占总收入中的百分比状况来表示。 71 统计分析 正态检验 正态分布检验组件支持Kolmogorov-Smirnov Test。该检验方法是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。目前该组件只支持检验频率分布与理论分布的一致性。

在科研平台中可以查看具体的算法,还包括算法的介绍、输入、输出和使用方法和适用场景等信息。

..

七. 科研平台设备清单

序号 设备/系统名称 1 2 3 4 高校大数据挖掘与分析科研平台 科研计算项目管理 科研大数据挖掘算法包 科研大数据可视化效果包 数据管理模块 科研平台基础功能。 负责科研计算项目的管理,包括了计算项目建立、维护、设计和执行。 包括机器学习、数据预处理、特征工程、文本分析、工具算法等6大类算法。 通过可视化效果洞察数据的关联关系,包括柱形图、折线图、残值图、面积图等20余种可视化效果。 负责进行数据的管理功能,分为外部数据管理和内置5 数据源数据管理两部分,包括数据的引入和授权等功能。 用于后台整体计算资源的使用和监控,包括计算资源6 计算资源管控模块 的分配、使用、监督、回收和监控,更高效的利用计算资源。 用于多学科的数据计算和预测等,包括酒店、航班、7 科研数据包_旅游 火车等旅游方面的数据,可以用于旅游人群、旅游资源的科学研究。 1 1 1 功能 数量 1 1 1 1

..


修订版旅游大数据平台方案(4).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:网银新一代液晶按键USBkey安全分析

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: