修订版旅游大数据平台方案(3)

2019-02-14 22:41

3.3.5 科研平台可视化功能

提供20余种可视化展示模式,一键选择,一键切换,可按使用者需求展示大数据之美,根据需要展示对应的纬度,并可以一键生成高质量PNG文件,保存到本地后可用于科研报告和论文等。

..

四. 平台数据集清单

科研平台为方便用户快速开展科学研究、生成科研数据报告,平台提供了一些通用的数据集,包括各类标准科研数据等。

平台也内置了数百款可选数据集,分为多个数据包,总量近10TB,并且随商务和采集工作推进,仍在不断增加中。

五. 定制数据服务

根据科研老师的需求,数据超市平台提供数据采集和商务合作等定制数据引入模式,数据引入后,可以直接引入数据超市,由老师来进行使用。

如老师需要旅游服务评价类数据进行服务情况的分析和预测,可以直接通过数据超市内的数据定制模块提出数据需求,经数据超市平台管理员汇总后,可以通过数据超市平台进行数据的准备,交给老师进行使用。

六. 科研平台算法清单

平台集成的算法包括72种,全部来自科研网站,经过了商业机构的验证,引入平台后完成了分布式优化,可以高效执行,详细如下表:

序号 1 2 回归算法 回归算法 线性回归 决策树回归 利用线性模型对数值型变量进行拟合。 利用平方误差最小化准则,进行特征选择,生成二叉树,从而对对数值型变量进行拟合 3 回归算法 随机森林回归 以回归决策树为基模型,将一定数量的基模型组合对数值型变量拟合,并对基模型的预测结果平均作为算法的最终结果 4 回归算法 梯度提升回归树 以二叉回归决策树为基函数的加法模型与前向分步结合的算法 ,通过对损失函数在当前模型的预测值的梯度作为近似残差进行拟合,从而对数值型变量预测。 5 分类算法 逻辑回归二分类 对目标变量为二值型分类变量,建立参数化逻辑斯谛分布,即sigmoid函数,近似条件概率分布,以实现二值分类。 算法分类 算法名称 算法描述 ..

6 分类算法 逻辑回归多分类 逻辑回归多分类,k个独立的 logistic回归分类器与onevsall结合的分类模型,分类对象类别之间不是互斥的 7 分类算法 Softmax回归多分类 Softmax回归就是逻辑回归的一般形式,是logistic回归模型在多分类问题上的推广,分类对象类别是互斥的 8 分类算法 决策树分类 利用信息增益准则或基尼指数最小化准则,进行特征选择,生成二叉树,从而对对目标变量为离散变量的数据进行分类 9 分类算法 随机森林分类 以分类决策树为基模型,将一定数量的基模型组合对离散型的目标变量拟合,并根据基模型的预测结果进行投票,以占多数结果的种类作为算法的最终结果 10 分类算法 梯度提升分类树 以二叉分类决策树为基函数的加法模型与前向分步结合的算法,通过对损失函数在当前模型的预测值的梯度作为近似残差进行拟合,从而对分类型目标变量预测。 11 分类算法 BP神经网络 以感知器为基函数,通过将当前基函数的的输出作为下一个感知器的输入,从而实现对离散型分类变量的分类 12 分类算法 贝叶斯分类 基于贝叶斯定理与特征条件独立假设,对给定数据集,学习输入输出的联合概率分布,利用贝叶斯原理输出后验概率最大的预测类作为预测结果 13 分类算法 支持向量机分类 在感知机的基础上,通过在特征空间上间隔最大和核技巧,实现对二类目标变量分类 14 聚类算法 K均值聚类 将无标记样本根据特征空间中的数据结构,划入K个不相交的子集中 15 聚类算法 二分K均值聚类 K均值聚类的改进版,能克服原算法收敛局部最小的缺点,每次选其中一簇分成两簇。 16 聚类算法 高斯混合模型 对于符合高斯分布的数据,假设存在K个高斯模型,将数据反复迭代,期望极大化。将样本聚到后验概率最大的模型类下。 17 关联规则算法 频繁项集挖掘算法(FP-Growth) 主要分为两个步骤:FP-tree构建、递归挖掘FP-tree。挖掘出共同出现的频繁物品集。 18 推荐算法 协同过滤算法 协同过滤是在海量数据中挖掘出某部分与目标客户行为类似的数据,并根据某种指标对其进行排序。 19 预测评估 分类预测及评估 分类算法中,在已有训练数据训练模型的基础上,将未训练的数据代入算法中,预测结果与实际目标变量比对评估,检测模型的性能。 ..

20 预测评估 回归预测及评估 回归算法中,在已有训练数据训练模型的基础上,将未训练的数据代入算法中,预测结果与实际目标变量比对评估,检测模型的性能。 21 预测评估 聚类预测及评估 聚类算法中,在已有训练数据训练模型的基础上,将未训练的数据代入算法中,预测结果与实际数据类型比对评估,检测模型的性能。 22 预测评估 推荐评估 推荐算法中,在已有训练数据训练模型的基础上,将未训练的数据代入算法中,预测结果与物品类目比对评估,检测模型的性能。 23 数据预处理 归一化 将有量纲的数据转化为无量纲的数据,min-max 标准化 24 数据预处理 Join-两表关联 类似sql join的功能,将两张表通过一个字段对或者多个字段对的相等关系关联合成一张表 25 26 27 数据预处理 数据预处理 数据预处理 类型转换(string类型转换数值类型) Union 标准化/正则化 将不同数据的类型按需要进行转换 对不同数据集取并集 标准化是将数据缩放到一个区间范围内,如正态分布,小数定标,逻辑斯谛分布。正则化是利用先验知识,对模型增加约束,防止过拟合。 28 数据预处理 缺失值填充 对数据中某项数值所对应的某些样本缺失,通过某种先验假设,根据样本其他已知数据项对缺失值拟合预测。 29 数据预处理 拆分 按照比例拆分样本集,如设置0.6,切分成60:40两个样本集。 30 数据预处理 随机采样 当数据量过大或模型训练批容量有限时,随机采取一定量/比例的样本集。 31 32 33 数据预处理 数据预处理 数据预处理 增加序列号 Select Select_Distinct 在数据表第一列追加ID列。 数据库查询操作, 查询 某限定条件下的样本 数据库查询操作, 查询某限定条件下并过滤掉重复的样本 34 35 36 37 38 39 数据预处理 数据预处理 数据预处理 数据预处理 数据预处理 特征工程 Select_Where Select_And_Or Select_OrderBy Select_Limit Select_Like 主成分分析 数据库查询操作,查询指定条件下的样本 数据库查询操作,查询条件的交集与并集 数据库查询操作,查询结果按某指标排序 数据库查询操作,查询某限定段的数据 数据库查询操作,查询包含指定字段的数据 数据降维去噪常用方法,对数据的协方差矩阵取前K个最大方差方向作为新的数据方向。 40 特征工程 Onehot编码 用户将特征值进行二元编码映射成二元向量,并与数值向量进行拼接 42 特征工程 特征尺度变换 由于计算需要或根据数据特点将某特征对应数据项进行缩放,不改变样本间该数值项的相对大小 43 特征工程 特征重要性分析 指根据数据集各项特征在算法模型中对目标变量的相对重要程度的分析,从而提出冗余特征,关注..

重要特征,提高算法模型的效率准确性 44 45 特征工程 文本分析 特征离散 SplitWord 对连续型特征按某方法转换为离散型变量 分布式jieba分词接口,基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 46 文本分析 文档主题生成模型(LDA) LDA(Latent Dirichlet allocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。 LDA首先由David M. Blei、Andrew Y. Ng和Michael I. Jordan于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。 47 48 文本分析 文本分析 TF特征 HashingTF特征 将文本文档的集合转换为词频计数的向量。 使用散列技巧将一系列词语映射到其词频的向量,HashingTF 的过程就是对每一个词作了一次哈希并对特征维数取余得到该词的位置,然后按照该词出现的次数计次。所以就不用像传统方法一样每次维护一张词表,运用 HashingTF 就可以方便的得到该词所对应向量元素的位置。当然这样做的代价就是向量维数会非常大,好在 spark 可以支持稀疏向量,所以计算开销并不大。 49 文本分析 TF-IDF特征 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。 50 文本分析 字符串相似度 一个字符串转换成另外一个字符串的代价,转换的代价越高则说明两个字符串的相似度越低。 51 文本分析 停用词过滤 针对文档数据,将包含的特定词汇过滤掉,不计入统计数据中 52 文本分析 Word2Vec Word2Vec 是一种著名的 词嵌入(Word Embedding) 方法,它可以计算每个单词在其给定语料库环境下的 分布式词向量(Distributed Representation,亦直接被称为词向量)。词向量表示可以在一定程度上刻画每个单词的语义。如果词的语义相近,它们的词向量在向量空间中也相互接..


修订版旅游大数据平台方案(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:网银新一代液晶按键USBkey安全分析

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: