R常用数据挖掘函数(4)

2019-04-01 21:37

化算法，默认均值归一化x-mean；normalize_sim_matrix是否对相似矩阵归一化，默认为否；na_as_zero是否将NA作为0，默认为否；minRating：最小评分，默认不设置；

recommenderlab提供了6中不同的推荐方法method：random（随机推荐(real ratings)），popular（基于流行度推荐(real data)），ibcf（基于项目协同过滤(real data)），ubcf（基于用户协同过滤(real data)），SVD（基于SVD近似推荐(real data)），PCA（基于主成分分析的推荐(real data)）

recommenderlab包中的predict(object, data, n, type)函数：使用推荐模型预测。object为推荐模型；data为测试数据集；n为top-N推荐名单号码。type推荐类型,默认的类型是“topnlist”创建一个推荐列表与建议。“rating”收益预测与已知的评级代表的Na。”ratingmatrix”返回一个完成评分矩阵。

recommenderlab包中的evaluationScheme(data, method, train, given, goodRating)函数：创建模型评估方案。data为ratingMatrix数据集；train划分为训练集的数据比例；given表示用来进行模型评价的items的数量；goodRating评价的阀值，goodRating=5表示大于等于5的都是好的；k运行评估的折数或倍数（split的默认值为1）

method为评估的方法，有简单划分split、k折交叉验证cross-validation、自助法bootstrap。split为是随机分配给训练集的对象的比例，并将其用于测试集，默认为1；cross-validation创建一个交叉验证方案。数据被随机分成K个和每个运行K-1部分用于训练，其余部分用于测试。在所有的运行后，每一部分都被用作测试集；bootstrap创建的训练集，通过取一个引导样本（采样与更换）的大小在数据集的数量。所有的对象不在训练集被用于测试。 recommenderlab包中的getData(x, type)函数：读取数据。x为evaluationScheme模型；type为trian、know、unknown（train表示训练集数据；know表示用户已经评分的，要用来预测的items；unknown表示用户已经评分，要被预测以便于进行模型评价的items）getData 的参数 given 便是来设置用于预测的项目数量。

recommenderlab包中的dropNA(x)函数：显示稀疏矩阵不包含NA。x为矩阵。 recommenderlab包中的normalize(x, method)函数：标准化。x为一个realRatingMatrix；method为标准化的方法，有center和Z-score两种。

recommenderlab包中的evaluate(x, method, n)函数：评估推荐模型。x为评估计划，evaluationScheme类型；type为评估“topNList”或“ratings”；n为top-N的推荐数，只有在type=”topNList”时；

method为字符串或列表。如果给定一个字符串，它定义了用于评价的推荐方法。如果几个推荐方法需要进行比较，方法包含一个嵌套列表。每个元素描述一个推荐方法，包括一个列表，包含两个元素：一个名为“方法”的字符串，包含该方法的方法和一个列表名“参数”，包含用于此推荐方法的参数。

recommenderlab包中的plot()函数：为评价结果创建ROC曲线图或者precision-recall曲线图。annotate为T/F（evaluate为字符串时），为N、1：N（evaluate为list时）

2、reshape包的cast(data, forumla, value)函数：铸造函数，铸造成你想要的形状。data为要改变的数据框；formula为铸造函数；value为列名。

3、arules包中的image()函数：二元关联矩阵的视觉检查。（默认在加载recommenderlab包时加载）

十五、关联规则（Aprior算法）

R中提供了两个专用于关联规则的软件包，即arules包和arulesViz包，前者用于产生关联规则的定量化结果，后者用于产生关联规则的可视化结果。 1、

rules <- apriori(titanic.raw, control=list(verbose=F), parameter=list(minlen=2, supp=0.005,

conf=0.8), appearance=list(rhs=c(“Survived=No”, “Survived=Yes”), default=”lhs”))

arules包中的apriori(data, parameter=list(support, minlen, maxlen, confidence))函数：Aprior算法挖掘频繁项集的关联规则，Apriori算法采用逐层寻找频繁项集。

data为transactions类型对象或者任何可以转化为transactions类型的数据结构； parameter为APparameter类型的对象，参数有support项目集的最小支持度值（默认为0.1）；minlen为项目集每项的最小数目2（默认为1），可以删除项集为空和1的；maxlen为项目集每项的最大数目（默认为10）；confidence为可信度（默认为0.8）

data为apriori函数和eclat函数所能接受的“交易”格式数据，可以通过as()函数将常见的二元矩阵、数据框进行转换；

parameter以列表的形式存储模型所需的支持度、置信度、每个项集所含项数的最大值/最小值和输出结果类型等参数，默认情况下支持度为0.1，置信度为0.8，项集中最大项数为10，最小项数为1，输出关联规则/频繁项集类型的结果； appearance可为先决条件X和关联结果Y指定明确的项集（一般是分析人员感兴趣的项集），默认情况下不为X和Y指定某些项集；在appearance中设置rhs=c(“Survived=No”, “Survived=Yes”)确保关联规则的右侧rhs只出现”Survived=No”和 “Survived=Yes”，当设置default=”lhs”时所有的项集都可以出现在作出lhs上，关联规则的左侧；both为关联规则的两侧。

control用来控制函数性能，如对项集进行升序或降序，生成算法运行的报告进程等，verbose=F可以设置压缩过程的细节信息

arules包中的quality(rules)函数：返回挖掘的结果，包括支持度、置信度和提升度。rules为Aprior模型。

arules包中的is.subset(x, y)函数：查找超集和子集，查询x中的每个元素是否为y的子集。注意，此方法非常消耗内存，因此非常慢。

arules包中的inspect(x)函数：显示关联规则或可读形式的transactions。x为关联规则、transactions、itemMatrix类型数据集。

arules包中的subset(x, subset)函数：求关联规则、transactions、itemMatrix的子集。subset为元素的逻辑表达式。

arules包中的sort(x, decreasing, by)函数：关联规则的排序方法。decreasing默认为decreasing=T降序排序，升序为decreasing=F；by为排序的属性，默认为按一个属性排序。 arules包中的eclat(data, parameter)函数：eclat算法挖掘频繁数据集项。data为transactions类型或者任何可以转化为transactions类型的数据结构。parameter为ECparameter类型对象，参数有support项目集的最小支持度值（默认为0.1），minlen为项目集每项的最小数目（默认为1），maxlen为项目集每项的最大数目（默认为10），confidence为可信度（默认为0.8） arules包中的itemFrequency()函数：获取单项的频率或支持度。

arules包中的itemFrequencyPlot(x, support, topN)函数：创建一个item频率的条形图，针对transcation数据画频繁项的图。support为最小支持度；topN为画出最大频率的前topN项，按降序作图。

2、关联规则、频繁数据集图形可视化参数

arulesViz包中的plot(x, shading, control, method)函数：关联规则和itemsets可视化的绘图方法。x为关联规则或者频繁数据集对象；method为画图方法（有10种方法）；shading为阴影选项；control为控制图像参数列表。十六、PageRank算法

1、igraph包中的random.graph.game()函数或者erdos.renyi.game(n, p.or.m, directed)函数：根据Erdos-Renyi模型生成随机图形。n为图中的顶点数；p.or.m为以任意两点为边的概率或者

图中的边数；directed图是否将被引导，默认为F。

igraph包中的page.rank(graph)函数：PageRank算法。graph对象。

2、dplyr包中的arrange(.data, …)函数：按变量排列成行，可以使用desc来降序排列变量。十七、时间序列常用到的函数 1、stats包中的HoltWinters(x, gamma)函数：霍尔特-温特斯计算一个给定的时间序列过滤波。x为ts的对象；gamma用于季节性成分的γ参数,如果设置为假，则一个非季节性模型。 stat包中的ts(data, start, end, frequency)函数：创建时间序列的对象。data为时间序列值的向量或矩阵；start为第一次观察的时间；end为最后一次观察的时间；frequency为每单位时间的观测次数。

stats包中的plot.ts()函数：画时间对象的图形。

stats包中的ts.plot()函数：画几个时间序列的共同图，但frequency要相同；plot.ts()基于不同的时间序列基线

stats包中的lag.plot(x， lags, do.lines)函数：时间序列的延迟图。x表示时间序列；lags为所需延迟图的个数；do.lines为F表示不绘制线，为T表示绘制线。

stats包中的stl(x, s.window, robust)函数：时间序列的季节分解。x为用于分解的单一时间序列；s.window为季节性时间跨度；robust表示使用鲁棒你和的逻辑指示。

stat包中的decompose(x)函数：使用移动平均法，将时间序列分解成季节性、趋势和不规则的组件。x为一个时间序列。

stats包中的acf(x, lag.max)函数：计算自相关和自相关函数的估计。x为时间序列的对象；lag.max为acf函数计算的最大滞后数。

stats包中的pacf(x, lag.max)函数：用于偏自相关函数。x为时间序列的对象；lag.max为acf函数计算的最大滞后数。

stats包中的ts.intersect(…, dframe)函数：绑定2个或多个时间序列。…为要绑定的2个或多个时间序列；dframe为T表示返回个数据框。

stats包中的lag(x, k)函数：延迟一个时间序列。x为一个时间序列；k为滞后的时间单位数。 stats包中的arima.sim(model, n)函数：模拟ARIMA模型。model为一个组件的列表分别指定ar和ma系数,选择一个可以使用的组件顺序，一个空的列表给出了ARIMA（0，0，0）模型，即白噪声；n为序列的长度。

stats包中的arima(x, order, xreg, seasonal, method, include.mean)函数：拟合ARIMA模型的单变量时间序列。x为一个单变量时间序列（被预测的变量）；order为一个规范的非季节性ARIMA模型的一部分，order包括三个整数部分，AR order、差分程度和MA order；xreg为一个向量或矩阵的外部回归，必须和x有相同的数量（预测变量）；seasonal为一个规范的季节ARIMA模型的一部分，加上期间，应该是一个组件的顺序和时间，但一个规范的一个数字向量的长度为3将成为一个合适的列表与规范的顺序。method为估计方法，ML为极大似然估计，CSS为条件最小二乘估计，默认为最小二乘法；include.mean：是否包含均值项(intercept)。

stats包中的time(x)函数：创建时间序列的矢量采样。x为单变量或多变量时间序列。 stats包中的resid(object)函数：提取模型残差。object为一个模型残差提取的对象。

stats包中的spec.pgram(x, spans)函数：一个平滑周期图的时间序列的谱密度估计。x为单变量或多变量的时间序列；spans为奇整数给改良丹尼尔平滑用来平滑周期图的宽度向量 stats包中的spec.ar()函数：一个AR时间序列的谱密度估计。x为一个单变量的时间序列或AR拟合结果；

stats包中的Box.test(x, lag, type)函数：Box-Pierce和Ljung-Box测试。x为数字型向量或单变量时间序列；lag为基于滞后相关系数的统计；type测试的类型（部分匹配）。

stats包中的tsdiag(object)函数：时间序列诊断图。object为一个拟合的时间序列模型。 stats包中的filter(x, sides, init)包：时间序列的线性过滤波（将线性滤波应用于单变量时间序列，或将一系列时间序列分开）。x为一个单变量或多变量时间序列；sides为卷积滤波器，sides=1滤波系数仅为过去的值，sides=2他们是围绕滞后0；init为递归滤波器，指定时间序列的初始值在开始值之前，在相反的时间顺序，默认是一组零。

base包中的as.POSIXct(x)函数：日期时间转化函数，功能操作对象的类“POSIXlt”和“POSIXct”代表日历日期和时间。x为一个要转化的对象。 2、

forecast包中的forecast.HoltWinters(object, h)函数：用霍尔特-温特斯对象预测，对单变量时间序列模型返回Holt-Winters预测等信息。object为HoltWinters对象；h为预测周期。 forecast包中的forecast.Arima(object, h, xreg, level)函数：使用ARIMA或ARFIMA模型预测。object为ARIMA类对象；h为预测的时间周期数，如果xreg参数被使用，忽略h值，使用xreg的值；xreg为预测变量的未来值；level为预测区间的置信水平。

forecast包中的plot.forecast(x)函数：预测图。x为通过forecast生成的预测对象。

forecast包中的auto.arima(x, ic, trace)函数：拟合最佳的单变量时间序列的ARIMA模型，函数提供尽可能的模型。x为一个单变量的时间序列；ic为用于模型选择的信息准则，包aicc/aic/bic，（ic=”bic”对参数个数要求非常严格）；trace为T时，ARIMA模型的列表将会显示。 3、nlme包中的gls(model, data, correlation, method)函数：用广义最小二乘法拟合线性模型。model为模型公式对象；data为数据；correlation为相关结构类；method为ML表示对数似然最大化，为REML表示限制对数似然最大化，默认为REML。

nlme包中的corARMA(p,q)函数：ARMA(p, q)相关结构。p指定AR自动回归；q指定MA移动平均，默认都为0. 十八、文本分析

gsub(pattern, replacement, x, ingnore.case=F, perl=F, fixed=F, useBytes=F)：全文匹配。pattern为正则表达式字符串；replacement为替代的字符串；x为要进行替换操作的字符向量；ingnore.case为F时表示忽略大小写；perl表示是否进行perl兼容正则表达式；fixed为T是一个字符串匹配；useBytes为T表示按字节进行匹配。

Rwordseg包中的segmentCN(strwords)函数：汉语分词。strwords为UTF-8格式的中文。 Rwordseg包中的insertWords(strwords)函数：把新词插入到词典中。strwords为单词向量。 tmcn包中的getWordFreq(string)函数：获取词频数据框。string为计算单词词频的特征向量。 unlist()：扁平列表，把元素的所有原子构成一个列表。

wordcloud包中的wordcloud(words, freq, scale=c(4, .5), max.words, random.color=T, colors)函数：画词云图。words为要绘制的词；freq为要绘制词的频率；scale一个长度为2的向量，表示绘图范围的大小；max.words要绘制词频最大的词的个数；random.color为T表示随机选择词的颜色；colors表示颜色词从最小到最大词频。

rainbow(n)：创建一个连续的颜色向量。n表示在调色板中的颜色数量。 wordcloud包中的comparison.cloud(term.matrix)函数：绘制跨文件的词频比较图。term.matrix为一个频率矩阵，其行代表词，其列代表文档。

inspect（）函数：显示语料库或术语文档矩阵的详细信息 tm包中的VectorSource（x）：将一个文本向量创建为一个向量源，向量源解释向量的每一个元素作为一个文档；x为一个向量的文本； tm包中的Corpus（）：语料库的呈现与计算。语料库是包含（自然语言）文本的文档集合。其中采用包TM提供基础设施软件包，例如语料库表示通过虚拟S3类语料库：这样的套餐

提供S3语料库类扩展虚拟基类（如vcorpus包装TM本身提供）。

tm包中的meta(x, tag)函数：文本文档和语料库的元数据访问和修改。x为一个语料库；tag为一个元素数据的字符名称。

tm包中的nDocs(x)函数：访问文档标识和术语。x为a TermDocumentMatrix or DocumentTermMatrix 顶 0 踩 0

上一篇5、聚类之层次聚类、基于划分的聚类（k-means）、基于密度的聚类、基于模型的聚类

下一篇5.1、聚类之Kmeans聚类实例我的同类文章机器学习（55） http://blog.csdn.net

?项目1：logit,GBM,knn,xgboost准确率测试 ?大数据项目2：内存受限的大数据预测模型 ?用户画像数据建模方法 ?13.1、时间序列实例 ?12.1、PageRank实例

?大数据项目3：自动创建N棵决策树脚本 ?大数据项目1：客户回复预测与效益最大化 ?重点：用户画像 ?13、时间序列 ?12、pageRank 更多主题推荐

函数c语言机器学习算法数据预测文档函数,c语言,机器学习,算法,数据,预测,文档猜你在找

《C语言/C++学习指南》加密解密篇（安全相关算法）性能测试之Apache性能调优性能测试之tomcat性能调优 C语言系列之数组与算法实战 PDF神器-Adobe Acrobat Pr 查看评论

暂无评论窗体顶端发表评论用户名： u010664846 评论内容：

共5页:

R常用数据挖掘函数(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档