化算法,默认均值归一化x-mean;normalize_sim_matrix是否对相似矩阵归一化,默认为否;na_as_zero是否将NA作为0,默认为否;minRating:最小评分,默认不设置;
recommenderlab提供了6中不同的推荐方法method:random(随机推荐(real ratings)),popular(基于流行度推荐(real data)),ibcf(基于项目协同过滤(real data)),ubcf(基于用户协同过滤(real data)),SVD(基于SVD近似推荐(real data)),PCA(基于主成分分析的推荐(real data))
recommenderlab包中的predict(object, data, n, type)函数:使用推荐模型预测。object为推荐模型;data为测试数据集;n为top-N推荐名单号码。type推荐类型,默认的类型是“topnlist”创建一个推荐列表与建议。“rating”收益预测与已知的评级代表的Na。”ratingmatrix”返回一个完成评分矩阵。
recommenderlab包中的evaluationScheme(data, method, train, given, goodRating)函数:创建模型评估方案。data为ratingMatrix数据集;train划分为训练集的数据比例;given表示用来进行模型评价的items的数量;goodRating评价的阀值,goodRating=5表示大于等于5的都是好的;k运行评估的折数或倍数(split的默认值为1)
method为评估的方法,有简单划分split、k折交叉验证cross-validation、自助法bootstrap。split为是随机分配给训练集的对象的比例,并将其用于测试集,默认为1;cross-validation创建一个交叉验证方案。数据被随机分成K个和每个运行K-1部分用于训练,其余部分用于测试。在所有的运行后,每一部分都被用作测试集;bootstrap创建的训练集,通过取一个引导样本(采样与更换)的大小在数据集的数量。所有的对象不在训练集被用于测试。 recommenderlab包中的getData(x, type)函数:读取数据。x为evaluationScheme模型;type为trian、know、unknown(train表示训练集数据;know表示用户已经评分的,要用来预测的items;unknown表示用户已经评分,要被预测以便于进行模型评价的items)getData 的参数 given 便是来设置用于预测的项目数量。
recommenderlab包中的dropNA(x)函数:显示稀疏矩阵不包含NA。x为矩阵。 recommenderlab包中的normalize(x, method)函数:标准化。x为一个realRatingMatrix;method为标准化的方法,有center和Z-score两种。
recommenderlab包中的evaluate(x, method, n)函数:评估推荐模型。x为评估计划,evaluationScheme类型;type为评估“topNList”或“ratings”;n为top-N的推荐数,只有在type=”topNList”时;
method为字符串或列表。如果给定一个字符串,它定义了用于评价的推荐方法。如果几个推荐方法需要进行比较,方法包含一个嵌套列表。每个元素描述一个推荐方法,包括一个列表,包含两个元素:一个名为“方法”的字符串,包含该方法的方法和一个列表名“参数”,包含用于此推荐方法的参数。
recommenderlab包中的plot()函数:为评价结果创建ROC曲线图或者precision-recall曲线图。annotate为T/F(evaluate为字符串时),为N、1:N(evaluate为list时)
2、reshape包的cast(data, forumla, value)函数:铸造函数,铸造成你想要的形状。data为要改变的数据框;formula为铸造函数;value为列名。
3、arules包中的image()函数:二元关联矩阵的视觉检查。(默认在加载recommenderlab包时加载)
十五、关联规则(Aprior算法)
R中提供了两个专用于关联规则的软件包,即arules包和arulesViz包,前者用于产生关联规则的定量化结果,后者用于产生关联规则的可视化结果。 1、
rules <- apriori(titanic.raw, control=list(verbose=F), parameter=list(minlen=2, supp=0.005,
conf=0.8), appearance=list(rhs=c(“Survived=No”, “Survived=Yes”), default=”lhs”))
arules包中的apriori(data, parameter=list(support, minlen, maxlen, confidence))函数:Aprior算法挖掘频繁项集的关联规则,Apriori算法采用逐层寻找频繁项集。
data为transactions类型对象或者任何可以转化为transactions类型的数据结构; parameter为APparameter类型的对象,参数有support项目集的最小支持度值(默认为0.1);minlen为项目集每项的最小数目2(默认为1),可以删除项集为空和1的;maxlen为项目集每项的最大数目(默认为10);confidence为可信度(默认为0.8)
data为apriori函数和eclat函数所能接受的“交易”格式数据,可以通过as()函数将常见的二元矩阵、数据框进行转换;
parameter以列表的形式存储模型所需的支持度、置信度、每个项集所含项数的最大值/最小值和输出结果类型等参数,默认情况下支持度为0.1,置信度为0.8,项集中最大项数为10,最小项数为1,输出关联规则/频繁项集类型的结果; appearance可为先决条件X和关联结果Y指定明确的项集(一般是分析人员感兴趣的项集),默认情况下不为X和Y指定某些项集;在appearance中设置rhs=c(“Survived=No”, “Survived=Yes”)确保关联规则的右侧rhs只出现”Survived=No”和 “Survived=Yes”,当设置default=”lhs”时所有的项集都可以出现在作出lhs上,关联规则的左侧;both为关联规则的两侧。
control用来控制函数性能,如对项集进行升序或降序,生成算法运行的报告进程等,verbose=F可以设置压缩过程的细节信息
arules包中的quality(rules)函数:返回挖掘的结果,包括支持度、置信度和提升度。rules为Aprior模型。
arules包中的is.subset(x, y)函数:查找超集和子集,查询x中的每个元素是否为y的子集。注意,此方法非常消耗内存,因此非常慢。
arules包中的inspect(x)函数:显示关联规则或可读形式的transactions。x为关联规则、transactions、itemMatrix类型数据集。
arules包中的subset(x, subset)函数:求关联规则、transactions、itemMatrix的子集。subset为元素的逻辑表达式。
arules包中的sort(x, decreasing, by)函数:关联规则的排序方法。decreasing默认为decreasing=T降序排序,升序为decreasing=F;by为排序的属性,默认为按一个属性排序。 arules包中的eclat(data, parameter)函数:eclat算法挖掘频繁数据集项。data为transactions类型或者任何可以转化为transactions类型的数据结构。parameter为ECparameter类型对象,参数有support项目集的最小支持度值(默认为0.1),minlen为项目集每项的最小数目(默认为1),maxlen为项目集每项的最大数目(默认为10),confidence为可信度(默认为0.8) arules包中的itemFrequency()函数:获取单项的频率或支持度。
arules包中的itemFrequencyPlot(x, support, topN)函数:创建一个item频率的条形图,针对transcation数据画频繁项的图。support为最小支持度;topN为画出最大频率的前topN项,按降序作图。
2、关联规则、频繁数据集图形可视化参数
arulesViz包中的plot(x, shading, control, method)函数:关联规则和itemsets可视化的绘图方法。x为关联规则或者频繁数据集对象;method为画图方法(有10种方法);shading为阴影选项;control为控制图像参数列表。 十六、PageRank算法
1、igraph包中的random.graph.game()函数或者erdos.renyi.game(n, p.or.m, directed)函数:根据Erdos-Renyi模型生成随机图形。n为图中的顶点数;p.or.m为以任意两点为边的概率或者
图中的边数;directed图是否将被引导,默认为F。
igraph包中的page.rank(graph)函数:PageRank算法。graph对象。
2、dplyr包中的arrange(.data, …)函数:按变量排列成行,可以使用desc来降序排列变量。 十七、时间序列常用到的函数 1、stats包中的HoltWinters(x, gamma)函数:霍尔特-温特斯计算一个给定的时间序列过滤波。x为ts的对象;gamma用于季节性成分的γ参数,如果设置为假,则一个非季节性模型。 stat包中的ts(data, start, end, frequency)函数:创建时间序列的对象。data为时间序列值的向量或矩阵;start为第一次观察的时间;end为最后一次观察的时间;frequency为每单位时间的观测次数。
stats包中的plot.ts()函数:画时间对象的图形。
stats包中的ts.plot()函数:画几个时间序列的共同图,但frequency要相同;plot.ts()基于不同的时间序列基线
stats包中的lag.plot(x, lags, do.lines)函数:时间序列的延迟图。x表示时间序列;lags为所需延迟图的个数;do.lines为F表示不绘制线,为T表示绘制线。
stats包中的stl(x, s.window, robust)函数:时间序列的季节分解。x为用于分解的单一时间序列;s.window为季节性时间跨度;robust表示使用鲁棒你和的逻辑指示。
stat包中的decompose(x)函数:使用移动平均法,将时间序列分解成季节性、趋势和不规则的组件。x为一个时间序列。
stats包中的acf(x, lag.max)函数:计算自相关和自相关函数的估计。x为时间序列的对象;lag.max为acf函数计算的最大滞后数。
stats包中的pacf(x, lag.max)函数:用于偏自相关函数。x为时间序列的对象;lag.max为acf函数计算的最大滞后数。
stats包中的ts.intersect(…, dframe)函数:绑定2个或多个时间序列。…为要绑定的2个或多个时间序列;dframe为T表示返回个数据框。
stats包中的lag(x, k)函数:延迟一个时间序列。x为一个时间序列;k为滞后的时间单位数。 stats包中的arima.sim(model, n)函数:模拟ARIMA模型。model为一个组件的列表分别指定ar和ma系数,选择一个可以使用的组件顺序,一个空的列表给出了ARIMA(0,0,0)模型,即白噪声;n为序列的长度。
stats包中的arima(x, order, xreg, seasonal, method, include.mean)函数:拟合ARIMA模型的单变量时间序列。x为一个单变量时间序列(被预测的变量);order为一个规范的非季节性ARIMA模型的一部分,order包括三个整数部分,AR order、差分程度和MA order;xreg为一个向量或矩阵的外部回归,必须和x有相同的数量(预测变量);seasonal为一个规范的季节ARIMA模型的一部分,加上期间,应该是一个组件的顺序和时间,但一个规范的一个数字向量的长度为3将成为一个合适的列表与规范的顺序。method为估计方法,ML为极大似然估计,CSS为条件最小二乘估计,默认为最小二乘法;include.mean:是否包含均值项(intercept)。
stats包中的time(x)函数:创建时间序列的矢量采样。x为单变量或多变量时间序列。 stats包中的resid(object)函数:提取模型残差。object为一个模型残差提取的对象。
stats包中的spec.pgram(x, spans)函数:一个平滑周期图的时间序列的谱密度估计。x为单变量或多变量的时间序列;spans为奇整数给改良丹尼尔平滑用来平滑周期图的宽度向量 stats包中的spec.ar()函数:一个AR时间序列的谱密度估计。x为一个单变量的时间序列或AR拟合结果;
stats包中的Box.test(x, lag, type)函数:Box-Pierce和Ljung-Box测试。x为数字型向量或单变量时间序列;lag为基于滞后相关系数的统计;type测试的类型(部分匹配)。
stats包中的tsdiag(object)函数:时间序列诊断图。object为一个拟合的时间序列模型。 stats包中的filter(x, sides, init)包:时间序列的线性过滤波(将线性滤波应用于单变量时间序列,或将一系列时间序列分开)。x为一个单变量或多变量时间序列;sides为卷积滤波器,sides=1滤波系数仅为过去的值,sides=2他们是围绕滞后0;init为递归滤波器,指定时间序列的初始值在开始值之前,在相反的时间顺序,默认是一组零。
base包中的as.POSIXct(x)函数:日期时间转化函数,功能操作对象的类“POSIXlt”和“POSIXct”代表日历日期和时间。x为一个要转化的对象。 2、
forecast包中的forecast.HoltWinters(object, h)函数:用霍尔特-温特斯对象预测,对单变量时间序列模型返回Holt-Winters预测等信息。object为HoltWinters对象;h为预测周期。 forecast包中的forecast.Arima(object, h, xreg, level)函数:使用ARIMA或ARFIMA模型预测。object为ARIMA类对象;h为预测的时间周期数,如果xreg参数被使用,忽略h值,使用xreg的值;xreg为预测变量的未来值;level为预测区间的置信水平。
forecast包中的plot.forecast(x)函数:预测图。x为通过forecast生成的预测对象。
forecast包中的auto.arima(x, ic, trace)函数:拟合最佳的单变量时间序列的ARIMA模型,函数提供尽可能的模型。x为一个单变量的时间序列;ic为用于模型选择的信息准则,包aicc/aic/bic,(ic=”bic”对参数个数要求非常严格);trace为T时,ARIMA模型的列表将会显示。 3、nlme包中的gls(model, data, correlation, method)函数:用广义最小二乘法拟合线性模型。model为模型公式对象;data为数据;correlation为相关结构类;method为ML表示对数似然最大化,为REML表示限制对数似然最大化,默认为REML。
nlme包中的corARMA(p,q)函数:ARMA(p, q)相关结构。p指定AR自动回归;q指定MA移动平均,默认都为0. 十八、文本分析
gsub(pattern, replacement, x, ingnore.case=F, perl=F, fixed=F, useBytes=F):全文匹配。pattern为正则表达式字符串;replacement为替代的字符串;x为要进行替换操作的字符向量;ingnore.case为F时表示忽略大小写;perl表示是否进行perl兼容正则表达式;fixed为T是一个字符串匹配;useBytes为T表示按字节进行匹配。
Rwordseg包中的segmentCN(strwords)函数:汉语分词。strwords为UTF-8格式的中文。 Rwordseg包中的insertWords(strwords)函数:把新词插入到词典中。strwords为单词向量。 tmcn包中的getWordFreq(string)函数:获取词频数据框。string为计算单词词频的特征向量。 unlist():扁平列表,把元素的所有原子构成一个列表。
wordcloud包中的wordcloud(words, freq, scale=c(4, .5), max.words, random.color=T, colors)函数:画词云图。words为要绘制的词;freq为要绘制词的频率;scale一个长度为2的向量,表示绘图范围的大小;max.words要绘制词频最大的词的个数;random.color为T表示随机选择词的颜色;colors表示颜色词从最小到最大词频。
rainbow(n):创建一个连续的颜色向量。n表示在调色板中的颜色数量。 wordcloud包中的comparison.cloud(term.matrix)函数:绘制跨文件的词频比较图。term.matrix为一个频率矩阵,其行代表词,其列代表文档。
inspect()函数:显示语料库或术语文档矩阵的详细信息 tm包中的VectorSource(x):将一个文本向量创建为一个向量源,向量源解释向量的每一个元素作为一个文档;x为一个向量的文本; tm包中的Corpus():语料库的呈现与计算。语料库是包含(自然语言)文本的文档集合。其中采用包TM提供基础设施软件包,例如语料库表示通过虚拟S3类语料库:这样的套餐
提供S3语料库类扩展虚拟基类(如vcorpus包装TM本身提供)。
tm包中的meta(x, tag)函数:文本文档和语料库的元数据访问和修改。x为一个语料库;tag为一个元素数据的字符名称。
tm包中的nDocs(x)函数:访问文档标识和术语。x为a TermDocumentMatrix or DocumentTermMatrix 顶 0 踩 0
上一篇5、聚类之层次聚类、基于划分的聚类(k-means)、基于密度的聚类、基于模型的聚类
下一篇5.1、聚类之Kmeans聚类实例 我的同类文章 机器学习(55) http://blog.csdn.net
?项目1:logit,GBM,knn,xgboost准确率测试 ?大数据项目2:内存受限的大数据预测模型 ?用户画像数据建模方法 ?13.1、时间序列实例 ?12.1、PageRank实例
?大数据项目3:自动创建N棵决策树脚本 ?大数据项目1:客户回复预测与效益最大化 ?重点:用户画像 ?13、时间序列 ?12、pageRank 更多 主题推荐
函数c语言机器学习算法数据预测文档 函数,c语言,机器学习,算法,数据,预测,文档 猜你在找
《C语言/C++学习指南》加密解密篇(安全相关算法) 性能测试之Apache性能调优 性能测试之tomcat性能调优 C语言系列之数组与算法实战 PDF神器-Adobe Acrobat Pr 查看评论
暂无评论 窗体顶端 发表评论 用户名: u010664846 评论内容: