R命令(4)

2019-08-03 13:06

result=cutree(model1,k=3)//如果我们希望将类别设为3类,可以使用cutree函数提取每个样本所属的类别

mds=cmdscale(dist.e,k=2,eig=T)//先将数据用MDS进行降维,然后以不同的的形状表示原本的分类,用不同的颜色来表示聚类的结果,cmdscale多维缩放,取前2个主坐标,eig指示是否应该返回的特征值。根据各点的欧氏距离,在低维空间中寻找各点座标,而尽量保持距离不变。已知距离应该也能得到这些点之间的关系,MDS就是在尽量保持这种高维度“距离”的同时,将数据在低维度上展现出来。 x=mds$points[,1] y=mds$points[,2] library(ggplot2)

p=ggplot(data.frame(x,y),aes(x,y))//aes图像上点的属性 p+geom_point(size=3,alpha=0.8,

aes(colour=factor(result),

shape=iris$Species))//geom决定了图像的“type”,即几何特征,是用点来描述图像,还是用柱

类个数的确定:

给定一个类与类之间的距离阈值观察谱系图 观察样本的散点图 使用统计量 谱系图分析准则: 各类重心的聚类必须很大 各类包含的元素不要太多 类的个数符合实际意义

采用几种不同的聚类方法,求交集类

rect.hclust(object,k=NULL,which=NULL,x=NULL,h=NULL,border=2,cluster=NULL)确定类的个数,给定类的个数或阈值确定聚类情况。其中object是hclust对象,k是聚类个数,h是谱系图中的阈值,各类距离大于h,border是数或向量标明矩形框的颜色。在已分类的图上重新定位分类区域。

plclust(object,hang=0.1)和plot一样是另一种画谱系图的函数,参数和plot差不多

as.dist()的作用是将普通矩阵转化为聚类分析用的距离结构,即把对角线和对角线上面的值去掉,例如某些相关系数矩阵对角线上是变量自己对自己为1,且是个对称阵。

主成分分析:通过降维技术把多个变量化为少数几个主成分--能够反应原始变量绝大部分信息通常是原始变量的线性组合

16

对于协方差矩阵A,存在正交阵Q使得t(Q)AQ为对角阵,且对角元素降序排列则相应的对角线元素为主成分。主成分分析将原始变量的总方差分解成了一组不相关变量的方差之和。成分的贡献率大则选入主成分。选取的主成分的贡献率之和达到80%以上。为了使主成分能够均等的对待每个原始变量常常将原始变量做标准化处理。如果将数据进行标准化,则计算所得的协方差矩阵即等于相关矩阵。

princomp(formula,data=NULL,subset,na.action,...)主成分分析函数,formula是没有响应变量的公式,

princomp(x,cor=T)其中x是主成分分析数据,cor表示用样本的相关矩阵R作主成分分析//prcomp()==princomp()

summary(object,loadings=T,covmat=NULL)提取主成分信息,object是princomp()对象,loadings显示loadings内容,covmat是协方差矩阵若数据不由x提供可由协方差矩阵提供。 loadings(object)显示主成分分析或因子分析中的载荷(主成分向量由原始变量线性组合的系数)

predict(object,newdata)预测主成分的值,newdata为由预测值构成的数据框当其为默认值时预测已有数据的主成分值。主成分值的观察需要结合载荷系数来确定主成分大小表示什么意思

screeplot(object,npcs,type=c('barplot','lines'))画出主成分碎石图,npcs为画出的主成分个数,type是碎石图的类型(Ascree plot shows the sorted eigenvalues, from large to small, as afunction of the eigenvalue index.)方差变化大说明成分代表性越高。

biplot(object,choices=1:2)画出数据关于主成分的散点图和原坐标在主成分下的方向,choices是选择主成分的个数默认是第一第二主成分。 主成分分析的应用:变量分类、主成分回归问题。 变量分类实例:

pr<-princomp(covmat=R);load<-loadings(pr)

plot(load[,1:2]);text(load[,1], load[,2], adj=c(-0.4,0.3))//原来的变量顺序号打在了现在的图上,根据聚团现象将变量分类。 自变量多重共线性采用主成分回归

因子分析:分析隐藏在便面现象后面的因子作用,研究相关阵和协方差阵内部的依赖关系,将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。主要应用两个方面:寻求基本结构简化观测系统,将错综复杂的对象(变量和样本)综合为少数基本因子;用于分类。R型因子分析研究变变量之间的相关关系,通过对变量的相关阵或协方差阵内部结构的研究找出控制所有变量的几个公共因子。Q型是分析样本之间的相关关系,通过对样本的相似矩阵内部结构的研究找出控制样本的几个主要因子。因子分析中的载荷是原始变量与公共因子的相关系数,所以载荷也可以表示为原始变量与公共因子线性相关的程度。

典型相关分析:分析两组随机变量之间的相互线性依赖关系。

cancor(x,y,xcenter=T,ycenter=T)其中x,y是数据123矩阵,xcenter,ycenter表示将数据中心化

模拟:把现实或抽象系统的部分状态或特征用另一个系统来替代或模仿。在模型上作实验成为模拟实验。

17

蒙特卡洛方法是将各种随机事件的概率特征与随机事件的模拟联系起来,用实验的方法确定事件的相应概率与数学期望。解是由实验得到的。一般过程:构造问题的概率模型,从已知概率分布中抽样,建立所需的统计量(无偏估计)

若累积分布函数F是连续的严格增函数,则存在其反函数。累积分布函数的反函数可以用来生成服从该随机分布的随机变数。设若FX(x)是机率分布X的累积分布函数,并存在反函数。若a是[0,1)区间上均匀分布的随机变数,则服从X分布。

显著性水平a是否决(在置信区间外的概率),置信水平1-a是参数估计落入置信区间的概率,参数估计总的来说就是给定一个显著性水平计算待估计参数以置信水平落入的那个范围

相关性:衡量两个变量线性相关程度,0代表完全不相关

相关性和独立的简单区别y=x^2显然x与y不相关(平方关系和线性关系相差甚远),但是并不代表他们独立。

pearson相关是测量两变量相关程度的分析,而t检验是检测样本来自的总体是否和样本存在一致的现象,通过得到的t值或对应的概率值p得出最终结论 t.test是对两组数据的均值检验,cor.test对两组数据的相关性检验

协方差是反映的变量之间的二阶统计特性,如果随机向量的不同分量之间的相关性很小,则所得的协方差矩阵几乎是一个对角矩阵。对于一些特殊的应用场合,为了使随机向量的长度较小,可以采用主成分分析的方法,使变换之后的变量的协方差矩阵完全是一个对角矩阵,之后就可以舍弃一些能量较小的分量了(对角线上的元素反映的是方差,也就是交流能量)。

旋转矩阵(Rotationmatrix)是在乘以一个向量的时候有改变向量的方向但不改变大小的效果的矩阵。旋转矩阵是正交矩阵,一个矩阵是旋转矩阵,当且仅当它是正交矩阵并且它的行列式是单位一

varimax()函数可以完成因子载荷矩阵的旋转变换

head(x,n)/tail(x,n)返回数据向量x的前(后)n个//默认6行

RSiteSearch(?neuralnetwork?)//用于搜索邮件列表文档R手册R帮助页面 help.start()//启动浏览器显示html帮助页面

old.packages(?ggplot2?)//查看CRAN上是否有已安装包的更新版本 update.packages()//更新所有已安装的包

18

数据分布的偏度和分散情况:

hist(x,prob=T)//直方图纵坐标为频率

rug(jitter(x),side=2)/在y轴附近绘制x的实际值用于观测离群点

qqplot()//绘制qq图检验变量是否为正态分布,虚线是正态分布95%置信区间带状图,散点位于 带状内且近似直线则是正态分布 离散值的观测:

abline(h=mean(x)+sd(x))//添加一个均值+标准差的水平线 identify(x)//数据交互,鼠标点击图上的点显出数据的位置

bwplot(y~x)//lattice包中为条件箱线图(对y的每个值绘制x横坐标值),Hmisc中为分位箱线图(点为均值,竖线表示第一、中、第三分位数)通过分位数体现数据分布信息

equal.count(x,number=4,overlap=0.2)//将连续变量x离散化number为需要的区间个数overlap设置两个区间之间的靠近边界的重合部分点分到两个区间

stripplot(y~x|z)//位于lattice包根据y的值把变量x的实际值绘制到不同的图形中然后对z的不同区间绘制图形这些区间按照从左到右从下到上的顺序排列 数据缺失:

剔除、变量间相关关系填补缺失值、相似性填补

complete.cases(x)//返回一个和x的行数相同长度的bool向量若x某行含有缺失值则此处为F

na.omit(x)//剔除x的缺失值

apply(x,1,function(x)sum(is.na(x)))//返回x每行缺失值的个数

通过变量的相关关系填补缺失值,首先分析变量的相关关系cor(x,use=?complete.obs)产生变量之间的相关值矩阵complete.obs忽略含有缺失NA的记录相关值在+-1附近表示两个变量有强正负线性关系,symnum(cor(x))改善结果的输出形式然后通过其他形式得到变量间线性相关的近似函数形式填补缺失值

可以通过行之间的相似性填补缺失值,相似性度量可以是欧氏距离 预测模型:

多元线性回归lm(),回归树rpart(),prettyTree()画出树,rpart会自动生成树的一些子树并估计这些子树的性能用printcp()可以获得这些信息,prune()修剪树,snip.rpart()交互的修剪树 模型评价:

预测性能、效率

regr.eval()计算线性回归模型的性能度量指标

Ggplot2:

基本概念:数据data和映射mapping;标度scale;几何对象geom;统计变换stat;坐标系统coord;图层layer;分面facet

图层(Layer):如果你用过photoshop,那么对于图层一定不会陌生。一个图层好比是一

19

张玻璃纸,包含有各种图形元素,你可以分别建立图层然后叠放在一起,组合成图形的最终效果。图层可以允许用户一步步的构建图形,方便单独对图层进行修改、增加统计量、甚至改动数据。

?

标度(Scale):标度是一种函数,它控制了数学空间到图形元素空间的映射。一组连续数据可以映射到X轴坐标,也可以映射到一组连续的渐变色彩。一组分类数据可以映射成为不同的形状,也可以映射成为不同的大小。

? 坐标系统(Coordinate):坐标系统控制了图形的坐标轴并影响所有图形元素,最常用的是直角坐标轴,坐标轴可以进行变换以满足不同的需要,如对数坐标。其它可选的还有极坐标轴。

? 位面(Facet):很多时候需要将数据按某种方法分组,分别进行绘图。位面就是控

制分组绘图的方法和排列形式。不同组之间数据很难区分时用分面

qplot(x,y,data,colour,shape)//data数据框中的变量xy散点图,colour增加颜色信息,shape增加形状信息,alpha在0-1(完全不透明)范围内表示图形的透明程度,colour=I('red)表示手动设定图形属性

通常把不同的图层中共用的映射提供给ggplot函数,而某一几何对象才需要的映射参数提供给geom_xxx函数。

geom几何对象参数,'point'散点图,smooth拟合一条平滑曲线,boxplot箱线图,path、line数据点之间绘制连线,histogram直方图,freqploy频率多边形,density密度曲线,bar条形图。可以用c()函数将多个几何对象组合成一个向量传给geom几何对象按照指定顺序进行堆叠。smooth时灰色部分是逐点的置信区间宽度,可以使用se=F去掉。曲线的平滑程度是span控制的0-1(很不平滑)。method参数可以选择平滑器,默认已经很好。fitter扰动图(扰动图和箱线图对于连续变量如何随着分类变量水平变化而变化)//geom表示几何对象,它是ggplot中重要的图层控制对象,因为它负责图形渲染的类型,每个geom对象都需要有数据输入,数据可以从第一层中自动读取,也可以在aes参数中直接设置。而且每个geom还默认搭配某种统计变换(stat),geom_histogram的默认统计变换是stat_bin。它负责对数据进行分组计数 //散点图和平滑曲线

p <- ggplot(data=mpg,aes(x=displ,y=hwy,colour=factor(cyl))) p + geom_point() + geom_smooth(se=T)

//然后用ggplot定义第一层必须是数据来源data(数据框格式),其中aes(aes参数控制了对哪些变量进行图形映射,以及映射方式)参数非常关键,它将displ映射到X轴,将hwy映射到Y轴,将cyl变为分类数据后映射为不同的颜色,,然后使用+号添加了两个新的图层,第二层是加上了散点geom_point,第三层是加上了loess平滑曲线geom_smooth。可将colour参数设置在散点图层内而非第一层,这样第三层的平滑图形就不会受到colour参数的影响geom_point(colour=factor(cyl))。

//ggplot里的参数,相当于全局变量,geom_point()和stat_smooth()都知道x,y的映射,如果只提供给geom_point(),则相当于是局部变量,geom_point知道这种映射,而stat_smooth不知道,当然你再给stat_smooth也提供x,y的映射,不过共用的映射,还是提供给ggplot好。

20


R命令(4).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:最新小学沪教版数学四年级下册公开课教学设计四则运算(二)

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: