R语言方法总结讲解

2019-01-19 14:45

计算描述性统计量:

1、summary():

例： summary(mtcars[vars])

summary()函数提供了最小值、最大值、四分位数和数值型变量的均值，以及因子向量和逻辑型向量的频数统计。

2、apply()函数或sapply()函数

计算所选择的任意描述性统计量。mean、 sd、 var、 min、 max、 median、 length、 range 和quantile。函数fivenum()可返回图基五数总括（Tukey’s five-number summary，即最小值、下四分位数、中位数、上四分位数和最大值）。 sapply()

例： mystats <- function(x, na.omit = FALSE) { if (na.omit) x <- x[!is.na(x)] m <- mean(x) n <- length(x) s <- sd(x) skew <- sum((x - m)^3/s^3)/n kurt <- sum((x - m)^4/s^4)/n - 3 return(c(n = n, mean = m, stdev = s, skew = skew, kurtosis = kurt)) }

sapply(mtcars[vars], mystats)

3、describe()：

Hmisc包：返回变量和观测的数量、缺失值和唯一值的数目、平均值、分位数，以及五个最大的值和五个最小的值。例： library(Hmisc)

describe(mtcars[vars])

4、stat.desc()：pastecs包

若basic=TRUE（默认值），则计算其中所有值、空值、缺失值的数量，以及最小值、最大值、值域，还有总和。

若desc=TRUE（同样也是默认值），则计算中位数、平均数、平均数的标准误、平均数置信度为95%的置信区间、方差、标准差以及变异系数。

若norm=TRUE（不是默认的），则返回正态分布统计量，包括偏度和峰度（以及它们的统计显著程度）和Shapiro–Wilk正态检验结果。这里使用了p值来计算平均数的置信区间（默认置信度为0.95：例： library(pastecs)

stat.desc(mtcars[vars])

5、describe()：psych包

计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误

例： library(psych)

describe(mtcars[vars])

分组计算描述性统计量

1、aggregate()：

例：aggregate(mtcars[vars], by = list(am = mtcars$am), mean)

2、by()：

例： dstats <- function(x)(c(mean=mean(x), sd=sd(x))) by(mtcars[vars], mtcars$am, dstats)

by(mtcars[,vars],mtcars$am,plyr::colwis(dstats))

3、summaryBy()：doBy包例 library(doBy)

summaryBy(mpg + hp + wt ~ am, data = mtcars, FUN = mystats)

4、describe.by()：doBy包（describe.by()函数不允许指定任意函数，）例：library(psych)

describe.by(mtcars[vars], mtcars$am)

5、reshape包分组：（重铸和融合）例：library(reshape)

dstats <- function(x) (c(n = length(x), mean = mean(x), sd = sd(x)))

dfm <- melt(mtcars, measure.vars = c(\ \cast(dfm, am + cyl + variable ~ ., dstats)

频数表和列联表

1、table()：生成简单的频数统计表

mytable <- with(Arthritis, table(Improved)) Mytable

2、prop.table()：频数转化为比例值 prop.table(mytable)

3、prop.table()*100：转化为百分比 prop.table(mytable)*100

二维列联表

4、table(A,B)/xtabs(~A+b,data=mydata)

例：mytable <- xtabs(~ Treatment+Improved, data=Arthritis)

5、margin.table()和prop.table()：函数分别生成边际频数和比例 (1:行，2：列) 行和与行比例

margin.table(mytable, 1) prop.table(mytable, 1) 列和与列比例

margin.table(mytable, 2) prop.table(mytable, 2) prop.table(mytable)

6、addmargins()：函数为这些表格添加边际和 addmargins(mytable)

admargins(prop.table(mytable))

addmargins(prop.table(mytable, 1), 2) addmargins(prop.table(mytable, 2, 1) 7.crossTable()：gmodels包例：library(gmodels)

CrossTable(Arthritis$Treatment, Arthritis$Improved)

多维列联表

1、table()和xtabs()：都可以基于三个或更多的类别型变量生成多维列联表。 2、ftable():

例：mytable <- xtabs(~ Treatment+Sex+Improved, data=Arthritis) mytable

ftable(mytable)

margin.table(mytable, 1) margin.table(mytable, 2) margin.table(mytable, 3) margin.table(mytable, c(1,3))

ftable(prop.table(mytable, c(1, 2)))

ftable(addmargins(prop.table(mytable, c(1, 2)), 3))

gtable(addmargins(prop.table(mytable, c(1, 2)), 3)) * 100

独立检验

1、卡方独立性检验：chisq.test() 例：library(vcd)

mytable <- xtabs(~Treatment+Improved, data=Arthritis) chisq.test(mytable)

mytable <- xtabs(~Improved+Sex, data=Arthritis) chisq.test(mytable)

2、Fisher精确检验：fisher.test()

例：mytable <- xtabs(~Treatment+Improved, data=Arthritis) fisher.test(mytable)

3、Cochran-Mantel—Haenszel检验：mantelhaen.test()

例：mytable <- xtabs(~Treatment+Improved+Sex, data=Arthritis) mantelhaen.test(mytable)