第八章 描述性统计以及图形输出 本章导读:
Stata系统可以根据导入的数据集计算各种各样的统计量。除了给出描述性统计外,stata系统还可以将数据生成条形图、饼状图、二维散点图、折线图等,从而使研究的结论由一个直观的认识。
8.1 描述性统计 8.1.1 sum/summarize
Sum命令主要是算出变量的基本的统计信息,如观测值的个数、最大值、最小值、中位数、均值、标准差等。 Sum/summarize命令格式为:
by 分组变量:summarize 变 量 名1 变 量 名2 … 变 量 名m[,detail]
例1桌面上的type_f.dta数据集中有以下变量:公司规模size,公司成长性 growth ,虚拟变量central(如果是中央国企,则central=1,否则为0)
(1)对这些变量作出描述性统计。 ?
Sum size growth central
/*如图8.1,可以看到这些变量的观测数,均值,方差,最小值和最大值
图8.1 即: 本 例 中 3个变量的 样 本 数 为 均为5904,公司规模,公司成长性,虚拟变量central 均 数 分别为为20.99295,.2250447,.1825881, 相 应 的 标 准 差分别 为.9529539,.7088909,.3863612。size的最小值为18.8216,最大值为23.56459。growth的最小值为-.80149,最大值为4.955688。central的最小值为0,最大值为1.
(2)如果想了解某一变量的详细信息,如growth的详细统计信息,则 ?
sum growth,detail
图8.2
得到如图8.2,由上 述 结 果 可 知:summarize 命 令 并 使 用 子 命 令 detail, 不 仅 可 以 得 到 各 变 量 资 料 的 均 数 和 标 准 差, 而 且 可 以 得 到 主 要 的 非 参 数 描 述 指 标: ①低 四 分 位 (lower quartile), ②中 位 数 (Median) 以 及 ③高 四 分 位 (upper quartile)。 对 于 非 正 态 资 料, 一 般 不 应 用 均 数 ± 标 准 差 进 行 描 述, 而 应 使 用 中 位 数 以 及(低 四 分 位- 高 四 分 位, 称 interquartile range, IQR) 进 行 描 述。variance为 样 本 方 差;skewness 为 偏 度, 偏 度 的 绝 对 值 越 小, 表 明 该 数 据 的 正 态 对 称 性 越 好; kurtosis为峰 度, 峰 度 值 越 大 表 明 该 数 据 的 正 态 峰 越 明 显;smallest表示在 该 数 据 中 最 小 的 四 个 数 据;largest表示在 该 数 据 中 最 大 的 四 个 数 据。
(3)也可以根据是否是中央控股企业,对size分别进行描述性统计 ? . sort central ?
.by central:sum size 如图8.3
图8.3 8.1.2
根 据 样 本 数 据 计 算 可 信 限
stata 命令:
ci 变 量 名1 变 量 名2 … 变 量 名m [, level(#)
binomial poisson exposure(varname) by(分组变 量) ]
95% 可 信 限 计 算:
正 态数 据:ci 变量名
0-1 数 据:ci 变量名, binomial
poisson 分 布 数 据: ci 变 量 名,poisson
90% 可 信 限 计 算( 其 它 可 信 限 类 推) 正 态数 据:ci 变量名, level(90)
0-1 数 据:ci 变量名, level(90) binomial
poisson 分 布 数 据: ci 变 量 名,level(90) poisson
例2:计算公司规模size,公司成长性 growth 的95%可置信限 ?
ci size growth
图8.4
如图8.4,以 上 结 果 中:Obs为 样 本 数;Mean 为 均 值;Std.Err为 标 准 误;[95%Conf.Intercal]为 95% 的 可 信 限, 因 此 size 的95% 可 信 限 为[20.96864, 21.01726],growth 的 95% 可 信 限 为[0.2069587,0.2431308]。
8.1.3 根 据 样 本 数, 样 本 均 数 和 标 准 差 计 算 可 信 限
若 数 据 服 从 正 态 分 布, 并 已 知 样 本 均 数 和 标 准 差 以 及 样 本 数, 则95% 可 信 限 计 算 为:
cii 样 本 数 样 本 均 数 标 准 差[,level(#)] 8.1.4 计 数 资 料 中 频 数 和 比 例 STATA 命 令:
tab1 变 量 名[,g( 新 变 量 名)
因 为 该 命 令 主 要 适 用 描 述 计 数 资 料( 即: 属 性 资 料), 当 使 用 子 命 令 g( 新 变 量), 则 产 生 属 性 指 示 变 量。 在 回 归 分 析 中 经 常 需 要 这 些 指 示 变 量 作 为 亚 元 变 量 进 行 分 析。
例3 样本中的上市公司有的属于中央国企而有的不属于中央国企,计算属于中央国企的上市公司的家数以及占整个样本中的比例。 ?
tab central,g(a) 如图8.5
图8.5 图8.5中,freq 为 各 属 性 资 料 的 频 数;percent为 该 属 性 占 整 个 资 料 样 本 数 的 百 分 比;cum 为 累 计 百 分 比。
8.1.5 变量的相关系数
相关系数是度量两个变量相关关系的统计量。相关系数的值在-1到1之间,1代表两个变量完全正相关,0代表两个变量不相关,-1代表两个变量完全负相关。
(1)线 性 关 系 的 相 关 分 析
若 计 量 资 料 变 量1,…, 变 量m 服 从 正 态 分 布, 对 于 它 们 之 间 是 否 存在 线 性 相 关 关 系 可 以 通 过 相 关 分 析 方 法, 相 应 的 STATA 命 令 为:pwcorr 变量名1 变量名2 … 变量名m, sig
例4 利用type_f.dta数据集,计算公司债务水平,公司规模size,公司的成长性growth以及虚拟变量central(公司是否属于中央国企)的相关关系。 程序如下:
?
pwcorr d size growth central,sig
图8.6
如图8.6,左下角的数字每一变量对应的行上面的数字代表为两个变量的相 关 系 数 r, 下面的数字为 相 关 系 数 显 著 性 检 验(Ho:r=0) 所 对 应 的 p 值。 因 此 根 据 本 例和 上 述 结 果 可 以 认 为 公司的成长性与公司的债务水平 呈 线 性 负相 关( 若 数 据 growth和 d 服 从 正 态 分 布)。公司是否是国有企业与债务水平呈线性负相
关,与公司规模呈现线性正相关。
(2)秩 和 相 关 分 析
由 于 以 上 的 相 关 分 析 中, 要 求 数 据 x 和 y 均 服 从 正 态 分 布,但 是 对 于 那 些 不 能 满 足 正 态 分 布 的 数 据 之 间 的 相 关 分 析 应 采 用 非 参 数 相 关 分 析, 通 常 采 用 秩 和 相 关 分 析, 即: Spearman 相 关 分 析 方 法。
STATA 命 令 为:
spearman 变 量1 变 量2…变量M
例 4 根据以上资料为例,作 秩 和 相 关 分 析: ?
Spearman d size
图8.7
如图8.7,Spearma’s rho为 Spearman相 关 系 数;test of H0:d and sie are independent为 无 效 假 设Ho:d与 size 独 立;prob> |t|无 效 假 设 的Spearman 相 关 显 著 性 检 验 所 对 应 的 p 值。
由 上 述 结 果 表 明:Spearman 相 关 系 数 为 0.0682, 相 应 的 p 值 为 0.0000, 因 此 由 本 例 资 料 和 检 验 结 果 可 以 认 为 公司的债务水平与公司的规模呈 正 相 关。
小技巧:如果需要在上三角输出变量的Spearman相关系数,下三角输出变量的Pearson相关系数,则命令为: corrtbl d central size growth, corrvars(d central size growth)
8.2 图形的输出
8.2.1 命令的结构
graph-command (plot-command, plot-options) (plot-command , plot-options) , graph-options 或者
graph-command plot-command,plot-options || plot-command , plot-options || , graph-options graph-command定义图的类型,plot-command 定义曲线类型,同一个图中如果有多条曲线可 以用括号分开,也可以用“||”分开,曲线有其自身的选项,而整个图也有其选项。例如twoway 为graph-command中的命令之一,而scatter为plot-command中的命令之一。 曲线选项和图选项,例如
twoway (scatter d size) , title(\债务与企业规模\图选项:标题 twoway (scatter d size , msymbol(Oh)) //曲线选项,点的类型