实验二 上市公司的数据分析
【实验目的】
通过使用SAS软件对实验数据进行描述性分析和回归分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。 【实验内容】
表2是一组上市公司在2001年的每股收益(eps)、流通盘(scale)的规模以及2001年最后一个交易日的收盘价(price)
表2 某上市公司的数据表
代码 000096 000099 000150 000151 000153 000155 000156 000157 000158 000159 000301 000488 000725 000835 000869 000877 000885 000890 000892 000897 000900 000901 000902 000903 000905 000906 000908 000909 流通盘 8500 6000 12600 10500 2500 13000 3600 10000 10000 7000 15365 7700 6000 1338 3200 7800 6000 16934 12000 14166 21423 4800 6500 6000 9500 6650 8988 6000 每股收益 0.059 0.028 -0.003 0.026 0.056 -0.009 0.033 0.06 0.018 0.008 0.04 0.101 0.044 0.07 0.194 -0.084 -0.073 0.031 0.031 0.002 0.058 0.005 -0.031 0.109 0.046 0.007 0.006 0.002 股票价格 13.27 14.2 7.12 10.08 22.75 6.85 14.95 12.65 8.38 12.15 7.31 13.26 12.33 22.58 18.29 12.55 12.48 9.12 7.88 6.91 8.59 27.95 10.92 11.79 9.29 14.47 8.28 9.99 000910 000911 000912 000913 000915 000916 000917 000918 8000 7280 15000 8450 4599 34000 11800 6000 0.036 0.067 0.112 0.062 0.001 0.038 0.086 -0.045 8.9 9.01 8.06 11.86 14.4 5.15 16.23 10.12 1、对股票价格
1)计算均值、方差、标准差、变异系数、偏度、峰度; 2)计算中位数,上、下四分位 数,四分位极差,三均值; 3)作出直方图; 4)作出茎叶图;
5)进行正态性检验(正态W检验); 6)计算协方差矩阵,Pearson相关矩阵; 7)计算Spearman相关矩阵; 8)分析各指标间的相关性。
2、1)对股票价格,拟合流通盘和每股收益的线性回归模型,求出回归参数估计值及残差;
2)给定显著性水平α=0.05,检验回归关系的显著性,检验各自变量对因变量的影响的显著性;
?,X,X及XX的残差图及残差的正态QQ图。分析 3)拟合残差关于拟合值Y1212这些残差,并予以评述。
【实验所使用的仪器设备与软件平台】
台式电脑,SAS软件 【实验方法或步骤】
1、数据描述性分析SAS程序的主要语句形式 1)PROC MEANS过程
PROC MEANS options; VAR variables;/指出数据集中要计算的变量名称(应是数值变量)/ OUTPUT OUT=SAS data set keyword=name ?; /建立一个由PROC MEANS过程的分析结果构成的SAS数据集/ 其中“options”包含下列内容的部分或全部:
a. DATA=SAS data set:指明所要分析的SAS数据集名称.若省略此选项,则对最新建立的数据集作分析.
b. MAXDEC=k:其中k为介于0与8之间的一个正整数,该选项指明在输出数据时小数点后保留k位.
c. 关键词:逐个列出要计算其值的统计量名称的关键词,最常用的有N(变量的观测值个数)、MEAN(均值)、STD(标准差)、VAR(方差)、MIN(各变量观测值的最小值)、MAX(各变量观测值的最大值)、RANGE(极差)、SUM(总和)、USS(平方和)、CSS(中心化平方和)、SKEWNESS(偏度)、KURTOSIS(峰度)、T(对每个变量的均值是否为零进行双边t检验)、PRT(双边的p值). 2)PROC UNIVARIATE 过程 PROC UNIVARIATE options; PLOT variable1; OUTPUT OUT=SAS data set keyword=name ?; 其中“options”包含下列内容的部分或全部:
a. DATA=SAS data set:指明所要分析的SAS数据集名称.
b. PLOT:要求对所分析的各变量的观测值产生一个茎叶图(或水平直方图)、一个箱线图和一个正态QQ图.若某区间的观测值超过48,则不绘制茎叶图,而改绘水平直方图,在正态QQ图中,以“*”号标示正态QQ图上的点,以“+”标示相应的参考直线.
c. FREQ:要求生成包括变量值、频数、百分数和累计百分数的表.
d. NORMAL:要求对分析的各变量的观测值是否来自正态分布总体做检验,并输出检验的p值. 3)PROC CORR 过程
PROC CORR options; VAR variables; WITH variables; 其中“options”包含下列内容的部分或全部:
a. DATA=SAS data set:指明所要分析的SAS数据集名称. b. PEARSON:要求输出Pearson相关系数矩阵(为默认输出结果). c. SPEARMAN:要求输出Spearman秩相关系数矩阵. d. COV:要求计算协方差矩阵.
e. NOSIMPLE:指明不输出每个变量的简单描述性统计量的值.
VAR variables:该语句指出要计算相关系数矩阵或协方差阵的变量名称,可以是数据集中数值变量的一部分.
WITH variables:此语句和“VAR variables”语句合用,可以得到变量间特殊组合的相关系数矩阵,即“VAR”后的各变量与“WITH”后的各变量间的相关系数矩阵。
2、回归分析过程的主要语句形式 PROC REG options; MODEL dependent=regressors/options; OUTPUT OUT=SAS data set keyword=names ?; 1) PROC REG options;
“options”部分应指出要分析的SAS数据集;
2)关键词“MODEL”之后,应指明因变量,等号之后依次列出回归变量,options包括
a. SELECTION=name, 其中“name”可以是FORWARD(向前选择最优模型方法),BACKWORD(向后删除法),STEPWISE(逐步回归法),RSQUARE(利
22用Rp准则选取最优模型的方法),ADJRSQ(即利用修正的Rp准则选择最优模型
法),CP(利用Cp准则选择最优模型法); b. 对模型选取细节的选项:
DETAILS:此选项仅对最优模型选取方法中的FORWARD、BACKWORD、STEPWISE有效,它要求打印出每一步引入和删除的自变量及相关信息;
NOINT取消回归模型的常数项,拟合过原点的回归方程; c. 对估计细节内容的选择:
CORRB:打印出估计的参数的相关系数矩阵; COVB:打印出估计的参数的协方差矩阵; P:打印出因变量的拟合值;
R:打印出有关残差及用于影响性分析的各量,包括拟合值的标准差、残差、学生化残差及Cook距离。
3) OUTPUT OUT=SAS data set keyword=names ?;
此语句除包含所分析的原SAS数据集的全部内容外,keyword后可以指定下列的一些或全部内容: P=name:因变量的拟合值 R=name: 残差
STUDENT=name: 标准化残差
L95M=name: 因变量的期望值的95%置信区间的置信下限 U95M=name: 因变量的期望值的95%置信区间的置信上限 L95=name: 因变量真值的95%置信区间的置信下限 U95=name: 因变量真值的95%置信区间的置信上限 COOK=name: Cook距离,用以影响性分析的统计量 H=name: 杠杆量,即xi(XTX)-1xiT,xi是设计矩阵X的第i行 PRESS=name: 用以估计第i组观测值对拟合值的影响 DFFITS=name: 用以估计第i组观测值对参数估计的影响 【实验程序】
data price; input x @@; cards;
13.27 14.2 7.12 10.08 22.75 6.85 14.95 12.65 8.38 12.15 7.31 13.26 12.33 22.58 18.29 12.55 12.48 9.12 7.88 6.91 8.59 27.95 10.92 11.79 9.29 14.47 8.28 9.99 8.9 9.01 8.06 11.86 14.4 5.15 16.23 10.12 ;
proc print data=price;