数据的分析和处理(5)

2018-11-26 22:11

利用PROC RANK可以对一个或一个以上的数字变量,按其秩次大小顺序进行重新排序,得到新的SAS DATA set。在非参数统计分析中经常应用变量的秩次和百分位数概念。当直接进行非参数统计分析有困难时,可以先利用PROC RANK 计算变量的秩次之后,再作非参数统计分析(比如 PROC TEST, PROC ANOVA)。关于PROC RANK在22章详细讨论。PROC RANK命令的基本形式如下。 a)option: 对重复资料进行秩次分类时,可选择option。 TIES=MEAN? 取秩次的平均值。

HIGH? 秩次中取最大值。若第3位和第4位的分数相同,则取第4位。 LOW? 秩次中取最小值。若第3位和第4 位的分数相同,则取第3位。 - DESCENDING??在秩次变量中从最大的观测值开始,按由大到小的顺序排列。 - ASCENDING??在秩次变量中从最小的观测值开始,按由小到大的顺序排列。 - GROUP=q?需要分位数(不需要秩次)时,在q的位置上可填写100,10,4等必要的分位数。100表示百分位数,10表示十分位数,4表示四分位数。 - OUT=dsn??表示储存处理后的DATA set的名字。

-“PROC RANK”和“RANKS 新变量名”命令经常搭配使用。比如:

PROC RANK OUT=ranknew;

VAR x y z;??rank以前的旧变量名。

RANKS xrank yrank zrank;??rank以后的新变量名。

若不指定新变量名xrank yrank zrank,则rank以后的资料将覆盖旧资料。 b)VAR 变量名: 对VAR所指定的变量进行秩次分析(排列)。

c)RANKS 新变量名; 计算出来的秩次情报,被储存到RANKS所指定的新变量名下。如果不指定新变量,则计算出来的秩次情报被储存到原来的变量名下。 d)BY 变量名: 指定基准变量。 例2-28:RANK.sas

关于支出(expense)和收入(income)资料的PROC RANK.TITLE ‘RANK SAMPLE’; DATA moneies;

INPUT status expense income @@; cards;

2 549 4000 1 601 6500 1 612 6500 2 619 6500 2 622 7200 3 634 8700 2 636 9000 3 662 9200 2 685 9200 3 713 9999 RUN;

PROC RANK OUT = ranknew; VAR expense income; ←① RANKS exprank incrank; RUN; ←②

26

PROC PRINT; RUN; □PROGRAM解释

1)

① 进行RANK后输出的资料储存在新变量ranknew名下。

②RANK后的支出(expense)和收入(income)分别储存在新变量exprank, ncrank名下。所以ranknew资料中, 除了原来的变量以外,还有expense变量和income变量的秩次。 □运行结果

RANK SAMPLE

OBS STATUS EXPENSE INCOME EXPRANK INCRANK 1 2 549 4000 1 1.0 2 1 601 6500 2 3.0 3 1 612 6500 3 3.0 4 2 619 6500 4 3.0 5 2 622 7200 5 5.0 6 3 634 8700 6 6.0 7 2 636 9000 7 7.0 8 3 662 9200 8 8.5 9 2 685 9200 9 8.5 10 3 713 9999 10 10.0

3.10 PROC CHART 用各种图形来表示SAS分析结果,能使其结果更加生动直观。SAS软件的作图能力很强,可提供条形图,直方图,圆形图等各种各样的图形。在统计分析过程中,可以选用多种相应的图形。

使用CHART作图时,须提供三项资料:

1、 图形的选择

利用不同的指令可以要求CHART程序绘制出不同的图形:

? 水平条形图 HBAR指令 ? 垂直条形图 VBAR指令 ? 直方图 BLOCK指令 ? 圆形图 PIE指令 ? 星形图 STAR指令

2、描述性统计值的选择

利用TYPE= 选项可以指定SAS用某一种描述性统计值来制图

? 次数制图 TYPE=FREQ 12)这些新变量名,在写法上没有具体要求。

27

? 百分比制图 TYPE=PERCENT(pct) ? 累计次数制图 TYPE=CFREQ

? 累计百分比制图 TYPE=CPERCENT(cpct) ? 总和制图 TYPE=SUM ? 平均数制图 TYPE=MEAN

3、变量值的分类方法

? 将连续变量的值当作类别 DISCRETE

? 指定各区间的中点值 MIDPOINTS=

? 以第二个连续变量的值(如平均数、总和)为统计量

SUMVAR=

? 并列图形的分类 GROUP= ? 小组的数值分类 SUBGROUP=

其作图程序的基本形式如下:

□PROGRAM 解释

①PROC CHART:作图命令。

②HBAR变量/option1(或option2, option3 , option4):水平条形图。 ③VBAR变量/option1(或option2, option3):垂直条形图。 ④BLOCK变量/option1(或option2):三元立体方块图。 ⑤PIE变量/option1:圆形图。

⑥BY 变量:指定的变量为基准,分别作图。 □Option:

-DATA=DSN:指定需要分析的SAS程序名,若省略此选项,则自动对最后形成的SAS

PROC CHART option; HBAR 变量名/option; ?②VBAR 变量名/option; ?③BLOCK 变量名/option; ?④PIE 变量名/option; ?⑤BY 变量名; ?

28

程序作图。

-LPI=p:p值决定圆形图和星形图的大小比例。内设置为6,可根据需要调整p值。 □option1

- MISSING:把资料中的所有缺省值(用小数点‘.’表示),一律按同一个标准处

理。如果资料中没有缺省值“.”的标记,则不再考虑其缺省值。

- DISCRETE:该命令用于离散型变量。若省略DISCRETE,则SAS软件自动把变量

当作连续型变量。

- TYPE=:利用此选项进行变量的描述性统计值的选择,变量的描述性统计值有六种,

- TYPE=FREQ:表示变量的频数(freq)。

- TYPE=PERCENT(或PCT):表示变量的百分数。 - TYPE=CFREQ:表示变量的累积次数。

- TYPE=CPERCENT(或CPCT):表示变量的累计百分数。 - TYPE=SUM:表示第二变量的总和。 - TYPE=MEAN:表示第二变量的平均数。

若省略TYPE选择项,则自动以变量的频数(freq)表示。

- SUMVAR=变量:显示第一变量在此变量上的总和或平均值。(例) VBAR

X1/TYPE=MEAN SUMVAR=X2;以变量X2的平均数为描述性统计量,对变量X1作垂直条形图。若选用SUMVAR= 选项,则TYPE=FREQ、TYPE=PCT、TYPE=CPCT视为无效,程序自动以TYPE=SUM加以处理。

-FREQ=变量:此变量的值代表第一变量被重复使用的次数(或加权比重)。一般而

言,此变量的值应是整数,若变量的值出现小数,则作图时只取整数部分。 - MIDPOINTS=范围值:作图表轴的尺度标点。 □option2

- GROUP=变量:根据变量值的区分,作并列图。 - SUBGROUP=变量:根据变量值,分别作图。 - SYMBOL=文字:表示图形上的符号,如SYMBOL=‘A’,则图形上符号全用A表示。 - NOZEROS:作图时,若一区间不包含任何数值,则不显示该区间。 □option3

- ASCENDING:在条形图中,把统计量按由小到大的顺序打印。 - DESCENDING:在条形图中,把统计量按由大到小的顺序打印。 □option4

- NOSTAT:在水平条形图中,不打印其统计量。 - FREQ:在水平条形图的旁边,只打印其频数。

- CFREQ:在水平条形图的旁边,只打印其累计频数。 - PERCENT:在水平条形图的旁边,只打印其百分数。

29

- CPERCENT:在水平条形图的旁边,只打印其累计百分数。

- SUM:以第二变量做水平条形图时,在水平条形图的旁边,只打印其总和。 - MEAN:以第二变量做水平条形图时,在水平条形图的旁边,只打印其平均数。 举例说明1:

下面是一个公司的男女职员有关情况的统计资料

F 1 F 1 F 1 F 1 F 1 F 1 F 1 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 F 2 M 2 M 2 M 2 M 2 M 2 M 2 M 2 M 2 M 2 M 2 M 2 M 2 M 3 M 3 M 3 M 3 M 3 M 3 M 3 M 3 M 3 M 3 M 3 M 3 M 3 M 3 M 3 M 3 M 4 M 4 M 4 M 4 M 4 M 4 M 4 M 4 M 4 M 4 M 4 M 4 M 4 M 4

M 4 M 4 M 4 M 4 M 4 M 5 M 5 M=男性 F=女性

1=初中毕业 2=高中肄业 3=高中毕业 4=大学肄业 5=大学毕业

数据的输入:

30

DATA ONE; INPUT GENDER $ EDU @@; CARDS; F 1 F 1 F 1 F 1 F 1 F 1 F 1 ?????????????? M 4 M 4 M 4 M 4 M 4 M 5 M 5 RUN;


数据的分析和处理(5).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:HIS软件基本功能规范

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: