我们看到三个变量两两组合有三种组合,每种组合有两个图形(横纵轴对换)。散点图矩阵对角线为变量标记和变量取值范围,该变量是其所在行的纵轴变量,是其所在列的横轴变量。比如第二行第一列的图纵轴变量是HEIGHT ,横轴变量是AGE,为身高对年龄的散点图。其对称位置(第一行第二列)是年龄对身高的散点图,两者只是把横纵坐标旋转对调。
散点图矩阵除了可以同时看到多个散点图的优点外主要是在一个散点图中被选中的点在其它散点图和数据窗口中也同时被选中。这样,我们可以在一个图中选一个极端点,看它在其它图中是否也处于极端位置。在一个散点图中刷亮的点在其它散点图中也同时被刷亮,这样,我们可以观察,年龄和身高都比较小时,体重是否也比较低。可以移动刷子,同时其它散点图中被选中的点也在变化。从图 20可以看出,年龄由小到大变化时身高、体重一般也变大,但同一年龄的学生的身高、体重差距较大。
SAS/INSIGHT提供了自动移动刷子的功能。在拖动刷子时松开鼠标按钮,类似于“抛出” 刷子,刷子就可以按抛出的方向继续移动并反弹。不过现在还较难控制自动移动的速度,有时移动过快。
数据探索――三维
SAS/INSIGHT对三维数据可以作称为旋转图的三维散点图。比如,要对SASUSER.CLASS 中的学生年龄、身高、体重作三维散点图,在数据窗口依次选定AGE、HEIGHT、WEIGHT,然后启动菜单“Analyze | Rotating Plot”,可以生成一个三维散点图。图 21是经过旋转后的图形。
这种三维散点图之所以称为旋转图,是因为坐标系可以在三维空间绕原点任意旋转。图形的左侧有一个小工具栏,其中有向上、下、左、右、逆时针、顺时针旋转的图标,再往下有一个滚动条,用它来规定自动旋转的速度。左下角是图形的菜单(向右的三角形)。
为了旋转坐标系,单击左侧的旋转方向图标。按住旋转图标可以连续旋转。按住Shift或Ctrl 再旋转可以实现自动旋转。当鼠标光标移到图形的四个角时光标形状变成了手的形状,单击可以旋转,拖动可以连续旋转,拖动时“抛出”可以自动旋转。自动旋转中可以随时拖动图形以改变旋转方向。
旋转图的菜单(图 22)中,Ticks用来调整坐标轴刻度,Axes可以选坐标轴以数据中心点为原点、以左端点为原点、不画坐标轴。Observations指定画出所有观测,如果没有选中此项则只画被选中的观测。Rays从原点向每个散点画射线。Cube在散点四周画一个长方体盒子。Depth可以使离视点近的点画得较大,离得远的点画得较小。Fast Draw指定用另一种较快的绘图方法绘图。Markers Sizes选择散点的大小。
图形的调整
SAS/INSIGHT提供了很强的调整绘制的图形的功能。比如,调整坐标轴的画法,点的大小、符号、颜色,隐藏某些观测,等等。
给不同观测使用不同的符号和颜色画点有助于迅速区分不同类观测的特点。比如,SASUSER.IRIS 数据集中包含了Fisher著名的Iris数据,其中有三种不同的鸢尾属植物的花瓣、花萼长、宽的测量数据,希望从这些测量数据找出区分这三种植物的指标。为了直观看到不同植物的测量数据的特征,最好用不同颜色画每一种植物的散点。打开数据集后,选定分类变量SPECIES ,调用“Analyse / Box Plot / Mosaic Plot”菜单来作其马赛克图,可以看到此变量的三个值为Virginica、Versicolor、Setosa。用“Edit | Windows | Tools”菜单可以打开一个工具窗口,如图 23。这个窗口可以改变观测符号的颜色、符号,连线的线型、线宽,可以放大图形局部。
在打开的马赛克图中先选定Virginica,这时所有类型Virginica的观测被选中,按一下工具窗口中的红色,就给所有这些观测规定了绘图符号为红色。类似指定Virsicolor 为绿色,Setosa为蓝色。作PETALWID(花瓣宽)对PETALLEN(花瓣长)的散点图,可以作出三种不同植物用不同颜色绘点的散点图,见图 24。 利用一个变量的不同值来确定观测绘点的颜色还可以自动进行,方法是先选定该变量(如SPECIES ),然后单击工具窗口的渐变颜色棒,就可以为SPECIES的每一不同值分配一种不同颜色。这一方法不仅适用于SPECIES这样的名义变量,也适用于数值型变量。颜色棒的颜色可以调整,比如要把颜色棒变为由红到蓝,只要把红色方块拖到颜色棒左端,把蓝色方块拖到颜色棒右端。
为了改变绘点符号的大小,调用图形菜单(图形边角上的向右三角符号)中的Marker Sizes 菜单可以选择一个合适的符号大小。
除了用不同颜色来区分不同种类的观测外,还可以用不同的符号来画不同的观测。比如,选定SPECIES为Virginica的观测后,单击工具窗口的菱形图标把此类观测的绘点符号变为菱形。类似指定Virsicolor用三角,Setosa用加号,作的散点图见图 24。从图中可以看出,用加号绘制的Setosa类和其它两类差别很大,单靠花瓣的长、宽就可以把这一类与其它两类区分开,但是用菱形绘制的Virginica类和用三角绘制的Virsicolor类则在能大体区分开的同时有少数观测混杂在一起,所以单靠花瓣的长、宽测量数据不能把这两两很好地区分开。
利用一个分类变量来决定不同的绘点符号除了上述的对每一类观测分别选定,然后指定绘点符号的办法,还可以选定这一分类变量,然后单击工具栏中绘点符号下面的多种符号的长棒形图标,可以自动为每一类分配一个绘点符号。
不同类观测用不同的颜色和符号来绘点是一种强有力的数据探索手段,恰当使用可以直观地发现不同类型观测的区别。
分布研究
SAS/INSIGHT提供了很强的一维分布研究功能。对连续型变量,除了可以画直方图、盒形图外,还可以作各种统计表,比如矩、分位数表,可以在直方图上画拟合密度曲线,可以检验分布是否来自正态、对数正态、指数、威布尔分布,等等。对离散型变量,可以画马赛克图、条形图、频数表。
为了研究SASUSER.CLASS中身高的分布,在未选中变量的情况下,启动“Analyze | Distribution(Y) ”菜单,出现图 25的选择变量对话框:
选Y变量为HEIGHT,按OK可以打开一个新窗口,显示身高的直方图、盒形图、矩统计量表(图 26):
分位数表(图 27):
各统计量是SAS中经常使用的,我们在此加以说明。设变量为 个观测还带一个加权
?
N-观测个数
,各观测值为 。有时每
,在没有指定加权变量时认为加权恒为1。
? Sum Wgts-加权和
? Mean-均值
? Sum-总和
? Std Dev-标准差
? Variance-方差
? Skewness-偏度
? Kurtosis-峰度
? USS-加权平方和
? VSS-加权离差平方和
? ?
CV-变异系数
Std Mean-均值的标准误差
其中加权的常见情形是当一个观测实际代表完全相同若干个样品时,求和、平方和等都要加权。比如,第i个观测代表 个样品时,求变量Y的真正总和就需要用加权公式 。偏度可以表现变量分布的偏斜,负值为左偏,正值为右偏。峰度表现变量分布与正态分布相比是重尾(分布函数在正负无穷处衰减缓慢)还是轻尾(分布函数在正负无穷处衰减迅速)。标准误差在统计中是一个十分重要的概念,它代表估计量作为随机变量其标准差的估计,这里的Std Mean是均值的标准差的估计,实际计算公式是 值的理论标准差为 区间。
,而均
。如果估计量服从正态分布,通常用估计量加减两倍标准误差作为估计量的置信
分位数表中,Max是最大值,Q3是四分之三分位数,Med是中位数(反映数据中心位置),Q1 是四分之一分位数,Min是最小值,Range是最大值减最小值,Q3-Q1为四分位间距,可以反映数据取值分散程度,Mode是众数,即出现最多的值。
在打开了身高分布的窗口之后主菜单中的Tables、Graphs、Curves菜单被开放。在Tables 菜单中可以选加一些统计表,比如Frequency Table是频数表,为每一观测值的频数、累计频数、百分比,C.I. for Mean可以计算均值的各种置信度的置信区间,Location Tests用于检验均值为某常数值(一般是0)的假设,可以用t检验、符号检验、符号秩检验,Gini's Mean Difference 是变量分布分散程度的一种稳健估计,计算公式为
,对正态分布其期望值为 。Trimmed Mean, (1/2)N计算去掉最大
(1/2)N 个和最小(1/2)N个值后的平均值,(1/2)N可以指定为1,2,3或自定值,这是变量中心位置的一种稳健估计,但估计量本身不再服从正态分布。Trimmed Mean, (1/2)Percent指定去掉最大、最小的百分之多少再计算均值。Winsorized Mean是把最大的(1/2)N个替换成由大到小第(1/2)N +1号值,把最小的(1/2)N个替换成由小到大第(1/2)N+1个值,然后计算的均值,它也是一种稳健的均值估计。 在Graphs菜单中已选了直方图、盒形图,还可以作QQ图,即分位数-分位数图。