第一章 描述统计
一、统计图表:统计图、统计表 二、集中量数:算术平均数、中数、众数
三、差异量数:离差与平均差、方差与标准差、变异系数 四、相对量数:百分位数、百分等级、标准分数
五、相关量数:积差相关、等级相关、肯德尔等级相关、点二列相关与二列相关、φ相关
一、 统计图表 1、统计图:
①直方图—连续型变量
②条形图—离散型数据资料
区别:1)描述的数据类型不同,直方图描述的是分组的连续数据,条形图描述的是称名数据或计数数据;
2)表示数据多少的方式不同,直方图用面积表示,条形图用直条的长短或高低表述;
3)坐标轴上的标尺分点意义不同,直方图的一个坐标轴表示的是另一个刻度值,条形图的一个坐标轴是分类轴;
4)图形直观形状不同,条形图之间有间隔,直条与直条之间的间隔大小没有任何意义,直方图各方块之间紧密联系,没有间隔,当在某一数据分布的人数极少或没有时,会出现断点
③圆形图—间断性资料
④线形图—连续型资料;适用条件:1)两个变量之间的函数关系;2)某种现象在时间上的变化趋势;3)一种
现象随另一种现象变化的情形
⑤散点图—两个现象之间的相关程度
表分布:直方图;表内容:条形图和圆形图;表比较:以上都可以;表相关:散点图;表变化:线形图
箱型图:从视觉的角度显示数据的分布情况
⑥茎叶图:用于数据整理
⑦QQ图:判断样本的分布是否近似于某种分布,正态分布的QQ图准线是一条直线,散点代表样本跟数据
2、统计表
原则:简单明了;结构清楚,项目排列要由逻辑
组成要素:表号,名称、标目、标注、数字等,心理学中常见到额格式是三线表:顶线、底线和栏目线 二、集中量数 1、算术平均数
优点:反应灵敏、计算严谨、计算简单、简明易解、适合进一步代数运算、较少受抽样变动影响 缺点:易受极端数据的影响;若出现模糊数据时无法计算平均数
意义:真值渐进、最佳的估计值;当观测次数无限增加时,平均数趋向于真值
原则:同质性原则;平均数与个体数据相结合原则;平均数与方差、标准差相结合的原则
特点:在一组数据中,每个数据与平均数之和等于零;在一组平均数中,每个数加上一个常数C,则所得
平均数是原平均数加上常数C;在一组数据中,每个数据乘以一个常数C,则所得平均数是原平均数乘以常数C
2、中数
优点:计算简单、容易理解
缺点:1)计算不是每个数据都加入,其大小不受制于全体数据;
2)反应灵敏,极端数据对中数不产生影响; 3)受抽样影响较大,不如平均数稳定; 4)不适合进一步的代数运算; 5)计算时需要对数据先排列大小; 6)中数乘以总数与数据的总和不相等
使用中数的特殊情况:1)当一组观察结果中出现两个极端数据时;
2)当次数分布的两端数据或个别数据不清楚时; 3)需要快速估计一组数据的代表值时
3、众数
优点:概念简单,容易理解
缺点:1)不稳定,受分组影响,易受样本变动影响;
2)较少受极端值影响,反应不灵敏; 3)不适合进一步的代数运算;
4)众数乘以总数与数据总和不相等;
5)观察法得到的众数,不是经过严格计算来的,用公式得到的众数也只是一个估计值 使用众数的情况:1)需要快速而粗略的计算一组数据的代表值时;
2)当次数分布中有两极端值时,除了用中数外,还经常使用众数; 3)当粗略估计次数的分布形态,有时用平均数与众数之差作为次数是否分布偏态的指标; 4)当一组数据出现不同质的情况时,可用众数表示典型的情况; 5)次数分布中出现双众数时
4、关系
Mo=3Md-2M
三、差异量数
1、离差和平均差
①离差:每个观测值与平均数距离的大小,即x=X-X,正负号说明了重量施于什么方向,离差之和始终为零 ②平均差:是次数分布中所有原始数据与平均数绝对离差的平均值
—
优点:较好的代表了数据的离散程度;缺点:不能做进一步的统计分析 2、方差和标准差
①方差:又称变异数,具有可加性和可分解性
②标准差:
标准差的特性:1)每个观测数据都加上一个常数C,则计算得到的标准差等于原标准差
2)每个观测数据都乘以一个常数C,则计算得到的标准差等于原标准差乘以这个常数C 3)每个观测数据都乘以一个常数C,在加上一个常数d,则计算得到的标准差等于原标准差乘以常数C
③方差与标准差的优点:适合进一步的代数运算;简单明了;计算公式严密确定;受抽样变动较小;反应
灵敏,每个数值取值的变化,方差或标准差都会随之变动;容易计算
3、变异系数,无单位
应用:1)两个或两个以上样本,测量工具不同,所测特质不同;
2)两个或两个以上样本,测量工具相同,所测特质相同,但样本间的水平相差较大
四、相对量数
①百分位数:某个百分位置上得数值
②百分等级:总体分布中低于该分数的人所占的百分比
(R表示某一原始分数在按大小排列后的顺序或名次)
或
③标准分数
含义:以标准差为单位表示的一个原始分数在该团体中所处位置的相对量数
性质:1)Z分数无实际单位,是以平均数为参照点,以标准差为单位的相对量数
2)一组原始数据转换得到的Z分数可以是正值也可以是负值,所有原始分数的Z分数之和为0,Z分数的平均数也为0
3)一组原始数据中,各个Z分数的标准差为1
4)如果原始数据的分布成正态分布,则通过转化得到的Z分数的分布是以平均数为0,标准差为1的标准正态分布
优点:可加性、可比性、明确性、稳定性
缺点:计算比较繁杂;常有负数、零值和小数;必须满足原始数据分布形态相同这一条件 应用:1)用于比较几个分数性质不同的观察值在各自数据分布中相对位置的高低 2)计算不同质的观测值的总和或平均数,以表示在团体中的相对位置
3)表示标准测验分数,如韦氏智力量表
五、相关量数
1、积差相关—皮尔逊相关
适用条件:1)要求成对数据,即每个个体的两种不同的观测值,任意两个个体之间的观测值不能求相关,
且数目不易少于30对;
2)两列变量各自总体的分布符合正态分布; 3)两列变量之间的关系是连续变量; 4)两列变量之间的关系应是直线性的
2、等级相关—斯皮尔曼相关
适用条件:适用于只是两列变量,且是等级变量性质的具有线性关系的变量,主要用于解决具有称名数据
和顺序数据的相关问题
优点:比积差相关适用范围大,对数据总体分布不做要求 缺点:精确度差 3、肯德尔等级相关
肯德尔交错系数和相容系数适合于两列等级变量资料,W系数和U系数适合多列等级变量资料 ①肯德尔W系数
又称肯德尔和谐系数,原始数据资料的获得一般采用等级评定法
(R表示评定对象的K个等级之和,K表示等级评定者的数目,N表述等级评定对象的数目) ②肯德尔U系数
又称肯德尔一致性系数,原始数据资料的获得一般采用对偶比较法
4、点二列相关与二列相关—质量相关
①点二列相关—一列为连续变量,另一列为真正的二分变量,如男女
②二列相关—两列数据均属于正态分布,一列变量为等距或等比数据,另一列变量为认为划分的二分变量,
如及格、不及格
(y为正态曲线中P值对应的高度)
③点儿列相关与二列相关的主要区别是二分变量是否为正态分布 5、Φ相关—品质相关
适用于两个相互关联着的变量都是真正的二分变量