3、原始数据的方差与标准差计算 22?X2??X??X2??X?2 S?S???????nnn?n???
4、总标准差的合成
方差具有可加性的特点。当已知几个小组数据的方差或标准差时,可以计算几个小组联合在一起的总的方差或标准差。
需要注意的是,只有在应用同一种观测手段,测量的是同一种特质,只是样本不同的数据时,才能计算合成方差或标准差。
计算公式
2 222?n?S??nX?XTiiii?ni?Si??ni?XT?Xi?2ST?? ST?ni?ni
公式中: ST为总标准差 ST2为总方差, Si为各小组标准差
ni为各小组数据个数 di?XT?Xi
5、方差和标准差的性质
方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点。
标准差是一组数据方差的算术平方根,它不可以进行代数计算,但有以下特性:
Y?X?C则 SY?SX如果
Y?C?X则 SY?C?SX如果
6、方差和标准差的意义
方差与标准差是表示一组数据离散程度的最好指标,是统计分析中最常用的差异量。 标准差具备一个良好的差异量应具备的条件,如:反应灵敏,有公式严密确定,简明易懂,适合代数运算等等。
应用方差和标准差表示一组数据的离散程度,须注意必须是同一类数据(即同一种测量工具的测量结果),而且被比较样本的水平比较接近。 7、标准差的应用/——差异系数
差异系数(coefficient of variation)是指标准差与其算术平均数的百分比,它是没有单位的相对数。常以CV表示,其计算公式为 :
S
CV??100% X差异系数的作用: 比较不同单位资料的差异程度
比较单位相同而平均数相差较大的两组资料的差异程度 可判断特殊差异情况
8、标准差的应用——标准分数
又称基分数或Z分数,是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。
离平均数有多远,即表示原始分数在平均数以上或以下几个标准差的位置,从而明确该分数在团体中的相对地位的量数。
标准分数从分数对平均数的相对地位、该组分数的离中趋势两个方面来表示原始分数的
??地位。
(1)标准分数的计算公式及其性质 X?XZ? s①没有实际单位; ②可正可负,可为零;
③一组原始数据中,各个Z分数的标准差为1;
④正态分布的原始数据,转换得到的Z分数是标准的正态分布(0,1)。 (2)Z分数的作用
Z分数可以表明原始分数在团体中的相对位置,因此称为相对位置量数。 把原始分数转换成Z分数,就把单位不等距的和缺乏明确参照点的分数转换成以标准差为单位、以平均数为参照点的分数。 (3)标准分数的优点
? 可比性:标准分数以团体的平均数为基准,以标准差为单位,因而具有可比性。 ? 可加性:标准分数使不同的原始分数具有相同的参照点,因而具有可加性。 ? 明确性:标准分数较原始分数的意义更为明确。
? 合理性:标准分数保证了不同性质的分数在总分数中的权重相同,使分数更合理地
反映事实。
第五章 相关分析 一、相关概述 (一)相关的概念
两个变量之间不精确、不稳定的变化关系,称为相关关系。
两个变量之间的变化关系,既表现在变化方向上,又表现在密切程度上。 两个变量之间的变化方向有:
? 正相关:两个变量的变化方向相同。 ? 负相关:两个变量的变化方向相反。
? 零相关:两个变量的变化方向无一定规律。
从关系密切程度来看,两个变量的变化程度可大致分为 ? 完全相关:两个变量的变化程度完全一致。 ? 强相关:两个变量变化的一致性比较强。 ? 中等相关:两个变量变化的一致程度中等。 ? 弱相关:两个变量变化的一致性比较差。 ? 完全不相关:两个变量变化程度没有一致性。 (二)相关系数
用来描述两个变量相互之间变化方向及密切程度的统计指标称为相关系数,一般样本的相关系数用r表示,总体的相关系数用ρ表示。
? 相关系数的取值: -1≤ r ≤+1 ? 0≤∣r∣≤1
? 相关系数的符号:“+”表示正相关,“-”表示负相关。 相关系数的性质
相关系数不是由相等单位度量而来的,因此只能比较大小,不能做任何加、减、乘、除运算。
二、积差相关
(一)积差相关及其适用条件
积差相关是英国统计学家皮尔逊(pearson)于20世纪初提出的一种计算相关的方法,因而被称为皮尔逊积差相关,也称为积矩相关(product moment correlation)。
积差相关适用于:
1、两个变量都是连续数据;两变量总体都为正态分布;两变量之间为线性关系。 2、成对数据,样本容量要大。 积差相关条件的判断方法:
连续变量:根据得到数据的方式判断,测量数据。
正态分布:一般情况下,正常人群的身高、体重、智力水平、心理与教育测验的结果,都可按总体正态分布对待;如果要求比较高,则需要对数据进行正态性检验。
线性关系:根据相关散布图可判断两个变量之间是否线性关系。 (二)相关系数的等距转换及其合并
相关系数不是等距数据,更不是比率数据,它只能比较相对大小,不能进行加减乘除运算。但我们常会遇到需要将取自同一总体的几个样本的相关系数合成、求平均的相关系数这一问题。这时,可以先将相关系数r转换成具有等距单位的Zr值。 三、斯皮尔曼等级相关
等级相关(rank correlation)是指以等级次序排列或以等级次序表示的变量之间的相关。
主要包括斯皮尔曼(spearman)二列等级相关和肯德尔和谐系数(the kandall coefficient of concordance)多列等级相关。 (一)斯皮尔曼等级相关的概念及适用条件
斯皮尔曼等级相关是等级相关的一种。它适用于两个以等级次序表示的变量,并不要求两个变量总体呈正态分布,也不要求样本的容量必须大于30。
当连续数据不能满足计算积差相关的条件时,可以转换成等级数据从而计算斯皮尔曼等级相关系数。
四、肯德尔和谐系数
? 肯德尔等级相关方法有许多种,肯德尔和谐系数是其中一种。 ? 肯德尔和谐系数常以rW表示,适用于多列等级变量的资料。 ? 肯德尔和谐系数可以反映多个等级变量变化的一致性。 肯德尔U系数与W系数的适用资料相同。 五、质与量的相关 (一)点二列相关
适用条件
一个变量为正态、连续变量,另一个变量为真正的二分名义变量,这两个变量之间的相关,称为点二列相关(point-biserial correlation)。
有时一个变量并非真正的二分变量,而是双峰分布的变量,也可以用点二列相关来表示。 多用于评价是非类测验题目组成的测验内部一致性。 (二)二列相关
两个变量都是正态连续变量,其中一个变量被人为地划分成二分变量,表示这两个变量之间的相关,称为二列相关(biserail correlation)。
将连续变量人为划分为二分变量时,应注意尽量使分界点接近平均数。 教育或心理测验中问答题的区分度指标。
六、品质相关
两个变量都是按性质划分成几种类别,表示这两个变量之间的相关称为品质相关。 品质相关处理的一般是计数数据而不是连续数据,变量划分为不同的品质类别,主要用于双向表或称为列联表(R×C表)。
品质相关的方法有多种,最常用的是四分相关、Φ相关和列联表相关。
第六章 概率分布
一、概率的定义 (一)基本概念
概率(probability):表明随机事件可能性大小的客观指标。 概率的两种定义:后验概率和先验概率。 后验概率(或统计概率)
m随机事件的频率: W?(A)n
当n无限增大时,随机事件A的频率会稳定在一个常数P,这个常数就是随机事件A的概率。
先验概率(古典概率)
古典概率模型要求满足两个条件:
mP?⑴ 试验的所有可能结果是有限的; (A)n⑵ 每一种可能结果出现的可能性相等。 (二)概率的公理系统
1.任何随机事件A的概率都是在0与1之间的正数,即 0 ≤ P(A)≤1
2.不可能事件的概率等于零,即 P(A)= 0 3.必然事件的概率等于1,即 P(A)= 1 (三)概率分布类型
概率分布(probability distribution)是指对随机变量取不同值时的概率的描述,一般用概率分布函数进行描述。
依不同的标准,对概率分布可作不同的分类。 1、离散型分布与连续型分布
依随机变量的类型,可将概率分布分为离散型概率分布与连续型概率分布。心理与教育统计学中最常用的离散型分布是二项分布,最常用的连续型分布是正态分布。 2、经验分布与理论分布
依分布函数的来源,可将概率分布分为经验分布与理论分布。
? 经验分布(empirical distribution)是指根据观察或实验所获得的数据而编制的
次数分布或相对频率分布。
? 理论分布(theoretical distribution)是按某种数学模型计算出的概率分布。 3、基本随机变量分布与抽样分布
依所描述的数据的样本特性,可将概率分布分为基本随机变量分布与抽样分布(sampling distribution)。
? 基本随机变量分布是随机变量各种不同取值情况的概率分布,抽样分布是从同一总
体内抽取的不同样本的统计量的概率分布。
二、概率分布——正态分布 (一)正态分布特征
正态分布(normal distribution)也称为常态分布,是连续型随机变量概率分布的一种,是在数理统计的理论与实际应用中占有最重要地位的一种理论分布。 1.正态分布曲线函数
正态分布曲线函数又称概率密度函数,其一般公式为:
?X???2?N2 Y??e2??2?
公式所描述的正态曲线,由σ和μ两个参数决定。 2、正态分布的性质
?为中心的对称分配。 ? 正态分布是以
? 正态分布有 2 个参数: m (平均数)以及 s (标准差) ,其决定了分配的位置及形
状。
? 正态分布曲线下面的面积总和等于1。
f(x)? 正态分布 在 时有一转折点。 ? 正态分布曲线的两尾无限延伸。
? 正态分布是一族曲线,标准正态分布是一条曲线。 3、标准正态分布曲线
将标准分数代入正态曲线函数,并且,令σ=1,则公式变换为标准正态分布函数:
?X???2?12Z2 Y???e2?1Y??e2?2?
2?
标准正态分布曲线的特点
⑴.曲线在Z=0处达到最高点
⑵.曲线以Z=0处为中心,双侧对称
⑶.曲线从最高点向左右缓慢下降,向两侧无限延伸,但永不与基线相交。
⑷.标准正态分布曲线的平均数为0,标准差为1。从Z=-3至Z=+3之间几乎分布着全部数据。
⑸.曲线的拐点为正负一个标准差处。 4、正态分布表的使用 已知Z值求概率
⑴.求Z=0至某一Z值之间的概率:直接查表 ⑵.求两个Z值之间的概率
? 两Z值符号相同:PZ1-Z2=PZ2-PZ1 ? 两Z值符号相反:PZ1-Z2=PZ2+PZ1 ⑶.求某一Z值以上的概率
? Z>0时,PZ-∞=0.5-PZ ? Z<0时,PZ-∞=0.5+PZ ⑷.求某一Z值以下的概率
? Z>0时,P-∞-Z=0.5+PZ ? Z<0时,P-∞-Z=0.5-PZ
X????