2.统计分析方法必须和其他分析方法结合运用,原因是<1>数量关系只是客观事物存在的诸种关系的一种,不能代替其他分析方法;<2>统计分析方法能够帮助发现社会现象中不易察觉的规律,但解释需要借助于有关科学的理论。
3.统计分析有一套专门的方法和技术。 第二节 集中量数分析
一、集中量数分析的意义和作用
1.集中量数,又称为集中趋势,是一组数据的代表值,代表着现象的一般水平,别的数值围绕在它的周围;能对同质总体做出概括说明,用以反映数据资料集中趋势和特征的一般水平P330,具有四个方面的作用(意义):
<1>说明某一社会现象在一定条件下,其数量的一般水平。 <2>对于不同空间的同类现象进行比较。
<3>对一定社会现象在不同时间中的变化进行比较。 <4>分析某些社会现象之间的依存关系。
2.常用的集中数量包括算术平均数、中位数和众数。 二、算术平均数
含义:以总体各单位数值之间和除以总体单位总数的商,计算公式: 各单位的标志数值之和 总体单位总数 算术平均数=
根据资料的不同,算术平均数可以采用简单算术平均数和加权算术平均数法进行计算 (一)简单算术平均数,是直接由原始数据计算平均数的方法,公式:
说明:符号X表示算术平均数;X1、X2分别表示各个具体的标志数值;n代表总体单位数(即总体中个案的数目)。 X1+X2+……+Xn n
∑X n
X= =
(二)加权算术平均数,使用第二手资料的统计表计算平均数的时候,要用加权平均数法进行计算,计算公式:
X1f1+X2f2+……+Xnfn f1+f2+……+fn ∑Xf ∑f
说明:f位权数,即在变量在总体中出现的次数 X= =
按照数据资料形式的差异,加权平均数的计算分为由单项分组资料求算术平均数和由组距分组资料求算术平均数:
1.单项分组资料算术平均数,公式与加权算术平均数一致,特点:变量X的每一个值都是单一的确定数值。
2.由组距分组资料求算术平均数,特点:变量X不是一组确定的数值,是一组数据区间;要求:先计算出组中距,然后使用加权算术平均数进行计算。
<1>组中距的符号:Xmid,计算公式:Xmid=(下组限+上组限)/2 ∑fXmid ∑f
<2> 组距分组资料计算算术平均数的公式:X= 三、中位数
含义:中位数是把调查到的资料按照标志值大小顺序排列,处于中央位置的标志值表示中间位置的平均数,又称位置平均数,主要应用于非数值的定序测量资料中。计算定序变量的集中量数用中位数,只需指出中位数的位置;计算定距变量的集中量数可以用中位数,但要计算出其中的具体数值。
(一)由原始资料计算中位数,步骤:把各个标志数值按照大小排列,然后用总体单位加1除以2,可以求出中位数的位次。
(二)对经过汇总的资料计算中位数,主要包括:
1.由单项分组资料求中位数,步骤:首先找出中位数的位次(n+1/2),然后顺着累计次数找到对应的组内。
2.由组距分组资料计算中位数,步骤:用∑f/2公式确定中位数所在组的位置,然后用下限公式计算中位数,公式为:
说明:Md 为中位数,L为中位数所在组的下限,fm 为中位数所在组的次数, cfm-1 为中位数所在组以下的累计次数,∑f 为累计次数,i为中位数所在组的组距。 1 2 ∑f-cfm-1 fm ×i+L Md=
第三节 离中量数分析—重点 一、离中量数的意义和作用
1.离中量数,也称差异量数,是描述数据离散程度的量数,是一个概括性量值,是研究现象差异程度的概括表现;要求两组数据的集中量数大致相同,单位相同,两组数据的总体单位相近,才可比较。P335 2.离中量数的作用(意义):<1>阐明被研究对象的差异特征;<2>描述一组数据的差异情况;<3>对集中数量的代表性作了补充说明,即差异量数越小,集中量数的代表性越大。 二、离中量数的计算
离中量数的计算方法有异众比率(与众数配合)、四分位差(与中位数配合)和标准差(平均数配合) (一)异众比率,是指非众数的次数与总体内全部总体单位的比率。
说明:VR代表异众比率,n是总体内全部总体单位的数,fmo为众数的次数。 n-fmo
n
1. 计算公式:VR=
2.异众比率与众数成反比关系:异众比率较大,众数的代表小,异众比率越小,众数的代表性越大。 (二)四分位差 1.含义:
<1>把一组数据按大小排列成序,然后分成四个数据数目相等段落,各段落分界点上的数称四分位数。 <2>第一个四分为数(Q1)以下包括了25%的数据,第二个四分位数(Q2) 包括以下75%的数据, <3> 3(n+1) n+1 4 4
四分位差是指舍去资料中的数值最高的25%数据和数值最低的25%数据,仅就属于中间的50%数据求其量数作为离中量数。
2.定序类型资料计算的四分位差,计算公式:Q= Q3-Q1= - Q3-Q1 2 3 1 4n n
3.对于定距类型资料计算四分位差,计算公式:Q= = -
4.四分位差与中位数的关系:四分位差之间的间距越小,中位数的代表性越大。 (三)标准差
含义:也称均方差,指资料中各个数值与算术平均数相减的平方和的算术平均数的平方根,是用的最多、最重要的离中量数,标准差越小,平均数的代表性越大。 ∑f(Xi-X)2 n
说明:Xi为资料中各个数值,X为算术平均数,n为总体单位数。
计算公式:σ= √
根据资料的不同,标准差分为按原始资料计算和按统计表资料计算两种方法。 1.根据原始资料计算标准差,计算公式与标准差计算公式相同。
三、相对差异量数
1.离散系数,是标准差与算术平均数的比值,是一个相对数,不受单位限制,离散系数越大,数据的离散程度越大,集中量数的代表性越小,限制:离散系数的比较只限于定距资料。 σ X
公式:CV= ×100%
2.标准分数,作用(1)表明原始数据在总体分布中的相对位置;(2)对不同的各原始数据进行比较。(3)能测定相同或不同总体内个案的相对位置,并进行比较,是比较分析的有力工具。 X-X σ
计算公式:Z=
第四节 相关与回归分析 一、相关分析的意义和测定方法
1.相关分析含义:是通过计算两个变量的相关系数来判断两个现象是否有联系以及联系的密切程度,只是对客观事物的一种描述。
2.散点图,横坐标代表一个变量,纵坐标代表另一个变量,对各资料依次用坐标点绘于图上,这图称为散点图,可以说明变量间有无线性相关关系、相关的方向,不能精确地说明变量之间的密切程度。 3.相关系数的计算方法
<1>相关系数是表明变量间关系密切程度的量数,符号为r,取值范围在-1到+1之间,具体取值为: (1)r=-1,完全负相关;(2)r=1,完全正相关;(3)r=0,无相关;(4)r是负值,说明随着X变量的增大,Y变量减小,两个变量变化的方向相反;(5)r是正值,说明随着X变量的增大,Y变量也随