北京大学社会学系 数据分析课程讲义 刘爱玉 2004年
7.数据文件的合并(Merge Files)
合并数据文件包括两种方式:一种是从外部数据文件中增加观察量到当前数据文件中——add cases; 另一种是从外部数据文件中增加变量到当前数据文件add variables.
将liu1·sav的个案添加到liu·sav
add cases: 点击Data------Merge File----add cases-----弹出Add Cases: Read File对话框——打开liu1·sav——弹出对话框Add Cases From D:\\liu1.sav——对话框左侧为不能匹配的变量,右侧是可以匹配的变量,如果在合并时出现两个数据文件的变量不能匹配的情况,就一定要对变量进行处理,使其能够完全匹配,然后再进行合并。 add variables:要将liu2·sav中的变量横向合并到liu·sav中去,以某个变量为基点将同源的两部分数据连接在一起,一般是用ID或身份记号, [*] 原文件中的变量; [+]新文件中的变量。
8. 数据文件的分类汇总(Aggregate)
北京大学社会学系 数据分析课程讲义 刘爱玉 2004年
9.
对数据进行分类汇总就是按照指定的分类变量值对观察值进行分组,对每组观察量的各个变量求描述统计,生成新的数据文件,在新数据文件中对应分类变量的每一个值产生一个观察量。如在liu·sav中要对30个人的身高、体重按照年龄、性别进行分类汇总,求平均值。具体操作为:
Data-------Aggregate-------弹出Aggregate对话框——将性别、年龄变量选入Break Variables框中,表示要以年龄、性别作为分组变量——在Aggregate Variables框选入身高、体重,表示要将身高、体重进行汇总。系统会默认新的变量名,但是我们可以根据自己的需要对变量名进行变换。
用Aggregate换可以进行其他很多计算,如 means of values:求平均值 Standard deviation 标准差
First value 只保留该组的第一个数值 Minimum value 只保留该组的最小值
Last Value 只保留该组的最后一个数值 Maximum value 只保留该组的最大值 Number of cases 合计该组的观察数值 Sum of values 求和
Percentage above 先确定一个数值,求大于该数值的所有个案占总个案的百分比(%)
Percentage below 先确定一个数值,求小于该数值的所有个案占总个案的百分比
Fraction above 先确定一个数值,求大于该数值的所有个案占总个案的比例(0-1)
Fraction below 先确定一个数值,求小于该数值的所有个案占总个案的比例
北京大学社会学系 数据分析课程讲义 刘爱玉 2004年
(0-1)
Percentage inside 先确定一个下限,再确定一个上限,求在该区间内个案占
总个案的百分比(0-100%)
Percentage outside先确定一个下限,再确定一个上限,求在该区间之外个
案占总个案的百分比(0-100%)
Fraction inside 先确定一个下限,再确定一个上限,求在该区间内个案占
总个案的比例(0-1)
Fraction outside 先确定一个下限,再确定一个上限,求在该区间内个案占
总个案的比例(0-1)
Aggregate命令非常有用,如我们入户调查得到了一家人所有的资料,包括 编号、年龄、收入。根据这些资料,我们可以计算家庭负担系数,即大于 60岁和小于18岁的人口占家庭总人口的比例。 DATA---Aggregate-----age-----per-----outside Low 18 High 59
------continue-----新生成的变量即为家庭负担系数
还可以算年龄均值、人均月收入。选择-----percentage, value---1 家庭人口数-----INC----number of cases 家庭总收入----INC--- number of cases
然后把这些新得到的变量存成默认值或者是你希望的文件,然后你可以看
一
下生成的到底是什么变量。 File ---open---找文件---新生成的变量与一般调 查得到的变量是一致的,因此可以进行匹配,这个时候可以用Merge命令
9.数据的选择( Select Cases)
数据文件中收集到的数据,在进行分析的时候只需要用其中的一部分,则可以用Select Cases命令
点击Data------ Select Cases---弹出Select Cases对话框,左边为可以进行选择的变量名,右边是选择的6个功能:
北京大学社会学系 数据分析课程讲义 刘爱玉 2004年
all cases 包括所有观察值
if condition is satisfied 仅当某种条件满足时
random sample of cases 表示对观察单位进行随机抽样——大概抽样(approximately),键入抽样比例后由系统进行抽样;精确抽样(Exactly)——要求从第几个观察值起进行抽样
based on time or case range 顺序抽样,点击Range…钮, 弹出Select Cases:range对话框,然后定义从第几个观察值抽样到第几个观察值。
use filter variable 如果数据文件已经存在一个观察量或专门为过滤观察量建立了一个变量,该变量值为0的要剔除,该变量取其他值的为准备分析或保留用。
unselected cases are 是确定处理时未被选取的观测量的方式。
10.对变量进行加权(weight cases)
点击Data------ weight cases-----弹出weight cases对话框- do not weight cases
weight cases by ----选择一个变量做加权,往往使用频数作为加权变量。 例:数据文件的数据排列为 code sex age income household 01 2 34 1500 3 02 1 25 2500 4 03 1 43 2000 5 04 2 17 0 3 如果household代表的是该个案相应性别的家庭人口数,则以household作为加权变量,然后看性别,我们的操作是把household变量放到weight cases by框中,
北京大学社会学系 数据分析课程讲义 刘爱玉 2004年
此时如果看数据,则看不出来我们到底对数据进行做了什么变换,对性别变量做一下频次分析,可以发现频次统计结果是:SEX
Frequen Percent Valid Cumulat
cy Percent ive
Percent
Valid 1.00 9 60.0 60.0 60.0
2.00 6 40.0 40.0 100.0 Total 15 100.0 100.0
加权的原则:是把加权变量的值赋在其它你希望计算的变量上,以家庭相应性别人口作为加权,在加权时家庭户人口数这个值就赋到了性别变量上,对性别变量进行频次统计,统计出来的数据含义可以这样理解:性别是1的有9人,性别为2的有6人。而如果我们以性别变量来看household,则会发现性别1的人正好是9人(4+5),性别2的人正好是6人(3+3)。
调用Weight Cases命令完成定义后,SPSS将在主窗口的最下面状态行中显示Weight On字样;若调用该命令后的数据库被用户存盘,则当这个数据文件再次打开使用时,仍会显示Weight On字样,意味着数据加权命令依然有效。