Merge Files中的Add Cases和Add Variable,见图3.3a。
1. 从外部数据文件中增加记录到当前数据文件中,称为纵向合并,用Add Cases对话框完成,相互合并的数据文件中应该有相同的变量。选择菜单Data→Merge Files→Add Cases,系统首先弹出打开数据文件对话框。选中需要添加的数据文件并按OK,系统才弹出Add Cases对话框(见图3.3b),左侧显示的是新、老数据文件中不匹配的变量名(图3.3b中显示没有不匹配的变量名),右侧显示的是已经匹配的变量名。可以用Rename按钮对不匹配变量改名(先选中)或用鼠标强行匹配(即先按Ctrl键选中匹配的两个变量再单击Pair钮)。右下方的Indicate case source as variable复选框用于定义一个新变量以区分哪些记录是后来添加的。选择停当后单击OK,该操作就完成了。
图3.3a Merge Files的两种方式
图3.3b Add Cases的对话框
16
2. 从外部数据文件增加变量到当前数据文件,称为横向合并,用Add Variable对话框完成,相互合并的数据文件中应包含同样的记录。选择菜单Data→Merge Files→Add Variable对话框,系统同样先弹出打开数据文件对话框,单击OK后弹出和前面相似的Add Variable对话框(见图3.3c)。左侧是外部数据文件中多出来的变量(图3.3c中是333.sav多余的变量,与111.sav中的变量一致),右侧是合并后新文件包含的所有变量。其他选项,可按需选择即可。
图3.3c Add Variables的对话框
●数据分类汇总Aggregate
所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量值求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件,见图3.4。
a 选择Aggregate Variables的界面
17
b 定义新汇总变量的名称和标签的界面
c 定义汇总函数
图3.4 Aggregate Data对话框
图3.4中各个部分的含义如下:
? Break Variables框:用于选择分组变量。这里选择了sex;
? Aggregate Variables框:用于选择被汇总的变量,可选择q9(即被访问者最近一次参加促销活
动的消费),如图3.4a;
? Name&Label钮:用于定义新产生的汇总变量的名称和标签,如图3.4b;
? Function钮:用于定义汇总函数,共有三组函数,以最常用的第一组为例,可选的函数有均值、
同组的第一个观测值、最后一个观测值、同组记录数、标准差、最小值、和、最大值共8个,如图3.4c;
? Save Number of cases in break group as variable复选框:用于定义一个新变量以存储同组的记录
数;
? Create new data file单选钮:定义一个新文件以存储汇总的结果,右侧的File钮用于具体文件
名的定义,默认文件名为AGGR.sav;
? Replace working data file单选钮:用汇总的结果替换原来的数据。 ●数据文件分组Split File
若要对不同群体作同类分析,可使用Split File将数据文件分割成不同的组来进行处理。选择Data→Split Files,出现Split Files对话框,见图3.5。图中显示,本次分析是按age(即被访问者年龄)分组分析。
18
图3.5 Split File对话框
图3.5种各部分的含义如下:
? Analyze all cases单选框:和下面的两个单选框为一组,选中本框不拆分文件;
? Compare groups单选框:按所选变量拆分文件,各组分析结果紧挨在一起便于相互比较; ? Organize output by groups单选框:按所选变量拆分文件,各组分析结果单独放置; ? Groups based on框:用于选择拆分数据文件的变量;
? Sort the file by grouping variables单选框:将数据按所用的拆分变量排序; ? File is already sorted单选框:数据保持原状,不按所用的拆分变量排序。 ●选择分析组Select Cases
有些时候不需要分析全部的数据,而是按某种要求分析其中的一部分。比如,案例中的研究者只想对年龄(age)在35—45、月收入(income)在2000元以上的女性对促销方式的看法与行为;或者只想对200个数据进行分析以了解大概情况,等等。这时需使用Select Cases对话框,来简化工作。
选择Data→Select Cases,弹出对话框如图3.6a所示。其中:
? All cases单选钮:和下面的4个单选钮为一组,选中它则分析所有的记录; ? If condition is satisfied单选钮:只分析满足条件的记录; ? If按钮:和If单选钮一起使用,单击后弹出If对话框; ? Random sample of cases单选钮:从原数据中按某种条件抽样;
? Sample按钮:和Random单选钮一起使用,可以设定按百分比抽取记录,或者精确设定从前若
干个记录中抽取多少个记录;
? Based on time or case range单选钮:基于记录序号来选择记录; ? Range按钮:和Based单选钮一起使用,用于输入记录序号范围;
? Use filter variable单选钮:使用筛选指示变量来选择记录,必需在下面选入一个筛选指示变量,
该变量取值为非0的记录将被选中,进入以后的分析;
? Filtered单选钮:和下面的Deleted单选钮为一组,表示未被选中的记录只是被隔离,这些记录
的记录号会被加上斜杠以示区别;
? Deleted单选钮:未被选中的记录将被删除,一般不要使用。
所以,先前的第一种情况应选择If Condition is Satisfied,单击If后弹出If对话框,见图3.6b。图中右上方框里的“sex=0 and age=3 and income=4”就是需要满足的条件,其中“sex=0”、“age=3”、
19
“income=4”代表女性、年龄35—45岁、月收入2000元以上;而中间的“and”表明三个条件都必须满足,若只需满足其中任意一项都行,则用“or”连接。此外,条件表达式也可从Functions框中选择。当填好条件表达式后,可单击Continue回到图3.6a,再单击ok就完成了。
而先前的第二种情况,则应该选择Based on time or case range,并单击Range弹出对话框,见图3.6c。在First case框输入1,在End case框输入200,单击Continue回到图3.6a,再单击ok就完成了。
图3.6a Select Cases对话框
图3.6b If对话框
20