1.8 数据文件合并
下载资源:\video\第1章\1.8
下载资源:\sample\数据1\数据1A、数据1B、数据1C、数据1D
1.8.1 按照样本观测值合并数据文件
我们在进行很多数据处理时,往往需要将两个结构相同或某些部分结构相同的数据文件合并成一个文件,比如两个公司发生了兼并,需要将这两个公司的员工信息表合并为一个信息表,这时就需要对数据文件进行样本观测值的合并;又比如某公司领导想将员工的绩效考核数据和工资薪酬数据放在一起进行数据分析,需要将员工绩效考核信息表和员工工资薪酬信息表进行合并,这时就需要对数据进行变量的合并。
SPSS中的数据合并分为两种:一种是观测值的合并,因为观测值在SPSS的数据视图中是以行来呈现的,所以又被称为纵向合并,也就是将两个有相同变量但有不同观测值的数据合并;另一种是变量的合并,因为变量在SPSS的数据视图中是以列来呈现的,所以又被称为横向合并,也就是将描述同一组观测样本的不同变量合并为一个数据文件,新的数据文件包含所有合并前的各个数据的变量。
本节介绍如何按样本观测值合并数据文件,即纵向合并,将会增加观测量,即把一个外部文件中与原文件具有相同变量的观测量增加到当前工作文件中。这种合并要求两个数据文件至少应具有一个属性相同的变量,即使它们的变量名不同。这种“纵向合并”的操作方法和对话框的设置方法如下(以本文附带数据文件“数据1A”和“数据1B”为例):
打开数据文件“数据1A”,然后选择“数据︱合并文件︱添加个案”命令,如图1.58所示。弹出“添加个案至数据1A.SAV”对话框,如图1.59所示。
图1.58 “数据︱合并文件︱添加个案”命令
图1.59 “添加个案至数据1A.SAV”对话框
在“从打开的数据集的列表中或者从文件中选择数据集,以便将其与活动数据集合并”选项组中选中“外部SPSS Statistics数据文件”单选按钮,然后单击“浏览”按钮,弹出“添加个案:读取文件”对话框,如图1.60所示。
选定数据文件数据1B.SAV,选中后单击“打开”按钮,返回“添加个案至数据1A.SAV”对话框,再单击“继续”按钮,弹出“添加个案自……”对话框,如图1.61所示。
图1.60 “添加个案:读取文件”对话框
图1.61 “添加个案自……”对话框
· “非成对变量”列表框,列出两个文件中的不成对变量,即变量名和变量类型不匹配的变量,其中用“*”标记的属于正在打开的活动数据集,本例中为数据1A,用“+”标记的属于外部文件,本例中为数据1B。
· “新的活动数据集中的变量”列表框,列出两个数据文件中变量名和变量类型都匹配的相同变量。
· “指示个案源变量”复选框,将在合并后的文件中建立—个名为source0l的变量。此变量仅有两个值:0和1,分别标记观测量属于当前工作文件或外部文件。
本例中数据1A和数据1B两个数据文件的变量是完全一致的,所以都进入了“新的活动数据集中的变量”列表框。如果两个数据文件的变量类型相同,变量名不同,那么将两者同时选中,单击“配对”按钮,就可以将它们移至“新的活动数据集中的变量”列表框。
合并后的新文件变量列中二者的观测值被合并在一起。如果要为“非成对变量”列表框中的变量重命名,那么选中它并单击“重命名”按钮,打开“重命名”对话框,输入新名称,单击“继续”按钮返回主对话框。
对“非成对变量”列表框中分属两个文件的变量配对时,要求二者必须具有相同的变量类型。变量宽度可以不同,但是属于工作文件(本例中为数据1A)的变量宽度应大于或等于外部文件(本例中为数据1B)中的变量宽度。若情况相反,则合并后外部文件被合并的观测量中相应的观测值可能不能显示,而在单元格里以若干“*”加以标记。
如果要让变量名和类型变量均不匹配的变量出现在新数据文件中,就选中它,单击箭头按钮,将它移到“新的活动数据集中的变量”列表框。设置完毕后单击“确定”按钮,执行合并就可以得到合并后的数据文件了。需要注意的是,如果将“非成对变量”列表框中的分属两个文件的类型不同的变量配对,在合并后的新文件中这两个变量都不会出现。本例中合并完成之后的数据集如图1.62所示。可以发现,数据1A的样本观测值扩充到了67个,与数据1B完成了合并。
图1.62 合并之后的数据1A
1.8.2 按照变量合并数据文件
按照变量合并数据文件是指将一个外部文件中的若干变量添加到当前工作文件中,又被称为横向合并。按照变量合并数据文件,要求参与合并的两个数据文件必须具有一个共同的关键变量,而且这两个文件中的关键变量还具有一定数量相等的观测量数值。所谓关键变量,指的是两个数据文件中变量名、变量类型、变量值排序完全相同的变量。此处以本文附带的数据1C和数据1D数据文件为例,这种“按照变量合并数据文件”的操作方法和步骤如下:
打开数据文件“数据1C”,然后选择“数据︱合并文件︱添加变量”命令,如图1.63所示。弹出“变量添加至数据1C.SAV”对话框,如图1.64所示。
图1.63 选择“数据︱合并文件︱添加变量”命令
图1.64 “变量添加至数据1C.SAV”对话框
在“从打开的数据集的列表中或者从文件中选择数据集,以便将其与活动数据集合并”选项组中选中“外部SPSS Statistics数据文件”单选按钮,单击“外部SPSS Statistics数据文件”项下的“浏览”按钮,弹出“添加变量:读取文件”对话框,如图1.65所示。
选定数据文件(此处以本文附带的“数据1D.SAV”为例),选中后单击“打开”按钮,返回“添加个案至……”对话框,再单击“继续”按钮,弹出“变量添加自……”对话框。
“变量”选项卡如图1.66所示。
· “排除的变量”列表框中列出的是外部文件(本例中为数据1D)与工作文件(本例中为数据1C)中重复的同名变量,本例中没有显示。
· “包含的变量”列表框中列出的是进入新的工作文件变量,分别用“+”和“*”来标记“外部文件(本例中为数据1D)”和活动文件(本例中为数据1C)。
· “键变量”列表框中列出的是关键变量,指的是两个数据文件中变量名、变量类型、变量值排序完全相同的变量。
根据需要设置完毕后,单击“确定”按钮,就可以将两个数据文件合并成一个新的数据文件了。
图1.65 “添加变量:读取文件”对话框
图1.66 “变量”选项卡
特别提示
如果两个文件含有相等的观测量,而且分类排序顺序一致,一一对应,就无须指定关键变量,直接单击OK按钮进行合并即可。
如果两个文件含有数目不等的观测量,而且分类排序顺序不一致或没有一一对应关系,则需在合并之前先对数据文件按关键变量进行升序排序,在“排除的变量”列表框中选择一个关键变量,移至“键变量”列表框中。
“合并方法”选项卡如图1.67所示。
· 基于文件顺序的一对一合并:这是按关键变量匹配观测量的系统默认选项,表示按照“选择查找表”列表框中列出的顺序将两个数据文件的所有观测量合并。合并结果是凡关键变量值相等的合并为一个观测量,如果在对方文件找不到相等的关键变量值,就合并为一个独立的观测量,即在新文件中单独作为一个观测量(相当于增加一个观测量),而缺少的变量值作为缺失值。
· 基于键值的一对一合并:表示将非活动数据文件作为关键表,即只将外部数据文件中与活动数据集中对应变量值相同的观测量并入新的数据文件。
· 基于键值的一对多合并:表示合并后保留当前外部文件中的观测量,且只有当前工作文件中与外部文件关键变量值相等的观测量才被合并到新文件中。
本例中默认合并方法为“基于键值的一对一合并”,表示将非活动数据文件作为关键表,即只将外部数据文件中与活动数据集中对应变量值相同的观测量并入新的数据文件。以上选项确定后,单击“确定”按钮,合并结果如图1.68所示。可以发现,相较于合并之前的数据1C文件,多了y2、y3两个变量,实现了与数据1D的合并。
图1.67 “合并方法”选项卡
图1.68 合并后的数据1C