当我们进行问卷分析时,由于大部分因变量都是连续线性变量,所以我们大多会采用线性回归分析来研究变量之间的关系。 这时,一般数据或者人口变量就会包含很多分组或者分类变量,比如性别、教育程度等等。
如果这些人口变量在因变量中存在显着差异,那么在进行回归分析时,需要将这些存在显着差异的人口变量作为控制变量纳入线性回归分析。
但多类别变量不能直接作为线性回归中的自变量进行运算,这就需要用到我们今天讲解的虚拟线性回归分析。 下面通过实际案例来详细讲解。
我们收集了558个样本的压力、心理、STS和一般信息数据,想研究压力和心理是否会显着影响STS。 我们之前计算过伤病、身体、加时、身份是STS差异显着的因素。 因此,这4个变量将作为控制变量纳入回归分析(图1)。 可见,这4个变量是分组分类变量,不能直接作为自变量进行回归分析。 它们必须首先被虚拟化。 下面将讲解如何虚拟化spss操作步骤。
图1
虚拟化操作步骤:
以数据中的“身体”为例。 身体分为三类:“差”、“一般”和“好”。 我们需要将每个类别虚拟成一列变量,并以0否1是的形式重新赋值,但是3类,我们需要选择一个类作为参考类,所以只使用了两个虚拟类。
①点击“转换”——“重新编码为不同变量”(图2),在右侧数字变量框中选择“Body”,然后填写新生成的变量名称,这里是第一类“Body ” ,写入后,点击更改量,表示将原来的“body”变量重新转码为“body ”变量(图3)
图2
图3
②点击“旧值、新值”进行转码和赋值。 原“”变量中“ ”的代码为1。这里,转换为新的“ ”变量后,变为“Yes = 1”。 原来一般、身体健康都编码为“非穷体”,即“否=0”,所以我们将旧值1赋为1,其余旧值全部赋为0(图3-图5),点击确定,完成新变量“ Poor”的虚拟化。
图4
图5
图6
③ 接下来,用同样的方法虚拟出“正常身体”的类别。 区别在于将类别2的旧值赋给新的1,其余赋给0(图7)
图7
④第三类身体健康不需要虚拟化,可以作为默认参考类别,然后有“身体”、“身体差”和“身体一般”2个虚拟变量(图8)
图8
⑤同样,我们虚拟化剩下的3个控制变量(图9)
图9
⑥然后进行常规线性回归运算,以STS为因变量,将压力、心理、伤病、健康状况不佳、健康状况一般、加班≤1、加班2-3,确认为自变量,进行回归分析(图10)
图10
⑦ 分析结果
图11
从以上分析结果可以看出:压力4、压力5、心理学1可以显着负面影响STS、P