Ejemplos de regresión de variable ficticia de SPSS

El uso de predictores categóricos en regresión múltiple requiere una codificación ficticia. Entonces, ¿cómo usar estas variables ficticias y cómo interpretar la salida resultante? Este tutorial lo guiará.

Datos de ejemplo

Todos los ejemplos de este tutorial utilizan staff-dummies.sav, que se muestra parcialmente a continuación.


Vista de variables de Staff Dummies

Nuestro archivo de datos ya contiene variables ficticias para representar el tipo de contrato. Dos opciones para crear tales variables ficticias en otros archivos de datos son

Análisis I – Prueba T como regresión ficticia

Primero examinemos si el salario mensual está relacionado con el sexo. Dos opciones para averiguarlo son

Estos análisis arrojan los mismos resultados. Comparar estos es el primer paso para comprender la regresión de variables ficticias. Primero ejecutemos nuestra prueba t desde la siguiente sintaxis.

* Prueba t de muestras independientes: salario por sexo.

T-test grupos sexo (1 0)
/ variables salario.

Resultados


Salida de prueba T de muestras independientes de SPSS

El salario mensual bruto de las mujeres es 421,09 dólares más alto que el de los hombres. También tenga en cuenta que los hombres se codifican con 0, mientras que las mujeres se codifican con 1.
El nivel de significancia para esta diferencia media es 0,004: probablemente rechacemos la hipótesis nula de que los salarios medios de la población son iguales entre hombres y mujeres.
Un intervalo de confianza del 95% sugiere un rango probable para la diferencia de medias de la población. Va desde $ 134.52 hasta $ 707.67.

Ahora volvamos a ejecutar este análisis como regresión con una sola variable ficticia.

Ejemplo I: predictor ficticio único

En SPSS, primero navegamos a

Flecha de menú de SPSS

Flecha de menú de SPSS

y complete los cuadros de diálogo como se muestra a continuación.


Cuadro de diálogo Regresión de variable ficticia de SPSS 0

Completar estos pasos da como resultado la siguiente sintaxis. Ejecútelo.

* Regresión: salario por variable ficticia única (sexo).

REGRESIÓN
/ FALTA LISTWISE
/ COEFF ESTADÍSTICAS SALIDAS CI (95) R ANOVA
/CRITERIA=PIN(.05) PUNTO (.10)
/ NOORIGEN
/ Salario DEPENDIENTE
/ MÉTODO = INTRODUZCA el sexo.

Salida de regresión variable ficticia I


Salida 0 de regresión variable ficticia de SPSS

Tenga en cuenta que el constante es el salario medio de los hombres encuestados.
La coeficiente b para el sexo es la diferencia salarial media entre hombres y mujeres encuestados. Esto es igual al aumento promedio en el salario asociado con un aumento de 1 unidad en el sexo: de hombre (codificado 0) a mujer (codificado 1).

Esto tiene sentido porque la ecuación de regresión es

$$ Salario ‘= $ 2731 + $ 421 cdot Sexo $$

asi que para todos machos predecimos un salario mensual bruto de

$$ Salario ‘= $ 2731 + $ 421 cdot 0 = $ 2731 $$

y para todos hembras nosotros predecimos

$$ Salario ‘= $ 2731 + $ 421 cdot 1 = $ 3152 $$

Estos salarios previstos son simplemente los salarios medios para hombres y mujeres encuestados.

Finalmente, tenga en cuenta que el nivel de significancia y Los intervalos de confianza para el coeficiente b son idénticos a sus contrapartes para la diferencia media en los resultados de la prueba t.

Análisis II – ANOVA como regresión ficticia

Veamos ahora si el salario está relacionado con el tipo de contrato (autónomo, temporal o indefinido). Precisamente, probaremos la hipótesis nula de que
los salarios medios de la población son iguales en los 3 tipos de contrato.
Dos opciones para probar esta hipótesis son:

  • ANOVA y
  • regresión de variable ficticia.

Como veremos, los coeficientes b obtenidos de nuestro enfoque de regresión son idénticos a los contrastes simples de ANOVA: la media de un categoría de referencia se compara con la media de cada una de las otras categorías. Estos resultados de ANOVA se pueden replicar a partir de la siguiente sintaxis.

* ANOVA: salario por tipo de contrato.

salario unianova por contrato
/ contrast (contrato) = simple (1)
/ imprimir etasq descriptivo.

Resultados


Salida de contraste simple SPSS ANOVA

Dado que p <0.05, rechazamos la hipótesis nula de que todas las medias poblacionales son iguales.
El tamaño del efecto, eta al cuadrado es 0,125. Esto está entre medio (0,06) y grande (0,14).
La diferencia media entre los empleados con un contrato permanente y uno temporal (la categoría de referencia) es $ 465,94.
El valor p y El intervalo de confianza indica que esta diferencia de medias es «significativamente» diferente de cero, la hipótesis nula para esta comparación.

De manera similar, se comparan los salarios medios de los empleados en un contrato independiente con los de un contrato temporal (no se muestra aquí).

Ejemplo II – Múltiples predictores ficticios

Navegaremos a

Flecha de menú de SPSS

Flecha de menú de SPSS

y complete los cuadros de diálogo como se muestra a continuación.


Cuadro de diálogo Regresión de variable ficticia 1 de SPSS

Necesitamos elegir una categoría de referencia y no introdúzcalo como predictor: para representar k categorías, siempre ingresamos (k – 1) variables ficticias.
Competir con estos pasos genera la siguiente sintaxis.

* Regresión con 2 variables ficticias que representan el tipo de contrato.

REGRESIÓN
/ FALTA LISTWISE
/ COEFF ESTADÍSTICAS SALIDAS CI (95) R ANOVA
/CRITERIA=PIN(.05) PUNTO (.10)
/ NOORIGEN
/ Salario DEPENDIENTE
/ METHOD = ENTER contract_2 contract_3.

Salida de regresión variable ficticia II


Salida 1 de regresión variable ficticia de SPSS

Tenga en cuenta que R-cuadrado es igual al ANOVA eta al cuadrado que vimos anteriormente. Este es siempre el caso: ambas medidas indican la proporción de varianza en la variable dependiente explicada por la (s) variable (s) independiente (es).
R cuadrado para todo el modelo (que contiene solo 2 variables ficticias) es estadísticamente significativo. De hecho, toda la tabla ANOVA de regresión es idéntica a la obtenida de un ANOVA real.
La constante es el salario medio de nuestra categoría de referencia: empleados con contrato temporal. Estos encuestados puntúan cero en ambas variables ficticias en nuestro modelo. Para ellos, la ecuación de regresión se reduce a

$$ Salario ‘= $ 2675.8 + $ 465.94 cdot 0 + $ 1087.4 cdot 0 = $ 2675.8 $$

La coeficientes b son las diferencias medias entre cada categoría ficticia y la categoría de referencia: el salario medio de los empleados con contrato permanente es $ 465,94 más alto que el de los empleados con contrato temporal.
La diferencia salarial media entre los empleados con contrato fijo y temporal es «significativamente» diferente de cero porque p <0,05.
Todos los coeficientes b y sus valores p e intervalos de confianza son idénticos a los contrastes simples que vimos en los resultados anteriores de ANOVA.

Un último punto sobre estos resultados es que debe
ingrese ya sea todas o ninguno de las variables ficticias
que representa la misma variable categórica. De lo contrario, los coeficientes b ya no corresponden a las diferencias medias entre las categorías ficticias y la categoría de referencia. La siguiente figura intenta aclarar este punto un tanto desafiante.


Diagrama de diferencia de medias ficticias del coeficiente B

En resumen, una variable ficticia representa alguna categoría versus todas otras categorías agrupadas. Al separar estas otras categorías, excepto la referencia, se aíslan los efectos: esto hace que los coeficientes b sean iguales a las diferencias medias entre las categorías ficticias y la categoría de referencia.

Análisis III – ANCOVA como regresión ficticia

Hasta ahora, vimos que el tipo de contrato está asociado con el salario medio. Sin embargo, ¿podría esto deberse simplemente a la experiencia laboral? ¿Los empleados que tienen más años en el trabajo obtienen mejores tipos de contrato y salarios más altos solo porque tienen más experiencia?

Dos opciones para descartar tal posible confusión son

Primero analicemos esto como una regresión de variable ficticia. Luego, replicaremos los resultados a través del enfoque ANCOVA.

Ejemplo III – Predictores cuantitativos y ficticios

De nuevo, naveguemos hasta

Flecha de menú de SPSS

Flecha de menú de SPSS

y complete los pasos que se muestran a continuación.


Cuadro de diálogo Regresión de variable ficticia 2 de SPSS

Para este ejemplo, ejecutaremos un análisis de regresión jerárquico: primero ingresamos nuestra variable de control, expn (experiencia laboral).
Luego solicitamos un segundo «Bloque» de predictores.
Finalmente, ingresamos 2 variables ficticias (excluyendo contract_1, nuestra categoría de referencia) como nuestro segundo bloque.
Estos pasos dan como resultado la siguiente sintaxis.

* Regresión jerárquica con predictor cuantitativo, luego 2 variables ficticias.

REGRESIÓN
/ FALTA LISTWISE
/ COEFF ESTADÍSTICAS SALIDAS CI (95) R ANOVA CAMBIO
/CRITERIA=PIN(.05) PUNTO (.10)
/ NOORIGEN
/ Salario DEPENDIENTE
/ METHOD = ENTER expn
/ METHOD = ENTER contract_2 contract_3.

Salida de regresión variable ficticia III


Salida 2 de regresión variable ficticia de SPSS

SPSS ha ejecutado y comparado 2 modelos de regresión: modelo 1 contiene la experiencia laboral como el (único) predictor cuantitativo. Modelo 2 agrega nuestras 2 variables ficticias que representan el tipo de contrato al modelo 1.
Agregar las variables ficticias de tipo de contrato a la experiencia laboral aumenta el r cuadrado de 0,39 a 0,44.
Este aumento es estadísticamente significativo: nuestros maniquíes contribuyen a predecir el salario más allá de la experiencia laboral.
La constante en el modelo 2 es el salario medio de los empleados que a) tienen un contrato temporal (categoría de referencia) yb) tienen 0 años de experiencia laboral. Estos son empleados que puntúan cero en todos los predictores del modelo 2.
Un aumento de 1 unidad (año) en la experiencia laboral se asocia con un aumento promedio de $ 113,75 en el salario mensual si controlamos el tipo de contrato.
La diferencia salarial media entre los empleados con contratos permanentes (ficticios) y temporales (de referencia) es de $ 321,14 si controlamos la experiencia laboral.
Dado que p <0,05, esta diferencia media es estadísticamente significativa.

Ahora volvamos a ejecutar exactamente el mismo análisis que un ANCOVA de la siguiente sintaxis.

* ANCOVA para salario por contrato, controlando por experiencia (años).

salario unianova por contrato con expn
/ contrast (contrato) = simple (1)
/ imprimir etasq descriptivo.

Resultados


Salida 1 de SPSS ANCOVA

El eta cuadrado parcial para el «modelo corregido» es igual a la regresión r-cuadrado.
La salida también contiene tamaños de efecto para ambos predictores por separado. Tenga en cuenta que 0.361 y 0.082 suman 0.443, algo mayor que 0.440 para todo el modelo. Esto se debe a que estos efectos se superponen parcialmente: la experiencia está asociada con el tipo de contrato.
La diferencia salarial media entre los empleados con contratos permanentes y temporales es de $ 321,14 si corregimos la experiencia laboral. Esta diferencia se consideró un coeficiente b en el resultado de la regresión ficticia anterior.
Como era de esperar, el valor p y Los intervalos de confianza también son idénticos a sus contrapartes de regresión ficticia.

¿Es inútil la regresión variable ficticia?

Muchos libros de texto proponen la regresión de variables ficticias como la única opción para usar una combinación de predictores cuantitativos y categóricos. Sin embargo, nuestro último ejemplo sugiere que ANCOVA puede ser una mejor opción para este escenario. ¿Por qué? Bien,

  • ANCOVA no requiere agregar variables ficticias (técnicamente redundantes) a sus datos.
  • ANCOVA genera un tamaño de efecto único (eta cuadrado parcial) para todo el predictor categórico. Esto es más útil que los tamaños del efecto para variables ficticias separadas porque nunca las agregamos por separado a un modelo de regresión.
  • Probar los efectos de moderación entre predictores cuantitativos y categóricos es bastante fácil a través de ANCOVA, pero bastante complicado a través de la regresión.

Notas finales

En primer lugar, tenga en cuenta que los análisis de este tutorial omitieron algunos pasos importantes:

  • no inspeccionamos ninguna distribución de frecuencia para ver si nuestros datos parecen plausibles;
  • no vimos si faltaban valores en nuestros datos;
  • no evaluamos ningún supuesto del modelo (normalidad, linealidad, etc.).

Le recomendamos que examine detenidamente estos problemas siempre que trabaje con archivos de datos del mundo real.

Bien, eso debería ser suficiente para la regresión ficticia en SPSS. Para obtener una descripción general útil de los resultados de los 6 análisis, haga clic aquí. ¿Le resultó útil (no) este tutorial? ¿Estás de acuerdo o en desacuerdo con nosotros? Háganoslo saber enviando un comentario a continuación.

¡Gracias por leer!