Creación de variables ficticias en SPSS

No puede usar fácilmente variables categóricas como predictores en la regresión lineal: debe dividirlas en variables dicotómicas conocidas como variables ficticias.

La forma ideal de crearlos es nuestra herramienta de variables ficticias. Si no desea utilizar esta herramienta, este tutorial muestra la forma correcta de hacerlo manualmente.

Archivo de datos de ejemplo

Este tutorial utiliza staff.sav en todo momento. Parte de este archivo de datos se muestra a continuación.


Vista de datos del personal de SPSS

Ejemplo I: cualquier variable numérica

Primero creemos variables ficticias para marit, abreviatura de estado civil. Nuestro primer paso es ejecutar una tabla FREQUENCIES básica con
frecuencias marit.
La siguiente tabla muestra la tabla resultante.


Creación de variables ficticias en SPSS Frequencies Marit

Entonces, ¿cómo dividir el estado civil en variables ficticias? En primer lugar, siempre omitimos una categoría, la categoría de referencia. Puede elegir cualquier categoría como categoría de referencia.

Entonces, para este ejemplo, elegimos 5 (Viudo). Esto implica que crearemos 3 variables ficticias que representan las categorías 1, 2 y 4 (tenga en cuenta que 3 no ocurre en esta variable).

La siguiente sintaxis muestra cómo crear y etiquetar nuestras 3 variables ficticias. Ejecútelo.

* Cree variables ficticias para las categorías 1, 2 y 4.

calcular marit_1 = (marit = 1).
calcular marit_2 = (marit = 2).
calcular marit_4 = (marit = 4).

* Aplicar etiquetas de variable a variables ficticias.

etiquetas de variable
marit_1 ‘Estado civil = Nunca casado’
marit_2 ‘Estado civil = Actualmente casado’
marit_4 ‘Estado civil = Divorciado’.

* Verificación rápida de la primera variable ficticia

frecuencias marit_1.

Resultados

En primer lugar, tenga en cuenta que creamos 3 variables ficticias bien etiquetadas en nuestro conjunto de datos activo.


SPSS Crear variables ficticias Resultado 1

La siguiente tabla muestra la distribución de frecuencia de nuestra primera variable ficticia.


Tabla de frecuencia Variable ficticia

Tenga en cuenta que nuestra variable ficticia contiene 3 valores distintos:

  • encuestados cuyo estado civil es no Puntuación de «nunca casado» 0;
  • los encuestados cuyo estado civil es “nunca se casó” puntúan 1;
  • los encuestados cuyo estado civil es un valor perdido (y por lo tanto desconocido) tienen un valor perdido del sistema.

Ahora podemos verificar los resultados más a fondo ejecutando
tablas de referencias cruzadas marit de marit_1 a marit_4.
Al hacerlo, se crean 3 tablas de contingencia, la primera de las cuales se muestra a continuación.


SPSS Crear variables ficticias Comprobar resultados 1

En nuestra variable ficticia,

los encuestados que tienen un estado civil diferente al de “nunca se casaron” puntúan todos con 0;

todos los encuestados que “nunca se casaron” puntúan 1;

tenemos un tamaño de muestra de N = 170 (esta tabla solo incluye a los encuestados sin valores perdidos en ninguna de las variables).

Opcionalmente, una final –muy minucioso– la verificación es comparar los resultados de ANOVA para la variable original con los resultados de la regresión usando nuestras variables ficticias. La siguiente sintaxis hace precisamente eso, utilizando el salario mensual como variable dependiente.

 

* Regresión mínima utilizando variables ficticias.

regresión
/ salario dependiente
/ método ingrese marit_1 a marit_4.

* ANOVA mínimo usando variable original.

salario único por marit.

Tenga en cuenta que ambos análisis dan como resultado idéntico Tablas ANOVA. Analizaremos ANOVA versus regresión de variable ficticia más a fondo en un tutorial futuro.

Ejemplo II: Variable numérica con números enteros adyacentes

Ahora crearemos variables ficticias para la región. Nuevamente, comenzamos inspeccionando una tabla de frecuencia mínima que crearemos ejecutando
región de frecuencias.
Esto da como resultado la siguiente tabla.


Creación de variables ficticias en la región de frecuencias de SPSS

Elegiremos 1 («Norte») como nuestra categoría de referencia. Por lo tanto, crearemos variables ficticias para las categorías 2 a 5. Dado que estos son números enteros adyacentes, podemos acelerar las cosas usando DO REPEAT como se muestra a continuación.

* Cree variables ficticias para las categorías de región 2 a 5.

repita #vals = 2 a 5 / #vars = region_2 a region_5.
recodificar región (#vals = 1) (lo thru hi = 0) en #vars.
finalizar repita la impresión.

* Aplicar etiquetas de variable a nuevas variables.

etiquetas de variable
region_2 ‘Región = Este’
region_3 ‘Región = Sur’
region_4 ‘Región = Oeste’
region_5 ‘Región = 4 ciudades principales’.

*Comprobación rápida.

Tablas de referencias cruzadas región por región_2 a región_5.

Una inspección cuidadosa de las tablas resultantes confirma que todos los resultados son correctos.

Ejemplo III: Variable de cadena con conversión

Lamentablemente, nuestros primeros 2 métodos no funcionan para variables de cadena como jtype -short para «tipo de trabajo»). La solución más sencilla es convertirla en una variable numérica como se explica en SPSS Convertir cadena en variable numérica. La siguiente sintaxis usa AUTORECODE para realizar el trabajo.

* Convertir jtype en variable numérica.

autorecode jtype
/ en njtype.

*Comprobar resultado.

frecuencias njtype.

* Establecer valores perdidos.

valores perdidos njtype (1,2).

* Vuelva a comprobar el resultado.

frecuencias njtype.

Resultado


SPSS Crear variables ficticias Tabla de frecuencia Njtype

Dado que njtype -short para “tipo de trabajo numérico” – es una variable numérica, ahora podemos usar el método I o el método II para dividirlo en variables ficticias.

Ejemplo IV: Variable de cadena sin conversión

Convertir variables de cadena en numéricas es fácil de crear variables ficticias para ellas. Sin esta conversión, el proceso es engorroso porque SPSS no maneja correctamente los valores perdidos para las variables de cadena. Sin embargo, la siguiente sintaxis hace el trabajo correctamente.

* Inspeccione las frecuencias.

frecuencias jtype.

* Posibilidad de ‘(Desconocido)’ en ‘NA’.

recode jtype (‘(Desconocido)’ = ‘NA’).

* Establecer los valores perdidos del usuario.

valores perdidos jtype (», ‘NA’).

* Vuelva a inspeccionar las frecuencias.

frecuencias jtype.

* Cree variables ficticias para la variable de cadena.

if (no falta (jtype)) jtype_1 = (jtype = ‘IT’).
if (no falta (jtype)) jtype_2 = (jtype = ‘Gestión’).
if (no falta (jtype)) jtype_3 = (jtype = ‘Ventas’).
if (no falta (jtype)) jtype_4 = (jtype = ‘Staff’).

* Aplicar etiquetas de variable a variables ficticias.

etiquetas de variable
jtype_1 ‘Tipo de trabajo = IT’
jtype_2 ‘Tipo de trabajo = Gestión’
jtype_3 ‘Tipo de trabajo = Ventas’
jtype_4 ‘Tipo de trabajo = Personal’.

* Consultar resultados.

tablas de referencias cruzadas jtype por jtype_1 a jtype_4.

Notas finales

La creación de variables ficticias para variables numéricas se puede realizar de forma rápida y sencilla. Sin embargo, establecer etiquetas de variable adecuadas siempre requiere un poco de trabajo. Las variables de cadena requieren algunos pasos adicionales, pero también son bastante factibles.

Sin embargo, la opción más sencilla es nuestra herramienta SPSS Create Dummy Variables Tool, ya que se encarga perfectamente de todo.

¡Espero que hayas encontrado útil este tutorial! Háganos saber lanzando un comentario a continuación.

¡Gracias por leer!