Regresión logística: la guía definitiva para principiantes

La regresión logística es una técnica para predecir un
Variable de resultado dicotómica de 1+ predictores.

Ejemplo: ¿qué probabilidades hay de que las personas mueran antes de 2020, dada su edad en 2015? Tenga en cuenta que «morir» es una variable dicotómica porque solo tiene 2 resultados posibles (sí o no).

Este análisis también se conoce como regresión logística binaria o simplemente «regresión logística». Una técnica relacionada es la regresión logística multinomial que predice variables de resultado con más de 3 categorías.


Menú de regresión logística de SPSS

Regresión logística: ejemplo simple

Un hogar de ancianos tiene datos sobre N = 284 clientes, sexo, edad al 1 de enero de 2015 y si el cliente falleció antes del 1 de enero de 2020. Los datos sin procesar están en esta hoja de Google, que se muestra parcialmente a continuación.


Ejemplo de hoja de datos de regresión logística

Primero, centrémonos en la edad:
¿Podemos predecir la muerte antes de 2020 a partir de la edad de 2015?
Y -si es así- precisamente cómo? ¿Y hasta qué punto? Un buen primer paso es inspeccionar un diagrama de dispersión como el que se muestra a continuación.


Diagrama de dispersión de regresión logística

Algunas cosas que vemos en este diagrama de dispersión son que

  • todos menos uno de los clientes mayores de 83 años murieron en los siguientes 5 años;
  • la desviación estándar de la edad es mucho mayor para los clientes que murieron que para los clientes que sobrevivieron;
  • La edad tiene un sesgo positivo considerable, especialmente para los clientes que fallecieron.

Pero, ¿cómo podemos predecir si un cliente murió, dada su edad? Lo haremos ajustando una curva logística.

Ecuación de regresión logística simple

La regresión logística simple calcula la probabilidad de algún resultado dada una única variable predictora como

$$ P (Y_i) = frac {1} {1 + e ^ {, – , (b_0 , + , b_1X_ {1i})}} $$

dónde

  • (P (Y_i) ) es la probabilidad predicha de que (Y ) sea verdadera para el caso (i );
  • (e ) es una constante matemática de aproximadamente 2,72;
  • (b_0 ) es una constante estimada de los datos;
  • (b_1 ) es un coeficiente b estimado de los datos;
  • (X_i ) es la puntuación observada en la variable (X ) para el caso (i ).

La muy esencia de la regresión logística está estimando (b_0 ) y (b_1 ). Estos 2 números nos permiten calcular la probabilidad de que un cliente muera dada cualquier edad observada. Ilustraremos esto con algunas curvas de ejemplo que agregamos al diagrama de dispersión anterior.

Curvas de ejemplo de regresión logística


Ejemplos de curvas de regresión logística

Si se toma un minuto para comparar estas curvas, es posible que vea lo siguiente:

Por ahora, nos queda una pregunta: ¿cómo encontramos el «mejor» (b_0 ) y (b_1 )?

Regresión logística: probabilidad logarítmica

Para cada encuestado, un modelo de regresión logística estima la probabilidad de que ocurra algún evento (Y_i ). Obviamente, estas probabilidades deberían ser altas si el evento realmente ocurrió y al revés. Una forma de resumir qué tan bien se desempeña un modelo para todas encuestados es el probabilidad logarítmica (LL ):

$$ LL = sum_ {i = 1} ^ N Y_i cdot ln (P (Y_i)) + (1 – Y_i) cdot ln (1 – P (Y_i)) $$

dónde

  • (Y_i ) es 1 si el evento ocurrió y 0 si no ocurrió;
  • (ln ) denota el logaritmo natural: ¿a qué potencia debes elevar (e ) para obtener un número dado?

(LL ) es un bondad de ajuste medida: todo lo demás es igual, un modelo de regresión logística se ajusta mejor a los datos en la medida en que (LL ) es mas grande. De manera algo confusa, (LL ) siempre es negativo. Entonces
queremos encontrar el (b_0 ) y (b_1 ) para los cuales
(LL ) es lo más cercano a cero posible.

Estimación de máxima verosimilitud

A diferencia de la regresión lineal, la regresión logística no puede calcular fácilmente los valores óptimos para (b_0 ) y (b_1 ). En su lugar, debemos probar con diferentes números hasta que (LL ) no aumente más. Cada uno de estos intentos se conoce como iteración. El proceso de encontrar valores óptimos a través de tales iteraciones se conoce como estimación de máxima verosimilitud.

Así es básicamente cómo el software estadístico, como SPSS, Stata o SAS– obtener resultados de regresión logística. Afortunadamente, son increíblemente buenos en eso. Pero en lugar de informar (LL ), estos paquetes informan (- 2LL ).
(- 2LL ) es una medida de «mal ajuste» que sigue a
distribución de chi-cuadrado.

Esto hace que (- 2LL ) sea útil para comparar diferentes modelos, como veremos en breve. (- 2LL ) se denota como -2 Logaritmo de verosimilitud en el resultado que se muestra a continuación.


Probabilidad logarítmica en la salida de SPSS

La nota al pie aquí nos dice que la estimación de máxima verosimilitud necesitó solo 5 iteraciones para encontrar los coeficientes b óptimos (b_0 ) y (b_1 ). Así que echemos un vistazo a esos ahora.

Regresión logística – Coeficientes B

El resultado más importante para cualquier análisis de regresión logística son los coeficientes b. La siguiente figura los muestra para nuestros datos de ejemplo.


Coeficientes de regresión logística B

Antes de entrar en detalles, este resultado muestra brevemente

los coeficientes b que componen nuestro modelo;
los errores estándar para estos coeficientes b;
la estadística de Wald, calculada como (( frac {B} {SE}) ^ 2 ) – que sigue una distribución de chi-cuadrado;
los grados de libertad para la estadística de Wald;
los niveles de significancia para los coeficientes b;
los coeficientes b exponenciados o (e ^ B ) son las razones de probabilidades asociadas con los cambios en las puntuaciones de los predictores;
el intervalo de confianza del 95% para los coeficientes b exponenciados.

Los coeficientes b completan nuestro modelo de regresión logística, que ahora es

$$ P (muerte_i) = frac {1} {1 + e ^ {, – , (- 9.079 , + , 0.124 , cdot , edad_i)}} $$

Para un cliente de 75 años, la probabilidad de fallecer dentro de los 5 años es

$$ P (muerte_i) = frac {1} {1 + e ^ {, – , (- 9.079 , + , 0.124 , cdot , 75)}} = $$

$$ P (muerte_i) = frac {1} {1 + e ^ {, – , 0.249}} = $$

$$ P (muerte_i) = frac {1} {1 + 0.780} = $$

$$ P (muerte_i) aproximadamente 0.562 $$

Así que ahora sabemos cómo predecir la muerte en 5 años dada la edad de alguien. Pero, ¿qué tan buena es esta predicción? Hay varios enfoques. Comencemos con las comparaciones de modelos.

Regresión logística: modelo de línea de base

¿Cómo predecir quién falleció si no tuviéramos otra información? Bueno, el 50,7% de nuestra muestra falleció. Entonces, la probabilidad predicha sería simplemente 0.507 para todos.

Para fines de clasificación, generalmente predecimos que ocurre un evento si p (evento) ≥ 0,50. Dado que p (murió) = 0.507 para todos, simplemente predecimos que todos falleció. Esta predicción es correcta para el 50,7% de nuestra muestra que murió.


Tabla de clasificación Modelo 0

Regresión logística: razón de verosimilitud

Ahora, a partir de estas probabilidades predichas y los resultados observados, podemos calcular nuestra medida de mal ajuste: -2LL = 393,65. Nuestro modelo real, que predice la muerte por edad, resulta en -2LL = 354,20. La diferencia entre estos números se conoce como Índice de probabilidad (LR ):

$$ LR = (-2LL_ {base de referencia}) – (-2LL_ {modelo}) $$

En tono rimbombante, (LR ) sigue una distribución de chi-cuadrado con (df ) grados de libertad, calculados como

$$ df = k_ {modelo} – k_ {línea de base} $$

donde (k ) denota el número de parámetros estimados por los modelos. Como se muestra en esta hoja de Google, (LR ) y (df ) dan como resultado un nivel de significancia para todo el modelo.


Razón de verosimilitud Df y P

La hipótesis nula aquí es que algún modelo predice tan mal como el modelo de línea de base en alguna población. Dado que p = 0,000, rechazamos esto: nuestro modelo (que predice la muerte a partir de la edad) funciona significativamente mejor que un modelo de línea de base sin ningún predictor.
Pero precisamente cuánto ¿mejor? Esto se responde por su tamaño de efecto.

Regresión logística: tamaño del efecto del modelo

Una buena forma de evaluar el rendimiento de nuestro modelo es a partir de una medida del tamaño del efecto. Una opcion es la Cox y Snell R2 o (R ^ 2_ {CS} ) calculado como

$$ R ^ 2_ {CS} = 1 – e ^ { frac {(- 2LL_ {modelo}) , – , (- 2LL_ {línea de base})} {n}} $$

Lamentablemente, (R ^ 2_ {CS} ) nunca alcanza su máximo teórico de 1. Por lo tanto, una versión ajustada conocida como Nagelkerke R2 o (R ^ 2_ {N} ) a menudo se prefiere:

$$ R ^ 2_ {N} = frac {R ^ 2_ {CS}} {1 – e ^ {- frac {-2LL_ {línea de base}} {n}}} $$

Para nuestros datos de ejemplo, (R ^ 2_ {CS} ) = 0.130 lo que indica un tamaño de efecto medio. (R ^ 2_ {N} ) = 0.173, un poco más grande que mediano.


Medidas cuadradas de regresión logística pseudo R

Por último, (R ^ 2_ {CS} ) y (R ^ 2_ {N} ) son técnicamente completamente diferentes de r-cuadrado calculado en regresión lineal. Sin embargo, intentan cumplir el mismo papel. Por tanto, ambas medidas se conocen como pseudo r-cuadrado medidas.

Regresión logística: tamaño del efecto predictor

Curiosamente, muy pocos libros de texto mencionan algún tamaño de efecto para predictores individuales. Quizás sea porque estos están completamente ausentes en SPSS. La razón por la que los necesitamos es que
coeficientes b dependen de las escalas (arbitrarias) de nuestros predictores:
si ingresáramos la edad en días en lugar de años, su coeficiente b se reduciría enormemente. Obviamente, esto hace que los coeficientes b no sean adecuados para comparar predictores dentro o entre diferentes modelos.
JASP incluye parcialmente coeficientes b estandarizados: los predictores cuantitativos, pero no la variable de resultado, se ingresan como puntajes z como se muestra a continuación.


Coeficientes B estandarizados de regresión logística en Jasp

Supuestos de regresión logística

El análisis de regresión logística requiere los siguientes supuestos:

  1. observaciones independientes;
  2. especificación correcta del modelo;
  3. medición sin errores de la variable de resultado y todos los predictores;
  4. linealidad: cada predictor está relacionado linealmente a (e ^ B ) (la razón de posibilidades).

El supuesto 4 es algo discutible y omitido por muchos libros de texto.1,6. Puede ser evaluado con la prueba Box-Tidwell como lo discutió Field.4. Básicamente, esto se reduce a probar si hay algún efecto de interacción entre cada predictor y su logaritmo natural o (LN ).

Regresión logística múltiple

Hasta ahora, nuestra discusión se limitó a una regresión logística simple que usa solo un predictor. El modelo se amplía fácilmente con predictores adicionales, lo que da como resultado una regresión logística múltiple:

$$ P (Y_i) = frac {1} {1 + e ^ {, – , (b_0 , + , b_1X_ {1i} + , b_2X_ {2i} + , … + , b_kX_ {ki})}} $$

dónde

  • (P (Y_i) ) es la probabilidad predicha de que (Y ) sea verdadera para el caso (i );
  • (e ) es una constante matemática de aproximadamente 2,72;
  • (b_0 ) es una constante estimada de los datos;
  • (b_1 ), (b_2 ), …, (b_k ) son el coeficiente b para los predictores 1, 2, …, (k );
  • (X_ {1i} ), (X_ {2i} ), …, (X_ {ki} ) son puntuaciones observadas en los predictores (X_1 ), (X_2 ), … , (X_k ) para el caso (i ).

La regresión logística múltiple a menudo implica la selección del modelo y la verificación de la multicolinealidad. Aparte de eso, es una extensión bastante sencilla de la regresión logística simple.

Regresión logística: próximos pasos

Esta introducción básica se limitó a lo esencial de la regresión logística. Si desea obtener más información, es posible que desee leer sobre algunos de los temas que omitimos:

  1. los odds ratios, calculados como (e ^ B ) en regresión logística, expresan cómo cambian las probabilidades en función de las puntuaciones de los predictores;
  2. la prueba de Box-Tidwell examina si las relaciones entre las razones de probabilidades mencionadas anteriormente y las puntuaciones de los predictores son lineales;
  3. la prueba de Hosmer y Lemeshow es una prueba de bondad de ajuste alternativa para un modelo de regresión logística completo.

¡Gracias por leer!

Referencias

  1. Warner, RM (2013). Estadísticas aplicadas (2.ª edición). Thousand Oaks, CA: SAGE.
  2. Agresti, A. y Franklin, C. (2014). Estadísticas. El arte y la ciencia de aprender a partir de datos. Essex: Pearson Education Limited.
  3. Hair, JF, Black, WC, Babin, BJ et al (2006). Análisis de datos multivariados. Nueva Jersey: Pearson Prentice Hall.
  4. Field, A. (2013). Descubrimiento de estadísticas con IBM SPSS Statistics. Newbury Park, CA: Sage.
  5. Howell, DC (2002). Métodos estadísticos para la psicología (5ª ed.). Pacific Grove CA: Duxbury.
  6. Pituch, KA y Stevens, JP (2016). Estadística multivariante aplicada para las ciencias sociales (6.a edición). Nueva York: Routledge.