La regresión múltiple es una técnica estadística que tiene como objetivo predecir una variable de interés a partir de varias otras variables.
La variable que se predice se conoce como criterio. Las variables que predicen el criterio se conocen como predictores. La regresión requiere variables métricas, pero también se encuentran disponibles técnicas especiales para usar variables categóricas.
Regresión múltiple: ejemplo
Dirijo una empresa y quiero saber cómo se relaciona el desempeño laboral de mis empleados con su coeficiente intelectual, su motivación y la cantidad de apoyo social que reciben. Intuitivamente, asumo que un mayor coeficiente intelectual, motivación y apoyo social están asociados con un mejor desempeño laboral. La siguiente figura visualiza este modelo.
En este punto, mi modelo realmente no me lleva a ninguna parte; aunque el modelo tiene sentido intuitivo, no sabemos si corresponde a la realidad. Además, el modelo sugiere que mis predictores (coeficiente intelectual, motivación y apoyo social) se relacionan con el desempeño laboral, pero no dice nada sobre Que tan fuerte estas presuntas relaciones son. En esencia, El análisis de regresión proporciona estimaciones numéricas de las fortalezas de tales relaciones..
Para utilizar el análisis de regresión, necesitamos datos sobre las cuatro variables (1 criterio y 3 predictores) en nuestro modelo. Por lo tanto, hacemos que nuestros empleados realicen algunas pruebas que los miden. Parte de los datos brutos que recopilamos se muestran a continuación.
Regresión múltiple: datos brutos
Regresión múltiple: datos de significado
El significado de cada variable en nuestros datos se ilustra en la siguiente figura.
En cuanto a las puntuaciones en estas pruebas, las pruebas , y tener puntuaciones que van desde 0 (lo más bajo posible) hasta 100 (lo más alto posible).
El coeficiente intelectual tiene un promedio de 100 puntos con una desviación estándar de 15 puntos en una población promedio; aproximadamente, describimos una puntuación de 70 como muy baja, 100 como normal y 130 como muy alta.
Regresión múltiple – Coeficientes B
Ahora que recopilamos los datos necesarios, nuestro software (SPSS o algún otro paquete) ejecuta un análisis de regresión múltiple en ellos. El resultado principal se muestra a continuación.
Para hacer las cosas un poco más visuales, agregamos los coeficientes b a la descripción general de nuestro modelo, que se ilustra a continuación. (Veremos los coeficientes beta más adelante).
Tenga en cuenta que el modelo ahora cuantifica las fortalezas de las relaciones que suponemos. Precisamente, el modelo dice que
Desempeño laboral = (0.31 x motivación) +
(0,16 x apoyo social) + (0,27 x inteligencia) + 18,1.
En nuestro modelo, 18,1 es una puntuación de referencia que no está relacionada con ninguna otra variable. Es una constante entre los encuestados, lo que significa que son los mismos 18,1 puntos para cada encuestado.
La fórmula muestra cómo se estima el desempeño laboral: sumamos cada uno de los puntajes de los predictores después de multiplicarlos por algún número. Estos números se conocen como coeficientes b o coeficientes de regresión no estandarizados:
un coeficiente B indica cuántas unidades cambia el criterio para un aumento de una unidad en un predictor, todo lo demás igual.
En este caso, las “unidades” pueden tomarse literalmente como las unidades de medida de las variables involucradas. Estos pueden ser metros, dólares, horas o, en nuestro caso, puntos puntuados en varias pruebas.
Por ejemplo, un aumento de 1 punto en nuestra prueba de motivación se asocia con un aumento de 0,31 puntos en nuestra prueba de desempeño laboral. Esto significa que, en promedio, los encuestados que obtienen 1 punto más en motivación obtienen 0.31 puntos más en desempeño laboral. Volveremos a los coeficientes b en un minuto.
Regresión múltiple: linealidad
A menos que se especifique lo contrario, «regresión múltiple» normalmente se refiere al análisis de regresión múltiple lineal univariante. “Univariante” significa que estamos prediciendo exactamente una variable de interés. “Lineal” significa que la relación entre cada predictor y el criterio es lineal en nuestro modelo. Por ejemplo, la siguiente figura visualiza la supuesta relación entre la motivación y el desempeño laboral.
Manten eso en mente La linealidad es una suposición que puede o no ser válida.. Por ejemplo, la relación real entre la motivación y el desempeño laboral también puede ser no lineal como se muestra a continuación.
En la práctica, a menudo asumimos linealidad al principio y luego inspeccionamos algunos diagramas de dispersión en busca de signos de relaciones no lineales.
Regresión múltiple: coeficientes beta
Los coeficientes b son útiles para estimar el desempeño laboral, dados los puntajes de nuestros predictores. Sin embargo, no siempre podemos usarlos para comparar las fortalezas relativas de nuestros predictores porque dependen de las escalas de nuestros predictores.
Es decir, si usáramos el salario en euros como predictor, entonces reemplazarlo por el salario en centavos de euro disminuiría el coeficiente B en un factor de 100; si un aumento de salario de 1 euro corresponde a un aumento de 2,3 puntos en el rendimiento laboral, entonces un aumento de un céntimo de euro corresponde a un aumento de (2,3 / 100 =) 0,023 puntos. Sin embargo, probablemente sienta que cambiar euros a céntimos de euro no hace que el salario sea un predictor «más fuerte».
La solución a este problema es estandarizar el criterio y todos los predictores; los transformamos en puntuaciones z. Esto le da a todas las variables la misma escala: el número de desviaciones estándar por debajo o por encima de la media de la variable.
Si volvemos a ejecutar nuestro análisis de regresión utilizando estos puntajes z, obtenemos coeficientes b que nos permiten comparar las fortalezas relativas de los predictores. Estos coeficientes de regresión estandarizados se conocen como coeficientes beta.
Los coeficientes beta son coeficientes b obtenidos al ejecutar una regresión en variables estandarizadas.
La siguiente figura muestra los coeficientes beta obtenidos de nuestro análisis de regresión múltiple.
Una nota menor aquí es que la constante mencionada anteriormente se ha dejado fuera de la figura. Después de estandarizar todas las variables, siempre es cero porque las puntuaciones z siempre tienen una media de cero por definición.
Regresión múltiple: valores predichos
Bien, ahora volvamos a los coeficientes b: tenga en cuenta que podemos usar los coeficientes b para predecir el desempeño laboral de cada encuestado. Por ejemplo, consideremos las puntuaciones de nuestro primer encuestado, Henry, que se muestran a continuación.
Para Henry, nuestro modelo de regresión establece que
desempeño laboral = (109 x 0.27) + (89 x 0.31) + (73 x 0.16) + 18.1 = 86.8.
Es decir, Henry tiene un valor previsto para el desempeño laboral de 86,8. Este es el puntaje de desempeño laboral que Henry debería tener según nuestro modelo. Sin embargo, dado que nuestro modelo es solo un intento de aproximar la realidad, los valores predichos generalmente difieren algo de los valores reales en nuestros datos. Ahora exploraremos este problema un poco más.
Regresión múltiple – R cuadrado
En lugar de calcular manualmente los valores predichos del modelo para el desempeño laboral, podemos hacer que nuestro software lo haga por nosotros. Después de hacerlo, cada encuestado tendrá dos puntajes de desempeño laboral: el puntaje real medido por nuestra prueba y el valor que obtiene nuestro modelo. Parte del resultado se muestra a continuación.
Ahora bien, si nuestro modelo funciona bien, estos dos puntajes deberían ser bastante similares para cada encuestado. Inspeccionaremos hasta qué punto este es el caso creando un diagrama de dispersión como se muestra a continuación.
Vemos una fuerte relación lineal entre los valores reales y predichos. La fuerza de tal relación se expresa normalmente como una correlación. Para estos datos, existe una correlación de 0,81 entre los puntajes de desempeño laboral reales y previstos. Sin embargo, a menudo informamos el cuadrado de esta correlación, conocido como R cuadrado, que es 0,65.
R cuadrado es la correlación al cuadrado (Pearson) entre
valores predichos y reales.
Estamos interesados en R cuadrado porque indica qué tan bien nuestro modelo puede predecir una variable de interés. Un valor de R cuadrado de 0,65 como el que encontramos se considera generalmente muy alto; ¡Nuestro modelo hace un gran trabajo!
Regresión múltiple – Cuadrado R ajustado
Recuerde que los coeficientes b nos permiten predecir el desempeño laboral, dados los puntajes de nuestros predictores. Entonces, ¿cómo aumenta nuestro software los coeficientes b que informamos? ¿Por qué eligió 0.31 como motivación en lugar de, digamos, 0.21 o 0.41? La respuesta básica es que calcula los coeficientes b que conducen a valores predichos que están lo más cerca posible de los valores reales. Esto significa que el software calcula los coeficientes b que maximizan R cuadrado para nuestros datos.
Ahora, asumiendo que nuestros datos son una muestra aleatoria simple de nuestra población objetivo, diferirán un poco de los datos de la población debido a un error de muestreo. Por lo tanto, los coeficientes b óptimos para nuestra muestra no son óptimos para nuestra población. Esto significa que también encontraríamos un valor de R cuadrado algo más bajo si usáramos nuestro modelo de regresión en nuestra población.
El R cuadrado ajustado es una estimación del R cuadrado de la población si usáramos nuestro modelo de regresión muestral en nuestra población.
El cuadrado R ajustado da una indicación más realista del poder predictivo de nuestro modelo, mientras que el cuadrado R es demasiado optimista. Esta disminución en el cuadrado de R se conoce como contracción y empeora con muestras más pequeñas y un mayor número de predictores.
Regresión múltiple: notas finales
Este tutorial tiene como objetivo dar una explicación rápida de los conceptos básicos de regresión múltiple. En la práctica, sin embargo, hay más cuestiones involucradas, como la homocedasticidad y la multicolinealidad. Estos están más allá del alcance de este tutorial, pero se proporcionarán tutoriales separados en un futuro próximo.