La regresión lineal simple es una técnica que predice una variable métrica a partir de una relación lineal con otra variable métrica.
Recuerde que las «variables métricas» se refieren a variables medidas a nivel de intervalo o razón. El punto aquí es que los cálculos, como la suma y la resta, son significativos en las variables métricas (“salario” o “longitud”) pero no en las variables categóricas (“nacionalidad” o “color”).
Ejemplo: predecir el rendimiento laboral a partir del coeficiente intelectual
Alguna empresa quiere saber
¿Podemos predecir el desempeño laboral a partir de los puntajes de CI?
El primer paso que deben tomar es medir tanto el desempeño (laboral) como el coeficiente intelectual de tantos empleados como sea posible. Lo hicieron con 10 empleados y los resultados se muestran a continuación.
Al observar estos datos, parece que los empleados con puntajes de CI más altos también tienden a tener mejores puntajes de desempeño laboral. Sin embargo, esto es difícil de ver incluso con 10 casos, y mucho menos más. La solución a esto es crear un diagrama de dispersión como se muestra a continuación.
Rendimiento del diagrama de dispersión con IQ
Tenga en cuenta que el identificación Los valores de nuestros datos muestran qué punto representa a qué empleado. Por ejemplo, el punto más alto (mejor desempeño) es 1 -Kevin, con una puntuación de desempeño de 115.
De todos modos, si nos movemos de izquierda a derecha (de menor a mayor coeficiente intelectual), nuestros puntos tienden a situarse más arriba (mejor rendimiento). Es decir, nuestro diagrama de dispersión muestra una correlación positiva (de Pearson) entre el coeficiente intelectual y el rendimiento.
Rendimiento de la correlación de Pearson con el coeficiente intelectual
Como se muestra en la figura anterior, la correlación es de 0,63. A pesar de nuestro pequeño tamaño de muestra, incluso es estadísticamente significativo porque p <0,05. Existe una fuerte relación lineal entre el coeficiente intelectual y el rendimiento. Pero lo que aún no hemos respondido es:
¿Cómo podemos predecir el rendimiento a partir del coeficiente intelectual?
Lo haremos asumiendo que la relación entre ellos es lineal. Ahora, la relación exacta requiere solo 2 números, e intersección y pendiente, y la regresión los calculará por nosotros.
Relación lineal – Fórmula general
Cualquier relación lineal se puede definir como Y ‘= A + B * X. Veamos qué significan estos números.
Dado que X está en nuestros datos, en este caso, nuestros puntajes de CI, podemos predecir el rendimiento si conocemos la intersección (o constante) y el coeficiente B. Primero hagamos que SPSS los calcule y luego ampliemos un poco más su significado.
Fórmula de predicción para el rendimiento
Este resultado nos dice que la mejor predicción posible para el desempeño laboral dado el coeficiente intelectual es
rendimiento previsto = 34,26 + 0,64 * IQ.
Entonces, si obtenemos un solicitante con un coeficiente intelectual de 100, nuestra mejor estimación posible de su desempeño es
rendimiento previsto = 34,26 + 0,64 * 100 = 98,26.
Entonces, el resultado principal de nuestro análisis de regresión son 2 números:
- Un interceptar (constante) de 34,26 y
- a coeficiente b de 0,64.
Entonces, ¿de dónde provienen estos números y qué significan?
Coeficiente B – Pendiente de regresión
Un coeficiente b es el número de unidades de aumento en Y asociado con el aumento de una unidad en X.
Nuestro coeficiente b de 0,64 significa que un aumento de una unidad en el coeficiente intelectual está asociado con un aumento de 0,64 unidades en el rendimiento. Visualizamos esto agregando nuestra línea de regresión a nuestro diagrama de dispersión como se muestra a continuación.
En promedio, los empleados con CI = 100 obtienen 6.4 puntos de desempeño más altos que los empleados con CI = 90. Cuanto más alto es nuestro coeficiente b, más pronunciada es nuestra línea de regresión. Esta es la razón por la que b a veces se denomina pendiente de regresión.
Intercepción de regresión («constante»)
La intersección es el resultado previsto para los casos que puntúan 0 en el predictor.
Si alguien obtuviera un CI = 0, predeciríamos un desempeño de (34.26 + 0.64 * 0 =) 34.26 para esta persona. Técnicamente, la intersección es la puntuación y donde la línea de regresión cruza («intercepta») el eje y, como se muestra a continuación.
Espero que esto aclare lo que realmente significan la intersección y el coeficiente b. Pero, ¿por qué SPSS ofrece a = 34,3 yb = 0,64 en lugar de otros números? Un enfoque de la respuesta comienza con los residuos de regresión.
Residuos de regresión
Un residuo de regresión es el valor observado, el valor predicho en la variable de resultado para algún caso.
La siguiente figura visualiza los residuos de regresión para nuestro ejemplo.
Para la mayoría de los empleados, su desempeño observado difiere de lo que predice nuestro análisis de regresión. Cuanto mayor sea esta diferencia (residual), peor nuestro modelo predice el desempeño de este empleado. Entonces, ¿qué tan bien nuestro modelo predice el rendimiento? para todos los casos?
Primero calculemos los valores predichos y los residuos para nuestros 10 casos. La captura de pantalla a continuación los muestra como 2 nuevas variables en nuestros datos. Tenga en cuenta que actuación = pred + resid.
Nuestros residuos indican cuánto está desfasada nuestra ecuación de regresión para cada caso. Entonces, ¿cuánto es nuestra ecuación de regresión para todos los casos? El residuo promedio parece responder a esta pregunta. Sin embargo, siempre es cero: los residuos positivos y negativos simplemente suman cero. Entonces, en su lugar, calculamos el significar al cuadrado residual que resulta ser la varianza de los residuos.
Varianza de error
La varianza del error es el residuo cuadrático medio e indica qué tan mal nuestro modelo de regresión predice alguna variable de resultado.
Es decir, la varianza del error es la varianza en la variable de resultado que la regresión no «explica».
Entonces, ¿es la varianza del error una medida útil? Casi. Un problema es que la varianza del error no es una medida estandarizada: una variable de resultado con una gran varianza normalmente también dará como resultado una gran varianza del error. Este problema se resuelve dividiendo la varianza del error por la varianza de la variable de resultado. Restar esto de 1 da como resultado r-cuadrado.
R-Square: precisión predictiva
R-cuadrado es la proporción de varianza en la variable de resultado que se explica por la regresión.
Una forma de calcularlo es a partir de la varianza de la variable de resultado y la varianza del error, como se muestra a continuación.
El rendimiento tiene una variación de 73,96 y nuestra variación de error es de solo 44,19. Esto significa que nuestro La ecuación de regresión explica aproximadamente el 40% de la varianza. en rendimiento. Este número se conoce como r-cuadrado. Por tanto, R-cuadrado indica la precisión de nuestro modelo de regresión.
Una segunda forma de calcular r-cuadrado es simplemente elevando al cuadrado la correlación entre el predictor y la variable de resultado. En nuestro caso, 0,6342 = 0,40. Se llama r-cuadrado porque «r» denota una correlación muestral en estadística.
Entonces, ¿por qué nuestra regresión dio como resultado 34,26 y 0,64 en lugar de algunos otros números? Bueno, eso es porque
La regresión calcula los coeficientes que maximizan el r-cuadrado.
Para nuestros datos, cualquier otro intercepto o coeficiente b resultará en un r-cuadrado más bajo que el 0.40 que logró nuestro análisis.
Estadística inferencial
Hasta ahora, nuestra regresión nos dijo 2 cosas importantes:
- cómo predecir el rendimiento a partir del CI: los coeficientes de regresión;
- qué tan bien el CI puede predecir el rendimiento: r-cuadrado.
Hasta ahora, ambos resultados solo se aplican a nuestros 10 empleados. Si eso es todo lo que buscamos, habremos terminado. Sin embargo, probablemente queramos generalizar los resultados de nuestra muestra a una población (mucho) mayor. Hacerlo requiere algunas estadísticas inferenciales, la primera de las cuales se ajusta al cuadrado r.
R-cuadrado ajustado
R-cuadrado ajustado es un estimador insesgado de r-cuadrado en la población.
La regresión calcula coeficientes que maximizan r-cuadrado para nuestros datos. Aplicar estos a otros datos, como toda la población, probablemente resulte en un r-cuadrado: r-cuadrado ajustado algo más bajo. Este fenómeno se conoce como contracción.
Para nuestros datos, r-cuadrado ajustado es 0.33, que es mucho más bajo que nuestro r-cuadrado de 0.40. Es decir, tenemos bastante contracción. Generalmente,
- Los tamaños de muestra más pequeños dan como resultado una mayor contracción y
- incluir más predictores (en regresión múltiple) da como resultado una mayor contracción.
Errores estándar y significado estadístico
Por último, repasemos el último fragmento de nuestro resultado.
La intersección y el coeficiente b definen la relación lineal que mejor predice la variable de resultado del predictor.
Los errores estándar son las desviaciones estándar de nuestros coeficientes sobre muestras repetidas (hipotéticas). Los errores estándar más pequeños indican estimaciones más precisas.
Los coeficientes beta son coeficientes b estandarizados: coeficientes b calculados después de estandarizar todos los predictores y la variable de resultado. En su mayoría, son útiles para comparar diferentes predictores en regresión múltiple. En regresión simple, beta = r, la correlación muestral.
t es nuestro estadístico de prueba; no es interesante pero es necesario para calcular la significancia estadística.
«Sig.» denota la significancia de 2 colas para el coeficiente b, dada la hipótesis nula de que el coeficiente b de la población es cero.
El intervalo de confianza del 95% proporciona un rango probable para los coeficientes b de la población.
¡Gracias por leer!