ANOVA, abreviatura de «análisis de varianza», es una técnica estadística
para probar si 3 (+) medias de población son todas iguales.
Los dos escenarios más simples son
- ANOVA unidireccional para comparar 3 (+) grupos en 1 variable: ¿Todos los niños de la escuela A, B y C tienen puntajes de CI promedio iguales?
- ANOVA de medidas repetidas para comparar 3 (+) variables en 1 grupo: ¿la calificación media de las cervezas A, B y C es igual para todas las personas?
La siguiente figura visualiza la pregunta básica para ANOVA unidireccional.
Ejemplo simple: ANOVA unidireccional
Un científico quiere saber si todos los niños de las escuelas A, B y C tienen puntajes de CI promedio iguales. Cada escuela tiene 1.000 niños. Se necesita demasiado tiempo y dinero para evaluar a los 3.000 niños. Entonces, se prueba una muestra aleatoria simple de n = 10 niños de cada escuela.
Parte de estos datos, disponible en esta hoja de Google se muestran a continuación.
Tabla de descriptivos
Correcto, entonces nuestros datos contienen 3 muestras de 10 niños cada una con sus puntajes de CI. Ejecutar una tabla descriptiva simple nos dice inmediatamente los puntajes de CI promedio para estas muestras. El resultado se muestra a continuación.
Para aclarar las cosas, visualicemos los puntajes de CI promedio por escuela en un gráfico de barras simple.
Claramente, nuestra muestra de la escuela B tiene el coeficiente intelectual medio más alto, aproximadamente 113 puntos. El coeficiente intelectual medio más bajo, unos 93 puntos, se observa en la escuela C.
Ahora, aquí está el problema: nuestros puntajes de CI promedio solo se basan en pequeñas muestras de 10 niños por escuela. Entonces, ¿no podría ser eso?
todas ¿1.000 niños por escuela tienen el mismo coeficiente intelectual medio?
¿Quizás acabamos de tomar una muestra de los niños más inteligentes de la escuela B y de los niños más tontos de la escuela C? ¿Es eso realista? Intentaremos demostrar que esta afirmación -nuestra hipótesis nula- no es creíble dados nuestros datos.
ANOVA – Hipótesis nula
La hipótesis nula para (cualquier) ANOVA es que
todas las medias poblacionales son exactamente iguales.
Si esto se mantiene, entonces nuestro medias de muestra probablemente diferirá un poco. Después de todo, las muestras siempre difieren un poco de las poblaciones que representan. Sin embargo, las medias de la muestra probablemente no deberían diferir demasiado. Tal resultado sería improbable bajo nuestra hipótesis nula de medias poblacionales iguales. Entonces si nosotros hacer encontrar esto, probablemente ya no creemos que las medias de nuestra población fueran realmente iguales.
ANOVA – Sumas de cuadrados entre
Entonces, ¿qué tan diferentes son nuestras 3 medias de muestra? ¿A qué distancia se encuentran estos números? Un número que nos dice exactamente eso es la varianza. Básicamente, calcularemos la varianza entre nuestras 3 medias de muestra.
Como puede (o no) comprender de las fórmulas ANOVA, esto comienza con la suma de las desviaciones cuadradas entre las 3 medias de la muestra y la media general. El resultado se conoce como las «sumas de cuadrados entre» o SSbetween. Entonces
sumas de cuadrados entre expresos
la cantidad total de dispersión entre las medias de la muestra.
Todo lo demás igual, mayor SS entre medio indica que las medias de la muestra difieren más. Y cuanto más diferentes son las medias de nuestra muestra, más probable es que las medias de nuestra población también difieran.
Grados de libertad y cuadrados medios entre
Al calcular una varianza «normal», dividimos nuestras sumas de cuadrados por sus grados de libertad (gl). Al comparar k medias, los grados de libertad (gl) son (k – 1).
Dividir SS entre (k – 1) da como resultado cuadrados medios entre: MS entre. En breve,
cuadrados medios entre
es básicamente la varianza entre las medias muestrales.
Por tanto, MSbetween indica en qué medida difieren (o se separan) nuestras medias muestrales. Cuanto mayor sea esta variación entre las medias, más probable es que las medias de nuestra población también difieran.
ANOVA – Sumas de cuadrados dentro
Si nuestras medias poblacionales son realmente iguales, entonces, ¿qué diferencia entre las medias muestrales -M entre- podemos esperar razonablemente? Bueno, esto depende de la varianza dentro subpoblaciones. La siguiente figura ilustra esto para 3 escenarios.
Los 3 Los histogramas de la izquierda muestran distribuciones de población para el CI en las escuelas A, B y C.Su estrechez indica una pequeña variación dentro cada escuela. Si tomamos una muestra de n = 10 estudiantes de cada escuela,
¿Deberíamos esperar medias muestrales muy diferentes?
Probablemente no. ¿Por qué? Bueno, debido a la pequeña variación dentro de cada escuela, las medias muestrales estarán cerca de las medias poblacionales (iguales). Estos histogramas estrechos no dejan mucho espacio para que sus medias de muestra fluctúen y, por lo tanto, difieran.
Los 3 Los histogramas de la derecha muestran el escenario opuesto: los histogramas son anchos, lo que indica un gran variación dentro cada escuela. Si tomamos una muestra de n = 10 estudiantes de cada escuela, las medias en estas muestras pueden diferir bastante fácilmente. En breve,
variaciones más grandes dentro las escuelas probablemente resulten en una
mayor varianza Entre medias muestrales por escuela.
Básicamente, estimamos las variaciones de la población dentro de los grupos a partir de las variaciones de la muestra dentro de los grupos. Tiene sentido, ¿verdad? Los cálculos exactos están en las fórmulas ANOVA y esta hoja de Google. En breve:
- sumas de cuadrados dentro (SSwithin) indica la cantidad total de dispersión dentro de los grupos;
- grados de libertad dentro (DFwithin) es (n – k) para n observaciones y k grupos y
- cuadrados medios dentro (MSwithin) -básicamente la varianza dentro de los grupos- es SSwithin / DFwithin.
Estadística de prueba ANOVA – F
Entonces, ¿qué probabilidades hay de que la población sea igual? Esto depende de 3 datos de nuestras muestras:
- la varianza entre las medias de la muestra (MS entre);
- la varianza dentro de nuestras muestras (MSwithin) y
- los tamaños de las muestras.
Básicamente combinamos toda esta información en un solo número: nuestro estadístico de prueba F. El diagrama a continuación muestra cómo cada pieza de evidencia impacta F.
Ahora, F en sí mismo no es interesante en absoluto. Sin embargo, podemos obtener la significancia estadística de F si sigue una distribución F. Hará precisamente eso si se cumplen 3 suposiciones.
ANOVA – Supuestos
Los supuestos para ANOVA son
- observaciones independientes;
- normalidad: la variable de resultado debe seguir una distribución normal en cada subpoblación. En realidad, la normalidad solo es necesaria para tamaños de muestra pequeños, digamos n <20 por grupo.
- homogeneidad: las variaciones dentro de todas las subpoblaciones deben ser iguales. La homogeneidad solo es necesaria si los tamaños de las muestras son muy desiguales. En este caso, la prueba de Levene indica si se cumple.
Si se cumplen estos supuestos, F sigue una distribución F con DF entre y DF dentro de grados de libertad. En nuestro ejemplo, 3 grupos de n = 10 cada uno, serán F (2,27).
ANOVA – Significación estadística
En nuestro ejemplo, F (2,27) = 6.15. Este enorme valor F es una fuerte evidencia de que nuestra hipótesis nula -todas las escuelas que tienen puntajes de CI promedio iguales- no es cierta. Si se cumplen todos los supuestos, F sigue la distribución F que se muestra a continuación.
Dada esta distribución, podemos buscar la significancia estadística. Normalmente informamos: F (2,27) = 6.15, p = 0,006. Si nuestras escuelas tienen el mismo coeficiente intelectual medio, solo hay una probabilidad de 0,006 de encontrar nuestras diferencias de medias muestrales o mayores. Por lo general, decimos que algo es «estadísticamente significativo» si p <0,05.
Conclusión: nuestras medias poblacionales son muy improbable ser iguales.
La siguiente figura muestra cómo SPSS presenta el resultado de este ejemplo.
Tamaño del efecto – Eta (parcial) al cuadrado
Hasta ahora, nuestra conclusión es que las medias de la población no son todas exactamente iguales. Ahora, «no es igual» no dice mucho. Lo que me gustaría saber es
exactamente qué diferente son los medios?
Un número que estima justamente ese es el tamaño del efecto. Una medida del tamaño del efecto para ANOVA es eta cuadrado parcial, escrito como η2. Para un ANOVA de una vía, eta-cuadrado parcial es igual a simplemente eta-cuadrado.
Técnicamente,
(parcial) eta-cuadrado es el
proporción de varianza explicado por un factor.
Algunas reglas generales son que
- η2 > 0.01 indica un pequeña efecto;
- η2 > 0.06 indica un medio efecto;
- η2 > 0,14 indica un grande efecto.
El cálculo exacto de eta-cuadrado se muestra en la sección de fórmulas. Por ahora, basta con decir que η2 = 0,31 para nuestro ejemplo. Este enorme …enorme– el tamaño del efecto explica por qué nuestra prueba F es estadísticamente significativa a pesar de nuestros tamaños de muestra muy pequeños de n = 10 por escuela.
Pruebas post hoc – HSD de Tukey
Hasta ahora, concluimos de nuestra prueba F que es muy poco probable que nuestras medias poblacionales sean (todas) iguales. El tamaño del efecto, η2, nos dijo que la diferencia es grande. Sin embargo, una pregunta sin respuesta es
precisamente cual los medios son diferentes?
Diferentes patrones de medias muestrales pueden dar como resultado exactamente el mismo valor F. La figura siguiente ilustra este punto con algunos escenarios posibles.
Un enfoque sería ejecutar pruebas t de muestras independientes en todos los pares de medios. Para 3 medios, serán AB, AC y BC. Sin embargo, a medida que aumenta el número de medias que comparamos, el número de todos los pares posibles aumenta rápidamente. Y
cada prueba t tiene sus propias posibilidades de sacar una conclusión errónea.
Por lo tanto, cuantas más pruebas t realizamos, mayor es el riesgo de sacar al menos una conclusión incorrecta.
La solución más común a este problema es usar HSD de Tukey (abreviatura de «Diferencia honestamente significativa»). Podría pensar en ello como ejecutar todas las pruebas t posibles para las que los resultados se han corregido con algún tipo de Corrección de Bonferroni pero menos conservador. La siguiente figura muestra algunos resultados del HSD de Tukey en SPSS.
El HSD de Tukey se conoce como prueba post hoc. «Post hoc» es latín y literalmente significa «después de eso». Esto se debe a que solo se ejecutan después la prueba F principal ha indicado que no todas los medios son iguales. No estoy del todo de acuerdo con esta convención porque
- pruebas post hoc podría no indican diferencias mientras que la prueba F principal lo hace;
- pruebas post hoc mayo indican diferencias mientras que la prueba F principal no es.
Digamos que estoy comparando 5 medios: A, B, C y D son iguales pero E es mucho más grande que los demás. En este caso, la gran diferencia entre E y las otras medias se diluirá fuertemente al probar si todas las medias son iguales. Entonces en este caso
una prueba F general puede no indicar diferencias
mientras que las pruebas post hoc voluntad.
Por último, pero no menos importante, también hay muchas otras pruebas post hoc. Algunos requieren el supuesto de homogeneidad y otros no. La siguiente figura muestra algunos ejemplos.
ANOVA – Fórmulas básicas
En aras de la exhaustividad, enumeraremos las fórmulas principales utilizadas para el ANOVA unidireccional en nuestro ejemplo. Puedes verlos en acción en esta hoja de Google. Empezaremos con el entre grupos varianza: $$ SS_ {between} = Sigma ; n_j ; ( overline {X} _j – overline {X}) ^ 2 $$
dónde
- ( overline {X} _j ) denota una media de grupo;
- ( overline {X} ) es la media general;
- (n_j ) es el tamaño de la muestra por grupo.
Para nuestro ejemplo, esto da como resultado $$ SS_ {between} = 10 ; (99.2 – 101.7) ^ 2 + 10 ; (112.6 – 101.7) ^ 2 + 10 ; (93.3 – 101.7) ^ 2 = 1956.2 $$
A continuación, para grupos (m ), $$ df_ {between} = m – 1 $$
entonces (df_ {between} ) = 3 – 1 = 2 para nuestros datos de ejemplo. $$ MS_ {between} = frac {SS_ {between}} {df_ {between}} $$
Para nuestro ejemplo, será $$ frac {1956.2} {2} = 978.1 $$
Pasamos ahora a la dentro de grupos diferencia. Primero, $$ SS_ {inside} = Sigma ; (X_i – overline {X} _j) ^ 2 $$
dónde
- ( overline {X} _j ) denota una media de grupo;
- (X_i ) denota una observación individual («punto de datos»).
Para nuestro ejemplo, será $$ SS_ {inside} = (90 – 99.2) ^ 2 + (87 – 99.2) ^ 2 + … + (96 – 93.3) ^ 2 = 4294.1 $$
para (n ) observaciones independientes y (m ) grupos, $$ df_ {inside} = n – m $$
Entonces, para nuestro ejemplo, será = 30 – 3 = 27.
$$ MS_ {dentro} = frac {SS_ {dentro}} {df_ {dentro}} $$
Para nuestro ejemplo, esto da como resultado $$ frac {4294.1} {27} = 159 $$
Ahora estamos listos para calcular el Estadístico F: $$ F = frac {MS_ {between}} {MS_ {within}} $$
lo que da como resultado $$ frac {978.1} {159} = 6.15 $$
Finalmente, $$ P = P (F (2,27)> 6.15) = 0.0063 $$
Opcionalmente, el tamaño del efecto η2 se calcula como $$ Efecto ; ; tamaño ; ; eta ^ 2 = frac {SS_ {entre}} {SS_ {entre} + SS_ {dentro}} $$
Para nuestro ejemplo, será $$ frac {1956.2} {1956.2 + 4294.1} = 0.31 $$
Gracias por leer.