Test Chi-Cuadrado: Significado, Aplicaciones y Usos

Después de leer este artículo, aprenderá acerca de: - 1. Significado de la prueba de Chi-cuadrado 2. Niveles de significación de la prueba de Chi-cuadrado 3. Prueba de Chi-cuadrado bajo hipótesis nula 4. Condiciones para la validez 5. Propiedad aditiva 6. Aplicaciones 7. Usos.

Significado de la prueba de Chi-cuadrado:

La prueba de Chi-cuadrado ( 2 ) representa un método útil para comparar resultados obtenidos experimentalmente con los que se esperan teóricamente en algunas hipótesis.

Así, Chi-cuadrado es una medida de la divergencia real de las frecuencias observadas y esperadas. Es muy obvio que la importancia de tal medida sería muy grande en los estudios de muestreo en los que invariablemente tenemos que estudiar la divergencia entre la teoría y el hecho.

El Chi cuadrado como hemos visto es una medida de la divergencia entre las frecuencias esperadas y observadas y, como tal, si no hay diferencia entre las frecuencias esperadas y observadas, el valor del Chi cuadrado es 0.

Si hay una diferencia entre las frecuencias observadas y las esperadas, entonces el valor de Chi cuadrado sería mayor que 0. Es decir, cuanto mayor sea el Chi cuadrado, mayor será la probabilidad de una divergencia real observada experimentalmente de los resultados esperados.

Si el valor calculado de chi-cuadrado es muy pequeño en comparación con su valor de tabla, indica que la divergencia entre las frecuencias reales y esperadas es muy pequeña y, por consiguiente, el ajuste es bueno. Si, por otro lado, el valor calculado de chi-cuadrado es muy grande en comparación con su valor de tabla, indica que la divergencia entre las frecuencias esperadas y las observadas es muy grande y, en consecuencia, el ajuste es deficiente.

Para evaluar Chi-cuadrado, ingresamos a la Tabla E con el valor computado de chi- cuadrado y el número apropiado de grados de libertad. El número de df = (r - 1) (c - 1) en el que r es el número de filas yc el número de columnas en las que se tabulan los datos.

Así, en la tabla 2 x 2, los grados de libertad son (2 - 1) (2 - 1) o 1. Del mismo modo, en la tabla 3 x 3, los grados de libertad son (3 - 1) (3 - 1) o 4 y en 3 x 4 tabla los grados de libertad son (3 - 1) (4 - 1) o 6.

Niveles de significancia de la prueba de Chi-cuadrado:

Los valores calculados de χ 2 (Chi-cuadrado) se comparan con los valores de la tabla, para concluir si la diferencia entre las frecuencias esperadas y observadas se debe a las fluctuaciones de muestreo y, como tal, significativa o si la diferencia se debe a alguna otra razón y como tan significativo La divergencia de la teoría y el hecho siempre se prueba en términos de ciertas probabilidades.

Las probabilidades indican el grado de confianza que podemos depositar en la conclusión extraída. Los valores de la tabla de χ 2 están disponibles en varios niveles de probabilidad. Estos niveles son llamados niveles de significación. Por lo general, el valor de χ 2 en .05 y .01 nivel de significación para los grados de libertad dados se ve en las tablas.

Si el valor calculado de χ 2 es mayor que el valor tabulado, se dice que es significativo. En otras palabras, la discrepancia entre las frecuencias observadas y esperadas no se puede atribuir al azar y rechazamos la hipótesis nula.

Así concluimos que el experimento no apoya la teoría. Por otro lado, si el valor calculado de χ 2 es menor que el valor tabulado correspondiente, entonces se dice que no es significativo en el nivel de significación requerido.

Esto implica que la discrepancia entre los valores observados (experimento) y los valores esperados (teoría) puede atribuirse al azar, es decir, a las fluctuaciones del muestreo.

Prueba de chi-cuadrado bajo hipótesis nula:

Supongamos que nos dan un conjunto de frecuencias observadas obtenidas en algún experimento y queremos probar si los resultados experimentales apoyan una hipótesis o teoría particular. Karl Pearson en 1990, desarrolló una prueba para probar el significado de la discrepancia entre los valores experimentales y los valores teóricos obtenidos bajo alguna teoría o hipótesis.

Esta prueba se conoce como prueba de 2 y se usa para probar si la desviación entre la observación (experimento) y la teoría puede atribuirse al azar (fluctuaciones del muestreo) o si es realmente debido a la insuficiencia de la teoría para adaptarse a lo observado datos.

Bajo la Hipótesis Nula, afirmamos que no hay una diferencia significativa entre los valores observados (experimentales) y los valores teóricos o hipotéticos, es decir, existe una buena compatibilidad entre la teoría y el experimento.

La ecuación para chi-cuadrado (χ 2 ) se expresa de la siguiente manera:

en la que f o = frecuencia de ocurrencia de hechos observados o determinados experimentalmente

f e = frecuencia esperada de ocurrencia en alguna hipótesis.

Así, chi-cuadrado es la suma de los valores obtenidos al dividir el cuadrado de la diferencia entre las frecuencias observadas y las esperadas por las frecuencias esperadas en cada caso. En otras palabras, las diferencias entre las frecuencias observadas y las esperadas son cuadradas y divididas por el número esperado en cada caso, y la suma de estos cocientes es χ 2 .

Varias ilustraciones de la prueba de chi-cuadrado aclararán la discusión dada anteriormente. Las diferencias de f o y f e están escritas siempre + ve.

1. Prueba de la divergencia de los resultados observados de los esperados en la hipótesis de igual probabilidad (hipótesis nula):

Ejemplo 1:

Se pide a 96 sujetos que expresen su actitud hacia la proposición "¿Debería integrarse la educación sobre el SIDA en el currículo de la etapa secundaria superior" marcando F (favorable), I (indiferente) o U (desfavorable)?

Se observó que 48 estaban marcados con 'F', 24 'I' y 24 'U':

(i) Compruebe si los resultados observados difieren significativamente de los resultados esperados si no hay preferencias en el grupo.

(ii) Probar la hipótesis de que "no hay diferencia entre las preferencias en el grupo".

(iii) Interpretar los resultados.

Solución:

Se pueden seguir los siguientes pasos para calcular x 2 y sacar conclusiones:

Paso 1:

Calcule las frecuencias esperadas (f e ) correspondientes a las frecuencias observadas en cada caso bajo alguna teoría o hipótesis.

En nuestro ejemplo, la teoría es de igual probabilidad (hipótesis nula). En la segunda fila, la distribución de respuestas que se espera en la hipótesis nula se selecciona igualmente.

Paso 2:

Calcule las desviaciones (f o - f e ) para cada frecuencia. Cada una de estas diferencias es cuadrada y dividida por su f e (256/32, 64/32 y 64/32).

Paso 3:

Agregue estos valores para calcular:

Etapa 4:

Los grados de libertad en la tabla se calculan a partir de la fórmula df = (r - 1) (c - 1) para ser (3 - 1) (2 - 1) o 2.

Paso 5:

Busque los valores calculados (críticos) de χ 2 para 2 df a cierto nivel de significación, generalmente 5% o 1%.

Con df = 2, el valor de χ 2 para ser significativo a un nivel de .01 es 9.21 (Tabla E). El valor χ 2 obtenido de 12> 9.21.

yo. De ahí que la marcada divergencia sea significativa.

ii. La hipótesis nula es rechazada.

iii. Concluimos que nuestro grupo realmente favorece la proposición.

Rechazamos la hipótesis de la "respuesta equitativa" y concluimos que nuestro grupo está a favor de la proposición.

Ejemplo 2:

El número de accidentes automovilísticos por semana en una comunidad determinada fue el siguiente:

12, 8, 20, 2, 14, 10, 15, 6, 9, 4

¿Están estas frecuencias de acuerdo con la creencia de que las condiciones del accidente fueron las mismas durante este período de 10 semanas?

Solución:

Hipótesis nula: establezca la hipótesis nula de que las frecuencias dadas (del número de accidentes por semana en una comunidad determinada) son consistentes con la creencia de que las condiciones del accidente fueron las mismas durante el período de 10 semanas.

Dado que el número total de accidentes durante las 10 semanas son:

12 + 8 + 20 + 2 + 14 + 10 + 15 + 6 + 9 + 4 = 100.

Bajo la hipótesis nula, estos accidentes deben distribuirse uniformemente en el período de 10 semanas y, por lo tanto, el número esperado de accidentes para cada una de las 10 semanas es 100/10 = 10.

Dado que el valor calculado de χ 2 = 26.6 es mayor que el valor tabulado, 21.666. Es significativo y la hipótesis nula es rechazada en un nivel de significancia de .01. Por lo tanto, concluimos que las condiciones del accidente ciertamente no son uniformes (iguales) durante el período de 10 semanas.

2. Probar la divergencia entre los resultados observados y los esperados en la hipótesis de una distribución normal:

La hipótesis, en lugar de ser igualmente probable, puede seguir la distribución normal. Un ejemplo ilustra cómo esta hipótesis puede ser probada por chi-cuadrado.

Ejemplo 3:

Doscientos vendedores se han clasificado en tres grupos: muy buenos, satisfactorios y malos, por consenso de los gerentes de ventas.

¿Esta distribución de calificación difiere significativamente de la que se espera si la capacidad de venta se distribuye normalmente en nuestra población de vendedores?

Establecimos la hipótesis de que la capacidad de venta se distribuye normalmente. La curva normal se extiende desde - 3σ a + 3σ. Si la capacidad de venta se distribuye normalmente, la línea base se puede dividir en tres segmentos iguales, es decir,

(+ 1σ a + 3σ), (- 1σ a + 1σ) y (- 3σ a - 1σ) que representan vendedores buenos, satisfactorios y pobres, respectivamente. Al consultar la Tabla A, encontramos que el 16% de los casos se encuentran entre + 1σ y + 3σ, el 68% entre - 1σ y + 1σ y el 16% entre - 3σ y - 1σ. En el caso de nuestro problema, el 16% de 200 = 32 y el 68% de 200 = 136.

df = 2. P es menor que .01

El calculado χ 2 = 72.76

El calculado χ 2 de 72.76> 9.21. Por lo tanto, P es menor que .01.

.˙. La discrepancia entre las frecuencias observadas y las esperadas es bastante significativa. Sobre esta base, debe rechazarse la hipótesis de una distribución normal de la capacidad de venta en este grupo. Por lo tanto, concluimos que la distribución de las calificaciones difiere de la que se espera.

3. Prueba de Chi cuadrado cuando nuestras expectativas se basan en resultados predeterminados:

Ejemplo 4:

En un experimento sobre cría de guisantes, un investigador obtuvo los siguientes datos:

La teoría predice que la proporción de frijoles, en cuatro grupos A, B, C y D, debería ser 9: 3: 3: 1. En un experimento entre 1, 600 frijoles, los números en cuatro grupos fueron 882, 313, 287 y 118. ¿Los resultados del experimento apoyan la teoría genética? (Prueba a nivel .05).

Solución:

Establecimos la hipótesis nula de que no hay una diferencia significativa entre los valores experimentales y la teoría. En otras palabras, hay una buena correspondencia entre la teoría y el experimento, es decir, la teoría apoya el experimento.

Dado que el valor de χ 2 calculado de 4.726 <7.81, no es significativo. Por lo tanto, la hipótesis nula puede aceptarse a un nivel de significancia de .05 y podemos concluir que los resultados experimentales apoyan la teoría genética.

4. La prueba de Chi-cuadrado cuando las entradas de la tabla son pequeñas:

Cuando las entradas de la tabla son pequeñas y cuando la tabla es 2 x 2 veces, es decir, df = 1, χ 2 está sujeto a un error considerable a menos que se realice una corrección de continuidad (llamada corrección de Yates).

Ejemplo 5:

A 40 ratas se les ofreció la oportunidad de elegir entre dos rutas. Se encontró que 13 eligieron rutas iluminadas (es decir, rutas con más iluminación) y 27 eligieron rutas oscuras.

(i) Probar la hipótesis de que la iluminación no hace ninguna diferencia en la preferencia de las ratas por las rutas (Prueba a nivel .05).

(ii) Probar si las ratas prefieren las rutas oscuras.

Solución:

Si la iluminación no hace ninguna diferencia en la preferencia por las rutas, es decir, si H 0 es verdadera, la preferencia proporcional sería 1/2 para cada ruta (es decir, 20).

En nuestro ejemplo, debemos restar .5 de cada (f o - f e ) diferencia por la siguiente razón:

Los datos se pueden tabular de la siguiente manera:

Cuando las entradas esperadas en la tabla de 2 x 2 pliegues son las mismas que en nuestro problema, la fórmula para chi-cuadrado puede escribirse de forma algo más corta de la siguiente manera:

(i) El valor crítico de χ 2 a un nivel de .05 es 3.841. El χ 2 obtenido de 4.22 es más de 3.841. De ahí que la hipótesis nula sea rechazada a nivel .05. Aparentemente la luz u oscuridad es un factor en la elección de las ratas para las rutas.

(ii) En nuestro ejemplo tenemos que hacer una prueba de una cola. Al ingresar a la tabla E, encontramos que χ 2 de 4.22 tiene una P = .043 (por interpolación).

.˙. P / 2 = .0215 o 2%. En otras palabras, hay 2 posibilidades en 100 de que se produzca tal divergencia.

Por lo tanto, marcamos la divergencia como significativa a nivel 02.

Por lo tanto, concluimos que las ratas tienen una preferencia por las rutas oscuras.

5. El test de Chi-cuadrado de independencia en tablas de contingencia:

A veces, podemos encontrar situaciones que nos requieren probar si existe alguna relación (o asociación) entre dos variables o atributos. En otras palabras, se puede hacer χ 2 cuando deseamos investigar la relación entre rasgos o atributos que se pueden clasificar en dos o más categorías.

Por ejemplo, se nos puede exigir que verifiquemos si el color de los ojos del padre está asociado con el color de los ojos de los hijos, si el estado socioeconómico de la familia está asociado con la preferencia de diferentes marcas de un producto, si la educación el tamaño de la pareja y la familia están relacionados, ya sea que una vacuna particular tenga un efecto de control sobre una enfermedad particular, etc.

Para realizar una prueba, preparamos un extremo de la tabla de contingencia para calcular f e (frecuencia esperada) para cada celda de la tabla de contingencia y luego calculamos χ 2 mediante la fórmula:

Hipótesis nula:

χ 2 se calcula asumiendo que los dos atributos son independientes entre sí, es decir, no hay relación entre los dos atributos.

El cálculo de la frecuencia esperada de una celda es el siguiente:

Ejemplo 6:

En una muestra determinada de 2, 000 familias, 1, 400 familias son consumidoras de té, donde 1236 son familias hindúes y 164 no son hindúes.

Y 600 familias no son consumidoras de té, donde 564 son familias hindúes y 36 no son hindúes. Use χ 2 - pruebe y establezca si hay alguna diferencia significativa entre el consumo de té entre las familias hindúes y no hindúes.

Solución:

Los datos anteriores se pueden organizar en forma de una tabla de contingencia de 2 x 2 como se indica a continuación:

Establecimos la hipótesis nula (H 0 ) de que los dos atributos, a saber, "consumo de té" y "comunidad" son independientes. En otras palabras, no hay una diferencia significativa entre el consumo de té entre las familias hindúes y no hindúes.

Dado que el valor calculado de χ 2, es decir, 15.24 es mucho mayor que el valor tabulado de χ 2 en un nivel de significancia de .01; el valor de χ 2 es altamente significativo y se rechaza la hipótesis nula.

Por lo tanto, llegamos a la conclusión de que las dos comunidades (hindúes y no hindúes) difieren significativamente en cuanto al consumo de té entre ellas.

Ejemplo 7:

La siguiente tabla muestra los datos obtenidos durante una epidemia de cólera.

Probar la efectividad de la inoculación en la prevención del ataque de cólera.

Solución:

Establecimos la hipótesis nula (H 0 ) de que los dos atributos, a saber, la inoculación y la ausencia de ataque del cólera no están asociados. Estos dos atributos en la tabla dada son independientes.

Basándonos en nuestra hipótesis, podemos calcular las frecuencias esperadas de la siguiente manera:

Cálculo de (f e ):

El valor del cinco por ciento de χ 2 para 1 df es 3.841, que es mucho menor que el valor calculado de χ 2 . Entonces, a la luz de esto, es evidente que la hipótesis es incorrecta y que la inoculación y la ausencia de ataque del cólera están asociadas.

Condiciones para la validez de la prueba de Chi-cuadrado:

La estadística de prueba de Chi-cuadrado puede usarse si se cumplen las siguientes condiciones:

1. N, la frecuencia total, debe ser razonablemente grande, por ejemplo, mayor que 50.

2. Las observaciones de la muestra deben ser independientes. Esto implica que ningún elemento individual debe incluirse dos o más veces en la muestra.

3. Las restricciones en las frecuencias de celda, si las hay, deben ser lineales (es decir, no deben involucrar potencias cuadradas y superiores de las frecuencias) como ∑f o = ∑f e = N.

4. Ninguna frecuencia teórica debe ser pequeña. Pequeño es un término relativo. Preferiblemente, cada frecuencia teórica debe ser mayor que 10 pero en cualquier caso no menor que 5.

Si cualquier frecuencia teórica es inferior a 5, no podemos aplicar la prueba de χ 2 como tal. En ese caso, utilizamos la técnica de “agrupación”, que consiste en sumar las frecuencias que son menores que 5 con la frecuencia (frecuencias) anterior o posterior, de modo que la suma resultante sea mayor que 5 y ajustar los grados de libertad en consecuencia.

5. La distribución dada no debe ser reemplazada por frecuencias o proporciones relativas, pero los datos deben darse en unidades originales.

6. La corrección de Yates se debe aplicar en circunstancias especiales cuando df = 1 (es decir, en tablas 2 x 2) y cuando las entradas de celda son pequeñas.

7. La prueba- 2 se usa principalmente como una prueba no direccional (es decir, hacemos una prueba de dos colas). Sin embargo, puede haber casos en que se puedan emplear pruebas de 2 para realizar una prueba de una cola.

En la prueba de una cola duplicamos el valor de p. Por ejemplo, con df = 1, el valor crítico de χ 2 en el nivel 05 es 2.706 (2.706 es el valor escrito debajo del nivel .10) y el valor crítico de; χ 2 en el nivel .01 es 5.412 (el valor se escribe bajo el nivel .02).

La Propiedad Aditiva de la Prueba Chi-Cuadrada:

χ 2 tiene una propiedad de adición muy útil. Si se han realizado una serie de estudios de muestra en el mismo campo, los resultados se pueden agrupar para obtener una idea precisa sobre la posición real.

Supongamos que se han realizado diez experimentos para probar si una vacuna en particular es efectiva contra una enfermedad en particular. Ahora aquí tendremos diez valores diferentes de χ 2 y diez valores diferentes de df.

Podemos agregar los diez χ 2 para obtener un valor y, de manera similar, también se pueden agregar diez valores de df. Por lo tanto, tendremos un valor de χ 2 y un valor de grados de libertad. Ahora podemos probar los resultados de todos estos diez experimentos combinados y descubrir el valor de P.

Supongamos que se han realizado cinco experimentos independientes en un campo particular. Supongamos que en cada caso hubo un df y se obtuvieron los siguientes valores de 2 .

Ahora a un nivel de significancia del 5% (o para P - .05) el valor χ 2 para una df es 3.841. De los valores calculados de χ 2 dados anteriormente, notamos que en una sola facilidad, es decir, en el experimento No. 3, el valor observado de χ 2 es menor que el valor tabulado de 3.841.

Significa que, en lo que respecta a este experimento, la diferencia es insignificante, pero en los cuatro casos restantes el valor calculado de χ 2 es mayor que 3.841 y, como tal, con un nivel de significación del 5%, la diferencia entre las frecuencias esperadas y las reales es significativa. .

Si sumamos todos los valores de χ 2 obtenemos (4.3 + 5.7 + 2.1 + 3.9 + 8.3) o 24.3. El total de los grados de libertad es 5. Significa que el valor calculado de 2 para 5 df es 24.3.

Si observamos la tabla de χ 2, hallaremos que a un nivel de significación del 5% para 5 df, el valor de χ 2 es 11.070. El valor calculado de χ 2 que es 24.3 es mucho más alto que el valor tabulado y, como tal, podemos concluir que la diferencia entre las frecuencias observadas y las esperadas es significativa.

Incluso si tomamos un nivel de significación del 1% (o P = .01) el valor de la tabla de χ 2 es solo 15.086. Por lo tanto, la probabilidad de obtener un valor de χ 2 igual o superior a 24.3 como resultado de las fluctuaciones de muestreo es mucho menor que incluso .01 o, en otras palabras, la diferencia es significativa.

Aplicaciones de Chi-Test:

Las aplicaciones de la estadística de prueba de 2 se pueden discutir como se indica a continuación:

1. Probar la divergencia de los resultados observados de los resultados esperados cuando nuestras expectativas se basan en la hipótesis de igual probabilidad.

2. Prueba de Chi cuadrado cuando las expectativas se basan en la distribución normal.

3. Prueba de Chi-cuadrado cuando nuestras expectativas se basan en resultados predeterminados.

4. Corrección por discontinuidad o corrección de Yates en el cálculo de χ 2 .

5. Test de Chi cuadrado de independencia en tablas de contingencia.

Usos de la prueba de Chi-cuadrado:

1. Aunque la prueba se realiza en términos de frecuencias, se puede ver mejor conceptualmente como una prueba sobre proporciones.

2. La prueba de χ 2 se usa para probar hipótesis y no es útil para la estimación.

3. La prueba de Chi cuadrado se puede aplicar a la tabla de contingencia compleja con varias clases.

4. La prueba de ji cuadrado tiene una propiedad muy útil, es decir, 'la propiedad aditiva'. Si se llevan a cabo varios estudios de muestra en el mismo campo, los resultados se pueden agrupar juntos. Esto significa que se pueden agregar χ 2 valores.