Determinación de la fiabilidad de una prueba: 4 métodos

Hay cuatro procedimientos de uso común para calcular el coeficiente de confiabilidad (a veces llamado autocorrelación) de una prueba. Estos son: 1. Test-Retest (repetición) 2. Formas alternativas o paralelas 3. Técnica de mitad dividida 4. Equivalencia racional.

1. Método Test-Retest:

Para estimar la confiabilidad mediante el método test-retest, la misma prueba se administra dos veces al mismo grupo de alumnos con un intervalo de tiempo dado entre las dos administraciones de la prueba.

Las puntuaciones de las pruebas resultantes están correlacionadas y este coeficiente de correlación proporciona una medida de estabilidad, es decir, indica cuán estables son los resultados de las pruebas durante un período de tiempo. Por lo tanto, es conocido como una medida de estabilidad.

La estimación de la confiabilidad en este caso varía según la duración del intervalo de tiempo permitido entre las dos administraciones. El método de correlación del momento del producto es un método significativo para estimar la confiabilidad de dos conjuntos de puntajes.

Por lo tanto, una alta correlación entre dos conjuntos de puntuaciones indica que la prueba es confiable. Significa, muestra que las puntuaciones obtenidas en la primera administración se parecen a las puntuaciones obtenidas en la segunda administración de la misma prueba.

En este método, el intervalo de tiempo juega un papel importante. Si es demasiado pequeño, digamos uno o dos días, la consistencia de los resultados se verá influenciada por el efecto de arrastre, es decir, los alumnos recordarán algunos de los resultados de la primera administración a la segunda.

Si el intervalo de tiempo es largo, por ejemplo, un año, los resultados no solo se verán afectados por la desigualdad de los procedimientos y las condiciones de las pruebas, sino también por los cambios reales en los alumnos durante ese período de tiempo.

El intervalo de tiempo de la reevaluación no debe ser superior a seis meses. El intervalo de tiempo de las dos semanas (dos semanas) de reevaluación proporciona un índice preciso de confiabilidad.

Ventajas:

Generalmente se utiliza el método de autocorrelación o prueba-prueba para estimar el coeficiente de confiabilidad. Es digno de usar convenientemente en diferentes situaciones. Se puede utilizar una prueba de una longitud adecuada después de un intervalo de muchos días entre pruebas sucesivas.

Desventajas:

1. Si la prueba se repite de inmediato, muchos sujetos recordarán sus primeras respuestas y pasarán su tiempo en material nuevo, por lo que tenderán a aumentar sus calificaciones, a veces en gran medida.

2. Además de los efectos inmediatos de la memoria, la práctica y la confianza inducida por la familiaridad con el material casi seguramente afectarán los puntajes cuando se tome la prueba por segunda vez.

3. El índice de fiabilidad así obtenido es menos preciso.

4. Si el intervalo entre las pruebas es bastante largo (más de seis meses), el factor de crecimiento y la madurez afectará los puntajes y tenderá a disminuir el índice de confiabilidad.

5. Si la prueba se repite inmediatamente o después de un breve intervalo de tiempo, puede existir la posibilidad de un efecto de transferencia / efecto de transferencia / memoria / efecto de práctica.

6. Al repetir la misma prueba, en el mismo grupo por segunda vez, los estudiantes se muestran desinteresados ​​y, por lo tanto, no les gusta participar de todo corazón.

7. A veces, la uniformidad no se mantiene, lo que también afecta los puntajes de las pruebas.

8. Posibilidades de discutir algunas preguntas después de la primera administración, lo que puede aumentar los puntajes en la segunda administración, lo que afecta la confiabilidad.

2. Método de formas alternativas o paralelas:

La estimación de la confiabilidad mediante el método de formulario equivalente implica el uso de dos formas diferentes pero equivalentes de la prueba. La confiabilidad de forma paralela también se conoce como confiabilidad de forma alternativa o confiabilidad de forma equivalente o confiabilidad de forma comparable.

En este método se utilizan dos formas paralelas o equivalentes de una prueba. Por formas paralelas queremos decir que las formas son equivalentes en lo que respecta al contenido, los objetivos, el formato, el nivel de dificultad y el valor discriminatorio de los elementos, la duración de la prueba, etc.

Las pruebas paralelas tienen puntuaciones medias, varianzas y co-relaciones entre los ítems. Es decir, dos formas paralelas deben ser homogéneas o similares en todos los aspectos, pero no una duplicación de elementos de prueba. Sean las dos formas la Forma A y la Forma B.

El coeficiente de confiabilidad se puede considerar como la correlación del coeficiente entre los puntajes en dos formas equivalentes de prueba. Las dos formas equivalentes deben ser posiblemente similares en contenido, grado, procesos mentales probados y nivel de dificultad y en otros aspectos.

Una forma de la prueba se administra a los estudiantes y al finalizar de inmediato otra forma de prueba se entrega al mismo grupo. Las puntuaciones obtenidas de este modo están correlacionadas, lo que da una estimación de la fiabilidad. Así, la fiabilidad encontrada se denomina coeficiente de equivalencia.

Gulliksen 1950: ha definido pruebas paralelas como pruebas que tienen medias iguales, varianza igual e interrelaciones iguales.

Guilford: el método de forma alternativa indica tanto la equivalencia de contenido como la estabilidad de rendimiento.

Ventajas:

Este procedimiento tiene ciertas ventajas sobre el método test-retest:

1. Aquí no se repite la misma prueba.

2. La memoria, la práctica, los efectos de arrastre y los factores de memoria se minimizan y no afectan los puntajes.

3. El coeficiente de confiabilidad obtenido por este método es una medida de la estabilidad temporal y la consistencia de la respuesta a diferentes muestras de elementos o formularios de prueba. Así, este método combina dos tipos de fiabilidad.

4. Útil para la fiabilidad de las pruebas de rendimiento.

5. Este método es uno de los métodos apropiados para determinar la confiabilidad de las pruebas educativas y psicológicas.

Limitaciones:

1. Es difícil tener dos formas paralelas de una prueba. En ciertas situaciones (es decir, en Rorschach) es casi imposible.

2. Cuando las pruebas no son exactamente iguales en términos de dificultad de contenido, longitud, la comparación entre dos conjuntos de puntajes obtenidos de estas pruebas puede llevar a decisiones erróneas.

3. La práctica y los factores de transferencia no se pueden controlar completamente.

4. Además, administrar dos formas simultáneamente crea aburrimiento. Es por eso que las personas prefieren tales métodos en los que solo se requiere una administración de la prueba.

5. Las condiciones de prueba durante la administración del Formulario B pueden no ser las mismas. Además, los testículos pueden no estar en un estado físico, mental o emocional similar en ambos momentos de la administración.

6. Los puntajes de la prueba de segunda forma de la prueba son generalmente altos.

Aunque difíciles, las formas paralelas construidas con cuidado y cautela nos darían razonablemente una medida satisfactoria de confiabilidad. Para pruebas estandarizadas bien hechas, el método de forma paralela suele ser la forma más satisfactoria de determinar la confiabilidad.

3. Método de mitad dividida o método de prueba subdividido:

El método de la mitad dividida es una mejora con respecto a los dos métodos anteriores, e incluye las características de estabilidad y equivalencia. Los dos métodos discutidos anteriormente para estimar la confiabilidad a veces parecen difíciles.

Puede que no sea posible usar la misma prueba dos veces y obtener formas equivalentes de prueba. Por lo tanto, para superar estas dificultades y reducir el efecto de la memoria, así como para economizar la prueba, es conveniente estimar la confiabilidad a través de una administración única de la prueba.

En este método, la prueba se administra una vez en la muestra y es el método más apropiado para pruebas homogéneas. Este método proporciona la consistencia interna de los resultados de un examen.

Todos los elementos de la prueba se organizan generalmente en orden creciente de dificultad y se administran una vez en la muestra. Después de administrar la prueba, se divide en dos partes o mitades comparables o similares o iguales.

Las puntuaciones se organizan o se hacen en dos conjuntos obtenidos de números impares de artículos e incluso números de artículos por separado. Como por ejemplo se administra una prueba de 100 ítems.

Las puntuaciones de individuos basadas en 50 ítems de números impares como 1, 3, 5, .. 99 y puntuaciones basadas en los números pares 2, 4, 6 ... 10 se organizan por separado. En la parte 'A' se asignan elementos impares y la parte 'B' consistirá en un número par de elementos.

Después de obtener dos puntajes en números pares e impares de elementos de prueba, se calcula el coeficiente de correlación. Realmente es una correlación entre dos mitades equivalentes de puntuaciones obtenidas en una sesión. Para estimar la confiabilidad, se utiliza la fórmula de profecía de Spearman-Brown.

La fórmula de Spearman-Brown está dada por:

en la que r 11 = la fiabilidad de toda la prueba.

r 11/22 = el coeficiente de correlación entre dos medias pruebas.

Ejemplo 1:

Una prueba contiene 100 artículos. Todos estos elementos se organizan en orden de dificultad a medida que uno va del primero al centésimo. Los estudiantes contestan la prueba y la prueba se califica.

Los estudiantes obtienen los puntajes en un número impar de elementos y el número par de elementos se totaliza por separado. El coeficiente de correlación encontrado entre estos dos conjuntos de puntuaciones es de 0, 8.

La fiabilidad de toda la prueba (o)

Al utilizar esta fórmula, debe tenerse en cuenta que la varianza de las mitades pares e impares debe ser igual, es decir

Si no es posible, se pueden emplear las fórmulas de Flanagan y Rulon. Estas fórmulas son más simples y no implican el cálculo del coeficiente de correlación entre dos mitades.

Ventajas:

1. Aquí no estamos repitiendo la prueba o utilizando la forma paralela de la misma, por lo que no se prueba la prueba dos veces. Como tal, el efecto de prórroga o el efecto de práctica no está allí.

2. En este método, las fluctuaciones de la capacidad del individuo, debido a las condiciones ambientales o físicas, se minimizan.

3. Debido a la administración única de la prueba, las funciones y los problemas del día a día no interfieren.

4. Se elimina la dificultad de construir formas paralelas de prueba.

Limitaciones:

1. Una prueba puede dividirse en dos mitades iguales de varias maneras y el coeficiente de correlación en cada caso puede ser diferente.

2. Este método no se puede utilizar para estimar la confiabilidad de las pruebas de velocidad.

3. Como la última aplicación se administra una vez, los errores de probabilidad pueden afectar los puntajes en las dos mitades de la misma manera y, por lo tanto, tienden a hacer que el coeficiente de confiabilidad sea demasiado alto.

4. Este método no se puede utilizar en pruebas de potencia y pruebas heterogéneas.

A pesar de todas estas limitaciones, el método de la mitad dividida se considera el mejor de todos los métodos para medir la confiabilidad de las pruebas, ya que los datos para determinar la confiabilidad se obtienen ocasionalmente y, por lo tanto, reducen el tiempo, el trabajo y las dificultades involucradas en el caso de una segunda. o la administración repetida.

4. Método de equivalencia racional:

Este método también se conoce como "Confiabilidad de Kuder-Richardson" o "Coherencia entre elementos". Es un método basado en una sola administración. Se basa en la consistencia de las respuestas a todos los elementos.

La forma más común para encontrar la consistencia entre elementos es a través de la fórmula desarrollada por Kuder y Richardson (1937). Este método permite calcular la correlación entre los elementos de la prueba y la correlación de cada elemento con todos los elementos de la prueba. J. Cronbach lo llamó como coeficiente de consistencia interna.

En este método, se supone que todos los elementos tienen un valor de dificultad igual o igual, la correlación entre los elementos es igual, todos los elementos miden esencialmente la misma capacidad y la prueba es de naturaleza homogénea.

Como el método de la mitad dividida, este método también proporciona una medida de consistencia interna.

La fórmula más popular es Kuder-Richardson, es decir, KR-21, que se proporciona a continuación:

q = - p

p = 1 - q

Un ejemplo nos ayudará a calcular p y q.

Ejemplo 2:

60 estudiantes aparecieron en una prueba y de ellos, 40 estudiantes dieron una respuesta correcta a un ítem particular de la prueba.

p = 40/60 = 2/3

Esto significa que una parte de los estudiantes ha dado una respuesta correcta a un elemento en particular de la prueba. En el cual 20 estudiantes han dado respuesta incorrecta a ese ítem.

Así q = 20/60 o 1 - 40/60

Para cada elemento, debemos averiguar el valor de p y q, luego pq se suma sobre todos los elementos para obtener ∑pq. Multiplica p y q para cada artículo y suma para todos los artículos. Esto da ∑pq.

Ventajas:

1. Este coeficiente proporciona algunas indicaciones de cuán internamente consistentes u homogéneas son los ítems de las pruebas.

2. La equivalencia racional es superior a la técnica de la mitad dividida en ciertos aspectos teóricos, pero la diferencia real en los coeficientes de confiabilidad encontrados por los dos métodos es a menudo despreciable.

3. El método de la mitad dividida simplemente mide la equivalencia, pero el método de equivalencia racional mide tanto la equivalencia como la homogeneidad.

4. Método económico ya que la prueba se administra una vez.

5. No requiere la administración de dos formas equivalentes de pruebas ni requiere dividir las pruebas en dos mitades iguales.

Limitaciones:

1. El coeficiente obtenido por este método es generalmente algo menor que los coeficientes obtenidos por otros métodos.

2. Si los elementos de las pruebas no son muy homogéneos, este método producirá un coeficiente de confiabilidad más bajo.

3. El método de Kuder-Richardson y la mitad dividida no son apropiados para la prueba de velocidad.

4. La fórmula KR diferente produce un índice de confiabilidad diferente.