4 Criterios Esenciales de una Buena Prueba

Este artículo arroja luz sobre los cuatro criterios esenciales de una buena prueba. Los criterios son: - 1. Fiabilidad 2. Validez 3. Objetividad 4. Usabilidad.

Criterio # 1. Confiabilidad:

El significado del diccionario de fiabilidad es consistencia, dependencia o confianza. Un procedimiento de medición es confiable en la medida en que la medición repetida proporciona resultados consistentes para el individuo.

Una prueba se considera confiable si produce resultados consistentes en su administración sucesiva. Entonces, por confiabilidad de una prueba queremos decir qué tan confiable o confiable es la prueba. Para expresarse de manera general, si un instrumento de medición mide de manera consistente, es confiable.

Cuando una prueba es confiable, las calificaciones obtenidas por los miembros de un grupo al volver a realizar la prueba con la misma prueba o con formas alternativas de la misma prueba diferirán muy poco o nada de sus valores originales.

Ejemplo 1:

Si un testigo da la misma declaración sobre un asunto cuando un abogado lo solicita una y otra vez, confiamos en su declaración y consideramos que su declaración es confiable.

Ejemplo 2:

Si un reloj permanece 10 minutos tarde todos los días en comparación con el horario de Hindustan, entonces podemos decir que el reloj es un instrumento confiable.

Ejemplo 3:

Supongamos que le pedimos a Amit que informe su fecha de nacimiento. Él informa que es el 13 de julio de 1985. Después de un lapso de tiempo hicimos la misma pregunta y él informó lo mismo, es decir, el 13 de julio de 1985.

Podemos formular la pregunta una y otra vez, y si la respuesta es la misma, creemos que la afirmación de Amit es confiable.

Definiciones:

1. Thorndike:

Es la consistencia de una prueba con la que mide lo que se supone que se debe medir. La confiabilidad de la prueba generalmente se considera como el grado en que la prueba está libre de errores de compensación.

2. Gronlund y Linn:

La confiabilidad se refiere a la consistencia de la medición, es decir, cómo los puntajes consistentes de las pruebas u otros resultados de la evaluación son de una medición a otra.

3. Anastasi:

La confiabilidad se refiere a la consistencia de las puntuaciones obtenidas por los mismos individuos cuando se reexaminan con la misma prueba en diferentes ocasiones o con diferentes conjuntos de elementos equivalentes o bajo condiciones de examen variables.

4. Davis:

El grado de precisión relativa de la medición de un conjunto de puntajes de prueba se define como confiabilidad.

5. Guilford:

La confiabilidad es la proporción de la varianza verdadera en los puntajes obtenidos en las pruebas.

De la discusión anterior quedó claro que la confiabilidad de una prueba significa el grado en que la prueba arroja el mismo resultado en la administración sucesiva en la misma población. Otras condiciones permanecen constantes, si la misma prueba se administra en la misma población en dos ocasiones diferentes y las calificaciones obtenidas por los individuos en ambas ocasiones siguen siendo más o menos las mismas, se dice que la prueba es confiable.

La fiabilidad de una prueba trata de responder las siguientes preguntas:

(i) ¿Qué tan similares serían los puntajes de los alumnos si se les da la misma prueba en dos ocasiones diferentes?

(ii) ¿Cómo variarían las puntuaciones si se seleccionara una muestra diferente de ítems equivalentes?

(iii) ¿Cómo variarían las puntuaciones si la prueba fuera calificada por un anotador diferente?

(iv) ¿Cómo variarían las puntuaciones si el mismo anotador calificara la prueba en diferentes momentos?

Características de la fiabilidad:

La fiabilidad tiene las siguientes características:

(i) Una estimación de confiabilidad siempre se refiere a cualquier tipo particular de consistencia.

(ii) Se refiere a la precisión o exactitud de un instrumento de medición.

(iii) La fiabilidad se refiere a los resultados de la prueba, no a la prueba en sí.

(iv) Es el coeficiente de consistencia interna.

(v) La confiabilidad de un conjunto de mediciones es lógicamente como la proporción de la varianza que es la varianza verdadera.

(vi) Es la medida del error variable o error de probabilidad o error de medición.

(vii) La confiabilidad es una cuestión de grado. No existe en todos o no base.

(viii) La confiabilidad no garantiza la validez o la veracidad o el propósito de una prueba.

(ix) La confiabilidad es una condición necesaria pero no suficiente para la validez. La baja confiabilidad puede restringir el grado de validez que se obtiene, pero la alta confiabilidad no proporciona seguridad para un grado de validez satisfactorio.

(x) La confiabilidad es principalmente de naturaleza estadística en el sentido de que las puntuaciones obtenidas en dos ocasiones sucesivas se correlacionan entre sí. Este coeficiente de correlación se conoce como autocorrelación y su valor se denomina "coeficiente de confiabilidad".

Fiabilidad y errores de medida:

Las definiciones de confiabilidad pueden agruparse en tres encabezados:

(i) empírica,

(ii) Lógica, y

(iii) Teórico.

(i) Empírica:

Las definiciones empíricas de confiabilidad se refieren al grado de correlación entre dos conjuntos de puntajes en la misma prueba administrada en el mismo individuo en diferentes ocasiones.

(ii) Teórico:

El significado teórico se refiere a la consistencia o precisión de los resultados de los exámenes. Significa la fiabilidad de una puntuación de la prueba.

(iii) Lógica:

El significado lógico de la fiabilidad se refiere a los errores de medición.

La siguiente ilustración nos puede ayudar a comprender el concepto de confiabilidad y errores de medición:

Por ejemplo, el Sr. Rohit asegura 52 en una prueba mental. ¿Qué indica 52? ¿Habla de su verdadera habilidad? ¿Es su verdadera puntuación? Rohit podría haber asegurado 52 por mera casualidad. Puede suceder que, por casualidad, Rohit supiera 52 elementos de la prueba y si los elementos hubieran sido un poco diferentes, no habría obtenido este puntaje.

Todas estas preguntas están relacionadas con el hecho de que la medición involucra algunos tipos de errores, a saber, errores personales, constantes, variables e interpretativos. Este error se llama como errores de medición. Entonces, al determinar la confiabilidad de una prueba, debemos tener en cuenta la cantidad de errores presentes en la medición.

Cuando el coeficiente de confiabilidad será perfecto (es decir, 1.00), la medición se vuelve precisa y está libre de todo tipo de errores. Pero la medición en cada campo implica algún tipo de errores. Por lo tanto, la fiabilidad nunca es perfecta.

Un puntaje en una prueba puede considerarse como un índice de puntaje real más errores de medición.

Puntaje total o puntaje real obtenido = puntaje verdadero + puntaje de error

Si un puntaje tiene un gran componente de 'puntaje verdadero' y un pequeño componente de error, es alto; y, por el contrario, si un puntaje de prueba tiene un componente pequeño de componente de 'puntaje verdadero' y 'error' grande, su confiabilidad es baja.

Las relaciones de puntaje real obtenido, puntaje verdadero y error pueden expresarse matemáticamente de la siguiente manera:

X = X + e

en la que X = puntuación obtenida para un individuo en una prueba.

X = puntuación real del mismo individuo

e = los errores de la variable (oportunidad).

Errores de medida:

La puntuación verdadera es el promedio de las puntuaciones obtenidas en un número infinito de formas paralelas de una prueba. Cada puntaje obtenido será más o menos que el puntaje real. Las desviaciones de las puntuaciones obtenidas de las puntuaciones verdaderas se denominan "Errores de medición".

A veces los errores de medición pueden ser menores y otras veces más. En igualdad de condiciones, cuanto más pequeños sean los errores de medición, mayor será la fiabilidad de la medición.

Error estándar de medida:

Los errores de medición (es decir, la variación de las puntuaciones obtenidas de la puntuación real) se distribuirán normalmente y la desviación estándar de estas variaciones (o errores de medición) se denomina "errores estándar de medición".

Podemos averiguar el error estándar de medición (SE de medición) cuando se proporciona el coeficiente de confiabilidad y la desviación estándar de la distribución.

La fórmula para calcular el error estándar de medición es la siguiente:

en la que σ sc = el SE de una puntuación obtenida

σ 1 = la desviación estándar de los resultados de las pruebas

r 11 = el coeficiente de fiabilidad de la misma prueba.

Ejemplo 4:

En un grupo de 300 estudiantes universitarios, el coeficiente de confiabilidad de un Examen de Aptitud en Matemáticas es .75, el examen M es 80 y el SD de la distribución de puntajes es 16. John logra un puntaje de 86. ¿Cuál es el SE de este puntaje? ?

Solución:

De la fórmula anterior encontramos que

y las probabilidades son aproximadamente 2: 1 de que la puntuación obtenida de cualquier individuo en el grupo de 300 no pierda su verdadero valor en más de ± 8 puntos (es decir, ± 1 SE sc ). El intervalo de confianza de .95 para la puntuación real de John es de 86 ± 1.96 x 8 o de 70 a 102.

Al generalizar para todo el grupo de 300 estudiantes, podemos esperar que aproximadamente 1/3 de sus puntajes sean errores por 8 o más puntos, y 2/3 sean errores por menos de esta cantidad.

Criterio # 2. Validez:

El significado de validez del diccionario es "bien basado", "eficaz", "sonido". Se refiere a la "veracidad". Por lo tanto, cualquier cosa que sea veraz, esté bien basada y sirva para el propósito correcto es válida.

Cada prueba tiene ciertos objetivos propios. Se construye para un propósito específico y es válido para ese propósito. Si una prueba mide lo que pretende medir, se dice que es válida. La validez proporciona una verificación directa de qué tan bien la prueba cumple sus funciones. La validez es el primer requisito para que una prueba se convierta en universal.

La confiabilidad puede ser necesaria pero no una condición suficiente de validez. Una prueba no puede ser válida a menos que sea confiable. Puede ser confiable pero no se puede decir válido. La relevancia de una prueba tiene que ver con las medidas de prueba y el proceso de las medidas.

En resumen, podemos decir que una prueba está destinada a servir a la función de predicción y, por lo tanto, vale la pena o la validez depende del grado en que tenga éxito en la estimación del rendimiento en algunos tipos de situaciones de la vida real.

Ejemplo 5:

Supongamos que un testigo da una declaración ante el juez en un tribunal. Si en exámenes cruzados sucesivos o interrogatorios cruzados, repite la misma declaración una y otra vez, entonces será llamado como un testigo confiable.

Sin duda, su declaración puede ser correcta o incorrecta. Cuando su declaración es verdadera, se dice que es un testigo válido. Pero si su declaración es sistemáticamente errónea, aunque es confiable, pero no es válida.

Ejemplo 6:

Si un reloj permanece 10 minutos adelante de la "hora estándar", es una pieza de tiempo confiable. Porque da resultados consistentes todos los días con 10 minutos de ayuno. Nuestro propósito es conocer el tiempo correctamente y no podríamos saberlo. Así que el propósito mismo no se cumple. Por lo tanto, no será válido según lo juzgado por "Hora estándar".

Por lo tanto, se encuentra que una prueba puede ser confiable, pero puede no ser válida. Sin embargo, las medidas o pruebas válidas son siempre fiables. Una prueba que es válida para un propósito determinado puede no ser válida para otro propósito.

Una prueba que ha sido preparada para medir la habilidad computacional de los estudiantes en matemáticas puede ser válida solo para ese propósito, pero no para medir el razonamiento matemático. Por lo tanto, la validez se refiere al propósito mismo de la prueba.

Definiciones:

Anne Anastasi:

Escribe "la validez de una prueba se refiere a lo que mide la prueba y qué tan bien lo hace".

Rummel:

"La validez de un dispositivo de evaluación es el grado en que mide lo que se pretende medir".

FS Freeman:

"Un índice de validez muestra los grados en que una prueba mide lo que pretende medir cuando se compara con el criterio aceptado".

LJ Cronbach:

"La validez es la medida en que una prueba mide lo que pretende medir".

EF Lindquist:

La validez es la precisión con la que mide lo que se pretende medir o el grado en que se acerca a la infalibilidad para medir lo que pretende medir.

De la discusión anterior, formamos que la validez se refiere al "propósito mismo de la prueba" y si el propósito se cumple, la prueba debe considerarse válida. Así que una prueba para ser válido debe hacer el trabajo que quería hacer.

El concepto de validez de una prueba, por lo tanto, es principalmente una preocupación por la "honestidad básica" de la prueba. Honestidad en el sentido de hacer lo que uno promete hacer. Para ser precisos, la validez se refiere a qué tan bien una herramienta mide lo que pretende medir.

Naturaleza de la validez:

1. La validez se refiere a la veracidad o al propósito de los resultados de las pruebas, pero no al instrumento en sí.

2. La validez es una cuestión de grado. No existe en una base de todo o nada. No se puede decir que un instrumento diseñado para medir una habilidad en particular sea perfectamente válido o no sea válido en absoluto. En general es más o menos válido.

3. Es una medida de 'error constante', mientras que la confiabilidad es la medida de 'error variable'.

4. La validez garantiza la fiabilidad de una prueba. Si una prueba es válida, debe ser confiable.

5. La validez no es de diferentes tipos. Es un concepto unitario. Se basa en varios tipos de pruebas.

6. No existe la validez general. Una prueba es válida para algún propósito o situación, pero no es válida para otros propósitos. En otras palabras, una herramienta es válida para un propósito particular o en una situación particular; no es generalmente valido

Por ejemplo, los resultados de una prueba de vocabulario pueden ser muy válidos para evaluar el vocabulario, pero pueden no ser tan válidos para evaluar la capacidad de composición del estudiante.

Criterio # 3. Objetividad:

La objetividad es la característica más importante de una buena prueba. Es un requisito previo para la validez y la fiabilidad. La objetividad de una prueba significa el grado en que las diferentes personas que califican dan el mismo resultado.

Buen CV (1973):

CV Good (1973) define que la objetividad en las pruebas es "la medida en que el instrumento está libre de error personal (sesgo personal) que es la subjetividad por parte del anotador".

Gronlund y Linn (1995):

"La objetividad de una prueba se refiere al grado en que los evaluadores igualmente competentes obtienen los mismos resultados".

Por lo tanto, se puede decir que una prueba se considera objetiva cuando elimina la opinión personal y el juicio de sesgo del anotador.

La objetividad de una prueba se refiere a dos aspectos a saber:

(i) Objetividad de los artículos, y

(ii) La objetividad del puntaje.

(i) Objetividad de los artículos:

La objetividad de los elementos significa que el elemento debe exigir una respuesta única y definitiva. Los ítems objetivos no pueden tener dos o más respuestas. Cuando la pregunta se establece de manera diferente, se producirá una diferencia en la puntuación.

Por ejemplo:

“Explique el concepto de personalidad”.

En este caso, los puntajes dados por los anotadores variarán en gran medida porque la pregunta no indica claramente la naturaleza de la respuesta correcta que se espera.

Aquí el niño puede escribir cualquier cosa relacionada con la pregunta. Si la respuesta es puntuada por diferentes examinadores, las calificaciones definitivamente variarán.

Las preguntas ambiguas, la falta de dirección correcta, las preguntas de doble barril, las preguntas con negativos dobles, las preguntas de tipo ensayo amplio, etc. no tienen objetividad. Por lo tanto, se debe tener mucho cuidado al formular las preguntas.

(ii) La objetividad del puntaje:

Una herramienta es objetiva si otorga la misma puntuación incluso cuando diferentes anotadores califiquen el ítem. La objetividad en el puntaje puede, por lo tanto, considerarse como consistencia en el puntaje de diferentes anotadores.

Muy a menudo, en situaciones reales, encontramos que el capricho o los prejuicios del anotador influyen en el marcado. Las Preguntas, preguntadas sobre ciertos temas para los cuales el anotador tiene una inclinación, pueden obtener más notas que las otras preguntas.

Este tipo de sistema de puntuación de temperamento irracional es un tipo de tratamiento subjetivo del programa de estudios que, a su vez, afecta el proceso de evaluación. Por lo tanto, se debe asegurar la objetividad en la evaluación para una evaluación precisa.

Al mismo tiempo, la subjetividad no necesita ser condenada y excluida por completo, ya que así es como se hacen la mayoría de las evaluaciones en la realidad. La evaluación subjetiva basada en una observación cuidadosa, un pensamiento imparcial y sin prejuicios y un análisis lógico de las situaciones y los fenómenos también puede proporcionar una evaluación precisa. Este tipo de subjetividad disciplinada puede jugar un papel importante incluso en una situación escolar.

Criterio # 4. Usabilidad:

Usabilidad: grado en que la herramienta de evaluación puede ser utilizada con éxito por los usuarios de prueba.

Ya hemos leído, los tres criterios principales de una buena prueba: validez, confiabilidad y objetividad. Otra característica importante de una herramienta es su utilidad o practicabilidad. Al seleccionar las herramientas de evaluación, se deben buscar ciertas consideraciones prácticas como la exhaustividad, la facilidad de administración y calificación, la facilidad de interpretación, la disponibilidad de formas comparables y el costo de las pruebas.

Todas estas consideraciones inducen a un maestro a usar herramientas de evaluación y dichas consideraciones prácticas se conocen como la "usabilidad" de una herramienta de evaluación. En otras palabras, usabilidad significa el grado en que la herramienta de evaluación puede ser utilizada exitosamente por el maestro y los administradores escolares.

(i) Comprensibilidad:

Los elementos de prueba deben estar libres de ambigüedad. La dirección para probar los elementos y otras instrucciones para la prueba deben ser claras y comprensibles. Las instrucciones para la administración y las instrucciones para calificar deben estar claramente establecidas para que uno pueda entenderlas y seguirlas fácilmente. Además, el procedimiento de administración de la prueba, puntuación e interpretación de la puntuación debe estar dentro de la comprensión del usuario de la prueba.

(ii) Facilidad de administración:

Se refiere a la facilidad con la que se puede administrar una prueba. Cada prueba tiene sus propias condiciones de administración. Al seleccionar una prueba, se debe elegir una, de una colección de pruebas, que se puede administrar sin mucha preparación y dificultades.

a. La facilidad de administración incluye instrucciones claras y concisas para la administración. Entonces, para que una prueba se administre fácilmente, las instrucciones para el administrador y la dirección para los gustos deben ser fáciles, claras y completas.

segundo. El tiempo también es un factor muy importante. Para la administración máxima en las escuelas, es costumbre que se tome un examen dentro de un período de clase normal.

(iii) Facilidad de puntuación:

Una prueba con el fin de mejor uso debe tener facilidad de puntuación. Su clave de puntuación debe estar preparada y se puede evaluar fácilmente. A veces, los lugares se asignan en el lado derecho de las preguntas para dar respuestas.

En algunos casos las respuestas se dan en hojas separadas. Una prueba ideal puede ser calificada por cualquiera o incluso por una máquina, que ha sido provista con una clave de puntuación. Deben asignarse marcas iguales a cada elemento de la prueba para hacer que la puntuación sea más fácil.

Según la viabilidad, se pueden proporcionar dispositivos de puntuación manual o dispositivos de puntuación de la máquina.

(iv) Facilidad de interpretación:

Si los puntajes obtenidos en las pruebas se pueden entender e interpretar fácilmente, se dice que una prueba es buena. Para este propósito, el manual de la prueba debe proporcionar normas completas para la interpretación de puntajes, tales como normas de edad, normas de grado, normas de percentiles y normas de puntaje estándar. Las normas facilitan la interpretación de los resultados de los exámenes.

(v) Levantamiento de la prueba:

La prueba debe tener un buen atuendo. Este debe ser bueno y atractivo. Las letras no deben ser innecesariamente demasiado pequeñas o demasiado grandes. Se examinará la calidad del papel utilizado, tipografía e impresión, tamaño de letra, espacio, imágenes y diagramas presentados, su encuadernación, espacio para la respuesta de los alumnos, etc.

(vi) Costo de la prueba:

La prueba no debe ser demasiado costosa. El costo debe reducirse en la medida de lo posible, para que se pueda utilizar ampliamente.