Top 4 características de una buena prueba

Este artículo arroja luz sobre las cuatro características importantes de una buena prueba. Las cuatro características son: 1. Fiabilidad 2. Validez 3. Objetividad 4. Usabilidad.

Característica # 1. Fiabilidad:

El significado del diccionario de fiabilidad es consistencia, dependencia o confianza. Por lo tanto, en la medición la fiabilidad es la consistencia con la que una prueba produce el mismo resultado al medir lo que mide. Un puntaje de prueba se llama confiable cuando tenemos razones para creer que el puntaje es estable y digno de confianza. La estabilidad y la dignidad de confianza dependen de la medida en que el puntaje es un índice de confiabilidad en el tiempo "está libre de error de probabilidad. Por lo tanto, la confiabilidad se puede definir como el grado de consistencia entre dos mediciones de la misma cosa.

Por ejemplo, administramos una prueba de rendimiento en el Grupo A y encontramos una puntuación media de 55. Nuevamente, después de 3 días, administramos la misma prueba en el Grupo A y encontramos una puntuación media de 55. Esto indica que el instrumento de medición (prueba de Logro) Está proporcionando un resultado estable o confiable. Por otro lado, si en la segunda medición la prueba proporciona una puntuación media de alrededor de 77, podemos decir que las puntuaciones de la prueba no son consistentes.

En palabras de Gronlund y Linn (1995), "confiabilidad se refiere a la consistencia de la medición, es decir, cómo los puntajes consistentes de las pruebas u otros resultados de la evaluación son de una medición a otra".

CV Good (1973) ha definido la confiabilidad como el “valor con el que un dispositivo de medición mide algo; el grado en que una prueba u otro instrumento de evaluación mide constantemente lo que en realidad mide ”.

Según Ebel y Frisbie (1991) "el término fiabilidad significa la consistencia con la que un conjunto de puntajes de prueba miden lo que miden".

En teoría, la confiabilidad se define como la relación entre la puntuación real y la varianza observada.

Según Davis (1946) "el grado de precisión relativa de la medición de un conjunto de puntajes de prueba se define como confiabilidad".

Así, la fiabilidad responde a las siguientes preguntas:

Gronlund y Linn (1995)

¿Qué tan similares son los resultados de los exámenes si la pérdida se administra dos veces?

¿Qué tan similares son los puntajes de las pruebas si se administran dos formas equivalentes de pruebas?

En qué medida las puntuaciones de cualquier ensayo de ensayo. ¿Difiere cuando es puntuado por diferentes profesores?

No siempre es posible obtener resultados perfectamente consistentes. Debido a que hay varios factores como la salud física, la memoria, las suposiciones, la fatiga, el olvido, etc., que pueden afectar los resultados de una medición a otra. Estas variables extrañas pueden introducir algún error en los resultados de nuestros exámenes. Este error se llama como errores de medición. Entonces, al determinar la confiabilidad de una prueba, debemos tener en cuenta la cantidad de error presente en la medición.

Naturaleza de la fiabilidad:

1. La confiabilidad se refiere a la consistencia de los resultados obtenidos con un instrumento pero no con el instrumento en sí.

2. La fiabilidad se refiere a una interpretación particular de los resultados de las pruebas. Por ejemplo, un puntaje de prueba que es confiable durante un período de tiempo puede no ser confiable de una prueba a otra prueba equivalente. De modo que la fiabilidad no puede ser tratada como características generales.

3. La confiabilidad es un concepto estadístico para determinar la confiabilidad. Administramos una prueba a un grupo una vez o más de una vez. Luego, la consistencia se determina en términos de cambios en la posición relativa de una persona en el grupo o la cantidad de variación esperada en la puntuación de un individuo. El desplazamiento de la posición relativa de un individuo se relaciona por medio de un coeficiente de correlación denominado 'Coeficiente de confiabilidad' y la cantidad de variación se informa mediante 'Error estándar de medición'. Ambos procesos son estadísticos.

4. La confiabilidad es necesaria pero no es una condición suficiente para la validez. Una prueba que no es confiable no puede ser válida. Pero no es que una prueba con alta confiabilidad posea alta validez. Debido a que una prueba altamente consistente puede medir algo más que eso, lo que intentamos medir.

Métodos para determinar la confiabilidad:

Para la mayoría de las pruebas educativas, el coeficiente de confiabilidad proporciona el índice estadístico de calidad más revelador que se encuentra disponible normalmente. Las estimaciones de la confiabilidad de las pruebas proporcionan información esencial para juzgar su calidad técnica y motivar los esfuerzos para mejorarlas. La consistencia de un puntaje de prueba se expresa ya sea en términos de cambios de la posición relativa de un individuo en el grupo o en términos de la cantidad de variación en el puntaje de un individuo.

Sobre la base de esta estimación de la confiabilidad caen en dos clasificaciones generales:

(yo) Fiabilidad relativa o coeficiente de confiabilidad:

En este método, la confiabilidad se expresa en términos de un coeficiente de correlación conocido como coeficiente de confiabilidad. Por lo tanto, determinamos el cambio de posición relativa de la puntuación de un individuo por el coeficiente de correlación.

(ii) Fiabilidad absoluta o error estándar de medición:

En este método, la confiabilidad se expresa en términos del error estándar de medición. Indica la cantidad de variación de la puntuación de un individuo.

Métodos para determinar la fiabilidad relativa o el coeficiente de fiabilidad:

Para determinar el coeficiente de confiabilidad tenemos que obtener dos conjuntos de mediciones en condiciones idénticas y luego comparar los dos conjuntos. Pero es solo una condición teórica, porque es imposible de nuestra parte obtener dos mediciones en exactamente dos condiciones idénticas. De modo que se han desarrollado varios métodos para determinar la fiabilidad relativa.

Son los siguientes (Gronlund y Linn, 1995):

(i) La misma forma de prueba puede administrarse dos veces al mismo grupo de individuos.

(ii) Se pueden administrar dos formas separadas pero equivalentes de la prueba a los mismos individuos.

(iii) Los elementos de prueba de una prueba única se dividen en dos conjuntos separados y las puntuaciones de dos conjuntos se correlacionan.

Los métodos son similares en cuanto a que todos ellos implican la correlación de dos conjuntos de datos, obtenidos del mismo instrumento de evaluación o de formas equivalentes del mismo procedimiento. Este coeficiente de confiabilidad debe interpretarse en términos de los tipos de consistencia que se están investigando.

Diferentes tipos de consistencia están determinados por diferentes métodos. Estos son los siguientes:

1. La consistencia en un período de tiempo.

2. Consistencia sobre diferentes formas de instrumento.

3. Consistencia dentro del propio instrumento.

Hay cuatro métodos para determinar el coeficiente de confiabilidad, tales como:

(a) Método Test-Retest.

(b) Método de formas equivalentes / formas paralelas.

(re) Equivalencia racional / método de Kuder-Richardson.

(a) Método de prueba y reexamen:

Este es el método más simple para determinar la fiabilidad de la prueba. Para determinar la confiabilidad en este método, la prueba se administra y repite en el mismo grupo. Luego se obtiene la correlación entre el primer conjunto de puntuaciones y el segundo conjunto de puntuaciones.

Un alto coeficiente de correlación indica una alta estabilidad de los resultados de las pruebas. En palabras de Gronlund, las medidas de estabilidad en los grados .80 y .90 se informan comúnmente para las pruebas estandarizadas en ocasiones dentro del mismo año. Pero este método adolece de algunos inconvenientes graves. En primer lugar, cuál debe ser el intervalo entre dos administraciones.

Si se administra dentro de un corto intervalo, digamos uno o dos días, entonces el alumno recordará sus primeras respuestas y dedicará su tiempo a material nuevo. Tenderá a aumentar su puntuación en segundas administraciones. Si el intervalo es demasiado largo, por ejemplo, un año, el efecto de maduración afectará las puntuaciones de la nueva prueba y tenderá a aumentar las puntuaciones de la nueva prueba.

En ambos casos tenderá a disminuir la fiabilidad. Entonces, ¿cuál debería ser la diferencia de tiempo entre dos administraciones depende en gran medida del uso y la interpretación de los resultados de los exámenes? Debido a sus dificultades para controlar las condiciones que influyen en las puntuaciones de reevaluación, se reduce el uso del método de prueba-reevaluación en la estimación del coeficiente de confiabilidad.

(b) Método de formas equivalentes / formas paralelas:

La confiabilidad de los puntajes de las pruebas se puede estimar por el método de formas equivalentes. También es conocido como método de formas alternativas o formas paralelas. Cuando se pueden construir dos formas equivalentes de pruebas, la correlación entre las dos puede tomarse como medidas de la autocorrelación de la prueba. En este proceso, se administran dos formas paralelas de pruebas al mismo grupo de alumnos en un corto intervalo de tiempo, luego se correlacionan las puntuaciones de ambas pruebas. Esta correlación proporciona el índice de equivalencia. Por lo general, en el caso de pruebas psicológicas y de rendimiento estandarizadas, las formas equivalentes están disponibles.

Ambas pruebas seleccionadas para la administración deben ser paralelas en términos de contenido, dificultad, formato y longitud. Cuando se proporciona una brecha de tiempo entre las administraciones de dos formas de pruebas, el coeficiente de puntajes de prueba proporciona una medida de confiabilidad y equivalencia. Pero el principal inconveniente de este método es obtener dos formas paralelas de pruebas. Cuando las pruebas no son exactamente iguales en términos de contenido, dificultad, duración y comparación entre los puntajes obtenidos de estas pruebas puede llevar a decisiones erróneas.

(c) Método de la mitad dividida:

También hay métodos por los cuales la confiabilidad puede ser determinada por una sola administración de una sola prueba. Uno de tales métodos es el método de la mitad dividida. En este método se administra una prueba a un grupo de alumnos de la manera habitual. Luego, la prueba se divide en dos valores equivalentes y se encuentra la correlación para estas medias pruebas.

El procedimiento común para dividir la prueba es tomar todos los elementos con números impares, es decir, 1, 3, 5, etc. en una mitad y todos los elementos con números pares, es decir, 2, 4, 6, 8, etc. en la otra mitad. las mitades se correlacionan utilizando la fórmula de Spearman-Brown.

Por ejemplo, al correlacionar ambas mitades, encontramos un coeficiente de .70.

Al usar la fórmula (5.1) podemos obtener el coeficiente de confiabilidad en la prueba completa como:

El coeficiente de confiabilidad .82 cuando el coeficiente de correlación entre la mitad de la prueba es .70. Indica en qué medida la muestra de elementos de prueba es una muestra confiable del contenido que se mide, consistencia interna.

Gronlund (1995) opina que "las confiabilidad de la mitad dividida tienden a ser más altas que las confiabilidad de la forma equivalente porque el método de la mitad dividida se basa en la administración de una única prueba". Este método resuelve el problema de la introducción de formas equivalentes. Debido a las diferencias de forma a forma, a la atención, a la velocidad de trabajo, al esfuerzo, a la fatiga y al contenido de la prueba, etc.

(d) Método Racional Equivalente / Kuder Richardson:

La equivalencia racional es otro método para determinar la confiabilidad mediante el uso de la fórmula desarrollada por Kuder y Richardson. Como el método de la mitad dividida, este método también proporciona una medida de consistencia interna. No requiere la administración de dos formas equivalentes de pruebas ni requiere dividir las pruebas en dos mitades iguales. El coeficiente de confiabilidad se determina utilizando la fórmula-20 de Kuder-Richardson, que se lee así.

Este método proporciona información sobre el grado en que los elementos de la prueba miden características similares. Aunque la simplicidad de la aplicación de este método ha hecho que se extienda ampliamente, todavía tiene algunas limitaciones.

1. El método de Kuder-Richardson y el método de la mitad dividida no son apropiados para las pruebas de velocidad.

2. Tanto el método de Kuder-Richardson como el método de la mitad dividida no miden la consistencia de la respuesta del alumno de un día a otro.

3. El método de Kuder-Richardson es incómodo de calcular a menos que ya haya información disponible sobre la proporción de pases.

Métodos para determinar la fiabilidad absoluta o errores estándar de medición:

Si administramos una prueba una y otra vez, encontraremos alguna variación en los puntajes. Debido a que la puntuación obtenida es un índice de la puntuación real del examinado más: errores de medición. HE Garrett (1985) ha definido un puntaje real como "una medida que se obtendría al tomar la media de una gran cantidad infinita de medidas de un individuo determinado en pruebas similares en condiciones similares. Una puntuación verdadera no puede, por supuesto, ser determinada experimentalmente ” .

Si las puntuaciones de las pruebas incluyen un gran componente de error, su fiabilidad es baja y si incluye algunos errores, su fiabilidad es alta. Por lo tanto, en la medida en que la puntuación real excede, el error en las puntuaciones obtenidas se puede indicar mediante el coeficiente de confiabilidad.

Esta relación entre la puntuación real, las puntuaciones obtenidas y el error se puede expresar matemáticamente de la siguiente manera:

Podemos averiguar el error estándar de medición (EE) cuando se proporciona el coeficiente de confiabilidad y la desviación estándar de la distribución.

La fórmula (Garrett, 1985) para calcular el error estándar de medición es la siguiente:

Por ejemplo, en un grupo de 200 estudiantes de secundaria, el coeficiente de confiabilidad de una prueba de rendimiento en matemáticas es .70, media = 65 y o = 20. Lipu logra una puntuación de 60. ¿Cuál es el SE de esta calificación?

Al poner el valor en la fórmula (5.3):

Así que la puntuación real de Lipu es de 60 ± 10.95, es decir, de 70.50 a 49.05.

La puntuación no obtenida nos dice cuál es la puntuación real, pero el conocimiento de la SE indica la diferencia entre la puntuación obtenida y la puntuación real. Cuando la SE es pequeña, indica que la puntuación real está más cerca de la puntuación obtenida y también indica si la diferencia entre las puntuaciones de dos individuos es una diferencia real o una diferencia debida a errores de medición.

Factores que afectan la confiabilidad:

Hay una serie de factores que afectan las medidas de fiabilidad. Por lo tanto, cuando interpretamos y usamos los puntajes, debemos ser cautelosos y manipular esos factores a través de la preparación y administración de los exámenes.

Los principales factores que afectan la confiabilidad de la prueba, los puntajes pueden clasificarse en tres encabezados:

1. Factores relacionados con la prueba.

2. Factores relacionados con el testado.

3. Factores relacionados con el procedimiento de prueba.

1. Factores relacionados con la prueba:

(a) Duración de la prueba:

La fórmula de Spearman Brown indica que cuanto más larga sea la prueba, mayor será la confiabilidad. Porque una prueba más larga proporcionará una muestra adecuada del comportamiento. Otra causa es que el factor de adivinación puede neutralizarse en una prueba más larga.

Por ejemplo, si vamos a dar un cálculo para medir la capacidad numérica de los estudiantes. Aquellos que han computado correctamente son perfectos en habilidad numérica, aquellos que fallaron son fallas completas. Si el cálculo es difícil, la mayoría de los estudiantes fracasarán. Si es fácil, la mayoría de los estudiantes lo calcularán correctamente. De modo que la puntuación de un solo elemento nunca da un resultado confiable.

(b) Contenido de la prueba:

De acuerdo con Guilford, la homogeneidad del contenido de las pruebas también aumenta la confiabilidad de los resultados de las pruebas. Una prueba de 50 artículos en Vedic Civilization proporcionará puntajes más confiables que una prueba de 50 artículos en la historia de la India. Según Ebel (1991), “la materia en algunos cursos, como matemáticas y lengua extranjera, está más organizada, con una mayor interdependencia de hechos, principios, habilidades y logros, que en la literatura o historia de la materia”. Así que esta homogeneidad de contenido También es un factor que da como resultado una alta fiabilidad.

(c) Características de los artículos:

El nivel de dificultad y la claridad de expresión de un elemento de prueba también afectan la confiabilidad de los resultados de las pruebas. Si los elementos de la prueba son demasiado fáciles o difíciles para los miembros del grupo, tenderá a producir puntuaciones de baja confiabilidad. Debido a que ambas pruebas tienen una distribución restringida de puntajes.

(d) Difusión de puntajes:

Según Gronlund y Minn (1995), "en igualdad de condiciones, mayor será la distribución de puntajes, mayor será la estimación de la confiabilidad". Cuando la distribución de puntajes es grande, existe mayor probabilidad de que un individuo permanezca en el mismo nivel. Posición relativa en un grupo de una prueba a otra. Podemos decir que los errores de medición afectan menos a la posición relativa del individuo cuando la distribución de puntajes es grande.

Por ejemplo, en el Grupo A, los estudiantes obtuvieron calificaciones de 30 a 80 y en el Grupo B obtuvieron calificaciones de 65 a 75. Si administramos las pruebas por segunda vez en el Grupo A, los puntajes de las pruebas de individuos podrían variar en varios puntos, con muy poco cambio en la posición relativa de los miembros del grupo. Es porque la propagación de puntajes en el Grupo A es grande.

Por otro lado, es más probable que las puntuaciones en el Grupo B cambien de posición en una segunda administración de la prueba. Como la distribución de puntajes es de solo 10 puntos desde el puntaje más alto al puntaje más bajo, el cambio de pocos puntos puede traer cambios radicales en la posición relativa de los individuos. Así, cuanto mayor es la propagación más es la fiabilidad.

2. Factores relacionados con el testado:

La variabilidad en el rendimiento, la prudencia en las pruebas de los individuos y la motivación de los estudiantes también influyen en la fiabilidad de los resultados de las pruebas.

A continuación se detallan algunos de los factores importantes con los que la persona que realiza la prueba afecta la confiabilidad de la prueba:

(a) Heterogeneidad del grupo:

Cuando el grupo es un grupo homogéneo, es probable que la distribución de los puntajes de la prueba sea menor, y cuando el grupo que se examina es un grupo heterogéneo, la distribución de las puntuaciones probablemente sea mayor Por lo tanto, el coeficiente de confiabilidad para un grupo heterogéneo será más que un grupo homogéneo.

(b) Prueba de sabiduría de los estudiantes:

La experiencia de tomar exámenes también afecta la confiabilidad de los resultados de los exámenes. La práctica de los estudiantes en la toma de pruebas sofisticadas aumenta la fiabilidad de la prueba. Pero cuando en un grupo todos los estudiantes no tienen el mismo nivel de conocimiento de prueba, esto conduce a errores de medición mayores.

(c) Motivación de los alumnos:

Cuando los estudiantes no estén motivados para tomar el examen, no representarán su mejor logro. Esto deprime los resultados de las pruebas.

3. Factores relacionados con el procedimiento de prueba:

Como los factores relacionados con la prueba y los factores relacionados con la prueba afectan la confiabilidad de los puntajes de la prueba, también los factores relacionados con el procedimiento de prueba también afectan la puntuación de la prueba. Si los usuarios de la prueba pueden controlar estos factores, pueden aumentar la consistencia de los puntajes de la prueba.

(a) Tiempo límite de prueba:

De acuerdo con Ebel y Frisbie (1991), "los puntajes de una prueba dada en condiciones de alta velocidad generalmente mostrarán un coeficiente de confiabilidad de consistencia interna más alto que el que se obtendría para las puntuaciones de la misma prueba dada al mismo grupo bajo límites de tiempo más generosos". cuando los estudiantes tienen más tiempo para tomar el examen, pueden hacer más adivinanzas, lo que puede aumentar los puntajes de los exámenes. Por lo tanto, al acelerar una prueba podemos aumentar la fiabilidad de la prueba.

(b) Oportunidad de engaño dada a los estudiantes:

El engaño por parte de los estudiantes durante la administración de la prueba conduce a errores de medición. Algunos estudiantes pueden proporcionar una respuesta correcta copiándolo de hojas de trucos o escuchando de otros estudiantes sin saber la respuesta correcta. Esto causará una puntuación más alta de esos estudiantes de lo que realmente merecen. Esto hará que la puntuación observada de los tramposos sea más alta que su puntuación real.

¿Qué tan alta debe ser la fiabilidad?

Obviamente, los dispositivos de evaluación nunca son perfectamente fiables. El grado de fiabilidad de una prueba y su utilidad depende principalmente de la delicadeza de la discriminación que se desea obtener de los puntajes de la prueba. (Rem-mers. 1967) El grado de coeficiente de confiabilidad depende de la naturaleza de la prueba, el tamaño y la variabilidad del grupo, el propósito para el cual se administró la prueba y el método utilizado para la estimación de la confiabilidad. Una prueba con baja confiabilidad puede tener una mayor validez y, por lo tanto, puede usarse. Pero en palabras de Remmers (1967) 'La prueba más estandarizada publicada para uso escolar tiene coeficientes de confiabilidad de al menos 0, 80 en la población para la cual están diseñados.

Cuando uno elige una prueba estandarizada para interpretar sus resultados, no es suficiente con solo mirar el valor numérico de la estimación de confiabilidad, también se debe tener en cuenta cómo se obtuvo esa estimación. Gronlund (1976) ha comentado sobre la importancia de los métodos para estimar la confiabilidad.

Según él, “el método de la mitad dividida da los valores numéricos más altos al coeficiente de confiabilidad. El método de formas equivalentes y la prueba de reevaluación de la prueba tienden a dar un valor numérico más bajo al coeficiente de confiabilidad. Normalmente, estos dos métodos proporcionan un coeficiente de confiabilidad de mediano a grande. El método de formas equivalentes generalmente proporciona el coeficiente de confiabilidad más pequeño para una prueba dada ".

Por lo tanto, se puede decir que el maestro debe buscar un examen estandarizado cuya confiabilidad sea lo más alta posible. Pero debe interpretar este coeficiente de confiabilidad a la luz de los grupos de alumnos en los que se basa, la variabilidad de este grupo y los métodos para estimar la confiabilidad.

Característica # 2. Validez:

“Al seleccionar o construir un instrumento de evaluación, la pregunta más importante es; ¿Hasta qué punto servirán los resultados para los usos particulares para los que están destinados? Esta es la esencia de la validez ". —GRONLUND

La validez es la característica más importante de un programa de evaluación, ya que, a menos que una prueba sea válida, no cumple una función útil. Los psicólogos, educadores y consejeros utilizan los resultados de las pruebas para una variedad de propósitos. Obviamente, ningún propósito se puede cumplir, ni siquiera parcialmente, si las pruebas no tienen un grado de validez suficientemente alto. Validez significa veracidad de una prueba. Significa en qué medida la prueba mide eso, lo que el fabricante de la prueba pretende medir.

Incluye dos aspectos:

Lo que se mide y con qué consistencia se mide. No es una característica de la prueba, pero se refiere al significado de las puntuaciones de las pruebas y las formas en que las utilizamos para tomar decisiones. Las siguientes definiciones dadas por los expertos darán una imagen clara de la validez.

Gronlund y Linn (1995) - "Validez se refiere a lo apropiado de la interpretación realizada a partir de los puntajes de las pruebas y otros resultados de la evaluación con respecto a un uso particular".

Ebel y Frisbie (1991) - "El término validez, cuando se aplica a un conjunto de puntajes de prueba, se refiere a la consistencia (precisión) con la que los puntajes miden una capacidad cognitiva de interés particular".

CV Bueno (1973): en el diccionario de educación, la validez se define como "la medida en que una prueba u otro instrumento de medición cumple el propósito para el que se utiliza".

Anne Anastasi (1969) escribe que "la validez de una prueba se refiere a lo que la prueba mide y qué tan bien lo hace".

De acuerdo con Davis (1964), la validez es el grado en que el orden de clasificación de los examinados para los cuales es apropiada una prueba es el mismo que el orden de clasificación de los mismos examinados en la propiedad o característica que la prueba se usa para medir . Esta propiedad o característica se llama criterio. Dado que cualquier prueba se puede utilizar para muchos propósitos diferentes, se deduce que puede tener muchas validaciones correspondientes a cada criterio ".

Freeman (1962) define, "un índice de validez muestra el grado en que una prueba mide lo que pretende medir, en comparación con los criterios aceptados".

Lindquist (1942) ha dicho que "la validez de una prueba puede definirse como la precisión con la que mide lo que se pretende medir, o el grado en que se acerca a la infalibilidad para medir lo que pretende medir".

De las definiciones anteriores queda claro que la validez de un dispositivo de evaluación es el grado en que mide lo que se pretende medir. La validez siempre está relacionada con el uso específico de los resultados y la solidez de nuestra interpretación propuesta.

Tampoco es necesario que una prueba que sea confiable también sea válida. Por ejemplo, supongamos que un reloj se adelanta diez minutos. Si el reloj es un buen momento, el tiempo que nos dice será confiable. Porque da un resultado constante. Pero no será válido según lo juzgado por "Hora estándar". Esto indica "el concepto de que la confiabilidad es una condición necesaria pero no suficiente para la validez".

Naturaleza de la validez:

1. La validez se refiere a la idoneidad de los resultados de la prueba, pero no al instrumento en sí.

2. La validez no existe en una base de todo o nada, pero es una cuestión de grado.

3. Las pruebas no son válidas para todos los propósitos. La validez es siempre específica para una interpretación particular. Por ejemplo, los resultados de una prueba de vocabulario pueden ser muy válidos para evaluar el vocabulario, pero pueden no ser tan válidos para evaluar la capacidad de composición del estudiante.

4. La validez no es de diferentes tipos. Es un concepto unitario. Se basa en varios tipos de pruebas.

Factores que afectan la validez:

Al igual que la fiabilidad, también hay varios factores que afectan la validez de los resultados de las pruebas. Hay algunos factores de los cuales estamos alertas y que podemos evitar fácilmente. Pero hay algunos factores que ignoramos y que hacen que los resultados de las pruebas no sean válidos para su uso previsto.

Algunos de estos factores son los siguientes:

1. Factores en la prueba:

(i) Instrucciones poco claras a los estudiantes para que respondan la prueba.

(ii) Dificultad del vocabulario de lectura y estructura de la oración.

(iii) Artículos de prueba demasiado fáciles o demasiado difíciles.

(iv) Declaraciones ambiguas en los ítems de prueba.

(v) Elementos de prueba inapropiados para medir un resultado particular.

(vi) Tiempo inadecuado proporcionado para tomar la prueba.

(vii) La duración de la prueba es demasiado corta.

(viii) Artículos de prueba no ordenados en orden de dificultad.

(ix) Patrón identificable de respuestas.

Factores en la administración de pruebas y puntuación:

(i) Ayuda desleal a estudiantes individuales, que piden ayuda,

(ii) Trampas por parte de los alumnos durante la prueba.

(iii) Puntuación no confiable de las respuestas de tipo de ensayo.

(iv) Tiempo insuficiente para completar la prueba.

(v) Condición física y psicológica adversa en el momento de la prueba.

Factores relacionados con Testee:

(i) Prueba de ansiedad de los alumnos.

(ii) Estado físico y psicológico del alumno,

(iii) Conjunto de respuestas: una tendencia constante a seguir un cierto patrón al responder los ítems.

Característica # 3. Objetividad:

La objetividad es una característica importante de una buena prueba. Afecta tanto la validez como la fiabilidad de los resultados de los exámenes. La objetividad de un instrumento de medición gime el grado en que llegan al mismo resultado diferentes personas que califican el recibo de respuesta. CV Good (1973) define que la objetividad en las pruebas es "la medida en que el instrumento está libre de error personal (sesgo personal), es decir, la subjetividad por parte del anotador".

Gronlund y Linn (1995) declaran que “la objetividad de una prueba se refiere al grado en que los puntajes igualmente competentes obtienen los mismos resultados. Por lo tanto, una prueba se considera objetiva cuando elimina la opinión personal y el criterio de sesgo del anotador. En este contexto, hay dos aspectos de la objetividad que deben tenerse en cuenta al construir una prueba ".

(i) La objetividad en el puntaje.

(ii) Objetividad en la interpretación de los elementos de prueba por parte del evaluado.

(i) Objetividad de puntaje:

La objetividad del puntaje significa que la misma persona o personas diferentes que califiquen la prueba en cualquier momento llegan al mismo resultado sin posibilidad de error. Una prueba para ser objetivo debe estar redactada de manera tal que solo se le pueda dar una respuesta correcta. En otras palabras, el juicio personal de la persona que califica el guión de respuesta no debe ser un factor que afecte los puntajes de la prueba. Para que el resultado de una prueba se pueda obtener de manera simple y precisa si el procedimiento de calificación es objetivo. El procedimiento de calificación debe ser tal que no exista ninguna duda sobre si un artículo es correcto o incorrecto, o parcialmente correcto o parcialmente incorrecto.

(ii) Objetividad de los elementos de prueba:

Por objetividad del elemento queremos decir que el elemento debe requerir una respuesta única y definitiva. Los elementos de prueba bien construidos deben conducir a una sola interpretación por parte de los estudiantes que conocen el material involucrado. Significa que los elementos de prueba deben estar libres de ambigüedad. Un elemento de prueba dado debe significar lo mismo para todos los estudiantes que el fabricante de la prueba tiene la intención de preguntar. Las oraciones de doble significado, los elementos que tengan más de una respuesta correcta no deben incluirse en la prueba, ya que la hace subjetiva.

Característica # 4. Usabilidad:

La usabilidad es otra característica importante de los instrumentos de medición. Porque no se pueden descuidar las consideraciones prácticas de los instrumentos de evaluación. La prueba debe tener valor práctico desde el punto de vista del tiempo, la economía y la administración. Esto se puede denominar como usabilidad.

Entonces, al construir o seleccionar una prueba, se deben tener en cuenta los siguientes aspectos prácticos:

(i) Facilidad de administración:

Significa que la prueba debe ser fácil de administrar para que los maestros de clase general puedan usarla. Por lo tanto, se deben dar instrucciones simples y claras. La prueba debe tener muy pocas subpruebas. El tiempo de la prueba no debe ser demasiado difícil.

(ii) Tiempo requerido para la administración:

Se debe proporcionar un límite de tiempo apropiado para tomar la prueba. Si para proporcionar un tiempo suficiente para tomar la prueba, haremos la prueba más corta que la fiabilidad de la prueba se reducirá. Gronlund y Linn (1995) opinan que "en algún momento entre 20 y 60 minutos de tiempo de prueba para cada puntaje individual obtenido por una prueba publicada es probablemente una guía bastante buena".

(iii) Facilidad de interpretación y aplicación:

Otro aspecto importante de los resultados de los exámenes es la interpretación de los resultados de los exámenes y la aplicación de los resultados de los exámenes. Si los resultados se malinterpretan, es perjudicial por otro lado si no se aplica, entonces es inútil.

(iv) Disponibilidad de formas equivalentes:

Las pruebas de formas equivalentes ayudan a verificar los puntajes de las pruebas cuestionables. También ayuda a eliminar el factor de memoria al volver a realizar pruebas en los mismos dominios de aprendizaje. Por lo tanto, deberían estar disponibles formas equivalentes de la misma prueba en términos de contenido, nivel de dificultad y otras características.

(v) Costo de la prueba:

Una prueba debe ser económica desde el punto de vista de la preparación, administración y puntuación.