Requisitos de cualquier Predictores Industriales: Validez y Confiabilidad

Los dos requisitos principales para cualquier predictor son la validez y la confiabilidad. En el entorno industrial existen diferentes tipos o tipos de validez, aunque el más preferido es el de validez predictiva. También hay diferentes tipos de medidas de fiabilidad. La preocupación por la confiabilidad y la validez no se limita a los predictores, sino que también se aplica a los criterios.

Validez:

La validez de un predictor generalmente se puede definir como la medida en que el predictor logra ciertos objetivos del usuario al medir lo que se supone que se mide. El tipo específico de validez involucrado, por lo tanto, depende del objetivo particular del usuario en cualquier situación.

Validez predictiva:

El objetivo del usuario es emplear su instrumento de medición para predecir el desempeño futuro de los empleados en alguna otra variable (criterio). La validez predictiva se establece estadísticamente mediante correlación y regresión. La distinción importante de la validez predictiva es una de las demencias del tiempo. Las puntuaciones de predicción se obtienen en individuos en un punto en el tiempo (por ejemplo, tiempo de contratación) y las puntuaciones de criterio se obtienen en una fecha posterior (por ejemplo, al final de seis meses).

Por lo tanto, la relación resultante realmente representa el poder "predictivo" del instrumento. La validez predictiva es el tipo más importante de validez en la selección, ya que es el único tipo que verdaderamente duplica la situación de selección. Otro nombre que a veces se usa para la validez predictiva es la validez de seguimiento.

Validez concurrente:

El objetivo aquí, al menos en teoría, debería ser estimar el desempeño actual de los empleados en algún criterio de medición a partir de las puntuaciones en el predictor. La validez concurrente también se establece mediante técnicas de correlación y regresión, pero sin retraso entre la obtención de las puntuaciones de predictor y de criterio. Se utiliza una muestra de empleados actuales para determinar la relación predictor-criterio, y luego la regresión resultante se puede aplicar obteniendo puntajes de predictor en los titulares de trabajo restantes.

En otras palabras, estamos interesados en predecir el estado actual de las personas, no su estado en el futuro. Es extremadamente importante señalar que una alta validez concurrente no asegura una alta validez predictiva. Desafortunadamente, la validez concurrente se usa con demasiada frecuencia en la industria como un sustituto de la validez predictiva.

La administración a veces no está dispuesta a esperar el tiempo requerido por el método predictivo, y puede que no se dé cuenta de que los empleados actuales pueden representar una población de trabajadores básicamente diferente de los solicitantes de empleo. Los trabajadores actualmente empleados han sobrevivido a la selección tanto en la contratación como en la continuidad, y los trabajadores más pobres que fueron contratados pueden haber abandonado voluntariamente o por solicitud. Esto hace que sea muy difícil justificar la generalización de las validaciones concurrentes a una situación de validez predictiva.

Validez de contenido:

Cuando el validador asume que su predictor es representativo de una determinada clase de situaciones, está involucrado en la validez del contenido. Tiene una noción específica sobre el tipo de conocimiento, habilidad, actitud o desempeño que debe ser captado por el instrumento de medición, y considera que el instrumento es válido en la medida en que su contenido sea representativo de lo que él quiere tocar. La validez de contenido generalmente no es medible en ningún sentido estadístico o cuantitativo.

Uno encuentra el mayor uso de la validez de contenido entre los usuarios de las pruebas de rendimiento, como los exámenes finales en un curso universitario. Solo se puede considerar que un examen final tiene validez de contenido si representa adecuadamente (muestreado), en términos de sus ítems, el contenido del curso. Si no representara una cobertura del material del curso, ciertamente no podría considerarse una prueba apropiada para un examen final, es decir, no tendría validez de contenido.

Validez de construcción:

Con este tipo de validez, el usuario desea inferir el grado en que las personas que están siendo evaluadas poseen algún rasgo o calidad (construcción) que se supone que se refleja en el rendimiento de la prueba. El procedimiento general consiste en administrar varios instrumentos de prueba que lógicamente parecen medir el mismo constructo y luego observar las relaciones entre estas medidas. La validez de construcción no ha sido utilizada en un grado considerable por el psicólogo industrial; Tiende a usarse más a menudo en situaciones teóricas que pragmáticas.

Validez sintética:

Uno podría considerar la validez sintética como una validez predictiva "asumida". Supongamos que tenemos una prueba que en varias situaciones ha demostrado una alta relación predictiva con varios criterios de desempeño de los capataces industriales. Supongamos además que una pequeña planta de fabricación quiere usar una prueba para seleccionar capataces, pero que muy pocos capataces trabajan en la planta para llevar a cabo incluso un estudio de validez concurrente. Esta planta podría decidir usar la prueba sin ninguna evaluación estadística formal, suponiendo que se ha demostrado que ha tenido éxito en otras plantas más grandes.

Este procedimiento solo podría considerarse válido si:

(1) El trabajo del capataz en esta planta es similar a los trabajos de los capataces involucrados en la evaluación estadística de la prueba, y

(2) Los solicitantes de capataz en esta planta son típicos (provienen de la misma población) que los solicitantes para los trabajos de capataz en las plantas más grandes. La validez sintética solo debe sustituirse por la validez predictiva con la plena conciencia de sus posibles limitaciones.

Validez aparente:

Otro tipo de validez que se usa a menudo para describir una prueba implica el grado en que un usuario está interesado en que su prueba "se vea bien" para el examinador. Los solicitantes de empleo a menudo se enojan si los instrumentos de predicción que deben tomar parecen tener poca o ninguna relación con el trabajo que solicitan. Por ejemplo, si uno está seleccionando personas para una posición de maquinista y se utiliza una prueba de habilidad aritmética como predictor, los elementos de prueba deben tratar con números aplicados a problemas mecánicos en lugar de estar redactados en términos más generales, como la compra de manzanas o naranjas

Si el solicitante no ve la relevancia del predictor para el trabajo para el que está solicitando, como suele suceder en las pruebas de personalidad, puede sufrir una pérdida importante de motivación en la situación de la prueba, volverse burlón o, por otro lado, sentirse inseguro. Esto no solo daña el programa de selección, sino que también puede dañar la imagen de la empresa y dañar la imagen de las pruebas en cualquier entorno industrial. Los autores se arriesgarían a suponer que parte de la mala publicidad que reciben los usuarios de los dispositivos de selección en la industria puede deberse a que el usuario pasa por alto la necesidad de que sus pruebas tengan validez nominal.

Tenencia de la edad y experiencia laboral y su efecto en la validez:

El examen del desempeño de los trabajadores en cualquier trabajo particular a menudo muestra una relación definida entre variables como la edad y la experiencia y el criterio. Cuanto más complejo sea el trabajo, es más probable que existan estos tipos de relaciones. Para muchos trabajos, se necesita una cantidad sustancial de experiencia antes de que los empleados se vuelvan competentes en su trabajo. La correlación entre este tipo de variables y los criterios de éxito en el trabajo presenta un problema serio en la selección. Es necesario tener precaución, particularmente si uno usa el procedimiento de validez concurrente como un medio para establecer la utilidad de cualquier dispositivo de predicción.

Si, por ejemplo, existe una alta correlación entre el criterio y el período de tiempo en el trabajo, ¿cómo debe interpretarse un alto coeficiente de validez concurrente? ¿Esto significa que el predictor está reflejando realmente las diferencias de capacidad entre los trabajadores según lo mide el "" criterio, o son las diferencias de los trabajadores principalmente debido a la experiencia en el trabajo? Si es lo último, entonces todo lo que el pronosticador logrará es diferenciar a aquellos trabajadores con larga permanencia de aquellos que han sido contratados más recientemente.

La validez observada es generalmente una sobreestimación de la eficiencia predictiva del instrumento de selección. De hecho, a menos que uno pueda demostrar claramente que el predictor no está correlacionado con rasgos como la edad y la tenencia que pueden ser ellos mismos determinantes del rendimiento en el trabajo, todas las validaciones concurrentes obtenidas con ese predictor deben ser altamente sospechosas.

Para ilustrar el punto, considere la situación en la que uno tiene un criterio, un predictor y una variable relacionada con el criterio, como la permanencia en el puesto de trabajo, que es en gran parte responsable de las diferencias en las habilidades mostradas en el criterio por los empleados, de la siguiente manera:

C + D = validez concurrente observada del predictor

D = Cantidad de la varianza de criterio "libre de tenencia" representada por el predictor

C = Cantidad de la varianza del criterio "determinada por la tenencia" representada por el predictor

La validez observada es generalmente, pero no siempre, una sobreestimación de la validez real, ya que:

La validez concurrente verdadera o imparcial, que representa la correlación entre el predictor y el criterio que está completamente libre de la influencia de la tenencia del trabajo, viene dada por la ecuación:

La correlación (r _verdadera ) como se muestra en el diagrama en realidad representa, en forma pictórica, lo que se conoce en las estadísticas como un coeficiente de correlación “parcial”. Informa la correlación entre el predictor y el criterio después de que los efectos de la tenencia en el trabajo se hayan eliminado tanto de los puntajes del predictor como de los puntajes de criterio de los empleados actuales. Es importante que los efectos de tenencia se eliminen tanto del criterio como del predictor en la situación concurrente.

Si estos efectos no se eliminan estadísticamente del criterio, terminaremos prediciendo la influencia de la tenencia en lugar del desempeño laboral, con poca o ninguna relevancia para la validez predictiva. Si los efectos de tenencia del trabajo no se eliminan del predictor, también podemos obtener un coeficiente de validez que no puede considerarse relevante para ninguna situación de validez verdaderamente predictiva.

Ciertamente, los problemas de las variables correlacionadas de criterio y predictor en la configuración concurrente ilustran algunas de las restricciones serias involucradas en este método de validación. Se puede afirmar con seguridad que no hay absolutamente ningún sustituto igual para el tipo de validez conocido como validez predictiva al construir y utilizar un instrumento de selección.

Confiabilidad:

En términos generales, el concepto de validez se ocupa de lo que se mide con un dispositivo de medición. Una segunda característica, y quizás igualmente importante, de los predictores es la necesidad de conocer la consistencia de la medida, independientemente de lo que se esté midiendo. Dicho de otra manera, necesitamos establecer el grado de estabilidad de cualquier dispositivo de medición; La medida obtenida de un predictor debe ser consistente. El grado en que cualquier instrumento de medición es consistente o estable y arrojaría los mismos puntajes una y otra vez si fuera necesario se define como la confiabilidad de ese instrumento de prueba.

Al igual que la validez, la confiabilidad generalmente se mide por medio del coeficiente de correlación. Dado que la medición confiable implica estabilidad de una situación a otra, el instrumento confiable debe producir las mismas puntuaciones o al menos clasificaciones similares de individuos en dos situaciones. Al calcular la correlación obtenemos una expresión matemática de la medida en que esto ocurre.

Por lo tanto, un instrumento de medición confiable es aquel en el que los individuos reciben la misma puntuación (o casi la misma) en mediciones repetidas. Cuando el coeficiente de correlación se usa para medir la similitud de las puntuaciones para un grupo de personas en dos aplicaciones de la misma medida, se denomina coeficiente de confiabilidad.

El proceso real mediante el cual se puede evaluar la confiabilidad de una medida depende de numerosos factores. Hay tres tipos principales de "confiabilidad" alternativa, cada uno de los cuales tiene sus ventajas y desventajas separadas. Son lo suficientemente diferentes en su lógica subyacente para justificar el examen de cada uno con algún detalle.

Las tres técnicas para obtener la fiabilidad del instrumento son:

(1) Medidas repetidas en las mismas personas con la misma prueba o instrumento,

(2) Medición en las mismas personas con dos formas “equivalentes” del instrumento de medición, y

(3) Separación del dispositivo de medición en dos o más partes equivalentes e inter-correlación de estas puntuaciones de "parte".

Antes de considerar cada método, deberíamos examinar de una manera más específica ciertos tipos de confiabilidad o estabilidad de medición en los que podríamos estar interesados en diferentes circunstancias.

Asumamos que cada vez que usamos un instrumento de medición para obtener el puntaje de una persona, el puntaje recibido es una función de varios factores, como sigue:

X _i = X _verdadero + X _error

Dónde

X _i = puntuación observada para la persona i en la prueba

X _verdadero = Puntaje verdadero para la persona i en la prueba: esta es la cantidad real de calidad medida por la prueba que esa persona realmente poseo.

X _error = puntuación de error para la persona i en la prueba: esta es la cantidad que esa persona recibió como resultado de la operación de varios factores de probabilidad o tiempo.

Si todos los instrumentos de medición y los métodos de medición estuvieran “libres de error”, siempre obtendríamos las puntuaciones reales de las personas, y la correlación entre dos mediciones en el mismo grupo de personas siempre sería de + 1.00 o una confiabilidad perfecta (suponiendo que no haya cambios en las puntuaciones verdaderas es de esperar). Desafortunadamente, tal medición sin errores nunca está completamente disponible, ya que hay una gran variedad de cosas. Contribuir al rendimiento en cualquier momento particular en el tiempo.

Por lo tanto, x _i puede ser mayor o menor que X para cualquier medición en particular, y las correlaciones calculadas entre las mediciones son siempre menores que la unidad. En términos de nuestra representación pictórica de la varianza del rendimiento entre las personas en cualquier dispositivo de medición, ya sea prueba o entrevista, predictor o criterio, esta varianza total se puede dividir en los dos componentes principales de la varianza verdadera y la varianza de error.

Donde la varianza total = la variabilidad total de los resultados observados

Varianza verdadera = variabilidad de las personas en términos de sus cantidades reales de la característica que se mide

Variación de error = variabilidad de las puntuaciones de error de las personas

La confiabilidad se puede definir como una relación de varianza verdadera a varianza total, o

Cuanto mayor sea la proporción de la varianza de la puntuación verdadera o, a la inversa, cuanto menor sea la cantidad de la varianza del error presente en el proceso de medición, mayor será la fiabilidad de la medición. El factor crítico que diferencia los tres procedimientos principales para determinar la confiabilidad está en el proceso de decidir qué se considerará varianza por error y qué se considerará varianza verdadera o sistemática. No hay una sola fiabilidad para cualquier prueba. Más bien, la confiabilidad dependerá de las necesidades del momento.

Por ejemplo, el psicólogo puede hacer cualquiera de los siguientes tipos de preguntas sobre el proceso de medición:

1. ¿Con qué precisión puedo medir a las personas con esta prueba en un momento dado en el tiempo?

2. ¿Con qué precisión serán representativas de estas mismas personas en algún momento futuro las medidas tomadas con esta prueba hoy?

3. ¿Con qué precisión representarán las puntuaciones en esta prueba la capacidad real de estas personas en el rasgo que se muestrea en la prueba?

Las tres son preguntas legítimas de confiabilidad. Sin embargo, cada uno pone un énfasis algo diferente en varias fuentes de variación de error en los puntajes de las pruebas.

Thorndike y Hagen (1963) han expresado estas fuentes de variación de error como:

1. Variación debida a la prueba en un momento determinado del tiempo.

2. Variación en el individuo de período de tiempo a período de tiempo

3. Variación debido a la muestra particular de tareas elegidas para representar la calidad que se mide

Pasemos ahora a examinar cada método de confiabilidad, teniendo en cuenta las fuentes de error para poder determinar cómo cada método trata cada fuente.

Método de prueba-prueba:

Un método obvio para evaluar la estabilidad consiste en medir el desempeño del mismo individuo dos veces con el mismo instrumento de medición. Este tipo de confiabilidad incluye las fuentes de variación 1 y 2 como error. Por lo tanto, la fiabilidad resultante es aquella que mide la estabilidad de la puntuación real a lo largo del tiempo. Existen numerosos problemas con el método de prueba-prueba que se crean al hacer que los individuos se midan en la misma prueba dos veces.

Por ejemplo, a menos que el período de tiempo sea bastante largo entre las administraciones, es probable que la variable de un factor de memoria sesgue las respuestas de las personas en la segunda administración. Otra dificultad es que la variación debida a la muestra particular de tareas o elementos elegidos se trata como una variación sistemática que aumenta la confiabilidad.

Por lo tanto, cualquier persona que por casualidad supiera más respuestas simplemente porque algunos de los elementos de prueba tocados, por ejemplo, en un pasatiempo de esa persona, también se vería favorecida en la segunda administración porque los mismos elementos, en lugar de una nueva muestra, son usado. Por lo tanto, debe obtener una puntuación alta en ambas pruebas debido a que la fuente de variación 3 se trata como verdadera varianza.

Método de pruebas paralelas:

Una forma de evitar tener la fuente de error 3 como varianza verdadera es usar dos formas completamente comparables o "equivalentes" del instrumento de medición. Estos dos formularios deben ser tan idénticos como sea posible, excepto que los elementos específicos o las preguntas en cada formulario no serían iguales, aunque cada uno representaría una muestra similar de los elementos elegidos. Una forma puede administrarse inmediatamente después de la otra o pueden administrarse a intervalos espaciados, dependiendo de si uno está preocupado por tener la fuente de variación 2 incluida como varianza de error.

Este tipo de confiabilidad, cuando se usan pruebas espaciadas, representa la evaluación más rigurosa de la estabilidad que se puede hacer. Sin embargo, a menudo es imposible o, en el mejor de los casos, extremadamente difícil construir formas alternativas de un instrumento de medición.

¿Cómo se construyen dos formas alternativas pero equivalentes de una medida del desempeño laboral o dos formas alternativas de un formulario de historial personal? En muchos casos no sin dificultad considerable. Esta falta de un dispositivo de medición realmente comparable ha hecho que los psicólogos busquen métodos adicionales para evaluar la confiabilidad, además de los procedimientos de prueba-retest y de forma paralela.

Método de prueba subdividido:

El tercer método de confiabilidad principal se refiere a menudo como una medida de la consistencia interna de un dispositivo de medición. Proporciona una indicación de la medida en que las personas obtienen la misma puntuación, en relación con las demás, en diferentes subdivisiones del instrumento en general. Este método es probablemente el método más utilizado para medir la confiabilidad, ya que requiere que solo se construya una forma y, sin embargo, no requiere administraciones repetidas de esa forma.

Su mecánica es muy sencilla. En su forma más básica, el método de consistencia interna es el procedimiento de formas paralelas en el que las formas paralelas son dos mitades de la misma prueba. Estas medias pruebas se seleccionan para que sean lo más equivalentes posible, aunque a menudo la prueba se divide simplemente en dos mitades al colocar todos los elementos impares en una mitad y todos los elementos pares en la otra mitad. Esto se llama la versión impar de la técnica de la mitad dividida.

Es importante recordar que la separación de la prueba total en mitades equivalentes se produce solo al puntuar esa prueba, no al administrarla. Dado que las dos subpruebas son cada una solo la mitad del largo que el original, cada una representa una muestra de comportamiento que es solo la mitad de la prueba total. Por lo tanto, es probable que la correlación (confiabilidad) entre las mitades sea una subestimación de la confiabilidad de las calificaciones en base a toda la prueba.

Para obtener una estimación de la fiabilidad de la prueba completa, la fórmula de la profecía de Spearman-Brown se puede aplicar de la siguiente manera:

r _tt = 2r _½½ / 1 + r _½½

donde r _tt = confiabilidad de la prueba total (estimado)

r _1/2 _1/2 = correlación observada entre las dos mitades de la prueba.

Por ejemplo, si la correlación observada entre las mitades fuera 0.40, entonces la fórmula de la profecía estimaría la confiabilidad de la prueba completa como:

r _tt = 2 (0.40) / 1 + 0. 40 = 0.80 / 1.40 = 0.57

El método de la mitad dividida proporciona un método para estimar la confiabilidad con una sola prueba y una sola administración. Hay, sin embargo, ciertos inconvenientes a su uso. Cuando uno tiene una prueba que involucra principalmente factores de velocidad (como ciertas pruebas de oficina simples), el procedimiento de la mitad alternativa da un resultado espantosamente alto.

Dado que las pruebas de velocidad generalmente involucran elementos fáciles, es solo una cuestión de si fueron respondidas lo que determina si fueron correctas o incorrectas. Por lo tanto, dividir la prueba en una base impar, por ejemplo, resultaría en puntajes virtualmente idénticos para ambas mitades, por lo tanto una alta correlación positiva.

Método de Kuder-Richardson:

Otra versión del método de la mitad dividida se usa con frecuencia para medir la confiabilidad. En relación con una técnica estadística conocida como el análisis de varianza, su forma más frecuente se conoce como el procedimiento de Kuder-Richardson. El método Kuder-Richardson (KR) también es una confiabilidad de consistencia interna que esencialmente trata a cada elemento de prueba como una subprueba, de modo que en lugar de tener dos mitades hay n subpruebas, donde n es el número total de elementos en el instrumento de medición. La técnica KR es equivalente a calcular todas las correlaciones posibles entre pares de elementos de prueba (habrá n [n - l] / 2 pares), tomando el promedio de estos y ajustando el resultado mediante el uso de la fórmula de profecía de Spearman-Brown

Dónde

r _tt = fiabilidad estimada de la prueba total

r _ii = correlación promedio entre ítems

K = número de pares de artículos

Al igual que el procedimiento de formas de mitad dividida, el procedimiento de Kuder-Richardson ignora la fuente de variación 2 y no es apropiado para las pruebas de velocidad.

Una comparación de resumen se da en la Tabla 2.4. Esta tabla muestra los diversos métodos de confiabilidad y los compara en términos de los tipos de variación que incluyen como varianza de error.