Correlación: medidas, cálculo y método

Después de leer este artículo, aprenderá acerca de: 1. Medidas de correlación 2. Cálculo de correlación 3. Métodos.

Medidas de correlación:

Coeficiente de correlación de Karl Pearson (observaciones individuales) :

Para calcular el grado o la extensión de la correlación y la dirección de la correlación, el método de Karl Pearson es el más satisfactorio.

Simbólicamente, su formulación es la siguiente:

donde dx es la desviación de varios elementos de la primera variable de un promedio asumido y dy, las desviaciones correspondientes de la segunda variable del promedio asumido y N connotan el número de pares de elementos.

La aplicación de la fórmula se explica con referencia a los siguientes datos hipotéticos:

Cálculo de Coeficiente de Correlación en una Serie Continua:

En el caso de una serie continua, los datos se clasifican en una tabla de frecuencia de dos vías. El cálculo del coeficiente de correlación con respecto a los datos agrupados se basa en la presunción de que se supone que cada elemento que cae dentro de un intervalo de clase dado se encuentra exactamente en el valor medio de esa clase.

A modo de ilustración, calcularemos el coeficiente o la correlación con respecto a los siguientes datos:

La fórmula para el cálculo del coeficiente de correlación en este caso tomará la siguiente forma:

El único cambio en la fórmula anterior en comparación con el anterior es la introducción de f que representa la frecuencia.

Aplicando la fórmula a la tabla 18.50 obtenemos:

Método de diferencia de rango de correlación:

Cuando la medición directa del fenómeno en estudio no es posible, por ejemplo, de características como la eficiencia, la honestidad, la inteligencia, etc., se aplica el método de diferencia de rangos para determinar el grado de correlación.

La fórmula para calcular la correlación de rangos es:

donde R denota el coeficiente de correlación de rangos entre rangos pareados, D denota las diferencias entre los rangos pareados y N representa el número de pares.

Con la ayuda del siguiente ejemplo, ilustraremos la aplicación de la fórmula anterior:

Cálculo del método de coeficiente de correlación por diferencia de rangos :

(Cuando hay dos o más elementos que tienen el mismo valor) :

Si hay más de un elemento con el mismo valor, se otorga una clasificación común a dichos elementos. Este rango es el promedio de los rangos que habrían obtenido estos ítems si hubiera habido una ligera diferencia en sus valores. Supongamos que las calificaciones obtenidas por cinco estudiantes son 70, 66, 66, 65, 63, respectivamente.

Si estas marcas están dispuestas en orden descendente, la figura 70 recibiría el primer rango, 66 el segundo rango, 65 el tercero y 63, el cuarto rango. Dado que, los dos estudiantes en el ejemplo tienen una puntuación igual a su rango es 2. Ahora se les dará el rango promedio de aquellos rangos que estos estudiantes habrían obtenido si hubieran diferido ligeramente entre ellos.

En este supuesto, el rango de ambos elementos sería 2 + 3/2. es decir, 2.5 y el rango del siguiente ítem (65) sería 4. Así, el coeficiente de correlación de rango necesitaría una corrección porque la fórmula anterior [R = 1 6ΣD 2 / N (N 2 -1] se basa en el Suponiendo que los rangos de varios artículos son diferentes.

Donde hay más de un elemento con el mismo valor, se agrega un factor de corrección, 1/12 (t 3 -t) al valor de zd 2, donde t. representa el número de elementos cuyos rangos son comunes. Este factor de corrección se agrega tantas veces como ocurra la cantidad de elementos con rangos comunes.

Esto se explica en el siguiente ejemplo:

Análisis de datos e interpretación.

Ejemplo:

Calcule el coeficiente de correlación de rangos a partir de los siguientes datos:

En el conjunto de datos anterior de la serie X, el número 60 aparece tres veces. El rango de los tres artículos es 5, que es el promedio de 4, 5 y 6, los rangos que estos artículos habrían asegurado si hubieran diferido ligeramente entre sí. Otros números 68 en la serie X y 70 en la serie Y, han ocurrido dos veces. Sus rangos son respectivamente 2.5 y 1.5.

Así:

La fórmula modificada para el coeficiente de correlación de rango sería, por lo tanto:

donde n representa el número de elementos repetidos. Con respecto al ejemplo anterior, la fórmula será:

Una precaución relacionada con el significado y la implicación de un coeficiente de correlación está bastante justificada. El coeficiente de correlación, por sí solo una estimación muy útil de la relación, no debe tomarse como una prueba absoluta de asociación entre las variables relevantes, ya que su interpretación depende en gran medida del tamaño de la muestra seleccionada para el estudio, ya que Asimismo, sobre la naturaleza de los datos recogidos.

Un coeficiente de correlación aparentemente alto, por ejemplo, de 0.80 (+) puede ser realmente engañoso si el error estándar indicativo de la fluctuación de la muestra es relativamente grande, o para tomar un ejemplo contrario, un coeficiente aparentemente bajo de, digamos, 0.45 (+) puede sugerir que la relación entre las variables puede ignorarse pero en el plano de la realidad, esta indicación puede ser errónea, ya que el coeficiente de correlación para ciertas variables puede ser típicamente tan bajo que el coeficiente de correlación anterior, es decir, necesitaría 0.45 en comparación para ser considerado relativamente bastante alto para la clase de datos en cuestión.

Sin embargo, la convención estadística decreta que el coeficiente de correlación que va de 1 a 0.7 (+) se toma como una indicación de "alta" o correlación significativa, que varía de 0.7 a 0.4 (+) como sustancial, que entre 0.4 y 0.2 (+ ) tan bajo y por debajo de 0.2 (+) como insignificante.

También se debe enfatizar que una alta correlación entre dos variables no constituye en sí misma una prueba de que están relacionadas de manera casual. Una correlación significativa entre las variables, por ejemplo, entre el ingreso y el tamaño de la familia o el tamaño de una institución educativa y el desempeño de los estudiantes, difícilmente permite indicios de una relación casual entre ellos.

Supongamos que descubriéramos que un ingreso más alto está correlacionado inversamente con el número de problemas (hijos), es decir, a mayor ingreso de los padres, menor es el número de problemas (el coeficiente de correlación es, por ejemplo, 0.8, que es estadísticamente bastante alto), estaremos equivocados e injustificados al decir que un mayor ingreso es la causa de una menor fertilidad.

Anteriormente se señaló que una inferencia de causalidad solo se justifica si se pueden asegurar tres tipos de prueba, variación concomitante, orden temporal y eliminación de cualquier otra variable como condición determinante del efecto hipotético.

En el presente caso, posiblemente se pueden extraer inferencias teniendo en cuenta la correlación pronunciada evidente entre las variables de ingreso y número de hijos:

(a) Uno podría estar causando el otro,

(b) Ambas variables podrían ser los efectos de alguna otra causa o causa, y

(c) La asociación puede ser un simple hecho casual. Las inferencias causales obviamente pueden establecerse muy seguramente en una situación experimental.

Hemos considerado esto cuando se trata de diseños experimentales. En ciencias sociales, es muy difícil establecer experimentos, por lo que la mayoría de los estudios no son experimentales. Sin embargo, se han ideado procedimientos analíticos para extraer inferencias sobre la relación causal en estudios no experimentales.

El investigador social está muy a menudo interesado en estimar el grado de asociación entre los atributos, es decir, entre las variables que se definen cualitativamente; por ejemplo, puede querer determinar el grado de asociación entre el atributo sexual y la preferencia política o entre la natividad y la actitud hacia un determinado problema social.

Básicamente, el problema de la asociación es uno de correlación, pero la asociación entre atributos puede no ser fácilmente susceptible de tratamiento matemático como en el caso de las medidas cuantitativas de las variables. Una medida de tal asociación entre atributos es el coeficiente de previsibilidad relativa (RP) que es, de hecho, un coeficiente de correlación cualitativa.