Correlación: significado, tipos y su computación

Después de leer este artículo, aprenderá acerca de: 1. Definiciones de correlación 2. Significado de correlación 3. Necesidad 4. Tipos 5. Métodos de computación.

Definiciones de correlación:

Si el cambio en una variable parece estar acompañado por un cambio en la otra variable, se dice que las dos variables están correlacionadas y esta interdependencia se llama correlación o covariación.

En resumen, la tendencia de variación simultánea entre dos variables se denomina correlación o covariación. Por ejemplo, puede existir una relación entre las alturas y los pesos de un grupo de estudiantes, se espera que las puntuaciones de los estudiantes en dos materias diferentes tengan una interdependencia o una relación entre ellos.

Medir el grado de relación o covariación entre dos variables es el tema del análisis de correlación. Por lo tanto, la correlación significa la relación o "unión entre todos" o la correspondencia entre dos variables.

En estadística, la correlación es un método para determinar la correspondencia o proporcionalidad entre dos series de medidas (o puntajes). En pocas palabras, la correlación indica la relación de una variable con la otra.

Significado de la correlación:

Para medir el grado de asociación o relación entre dos variables cuantitativamente, se utiliza un índice de relación y se denomina coeficiente de correlación.

El coeficiente de correlación es un índice numérico que nos dice hasta qué punto están relacionadas las dos variables y en qué medida las variaciones en una variable cambian con las variaciones en la otra. El coeficiente de correlación siempre está simbolizado por r o ρ (Rho).

La noción 'r' se conoce como coeficiente de correlación del momento del producto o Coeficiente de correlación de Karl Pearson. El símbolo 'ρ' (Rho) se conoce como coeficiente de correlación de diferencia de rango o coeficiente de correlación de rango del lancero.

El tamaño de ' r ' indica la cantidad (o grado o extensión) de correlación entre dos variables. Si la correlación es positiva, el valor de ' r ' es + ve y si la correlación es negativa, el valor de V es negativo. Así, los signos del coeficiente indican el tipo de relación. El valor de V varía de +1 a -1.

La correlación puede variar entre la correlación positiva perfecta y la correlación negativa perfecta. La parte superior de la escala indicará una correlación positiva perfecta y comenzará desde +1 y luego pasará a través de cero, lo que indica una ausencia total de correlación.

La parte inferior de la escala terminará en -1 e indicará una correlación negativa perfecta. De este modo, la escala proporciona una medición numérica de la correlación que va de +1 a -1.

[NB: el coeficiente de correlación es un número y no un porcentaje. Generalmente se redondea hasta dos decimales].

Necesidad de correlación:

La correlación da sentido a una construcción. El análisis correlacional es esencial para la investigación psicoeducativa básica. De hecho, la mayor parte de la investigación psicológica básica y aplicada es de naturaleza correlacional.

El análisis correlacional es requerido para:

(i) Encontrar las características de las pruebas psicológicas y educativas (confiabilidad, validez, análisis de ítems, etc.).

(ii) Comprobar si ciertos datos son consistentes con la hipótesis.

(iii) Predecir una variable sobre la base del conocimiento de la otra (s).

(iv) Construcción de modelos y teorías psicológicas y educativas.

(v) Agrupar variables / medidas para una interpretación parsimoniosa de los datos.

(vi) Realización de pruebas estadísticas multivariantes (T 2 de Hoteling; MANOVA, MANCOVA, análisis discriminante, análisis factorial).

(vii) Influencia aislante de las variables.

Tipos de correlación:

En una distribución bivariada, la correlación puede ser:

1. Correlación positiva, negativa y cero; y

2. Lineal o Curvilínea (No lineal).

1. Correlación positiva, negativa o cero:

Cuando el aumento en una variable (X) es seguido por un aumento correspondiente en la otra variable (Y); Se dice que la correlación es una correlación positiva. Las correlaciones positivas van desde 0 a +1; El límite superior, es decir, +1 es el coeficiente de correlación positivo perfecto.

La correlación positiva perfecta especifica que, por cada aumento de unidad en una variable, hay un aumento proporcional en la otra. Por ejemplo, "Calor" y "Temperatura" tienen una correlación positiva perfecta.

Si, por otro lado, el aumento en una variable (X) resulta en una disminución correspondiente en la otra variable (Y), se dice que la correlación es una correlación negativa.

La correlación negativa varía de 0 a -1; El límite inferior da la perfecta correlación negativa. La perfecta correlación negativa indica que por cada aumento de unidad en una variable, hay una disminución proporcional de unidad en la otra.

La correlación cero significa que no hay relación entre las dos variables X e Y; es decir, el cambio en una variable (X) no está asociado con el cambio en la otra variable (Y). Por ejemplo, peso corporal e inteligencia, tamaño del zapato y salario mensual; La correlación cero es el punto medio del rango: 1 a + 1.

2. Correlación lineal o curvilínea:

La correlación lineal es la relación de cambio entre las dos variables, ya sea en la misma dirección o en la dirección opuesta, y la representación gráfica de una variable con respecto a otra variable es la línea recta.

Considera otra situación. Primero, con el aumento de una variable, la segunda variable aumenta proporcionalmente hasta cierto punto; después de eso, con un aumento en la primera variable, la segunda variable comienza a disminuir.

La representación gráfica de las dos variables será una línea curva. Tal relación entre las dos variables se denomina correlación curvilínea.

Métodos de computación Coeficientes de Correlación:

En la facilidad de datos desagrupados de la distribución bivariada, los tres métodos siguientes se utilizan para calcular el valor del coeficiente de correlación:

1. Método del diagrama de dispersión.

2. Momento de producto de Pearson Coeficiente de correlación.

3. Orden de rango de Spearman Coeficiente de correlación.

1. Método del diagrama de dispersión:

El diagrama de dispersión o diagrama de puntos es un dispositivo gráfico para extraer ciertas conclusiones sobre la correlación entre dos variables.

Al preparar un diagrama de dispersión, los pares observados de observaciones se representan mediante puntos en un papel cuadriculado en un espacio bidimensional tomando las medidas en la variable X a lo largo del eje horizontal y la variable Y a lo largo del eje vertical.

La ubicación de estos puntos en el gráfico revela el cambio en la variable en cuanto a si cambian en la misma dirección o en direcciones opuestas. Es un método muy simple, simple pero aproximado de computación de correlación.

Las frecuencias o puntos se trazan en una gráfica tomando escalas convenientes para las dos series. Los puntos trazados tenderán a concentrarse en una banda de mayor o menor ancho según su grado. 'La línea de mejor ajuste' se dibuja con una mano libre y su dirección indica la naturaleza de la correlación. Los diagramas de dispersión, como ejemplo, que muestran diversos grados de correlación, se muestran en la Fig. 5.1 y la Fig. 5.2.

Si la línea va hacia arriba y este movimiento hacia arriba es de izquierda a derecha, mostrará una correlación positiva. De manera similar, si las líneas se mueven hacia abajo y su dirección es de izquierda a derecha, mostrará una correlación negativa.

El grado de pendiente indicará el grado de correlación. Si los puntos trazados se dispersan ampliamente, mostrará una ausencia de correlación. Este método simplemente describe el "hecho" de que la correlación es positiva o negativa.

2. Momento de producto de Pearson Coeficiente de correlación:

El coeficiente de correlación, r, a menudo se denomina "Pearson r", en honor al profesor Karl Pearson, quien desarrolló el método del momento del producto, siguiendo el trabajo anterior de Gallon y Bravais.

Coeficiente de correlación como ratio:

El coeficiente de correlación producto-momento puede considerarse esencialmente como la proporción que expresa la medida en que los cambios en una variable están acompañados por cambios en una segunda variable, o dependen de ellos.

Como ilustración, considere el siguiente ejemplo simple que proporciona las alturas y los pesos pareados de cinco estudiantes universitarios:

La altura media es de 69 pulgadas, el peso promedio de 170 libras, y la o es de 2.24 pulgadas y o es de 13.69 libras, respectivamente. En la columna (4) se indica la desviación (x) de la altura de cada alumno con respecto a la altura media, y en la columna (5) se indica la desviación (y) del peso de cada alumno con respecto al peso medio. El producto de estas desviaciones apareadas (xy) en la columna (6) es una medida del acuerdo entre alturas y pesos individuales. Cuanto mayor sea la suma de la columna xy, mayor será el grado de correspondencia. En el ejemplo anterior, el valor de ∑xy / N es 55/5 o 11. Cuando la concordancia es perfecta, es decir, r = ± 1.00, el valor de ∑ xy / N excede el límite máximo.

Por lo tanto, ∑ xy / N no produciría una medida adecuada de la relación entre x y y. La razón es que tal promedio no es una medida estable, ya que no es independiente de las unidades en las que se han expresado la altura y el peso.

En consecuencia, esta relación variará si se emplean centímetros y kilogramos en lugar de pulgadas y libras. Una forma de evitar el problema -algo de las diferencias en unidades es expresar cada desviación como una puntuación σ o puntuación estándar o puntuación Z, es decir, dividir cada xey por su propio σ.

Cada desviación de x e y luego se expresa como una relación, y es un número puro, independiente de las unidades de prueba. La suma de los productos de la columna de puntuaciones σ (9) dividida por N produce una relación que es una expresión estable de relación. Esta relación es el coeficiente de correlación "producto-momento". En nuestro ejemplo, su valor de .36 indica una correlación positiva bastante alta entre la altura y el peso en esta pequeña muestra.

El estudiante debe tener en cuenta que nuestra relación o coeficiente es simplemente el producto promedio de las puntuaciones σ de las medidas X e Y correspondientes, es decir

Naturaleza de r xy :

(i) r xy es un producto r momento

(ii) r xy es una relación, = r xy .

(iii) r xy puede ser + ve o - ve limitado por límites - 1.00 a + 1.00.

(iv) r xy puede considerarse como una media aritmética (r xy es la media de los productos con puntaje estándar).

(v) r xy no se ve afectado por ninguna transformación lineal de puntajes en X o Y o en ambos.

(vi) Cuando las variables están en la forma de puntuación estándar, r da una medida de la cantidad promedio de cambio en una variable asociada con el cambio de una unidad y la otra variable.

(vii) r xy = √b yx b xy donde b yx = coeficiente de regresión de Y en X, b xy = coeficiente de regresión de X en Y. r xy = raíz cuadrada de las pendientes de las líneas de regresión.

(viii) r xy no está influenciada por la magnitud de las medias (las puntuaciones son siempre relativas).

(ix) r xy no se puede calcular si una de las variables no tiene varianza S 2 x o S 2 Y = 0

(x) r xy de 60 implica la misma magnitud de relación que r xy = - .60. El signo dice acerca de la dirección de la relación y la magnitud de la fuerza de la relación.

(xi) df para r xy es N - 2, que se usa para probar el significado de r xy . Probar el significado de r es probar el significado de la regresión. La línea de regresión involucra pendiente e intercepción, por lo tanto se pierden 2 df . Entonces, cuando N = 2, r xy es + 1.00 o - 1.00, ya que no hay libertad para muestrear la variación en el valor numérico de r.

A. Cálculo de r xy (datos no agrupados) :

Aquí, el uso de la fórmula para el cálculo de r depende de "de dónde se toman las desviaciones". En diferentes situaciones, las desviaciones se pueden tomar ya sea de la media real o de cero o de AM Tipo de fórmula aplicada convenientemente para el cálculo de la correlación del coeficiente depende del valor medio (ya sea en fracción o en su totalidad).

(i) La fórmula de r cuando se toman desviaciones de los medios de las dos distribuciones X e Y.

donde r xy = Correlación entre X e Y

x = desviación de cualquier puntuación X de la media en la prueba X

y = desviación de la puntuación Y correspondiente de la media en la prueba Y.

∑xy = Suma de todos los productos de desviaciones (X e Y)

σ x y σ y = Desviaciones estándar de la distribución de puntajes X e Y.

en la que x e y son desviaciones de los medios reales y ∑x 2 y ∑y 2 son las sumas de las desviaciones cuadradas en x e y tomadas de los dos medios.

Se prefiere esta fórmula:

yo. Cuando los valores medios de ambas variables no están en fracción.

ii. Cuándo averiguar la correlación entre series cortas y no agrupadas (por ejemplo, veinticinco casos o así).

iii. Cuando se deben tomar desviaciones de los medios reales de las dos distribuciones.

Los pasos necesarios se ilustran en la Tabla 5.1. Se enumeran aquí:

Paso 1:

Haga una lista en columnas paralelas de las puntuaciones X e Y pareadas, asegurándose de que las puntuaciones correspondientes estén juntas.

Paso 2:

Determine los dos medios M x y M y . En la tabla 5.1, estos son 7.5 y 8.0, respectivamente.

Paso 3:

Determine para cada par de puntajes las dos desviaciones x y y. Compruébalos encontrando sumas algebraicas, que deberían ser cero.

Etapa 4:

Cuadrar todas las desviaciones, y listar en dos columnas. Esto es con el propósito de calcular σ x y σ y .

Paso 5:

Sume los cuadrados de las desviaciones para obtener ∑x 2 y ∑y 2 Encuentre el producto xy y sume estos para ∑xy.

Paso 6:

A partir de estos valores se calcula σ x y σ y .

Una solución alternativa y más corta:

Hay una ruta alternativa y más corta que omite el cálculo de σ x y σ y, en caso de que no sean necesarios para cualquier otro propósito.

Aplicando Fórmula (28):

(ii) El cálculo de r xy a partir de puntajes originales o puntajes brutos:

Es otro procedimiento con datos no agrupados, que no requiere el uso de desviaciones. Se trata enteramente de partituras originales. La fórmula puede parecer prohibitiva pero es realmente fácil de aplicar.

Se prefiere esta fórmula:

yo. Cuándo calcular r a partir de puntuaciones brutas directas.

ii. Puntuaciones originales ft. Cuando los datos son pequeños desagrupados.

iii. Cuando los valores medios están en fracciones.

iv. Cuando una buena máquina calculadora está disponible.

X e Y son puntuaciones originales en las variables X e Y. Otros símbolos indican qué se hace con ellas.

Seguimos los pasos que se ilustran en la Tabla 5.2:

Paso 1:

Cuadrar todas las medidas de X e Y.

Paso 2:

Encuentra el producto XY para cada par de puntuaciones.

Paso 3:

Suma las X, las Y, las X 2, las Y 2 y las XY.

Etapa 4:

Aplicar la fórmula (29):

(ii) Cálculo de r xy cuando las desviaciones se toman de la media supuesta:

La fórmula (28) es útil para calcular r directamente a partir de dos series de puntuaciones no agrupadas, pero tiene las desventajas ya que requiere un "método largo" de cálculo de medias y σ 's. Las desviaciones x e y cuando se toman de los medios reales suelen ser decimales y la multiplicación y la cuadratura de estos valores suele ser una tarea tediosa.

Por este motivo, incluso cuando se trabaja con series cortas desagrupadas, a menudo es más fácil suponer medias, calcular desviaciones de estas AM y aplicar la fórmula (30).

Se prefiere esta fórmula:

yo. Cuando los medios reales suelen ser decimales y la multiplicación y la cuadratura de estos valores suele ser una tarea tediosa.

ii. Cuando se toman desviaciones de los de la mañana.

iii. Cuando hay que evitar fracciones.

Los pasos en la computación r pueden resumirse como sigue:

Paso 1:

Encuentre la media de la Prueba 1 (X) y la media de la Prueba 2 (Y). Las medias como se muestran en la Tabla 5.3 M X = 62.5 y M Y = 30.4 respectivamente.

Paso 2:

Elija las AM tanto de X como de Y, es decir, AM X como 60.0 y AM Y como 30.0.

Paso 3:

Encuentre la desviación de cada puntaje en la Prueba 1 de su AM, 60.0, e ingrésela en la columna x '. A continuación, encuentre la desviación de cada puntaje en la Prueba 2 de su AM, 30.0 e ingrésela en la columna y '.

Etapa 4:

Encuadre todos los x 'y todos ellos' e ingrese estos cuadrados en la columna x ' 2 y y' 2, respectivamente. Sume estas columnas para obtener ∑x ' 2 y ∑y' 2 .

Paso 5:

Multiplique x 'e y', e ingrese estos productos (con el debido respeto por el signo) en la columna x'y '. Columna x'y 'total, teniendo en cuenta los signos, para obtener ∑x'y'.

Paso 6:

Las correcciones, C x y C y, se encuentran restando AM X de M x y AM y de M y . Luego, C x se encuentra como 2.5 (62.5 - 60.0) y C y como .4 (30.4 - 30.0).

Paso 7:

Sustituya ∑x'y ', 334, por ∑x' 2, 670 y por ∑y ' 2, 285 en la fórmula (30), como se muestra en la Tabla 5.3, y resuelva para r xy.

Propiedades de r :

1. El valor del coeficiente de correlación r permanece sin cambios cuando se agrega una constante a una o ambas variables:

Para observar el efecto sobre la correlación del coeficiente r cuando se agrega una constante a una o ambas variables, consideramos un ejemplo.

Ahora, agregamos un puntaje de 10 a cada puntaje en X y 20 a cada puntaje de Y y representamos estos puntajes con X 'e Y' respectivamente.

Los cálculos para calcular r para pares de observaciones originales y nuevas se muestran en la Tabla 5.4:

Al utilizar la fórmula (29), el coeficiente de correlación de la puntuación original será:

La misma fórmula para las nuevas puntuaciones se puede escribir como:

Por lo tanto, observamos que el valor del coeficiente de correlación r permanece sin cambios cuando se agrega una constante a una o ambas variables.

2. El valor del coeficiente de correlación r permanece sin cambios cuando se resta una constante de una o ambas variables:

Los estudiantes pueden examinar esto tomando un ejemplo. Cuando cada puntuación de una o ambas variables se resta por una constante, el valor del coeficiente de correlación r también permanece sin cambios.

3. El valor del coeficiente de correlación r permanece inalterado cuando uno o ambos conjuntos de valores de variabilidad se multiplican por alguna constante:

Para observar el efecto de multiplicar las variables por alguna constante en el valor de r, multiplicamos arbitrariamente las puntuaciones originales de los conjuntos primero y segundo en el ejemplo anterior por 10 y 20 respectivamente.

La r entre X 'e Y' puede calcularse como en:

La correlación de coeficiente entre X 'y Y' será:

Por lo tanto, observamos que el valor del coeficiente de correlación r permanece sin cambios cuando una constante se multiplica por uno o ambos conjuntos de valores de variabilidad.

4. El valor de r permanecerá sin cambios incluso cuando uno o ambos conjuntos de valores de variables se dividan por alguna constante:

Los estudiantes pueden examinar esto tomando un ejemplo.

B. Coeficiente de correlación en datos agrupados :

Cuando el número de pares de mediciones (N) en dos variables X e Y es grande, incluso de tamaño moderado, y cuando no hay una máquina de cálculo disponible, el procedimiento habitual es agrupar los datos en X e Y y formar un diagrama de dispersión o diagrama de correlación que también se denomina distribución de frecuencia de dos vías o distribución de frecuencia bivariada.

La elección del tamaño del intervalo de clase y los límites de los intervalos sigue las mismas reglas que se dieron anteriormente. Para aclarar la idea, consideramos una información bivariada relacionada con los puntajes obtenidos por una clase de 20 estudiantes en el examen de Física y Matemáticas.

Preparando un diagrama de dispersión:

Al configurar una doble agrupación de datos, se prepara una tabla con columnas y filas. Aquí, clasificamos cada par de variables simultáneamente en las dos clases, una que representa el puntaje en Física (X) y la otra en Matemáticas (Y) como se muestra en la Tabla 5.6.

Las puntuaciones de 20 estudiantes en Física (X) y Matemáticas (Y) se muestran en la Tabla a continuación:

Podemos preparar fácilmente una tabla de distribución de frecuencia bivariada al hacer un cómputo para cada par de puntajes. La construcción de un diagrama de dispersión es bastante simple. Tenemos que preparar una tabla como se muestra en el diagrama de arriba.

A lo largo del margen izquierdo, los intervalos de clase de la distribución X se despiden de abajo hacia arriba (en orden ascendente). A lo largo de la parte superior del diagrama, los c.i de la distribución Y se despiden de izquierda a derecha (en orden ascendente).

Cada par de puntajes (tanto en X como en Y) se representa a través de un conteo en la celda respectiva. El estudiante número 1 ha obtenido 32 en Física (X) y 25 en Matemáticas (Y). Su puntaje de 32 en (X) lo coloca en la última fila y 25 en (Y) lo coloca en la segunda columna. Entonces, para el par de puntajes (32, 25) se marcará un conteo en la segunda columna de la quinta fila.

De manera similar, en el caso del estudiante No. 2, para los puntajes (34, 41), pondremos un recuento en la cuarta columna de la quinta fila. Asimismo, se colocarán 20 puntos en las respectivas filas y columnas. (Las filas representarán las puntuaciones X y las columnas representarán las puntuaciones Y).

A lo largo del margen derecho, la columna f x, el número de casos en cada ci, de la distribución X están tabulados y en la parte inferior del diagrama en la fila f y el número de casos en cada ci, de la distribución Y están contabilizado.

El total de la columna f x es 20 y el total de la fila fy también es 20. De hecho, es una distribución bivalente porque representa la distribución conjunta de dos variables. El diagrama de dispersión es entonces una "tabla de correlación".

Cálculo de r a partir de una tabla de correlación:

El siguiente esquema de los pasos a seguir para calcular r se entenderá mejor si el alumno se refiere constantemente a la Tabla 5.7 a medida que lee cada paso:

Paso 1:

Construya un diagrama de dispersión para que las dos variables estén correlacionadas, y a partir de él dibuje una tabla de correlación.

Paso 2:

Cuente las frecuencias de cada ci de distribución - X y escríbala en la columna f x . Cuente las frecuencias para cada ci de distribución - Y y complete la fila f y .

Paso 3:

Suponga una media para la distribución X y marque el ci en líneas dobles. En la tabla de correlación dada, asumamos la media en el ci, 40 - 49 y pongamos líneas dobles como se muestra en la tabla. Las desviaciones por encima de la línea de AM serán (+ ve) y las desviaciones por debajo de ella serán (- ve).

La desviación con respecto a la línea de AM, es decir, contra el ci donde asumimos que la media está marcada con 0 (cero) y, por encima de ella, los d se indican como +1, +2. 13 y debajo se indica que d es - 1. Ahora la columna dx está llena. Luego multiplica f x . y dx de cada fila para obtener fdx . Multiplica dx y fdx de cada fila para obtener fdx 2 .

[Nota: Al calcular la SD en el método de media supuesta, estábamos asumiendo una media, marcando las d's y computando fd y fd 2 . Aquí también se sigue el mismo procedimiento.]

Etapa 4:

Adopte el mismo procedimiento que en el paso 3 y calcule dy, fdy y fdy 2 . Para la distribución-Y, asumamos la media en el ci 20-29 y pongamos líneas dobles para marcar la columna como se muestra en la tabla. Las desviaciones a la izquierda de esta columna serán negativas y la derecha será positiva.

Por lo tanto, d para la columna donde se supone que la media está marcada como 0 (cero) y la d hacia su izquierda está marcada: 1 y d ' s hacia la derecha están marcadas como +1, +2 y +3. Ahora la columna está llena. Multiplica los valores de fy y dy de cada columna para obtener fdy . Multiplica los valores de dy y fdy a cada columna para obtener fdy 2 .

Paso 5:

Como esta fase es importante, debemos marcar cuidadosamente para el cálculo de dy para diferentes ci de distribución X y dx para diferentes ci's de distribución -Y.

dy para diferentes ci 's de distribución-X: en la primera fila, 1 f está debajo de la columna, 20-29, cuyo dy es 0 (mire hacia abajo. La entrada dy de esta fila es 0). Nuevamente, 1 f está debajo de la columna, 40-49, cuyo dy es + 2. Entonces dy para la primera fila = (1 x 0) + (1 x 2) = + 2.

En la segunda fila encontramos que:

1 f está debajo de la columna, 40-49 cuyo dy es + 2 y

2 f s están debajo de la columna, 50-59, cuyos dy 's son + 3 cada uno.

Entonces, dy para la segunda fila = (1 x 2) + (2 X 3) = 8.

En la tercera fila,

2 f s están debajo de la columna, 20-29, cuyos dy 's son 0 cada uno,

2 f s están debajo de la columna, 40-49, cuyos dy 's son +2 cada uno, y 1 f está debajo de la columna, 50-59, cuyo dy es +3.

Entonces, dy para la tercera fila = (2 x 0) + (2 x 2) + (1 X 3) = 7.

En la cuarta fila,

3 f s están debajo de la columna, 20-29, cuyos dy 's son 0 cada uno,

2 f s están debajo de la columna, 30-39 cuyos dy son +1 cada uno, y 1 f está debajo de la columna, 50-59 cuyo dy es + 3,

Entonces, dy para la cuarta fila = (3 X 0) + (2 X 1) + (1 x 3) = 5.

Igualmente en la quinta fila.

dy para la quinta fila = (2 x - 1) + (1 x 0) + (1 x 2) = 0

dx para diferentes ci, 'v de distribución - Y:

En la primera columna,

2 f s están contra la fila, 30-39 cuyo dx es - 1.

Entonces dx de la primera columna = (2 x - 1) = - 2

En la segunda columna,

1 f es contra el ci, 70-79 cuyo dx es +3,

2 f s están contra el ci, 50-59 cuyos dx son +1 cada uno,

3 f s están contra el ci, 40-49 cuyos dx son 0 cada uno,

1 f es contra el ci, 30-39 cuyo dx es - 1.

Entonces dx para la segunda columna = (1 x 3) + (2 X 1) + (3 X 0) + (1 x - 1) = 4. En la tercera columna,

dx para la tercera columna = 2 × 0 = 0

En la cuarta columna,

dx para la cuarta columna = (1 x 3) + (1 x 2) + (2 x 1) + (1 x - 1) = 6.

En la quinta columna,

dx para la quinta columna = (2 x 2) + (1 x 1) + (1 X 0) = 5.

Paso 6:

Ahora, calcule dx.dy cada fila de distribución - X multiplicando las entradas de dx de cada fila por las entradas de dy de cada fila. Luego calcule dx.dy para cada columna de distribución - Y multiplicando las entradas de dy de cada columna por las entradas de dx de cada columna.

Paso 7:

Ahora, tome la suma algebraica de los valores de las columnas fdx, fdx 2, dy y dx.dy (para distribución - X). Tome la suma algebraica de los valores de las filas fdy, fdy 2, dx y dx.dy (para distribución - Y)

Paso 8:

∑. dx.dy de la distribución X = ∑ dx.dy de la distribución Y

fdx = total de la fila dx (es decir, ∑ dx )

fdy = total de la columna dy (es decir, ∑ dy )

Paso 9:

Los valores de los símbolos tal como se encuentran.

fdx = 13, ∑ fd 2 x = 39

fdy = 22, ∑ fd 2 y = 60

dx.dy = 29 y N = 20.

Para calcular el coeficiente de correlación en una tabla de correlación, se puede aplicar la siguiente fórmula:

Podemos marcar que en el denominador de la fórmula (31) aplicamos la fórmula para una x y una y con la excepción de no i. Aquí podemos observar que C x, C y, σ x, σ v se expresan en unidades de intervalos de clase (es decir, en unidades de i). Por lo tanto, mientras se calcula σ x y σ y, no se utilizan i. Esto es deseable porque todas las desviaciones del producto, es decir, las ∑ dx.dy están en unidades de intervalo.

Por lo tanto, calculamos:

Interpretación del coeficiente de correlación:

El simple cálculo de la correlación no tiene ningún significado hasta que, a menos que determinemos qué tan grande debe ser el coeficiente para que sea significativo, y ¿qué nos dice la correlación acerca de los datos? ¿Qué queremos decir con el valor obtenido del coeficiente de correlación?

Mala interpretación del coeficiente de correlación:

A veces, malinterpretamos el valor del coeficiente de correlación y establecemos la relación de causa y efecto, es decir, una variable que causa la variación en la otra variable. En realidad, no podemos interpretar de esta manera a menos que tengamos una base lógica sólida.

El coeficiente de correlación nos da una determinación cuantitativa del grado de relación entre dos variables X e Y, no información sobre la naturaleza de la asociación entre las dos variables. La causalidad implica una secuencia invariable: A siempre conduce a B, mientras que la correlación es simplemente una medida de asociación mutua entre dos variables.

Por ejemplo, puede haber una alta correlación entre el desajuste y la ansiedad:

Pero sobre la base de una alta correlación no podemos decir que el desajuste cause ansiedad. Puede ser posible que la ansiedad alta sea la causa del desajuste. Esto demuestra que el desajuste y la ansiedad son variables mutuamente asociadas. Considere otro ejemplo.

Hay una alta correlación entre la aptitud en una materia en la escuela y el logro en la materia. Al final de los exámenes escolares, ¿esto reflejará una relación causal? Puede o no puede.

La aptitud en el estudio de la asignatura definitivamente causa una variación en el logro de la asignatura, pero el alto logro del estudiante en la asignatura no es solo el resultado de la alta aptitud; También puede deberse a las otras variables.

Por lo tanto, al interpretar el tamaño del coeficiente de correlación en términos de causa y efecto, es apropiado, si y solo si las variables bajo investigación proporcionan una base lógica para tal interpretación.

Factores que influyen en el tamaño del coeficiente de correlación:

También deberíamos ser conscientes de los siguientes factores que influyen en el tamaño del coeficiente de correlación y pueden llevar a una mala interpretación:

1. El tamaño de “r” depende en gran medida de la variabilidad de los valores medidos en la muestra correlacionada. Cuanto mayor sea la variabilidad, mayor será la correlación, y todo lo demás será igual.

2. El tamaño de 'r' se altera cuando un investigador selecciona un grupo extremo de sujetos para comparar estos grupos con respecto a ciertos comportamientos. La "r" obtenida de los datos combinados de grupos extremos sería mayor que la "r" obtenida de una muestra aleatoria del mismo grupo.

3. Agregar o eliminar los casos extremos del grupo puede llevar a cambiar el tamaño de "r". La adición del caso extremo puede aumentar el tamaño de la correlación, mientras que la eliminación de los casos extremos reducirá el valor de "r".

Usos del producto momento r:

La correlación es uno de los procedimientos analíticos más utilizados en el campo de la medición y evaluación educativa y psicológica. Es útil en:

yo. Describiendo el grado de correspondencia (o relación) entre dos variables.

ii. Predicción de una variable: la variable dependiente sobre la base de una variable independiente.

iii. Validando una prueba; por ejemplo, una prueba de inteligencia grupal.

iv. Determinación del grado de objetividad de una prueba.

v. Orientación educativa y profesional y en la toma de decisiones.

vi. Determinación de la fiabilidad y validez de la prueba.

vii Determinar el papel de varios se relaciona con una cierta habilidad.

viii. Técnica de análisis factorial para determinar la carga factorial de las variables subyacentes en las habilidades humanas.

Suposiciones del momento del producto r :

1. Distribución normal:

Las variables a partir de las cuales queremos calcular la correlación deberían estar distribuidas normalmente. El supuesto se puede establecer a partir de un muestreo aleatorio.

2. Linealidad:

La correlación producto-momento se puede mostrar en línea recta, lo que se conoce como correlación lineal.

3. Series continuas:

Medición de variables en series continuas.

4. Homoscedasticidad:

Debe satisfacer la condición de homoscedasticidad (igual variabilidad).

3. Coeficiente de correlación de rango de Spearman:

Hay algunas situaciones en Educación y Psicología donde los objetos o individuos pueden clasificarse y ordenarse por orden de mérito o competencia en dos variables y cuando estos 2 conjuntos de rangos coinciden o coinciden entre sí, medimos los grados de relación por correlación de rangos. .

De nuevo, hay problemas en los que la relación entre las mediciones realizadas no es lineal y no se puede describir con el momento del producto r.

Por ejemplo, la evaluación de un grupo de estudiantes sobre la base de la capacidad de liderazgo, el ordenamiento de las mujeres en un concurso de belleza, los estudiantes clasificados en orden de preferencia o las imágenes pueden clasificarse según sus valores estéticos. Los empleados pueden ser ordenados por los supervisores en función del desempeño laboral.

Los niños de la escuela pueden ser clasificados por maestros en ajuste social. En tales casos, los objetos o individuos pueden clasificarse y ordenarse por orden de mérito o competencia en dos variables. Spearman ha desarrollado una fórmula llamada Coeficiente de correlación de rangos para medir el grado o grado de correlación entre 2 conjuntos de rangos.

Este coeficiente de correlación se denota con la letra griega ρ (llamada Rho) y se da como:

donde, ρ = rho = coeficiente de correlación de rango de Spearman

D = Diferencia entre rangos pareados (en cada caso)

N = Número total de artículos / individuos clasificados.

Características de Rho (ρ):

1. En el coeficiente de correlación de rangos, las observaciones o mediciones de la variable bivariada se basan en la escala ordinal en forma de rangos.

2. El tamaño del coeficiente se ve directamente afectado por el tamaño de las diferencias de rango.

(una) Si los rangos son los mismos para ambas pruebas, cada diferencia de rango será cero y, en última instancia, D 2 será cero. Esto significa que la correlación es perfecta; es decir 1.00.

(segundo) Si las diferencias de rango son muy grandes y la fracción es mayor que uno, entonces la correlación será negativa.

Suposiciones de Rho (ρ):

yo. N es pequeño o los datos están muy sesgados.

ii. Son libres, o independientes, de algunas características de la distribución de la población.

iii. En muchas situaciones se utilizan métodos de clasificación, donde las mediciones cuantitativas no están disponibles.

iv. Aunque las mediciones cuantitativas están disponibles, los rangos se sustituyen para reducir el trabajo aritmético.

v. Dichas pruebas se describen como no paramétricas.

vi. En tales casos, los datos se componen de conjuntos de números ordinales, 1º, 2º, 3º… .Nuevo. Estos son reemplazados por los números cardinales 1, 2, 3, ………, N para propósitos de cálculo. La sustitución de números cardinales por números ordinales siempre asume la igualdad de intervalos.

I. Calculando ρ a partir de puntajes de prueba:

Ejemplo 1:

Los siguientes datos dan las puntuaciones de 5 estudiantes en Matemáticas y Ciencias Generales, respectivamente:

Calcule la correlación entre las dos series de puntajes de prueba por el Método de Diferencia de Rango.

El valor del coeficiente de correlación entre los puntajes en Matemáticas y Ciencia General es positivo y moderado.

Pasos de cálculo del coeficiente de correlación de Spearman:

Paso 1:

Anote los estudiantes, nombres o sus números de serie en la columna 1.

Paso 2:

En las columnas 2 y 3, escriba los puntajes de cada estudiante o individuo en las pruebas I y II.

Paso 3:

Tome un conjunto de puntajes de la columna 2 y asigne un rango de 1 al puntaje más alto, que es 9, un rango de 2 al puntaje más alto que es 8 y así sucesivamente, hasta que el puntaje más bajo obtenga un rango igual a N; que es 5.

Etapa 4:

Tome el II conjunto de puntuaciones de la columna 3 y asigne el rango 1 a la puntuación más alta. En el segundo set el puntaje más alto es 10; hence obtain rank 1. The next highest score of B student is 8; hence his rank is 2. The rank of student C is 3, the rank of E is 4, and the rank of D is 5.

Paso 5:

Calculate the difference of ranks of each student (column 6).

Paso 6:

Check the sum of the differences recorded in column 6. It is always zero.

Paso 7:

Each difference of ranks of column 6 is squared and recorded in column 7. Get the sum ∑D 2 .

Step 8:

Put the value of N and 2D 2 in the formula of Spearman's co-efficient of correlation.

2. Calculating from Ranked Data:

Ejemplo 2:

In a speech contest Prof. Mehrotra and Prof. Shukla, judged 10 pupils. Their judgements were in ranks, which are presented below. Determine the extent to which their judgements were in agreement.

The value of co-efficient of correlation is + .83. This shows a high degree of agreement between the two judges.

3. Calculating ρ (Rho) for tied Ranks:

Ejemplo 3:

The following data give the scores of 10 students on two trials of test with a gap of 2 weeks in Trial I and Trial II.

Compute the correlation between the scores of two trials by rank difference method:

The correlation between Trial I and II is positive and very high. Look carefully at the scores obtained by the 10 students on Trial I and II of the test.

Do you find any special feature in the scores obtained by the 10 students? Probably, your answer will be “yes”.

In the above table in column 2 and 3 you will find that more than one students are getting the same scores. In column 2 students A and G are getting the same score viz. 10. In column 3, the students A and B, C and F and G and J are also getting the same scores, which are 16, 24 and 14 respectively.

Definitely these pairs will have the same ranks; known as Tied Ranks. The procedure of assigning the ranks to the repeated scores is somewhat different from the non-repeated scores.

Look at column 4. Student A and G have similar scores of 10 each and they possess 6th and 7th rank in the group. Instead of assigning the 6th and 7th rank, the average of the two rank ie 6.5 (6 + 7/2 = 13/2) has been assigned to each of them.

The same procedure has been followed in respect of scores on Trial II. In this case, ties occur at three places. Students C and F have the same score and hence obtain the average rank of (1 + 2/2 = 1.5). Student A and B have rank position 5 and 6; hence are assigned 5.5 (5 + 6/2) rank each. Similarly student G and J have been assigned 7.5 (7 + 8/2) rank each.

If the values are repeated more than twice, the same procedure can be followed to assign the ranks:

Por ejemplo:

if three students get a score of 10, at 5th, 6th and 7th ranks, each one of them will be assigned a rank of 5 + 6 + 7/3= 6.

The rest of the steps of procedure followed for calculation of ρ (rho) are the same as explained earlier.

Interpretation:

The value of ρ can also be interpreted in the same way as Karl Pearson's Coefficient of Correlation. It varies between -1 and + 1. The value + 1 stands for a perfect positive agreement or relationship between two sets of ranks while ρ = – 1 implies a perfect negative relationship. In case of no relationship or agreement between ranks, the value of ρ = 0.

Advantages of Rank Difference Method:

1. The Spearman's Rank Order Coefficient of Correlation computation is quicker and easier than (r) computed by the Pearson's Product Moment Method.

2. It is an acceptable method if data are available only in ordinal form or number of paired variable is more than 5 and not greater than 30 with minimum or a few ties in ranks.

3. It is quite easy to interpret p.

Limitaciones:

1. When the interval data are converted into rank-ordered data the information about the size of the score differences is lost; eg in the Table 5.10, if D in Trial II gets scores from 18 up to 21, his rank remains only 4.

2. If the number of cases are more, giving ranks to them becomes a tedious job.