Técnicas utilizadas en estadística

En este artículo discutiremos sobre algunas de las técnicas de estadística. Algunas de las técnicas son: 1. Las medidas de la tendencia central 2. Variabilidad 3. Probabilidad 4. Distribución de frecuencia 5. Series de tiempo.

Las medidas de la tendencia central:

Promedios

Cualquier medida estadística que dé una idea sobre la posición del punto alrededor del cual se agrupan otras observaciones se denomina medida de tendencia central. La medida más utilizada es la media o la media aritmética.

Las ganancias diarias de dos trabajadores por una semana son las siguientes:

1er trabajador Rs 70, 50, 100, 90, 50 Ingreso promedio = Rs 76

Segundo trabajador Rs 200, 250, 50, 300, 150 Ingreso promedio = Rs 190

Por lo tanto, del ejemplo anterior, podemos concluir que, en promedio, el segundo trabajador gana más que el primero. El objetivo de calcular un promedio, como se puede ver fácilmente, es reemplazar la serie de observaciones por un solo valor, que se toma como el representante de todas las observaciones. Del ejemplo dado anteriormente, se puede observar que la media aritmética es un valor cercano al medio y que algunas de las observaciones son mayores que otras mientras que otras son más pequeñas.

Por lo tanto, se puede decir que la media aritmética de las observaciones en una variable se define como la suma de las observaciones dividida por el número de observaciones.

Para el primer trabajador, la media aritmética se ha calculado como en:

(Rs 70 + 50 + 100 + 90 + 50) ÷ 5 = Rs 76

Media geométrica (GM) La media geométrica de un grupo de observaciones se define como la enésima raíz del producto de todas las observaciones. Supongamos que las observaciones son x ₁, x ₂, x ₃, ..., x _n .

GM se puede calcular como en:

Esto se puede calcular con la ayuda de una tabla de registro.

Modo:

El modo se define como el valor de las variables u observaciones que ocurren con mayor frecuencia. Por ejemplo, si las observaciones son —2, 9, 6, 2, 8, 2, 2, 7, 2 y 3, entonces se ve que el modo es 2, que ha ocurrido durante el número máximo de veces, es decir, 5 veces.

Mediana:

Mediana es el valor de la variable más central, cuando las observaciones se organizan en orden ascendente o descendente. Es obvio que la mitad de los valores será menor que la mediana y la mitad de los valores será mayor. Por lo tanto, si las observaciones son 3, 9, 6, 4, 5, 7 y 10, luego se ordenan los valores en orden ascendente 3, 4, 5, 6, 7, 9 y 10, se considera que el valor de la mediana es el valor medio. Cuarta observación y es igual a 6.

Sin embargo, si el número de observaciones es par, entonces hay dos valores intermedios y es costumbre tomar la media aritmética de esos dos valores. Por ejemplo, si la observación 10 se omite de las variables anteriores, hay dos valores en la mitad 5 y 6 y el valor de la mediana es 5 + 6 ÷ 2 = 5.5.

Las otras herramientas estadísticas importantes para medir y analizar datos y el elemento de variabilidad incluyen el cálculo de (i) Rango, (ii) Rango de semiquíteros, (iii) Desviación absoluta media, (iv) Desviación estándar, (v ) Distribución de frecuencia (tanto simétrica como asimétrica).

La distribución simétrica se caracteriza por la existencia de una línea de simetría que divide el histograma en dos partes y una parte es la imagen especular de la otra. Sin embargo, la mayoría de las distribuciones en comercio y economía no son de este tipo. Las distribuciones asimétricas también se conocen como distribuciones sesgadas. La asimetría significa la falta de simetría y las distribuciones sesgadas se caracterizan por una cola más larga en un lado del histograma.

Variabilidad de medición:

Medias aritméticas y geométricas o medianas sirven como base para comparar dos o más poblaciones u observaciones. Pero las otras medidas de variabilidad o desviación también son importantes para expresar en qué medida las observaciones difieren entre sí. En estadística, dispersión es sinónimo de variabilidad o desviación.

Las siguientes son las medidas importantes de variabilidad:

Distancia:

La diferencia entre los valores más grandes y más pequeños de un conjunto de observaciones se denomina "rango".

Rango de semilíteros inter-inter :

La diferencia entre el valor de las observaciones en el segundo y tercer cuartil se denomina rango semi-inter-cuartil. Esto elimina la influencia de valores muy bajos y muy altos de las observaciones, que son pocos en número.

Desviación media absoluta:

La desviación media absoluta significa la variación de las observaciones de la media aritmética de las observaciones.

Ejemplo: las observaciones son x ₁, x ₂ ... x _n y la media aritmética es x.

La fórmula es:

y, por lo tanto, el promedio es

Pero ∑ (x ₁ - x̅) = 0, cualquiera que sea el valor de x ₁, x ₂, ... .x _n

Por lo tanto, la fórmula ∑ (x _i - x̅) no se puede utilizar como una medida de variabilidad. Esta dificultad se puede evitar si se ignoran los signos (+ o -). Esto es lógico, ya que el signo de una desviación particular x _i - x̅ simplemente indica si la observación x _i está a la izquierda de x oa su derecha y esto no tiene relevancia en el cálculo de las desviaciones, desde el punto central (x), de cualquier observación.

Desviación estándar:

La desviación de las observaciones de su media aritmética (x̅) puede ser positiva (+) o negativa (-). En estadística, los signos de desviaciones de la media aritmética indican solo la dirección de la observación de la tendencia central (x̅) y, por lo tanto, se ignoran. Los signos negativos (-) entre la desviación de la x también se pueden evitar si, en lugar de tomar los valores absolutos, los cuadrados de las desviaciones se toman como en:

Dado que la medida de la variabilidad debe estar en la misma unidad que las observaciones originales, la desviación estándar se calcula mediante la siguiente fórmula:

Para una distribución de frecuencia, con x ₁ x ₂, ..., x _n como los valores medios de las clases y f ₁ f ₂, ..., f _n como las frecuencias, la Desviación Estándar (SD) se calcula mediante la siguiente mejora de fórmula anterior:

La desviación estándar es, con mucho, la medida de variabilidad más utilizada en las estadísticas. Tiene muchas propiedades que lo convierten en la medida más preferida en problemas estadísticos.

Ejemplo:

Los niveles de CI de cinco estudiantes de Administración de Empresas son los siguientes:

por lo tanto, la Desviación Estándar es: 13.22

13.22 es la Desviación Estándar expresada en las mismas unidades que las observaciones mismas. El valor 13.22 es un punto en la misma escala numérica.

La desviación estándar anterior se ha resuelto a partir de las variaciones de una población de 5 estudiantes. Sin embargo, en la práctica, la desviación estándar a menudo no se puede calcular a partir de la población, ya que la mayoría de las veces la población es tan grande que generalmente la muestra se toma con el propósito de calcular la desviación.

Para los datos de la muestra, la variabilidad se mide por la varianza de la muestra y la desviación estándar se calcula mediante la siguiente fórmula:

Se debe tener en cuenta que, como se han utilizado los datos de la muestra, 'n' indica el tamaño de la muestra en lugar de 'N' que indica la observación de la población.

Concepto de probabilidad:

A menudo, en nuestra vida diaria, predecimos ciertos eventos futuros con palabras como: "esto probablemente sucederá", "la probabilidad de que esto sea muy alto" o "esto ocurrirá con toda probabilidad", con cierta cantidad de vaguedad en tales declaraciones Estas declaraciones son en gran medida subjetivas y dependen principalmente de nuestro poder para analizar situaciones similares en el pasado. La importancia de la noción de probabilidad de un evento y algunos medios para medirlo con herramientas estadísticas es inmensa para los bancos comerciales.

Al otorgar un préstamo a un cliente, el banquero desea conocer la probabilidad de incumplimiento por parte de dicho cliente, que se mide sobre la base del estudio de probabilidad utilizando los cálculos estadísticos. Aunque es bastante difícil definir la probabilidad precisamente en un nivel elemental, se puede hacer un esfuerzo para pronosticar la misma usando las técnicas de experimentación aleatoria y definición de frecuencia.

Experimento aleatorio significa un experimento cuyos todos los resultados posibles son conocidos y que pueden repetirse en condiciones idénticas, pero la predicción exacta del resultado es imposible. El precio de un producto en varios días puede considerarse como el resultado de un experimento aleatorio. Los resultados serán denotados generalmente por E ₁, E ₂, E ₃ ..., E _n y se supone que son de número finito.

Distribución de frecuencias:

Si el resultado E ₁ ocurre r veces cuando el experimento aleatorio se repite n veces, entonces la probabilidad de E ₁ se define por la relación 'r / n', ya que el número de repeticiones aumenta indefinidamente. Por lo tanto, la probabilidad se define como un límite de frecuencia relativa cuando el experimento se repite un número infinito de veces.

Series de tiempo:

Una serie de observaciones en diferentes puntos de tiempo en una variable, que depende del tiempo, constituye una serie de tiempo. Por lo tanto, tales series de observaciones dan los cambios o variaciones de una cantidad a lo largo de un período de tiempo y, a menudo, se denominan datos históricos o cronológicos. Para este tipo de datos, una de las variables es el tiempo que está representado por 't' y el otro, que depende del tiempo, está representado por 'Yt'.

Por ejemplo, el rendimiento del cultivo en diferentes temporadas, la producción de acero en diferentes meses, la exportación trimestral de té, la venta de helado en diferentes meses del año, etc. Todos los ejemplos mencionados anteriormente se refieren a alguna actividad económica o de negocios. y una serie de observaciones sobre dichas variables se suelen denominar datos de series cronológicas económicas. Otro ejemplo de datos de series de tiempo es la lluvia en pulgadas en varios días del año.

Por lo tanto, está claro que cualquier variable, que depende del tiempo, forma los datos de la serie de tiempo. Las valiosas conclusiones extraídas por las partes interesadas, como la comunidad empresarial, los banqueros, los industriales, etc., de la serie temporal llevan a la medición de tendencias a partir de los datos, lo que influye significativamente en sus decisiones.