Medidas de Dispersión
Medidas de Dispersión
Medidas de Dispersión
Rango
Indica la dispersión entre los valores extremos de una variable. Se calcula como la
diferencia entre el mayor y el menor valor de la variable. Se denota como R.
Para datos ordenados se calcula como:
R = x(n) - x(1)
Dónde: x(n): Es el mayor valor de la variable. x(n): Es el menor valor de la variable.
Desviación media
Donde:
xi:valores de la variable.
n: número total de datos
Desviación estándar
La desviación estándar mide el grado de disersión de los datos con respecto a la
media, se denota como s para una muestra o como σ para la población. Se define
como la raiz cuadrada de la varianza según la expresión:
Mientras menor sea la desviación estándar, los datos son más homogéneos, es decir
existe menor dispersión, el incremento de los valores de la desviación estándar indica
ina mayor variabilidad de los datos.
Varianza
Es otro parámetro utilizado para medir la dispersión de los valores de una variable
respecto a la media. Corresponde a la media aritmética de los cuadrados de las
desviaciones respecto a la media. Su expresión matemática es:
CÀLCULO DE CURTOSSIS
REGLAS DE PROBABILIDAD
Probabilidad total
Sean A y B dos sucesos definidos en el experimento E, cada uno de los cuales puede
presentarse o no cada vez que se realiza el experimento. Plantee estos dos sucesos en cada
uno de los experimentos dados.
Nos interesa considerar el suceso aparición de “al menos uno de ellos”
Probabilidad condicional
Hay situaciones en las que interesa calcular la probabilidad de sucesos que tienen cierta
información con respecto a un experimento. Dicha información reduce el espacio muestra
original a uno de sus subconjuntos. De esta forma la probabilidad de un suceso será diferente
si se tiene o no información adicional. Así por ejemplo, un animal elegido de aquellos que
están vacunados tendrá una probabilidad mayor de no contraer la enfermedad que aquel
seleccionado entre el conjunto total de animales. Este tipo de probabilidad se denomina
probabilidad condicional y se expresa:
P(A / B) que se lee: probabilidad de que habiendo ocurrido B ocurra A, o probabilidad de A
habiendo ocurrido B.
Probabilidad compuesta o conjunta
La probabilidad condicional estudiada nos conduce a observar reglas de probabilidad para
sucesos conjuntos, es decir, la probabilidad de que dos o más sucesos aparezcan al mismo
tiempo.
Dado que:
Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual
que describe varias características importantes, al mismo tiempo, tales como la dispersión y
simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los
datos, sobre un rectángulo, alineado horizontal o verticalmente.
Construcción:
Comparar distribuciones
Diagrama de Caja a través de Excel
Construcción:
Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos
muestran el recorrido intercuartílico. Este rectángulo está dividido por un segmento
vertical que indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles
primero y tercero(recordemos que el segundo cuartil coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo
y máximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes. Estos
bigotes tienen tienen un límite de prolongación, de modo que cualquier dato o caso que no
se encuentre dentro de este rango es marcado e identificado individualmente
EJEMPLO DISTRIBUCIÓN DE EDADES
Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la
edad de un colectivo de 20 personas.
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
ORDENAR LOS DATOS
Para calcular los parámetros estadístico, lo primero es ordenar la distribución
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
CALCULO DE CUARTILES
Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N
= 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:
Q1=(24 + 25) / 2 = 24,5
Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la
variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la
mediana es la media aritmética de dicho valor y el siguiente:
me= Q2 = (33 + 34)/ 2 =33,5
Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En
nuestro caso, como 3N / 4 = 15, resulta
Q2=(39 + 39) / 2 = 39
DIBUJAR LA CAJA Y LOS BIGOTES
La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las
edades comprendidas entre el 25% y el 50% de la población está más dispersa que
entre el 50% y el 75%.
El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el
25% de los más jóvenes están más concentrados que el 25% de los mayores.
El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está
comprendido en 14,5 años.
Seguro que tú podrás obtener más información (¡Utiliza la mediana!)
Comparar distribuciones
La mayor utilidad de los diagramas caja-bigotes es para comparar dos o más conjuntos de
datos.
Comparación distribución de edades
Comparación entrenamientos de un corredor
Comparación clasificación liga
COMPARACIÓN DISTRIBUCIÓN DE EDADES
Análogamente a lo realizado con los diagramas de tallo y hojas, comparamos, mediante
estos diagramas, esta distribución con la del otro ejemplo de distribución de edades.