ch4 Medidas Dispersion PDF
ch4 Medidas Dispersion PDF
ch4 Medidas Dispersion PDF
Introducción
Medidas de dispersión
Jhon F. Bernedo Gonzales • 2020
Índice
1. Introducción 1
2. Rango 2
5. Coeficiente de variación 12
6. Puntaje z 15
8. Grafico de box-plot 21
1 Introducción
Una medida de tendencia central, por ejemplo, la media aritmética (o la mediana) no proporciona una
descripción completa o suficiente de los datos, esto debido a que existe variación en los datos, esto es,
dispersión entre los datos.
1
Probabilidad y Estadística 2. Rango
Las medidas de dispersión mas comunes para cuantificar la dispersión son: amplitud, desviación
media, varianza, desviación estándar, rango intercuartílico, el coeficiente de variación entre otros.
Las medidas de dispersión son utilizados para
comparar distribuciones de los datos, tal como, la forma de la distribución de los datos, entre
otras características.
2 Rango
Una manera de medir la variación en un conjunto de datos es calcular el rango.
R = xmax − xmin
El cálculo del rango es fácil y es generalmente es adecuada cuando el conjunto de datos es pequeño.
Sin embargo cuando el conjunto de datos es grande el rango muestral no es una medida adecuada
para medir la variación
El rango de la muestra es más usado en el área del control estadístico de la calidad.
Ejemplo 2.1.
Considerando 2 conjuntos de datos
muestra datos
1 2, 3, 3.6, 4, 4.6, 8, 10.3, 11, 12, 15,
2 4, 4.8, 5, 5.2, 5.4, 6, 6.5, 7.2, 9.5, 10
2
Probabilidad y Estadística 2. Rango
Ejemplo 2.2.
Dado que se tiene 2 muestras de datos
A B
2 2
3 6.9 Se observa que en la muestra A el rango es dado por R1 = 15 − 2 = 13, y
3.6 7.9 el rango en la muestra B es R2 = 15 − 2 = 13.
4 8 Así, se pude observar que ambas muestran tienen el mismo rango y
4.6 8.2 aparentemente tienen la misma dispersión.
8 8.3 Un gráfico de los puntos de cada muestra debe de ser considerada antes
10.3 8.5 de afirmar que la dispersión de ambas muestras es la misma.
11 10
12 11
15 15
Como se puede observar del gráfico de puntos, la distribución de los datos para ambas es distinta. La
muestra A tiene sus valores mas dispersos y la muestra B una gran parte de los datos se agrupan al
Muestra B
centro. Muestra A
● ● ●● ● ● ● ● ● ●
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Nótese que, el rango tiene un defecto porque sólo considera 2 los datos extremos y no considera los
n − 2 datos restantes.
3
Probabilidad y Estadística 3. Varianza y desviación estándar
Notación:
Se usa también la notación s2x para la varianza si los datos son denotados x1 , . . . , xn
Si los datos son denotados por y1 , . . . , yn la varianza de la muestra es denotada por s2y
4
Probabilidad y Estadística 3. Varianza y desviación estándar
Ejemplo 3.1.
Un estudio de la relación entre edad y varias funciones visuales (tales como agudeza y percepción
de profundidad) reportó las siguientes observaciones de área de la lámina esclerótica (mm 2 ) de las
cabezas del nervio óptico humano (“Morphometry of Nerve Fiber Bundle Pores in the Optic Nerve
Head of the Human”, Experimental Eye Research, 1988: 559-568)
Solución:
n = 17 Pn
− nx2
2
i=1 xi
x = 3.3412 s2x =
n−1
X
n
197.804 − 17 · 3.34122
x2i = 197.804 = = 0.5016
17 − 1
i=1
5
Probabilidad y Estadística 3. Varianza y desviación estándar
Propiedades
1) Para datos no agrupados por intervalos se tiene que la suma de los cuadrados de los valores es
dado por
X
n
x2i = (n − 1)s2x + nx2
i=1
2) Si todos los datos x1 , x2 , . . . , xn son iguales a una constante c, entonces la media aritmética es igual
a x = c y la varianza muestral es igual a 0.
3) Sea x que representa una variable estadística (discreta o continua) y sea xi un valor de la muestra
de tamaño n. Si se considera una transformación lineal de x, esto es,
yi = axi + b i = 1, . . . , n
sy = |a|sx
4) Considerando 3 grupos de datos en que para cada grupo se tiene su tamaño de muestra, media y
varianza dadas respectivamente:
En que n = n1 + n2 + n3 .
La varianza total de los n valores de los datos es dado por
hP i
3 2 + n x2 − nx2
(n
i=1 i − 1)s i i i
s2x =
n−1
en que x es la media global es dada por
n1 x1 + n2 x2 + n3 x3
x=
n
6
Probabilidad y Estadística 3. Varianza y desviación estándar
Ejemplo 3.2.
El costo inicial de producción x de una muestra de 50 objetos de cierto tipo, tiene una desviación
estándar de $3. La media del costo de producción es de $25 para 30 de los objetos de la muestra y de
$20 para el resto. El costo final de producción y es dado por la relación
yi = 1.15xi + 2,
Solución:
Para calcular la media y se tiene que calcular primero la media, y1 , para los n1 =30 objetos y la media,
y2 , para los restantes.
Luego la media es
n1 y1 + n2 y2 30(30.75) + 20(25)
y= = = 28.45
n1 + n2 30 + 20
Para calcular la varianza y desviación estándar
√
s2y = 1.152 s2x = 1.152 (32 ) = 11.9025 ⇒ sy = 11.9025 = 3.45
n = 17 Pn
− nx2
2
i=1 xi
x = 3.3412 s2x =
n−1
X
n
197.804 − 17 · 3.34122
x2i = 197.804 = = 0.5016
17 − 1
i=1
7
Probabilidad y Estadística 3. Varianza y desviación estándar
Teorema de Chebyshev
1
− × % de los datos
k2
en que k es número positivo mayor a 1.
Casos particulares
1 1
(1 − 2
) × 100 % = (1 − ) × 100 %
2 4
3
= × 100 %
4
= 75 % de los datos.
1 1
(1 − 2
) × 100 % = (1 − ) × 100 %
4 16
15
= × 100 %
16
= 93.75 % de los datos.
8
Probabilidad y Estadística 3. Varianza y desviación estándar
Ejemplo 3.3.
Un conjunto de datos tiene una media de 75 y una desviación estándar de 5. Usted no sabe nada más
acerca del tamaño del conjunto de datos o de la forma de la distribución de datos.
¿Qué puede decir acerca de la proporción de mediciones que caen entre 60 y 90?
¿Qué puede decir acerca de la proporción de mediciones que caen entre 65 y 85?
9
Probabilidad y Estadística 3. Varianza y desviación estándar
Ejemplo 3.4.
Un grupo de animales experimentales es infectado con una forma particular de bacterias, encontrándose
que su tiempo medio de supervivencia es de 32 días con una desviación estándar de 6 días.
¿Dentro de qué límites esperaría usted que se encuentren al menos 3/4 de las mediciones?
10
Probabilidad y Estadística4. Varianza y desviación estándar: datos agrupados por intervalos
mi : marca de clase
Será considerado la tabla de distribución de frecuencias relacionado con las edades de los regidores de
varias alcaldías en algún país.
11
Probabilidad y Estadística 5. Coeficiente de variación
5 Coeficiente de variación
s
CV = × 100 %
x
El CV es utilizada para comparar la dispersión de dos conjuntos de datos, sin que tales conjuntos
tengan las mismas unidades de medida.
Así el CV es adimensional (sin dimensiones), i.e., no tiene unidades de medida.
Baja dispersión: CV 6 15 %
12
Probabilidad y Estadística 5. Coeficiente de variación
Ejemplo 5.1.
Se realiza un estudio acerca de los efectos del tabaquismo sobre los patrones de sueño. La medición que se
observa es el tiempo, en minutos, que toma que dar dormido. Se obtienen los siguientes datos:
Bryan afirma que el grupo de fumadores es el grupo mas homogéneo, es esta afirmación correcta? Justifique su
respuesta calculando el coeficiente de variación.
Solución:
x= y=
sx = sy =
sx sy
CVx = × 100 = CVy = × 100 =
x y
Interpretación:
13
Probabilidad y Estadística 5. Coeficiente de variación
Ejemplo 5.2.
La junta directiva de la empresa Gothic Products está considerando adquirir una o dos compañías y
examinando minuciosamente la administración de cada compañía, con el fin de hacer una transacción
lo menos riesgosa posible. Durante los últimos 5 años,
la primera de las compañías tuvo una recuperación promedio de lo invertido del 28.0 %, con una
desviación estándar del 5.3 %
la otra compañía tuvo una recuperación promedio de lo invertido del 37.8 %, con una desviación
estándar del 4.8 %
Si consideramos riesgoso asociarse con una compañía que tenga una alta dispersión relativa en la
recuperación, ¿cuál de estas dos compañías ha seguido una estrategia más riesgosa?
14
Probabilidad y Estadística 6. Puntaje z
6 Puntaje z
x−x
z=
sx
Por ejemplo:
si z = −1.6 significa que la observación esta a 1.6 desviaciones estándar por abajo de la media.
Ejemplo 6.1.
Las calificaciones en un examen de matemáticas e historia generaron las medias 13 y 17 y las desviacio-
nes estándar 3 y 4 respectivamente. Si un alumno obtuvo 14 en matemáticas y 16 en historia, en cuál de
los dos curso tiene mejor rendimiento relativo?
Solución:
Matemáticas Historia
x = 13 y = 17
sx = 3 sy = 4
x = 14 y = 16
x−x 14 − 13 y−y 17 − 16
zx = = zy = =
sx 3 sy 4
Interpretación:
15
Probabilidad y Estadística 6. Puntaje z
Ejemplo 6.2.
La media de las notas de un curso es 75 puntos con una desviación estándar de 5 puntos, Bryan tiene
un puntaje z = −2. Cuantos puntos Bryan tiene en el curso?
16
Probabilidad y Estadística 7. Índices de asimetría y curtosis
x − Mo 3(x − Me)
AS = ≈
s s
Interpretación:
b) Si AS > 0 la distribución de los datos es asimétrica positiva o sesgada a la derecha, esto significa
que Mo < Me < x
c) Si AS < 0 la distribución de los datos es asimétrica negativa o sesgada a la izquierda, x < Me < Mo
17
Probabilidad y Estadística 7. Índices de asimetría y curtosis
Ejemplo 7.1.
Las personas sensibles a la sal deben tener cuidado con el contenido de sodio en los alimentos. A
continuación se muestra el contenido de sodio (en miligramos) en una porción de 3 cucharadas de 32
marcas de mantequilla de maní.
18
Probabilidad y Estadística 7. Índices de asimetría y curtosis
Curtosis
La curtosis de una distribución de frecuencias mide el apuntamiento o agudeza de la distribución
(polígono) de frecuencia. La curtosis puede ser calculado utilizando
P75 − P25
K= − 0 .5
P90 − P10
Interpretación:
Si K → 0 la distribución es normal
19
Probabilidad y Estadística 7. Índices de asimetría y curtosis
Ejemplo 7.2.
Las personas sensibles a la sal deben tener cuidado con el contenido de sodio en los alimentos. A
continuación se muestra el contenido de sodio (en miligramos) en una porción de 3 cucharadas de 32
marcas de mantequilla de maní.
20
Probabilidad y Estadística 8. Grafico de box-plot
8 Grafico de box-plot
Rango intercuartil (IQR)
El rango intercuartil es la diferencia entre el tercer Q3 y el primer cuartil Q1 . Esta medida es mas estable
que el rango (R) por no considerar os valores extremos.
El rango intercuartil (IQR) contiene el 50 % de los datos y es útil para detectar datos atípicos (outliers)
RI = Q3 − Q1
Ejemplo 8.1.
Con los siguientes datos
4 8 9 11 11 13 16 18 20 25
a) Encuentre los cuartiles inferior (Q1 ) y superior (Q3 ) para este conjunto de datos
b) Calcule IQR
21