ch4 Medidas Dispersion PDF

Probabilidad y Estadística 1.
Introducción
Medidas de dispersión
Jhon F. Bernedo Gonzales • 2020
Última revisión: 7 de mayo de 2020
Índice
1. Introducción 1
2. Rango 2
3. Varianza y desviación estándar 4
4. Varianza y desviación estándar: datos agrupados por intervalos 11
5. Coeficiente de variación 12
6. Puntaje z 15
7. Índices de asimetría y curtosis 17
8. Grafico de box-plot 21
1 Introducción
Una medida de tendencia central, por ejemplo, la media aritmética (o la mediana) no proporciona una
descripción completa o suficiente de los datos, esto debido a que existe variación en los datos, esto es,
dispersión entre los datos.
Definición 1.1 (Medida de Dispersión)

Un medida de dispersión de una variable cuantitativa es un indicador del grado dispersión de
los valores de la muestra o población alrededor de una medida de centralidad (media aritmética,
mediana entre otros). Nótese que
la dispersión es pequeña si los datos son próximos uno de los otros
la dispersión es grande si los valores son muy diferentes (dispersos)
1
Probabilidad y Estadística 2. Rango
Las medidas de dispersión mas comunes para cuantificar la dispersión son: amplitud, desviación
media, varianza, desviación estándar, rango intercuartílico, el coeficiente de variación entre otros.
Las medidas de dispersión son utilizados para
cuantificar y conocer la variabilidad (dispersión) de los datos.
comparar distribuciones de los datos, tal como, la forma de la distribución de los datos, entre
otras características.
2 Rango
Una manera de medir la variación en un conjunto de datos es calcular el rango.
Definición 2.1 ( Rango )

El rango o recorrido de un conjunto de n datos es la diferencia entre el mayor (xmax ) y el menor
valor (xmin )
R = xmax − xmin
El cálculo del rango es fácil y es generalmente es adecuada cuando el conjunto de datos es pequeño.
Sin embargo cuando el conjunto de datos es grande el rango muestral no es una medida adecuada
para medir la variación
El rango de la muestra es más usado en el área del control estadístico de la calidad.
Ejemplo 2.1.
Considerando 2 conjuntos de datos
muestra datos
1 2, 3, 3.6, 4, 4.6, 8, 10.3, 11, 12, 15,
2 4, 4.8, 5, 5.2, 5.4, 6, 6.5, 7.2, 9.5, 10
se observa que en la muestra 1 el rango es dado por R1 = 15 − 2 = 13, y el rango en la muestra 2 es R2 = 10 − 4 = 6,

así se pude observar que la muestra 2 es menos dispersa que la muestra 1, esto por que la muestra 2 tiene un
menor rango en relación a la muestra 1.
2
Probabilidad y Estadística 2. Rango
Ejemplo 2.2.
Dado que se tiene 2 muestras de datos
A B
2 2
3 6.9 Se observa que en la muestra A el rango es dado por R1 = 15 − 2 = 13, y
3.6 7.9 el rango en la muestra B es R2 = 15 − 2 = 13.
4 8 Así, se pude observar que ambas muestran tienen el mismo rango y
4.6 8.2 aparentemente tienen la misma dispersión.
8 8.3 Un gráfico de los puntos de cada muestra debe de ser considerada antes
10.3 8.5 de afirmar que la dispersión de ambas muestras es la misma.
11 10
12 11
15 15
Como se puede observar del gráfico de puntos, la distribución de los datos para ambas es distinta. La
muestra A tiene sus valores mas dispersos y la muestra B una gran parte de los datos se agrupan al
Muestra B
centro. Muestra A
● ● ●● ● ● ● ● ● ●
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Nótese que, el rango tiene un defecto porque sólo considera 2 los datos extremos y no considera los
n − 2 datos restantes.
3
Probabilidad y Estadística 3. Varianza y desviación estándar
3 Varianza y desviación estándar

La varianza muestral es una medida de dispersión para un conjunto de datos (univariados) y es dada
por
Pn Pn
− x)2
i=1 (xi − nx2
2
i=1 xi
s2x = = (3.1)
n−1 n−1
La varianza es una estadística de difícil interpretación por presentar unidades al cuadrado de la unidad
de medida de los datos.
Por tal razón, en la práctica se usa la desviación estándar que es definida como la raíz cuadrada de la
varianza
q
sx = s2x
Notación:
Se usa también la notación s2x para la varianza si los datos son denotados x1 , . . . , xn
Si los datos son denotados por y1 , . . . , yn la varianza de la muestra es denotada por s2y
4
Ejemplo 3.1.
Un estudio de la relación entre edad y varias funciones visuales (tales como agudeza y percepción
de profundidad) reportó las siguientes observaciones de área de la lámina esclerótica (mm 2 ) de las
cabezas del nervio óptico humano (“Morphometry of Nerve Fiber Bundle Pores in the Optic Nerve
Head of the Human”, Experimental Eye Research, 1988: 559-568)
2.75 2.62 2.74 3.85 2.34 2.74 3.93 4.21 3.88

4.33 3.46 4.52 2.43 3.65 2.78 3.56 3.01
Encuentre la varianza muestral s2 y la desviación estándar muestral, s.
Solución:
n = 17 Pn
− nx2
2
i=1 xi
x = 3.3412 s2x =
n−1
X
n
197.804 − 17 · 3.34122
x2i = 197.804 = = 0.5016
17 − 1
i=1
5
Propiedades
1) Para datos no agrupados por intervalos se tiene que la suma de los cuadrados de los valores es
dado por
X
n
x2i = (n − 1)s2x + nx2
i=1
2) Si todos los datos x1 , x2 , . . . , xn son iguales a una constante c, entonces la media aritmética es igual
a x = c y la varianza muestral es igual a 0.
3) Sea x que representa una variable estadística (discreta o continua) y sea xi un valor de la muestra
de tamaño n. Si se considera una transformación lineal de x, esto es,
yi = axi + b i = 1, . . . , n
en que a y b son constantes. Entonces la varianza muestral de los valores transformados

y1 , y2 , . . . , yn es dada por
s2y = a2 s2x ,
en que s2x representa la varianza de los datos x1 , x2 , . . . , xn .
Luego, la desviación estándar para las variables transformadas es dada por
sy = |a|sx
4) Considerando 3 grupos de datos en que para cada grupo se tiene su tamaño de muestra, media y
varianza dadas respectivamente:
grupo 1 grupo 2 grupo3

n1 , x1 , s21 n2 , x2 , s22 n3 , x3 , s23
En que n = n1 + n2 + n3 .
La varianza total de los n valores de los datos es dado por
hP i
3 2 + n x2 − nx2
(n
i=1 i − 1)s i i i
s2x =
n−1
en que x es la media global es dada por
n1 x1 + n2 x2 + n3 x3
x=
n
6
Ejemplo 3.2.
El costo inicial de producción x de una muestra de 50 objetos de cierto tipo, tiene una desviación
estándar de $3. La media del costo de producción es de $25 para 30 de los objetos de la muestra y de
$20 para el resto. El costo final de producción y es dado por la relación
yi = 1.15xi + 2,
Encuentre la media, varianza y desviación estándar del costo final de producción.
Solución:
Para calcular la media y se tiene que calcular primero la media, y1 , para los n1 =30 objetos y la media,
y2 , para los restantes.
y1 = 1.15x1 + 2 = 1.15(25) + 2 = 30.75

y2 = 1.15x2 + 2 = 1.15(20) + 2 = 25
Luego la media es
n1 y1 + n2 y2 30(30.75) + 20(25)
y= = = 28.45
n1 + n2 30 + 20
Para calcular la varianza y desviación estándar
√
s2y = 1.152 s2x = 1.152 (32 ) = 11.9025 ⇒ sy = 11.9025 = 3.45
n = 17 Pn
− nx2
2
i=1 xi
x = 3.3412 s2x =
n−1
X
n
197.804 − 17 · 3.34122
x2i = 197.804 = = 0.5016
17 − 1
i=1
7
Teorema de Chebyshev
Teorema 3.1 (Teorema de Chebyshev)

La proporción de cualquier distribución (simétrica o asimétrica) que se encuentre dentro de k
desviaciones estándar de la media es por lo menos  − k12 de los valores que se tienen en los
datos.
Así, dado un conjunto de datos de tamaño n, con media aritmética x y desviación estándar sx
entonces delteorema de Chebyshev
indica que
el intervalo x − ks; x ks contiene por lo menos
1
− ×  % de los datos
k2
en que k es número positivo mayor a 1.
Casos particulares
a) El intervalo [x − 2sx ; x + 2sx ] (k = 2) contiene por lo menos
1 1
(1 − 2
) × 100 % = (1 − ) × 100 %
2 4
3
= × 100 %
4
= 75 % de los datos.
Interpretación: dentro de 2 desviaciones estándar (2sx ) de la media (x) , siempre se encontrará

por lo menos el 75 % (es decir, 75 % o más) de los datos.
b) El intervalo [x − 3sx ; x + 3sx ] (k = 3) contiene por lo menos
1 1
(1 − 2
) × 100 % = (1 − ) × 100 %
3 9
8
= × 100 %
9
= 88.89 % de los datos.
c) El intervalo [x − 4sx ; x + 4sx ] (k = 4) contiene por lo menos
1 1
(1 − 2
) × 100 % = (1 − ) × 100 %
4 16
15
= × 100 %
16
= 93.75 % de los datos.
8
Ejemplo 3.3.
Un conjunto de datos tiene una media de 75 y una desviación estándar de 5. Usted no sabe nada más
acerca del tamaño del conjunto de datos o de la forma de la distribución de datos.
¿Qué puede decir acerca de la proporción de mediciones que caen entre 60 y 90?
¿Qué puede decir acerca de la proporción de mediciones que caen entre 65 y 85?
9
Ejemplo 3.4.
Un grupo de animales experimentales es infectado con una forma particular de bacterias, encontrándose
que su tiempo medio de supervivencia es de 32 días con una desviación estándar de 6 días.
¿Dentro de qué límites esperaría usted que se encuentren al menos 3/4 de las mediciones?
10
Probabilidad y Estadística4. Varianza y desviación estándar: datos agrupados por intervalos
4 Varianza y desviación estándar: datos agrupados por intervalos

El cálculo de algunas medidas de dispersión cuando los datos están agrupados por intervalos es
diferente al caso cuando los datos no lo están. La varianza para datos agrupados en k intervalos es
dada por
Pk Pk
2 i=1 fi (mi − x)2 − nx2
2
i=1 fi mi
s = = (4.1)
n−1 n−1
en que
mi : marca de clase
fi : frecuencia absoluta de cada intervalo
x es la media aritmética calculada de los datos agrupados en intervalos.
La desviación estándar es dada por la raíz cuadrada de la varianza.

√
s= s2
Será considerado la tabla de distribución de frecuencias relacionado con las edades de los regidores de
varias alcaldías en algún país.
Tabla 1: Cálculo de la varianza para las edades de los regidores.

Ii mi fi fi × mi fi × m2i
[21; 31[ 26 189 4914 127764
[31; 41[ 36 1032 37152 1337472
[41; 51[ 46 2053 94438 4344148
[51; 61[ 56 1617 90552 5070912
[61; 71[ 66 564 37224 2456784
[71; 81] 76 95 7220 548720
total 5550 271500 13885800
La media aritmética es x = 48.92 años, luego la varianza es

Pk
2 × m2i − n × x2
i=1 fi
s =
n−1
13885800 − 5550 × 48.922
= = 108.7991 años2
5550 − 1
√
La desviación estándar es s = 108.7991 = 10.43 años.
11
Probabilidad y Estadística 5. Coeficiente de variación
5 Coeficiente de variación
Definición 5.1 (Coeficiente de Variación)

El coeficiente de variación (CV) es una medida de dispersión relativa definida como a razón entre
la desviación estándar y la media aritmética, es dada por
s
CV = × 100 %
x
El CV es utilizada para comparar la dispersión de dos conjuntos de datos, sin que tales conjuntos
tengan las mismas unidades de medida.
Así el CV es adimensional (sin dimensiones), i.e., no tiene unidades de medida.
A partir del coeficiente de variación se puede evaluar la homogeneidad de un conjunto de datos y

de esta forma saber si la media aritmética es una buena medida para representar estos datos. Una
desventaja del coeficiente de variación es que el deja de ser útil cuando la media está próxima de cero.
Así, una media próxima de cero puede inflacionar el CV.
Varios autores indican diferentes métodos para se clasificar el CV. Sin embargo, en este curso será
considerado la siguiente clasificación (empírica)
Baja dispersión: CV 6 15 %
Media dispersión: 15 % < CV < 30 %
Alta dispersión: CV > 30 %
12
Ejemplo 5.1.
Se realiza un estudio acerca de los efectos del tabaquismo sobre los patrones de sueño. La medición que se
observa es el tiempo, en minutos, que toma que dar dormido. Se obtienen los siguientes datos:
Fumadores 69.3 56 22.1 47.6

53.2 48.1 52.7 34.4
60.2 43.8 23.2 13.8
No fumadores 28.6 25.1 26.4 34.9
29.8 28.4 38.5 30.2
30.6 31.8 41.6 21.1
36 37.9 13.9
Bryan afirma que el grupo de fumadores es el grupo mas homogéneo, es esta afirmación correcta? Justifique su
respuesta calculando el coeficiente de variación.
Solución:
x= y=
sx = sy =
sx sy
CVx = × 100 = CVy = × 100 =
x y
Interpretación:
13
Ejemplo 5.2.
La junta directiva de la empresa Gothic Products está considerando adquirir una o dos compañías y
examinando minuciosamente la administración de cada compañía, con el fin de hacer una transacción
lo menos riesgosa posible. Durante los últimos 5 años,
la primera de las compañías tuvo una recuperación promedio de lo invertido del 28.0 %, con una
desviación estándar del 5.3 %
la otra compañía tuvo una recuperación promedio de lo invertido del 37.8 %, con una desviación
estándar del 4.8 %
Si consideramos riesgoso asociarse con una compañía que tenga una alta dispersión relativa en la
recuperación, ¿cuál de estas dos compañías ha seguido una estrategia más riesgosa?
14
Probabilidad y Estadística 6. Puntaje z
6 Puntaje z
Definición 6.1 (Puntaje z (z-Scores))

El puntaje z para una observación es el número de desviaciones estándar que este cae (esta alejado)
de la media.
Un puntaje positivo indica que la observación esta por encima de la media.
Un puntaje negativo indica que la observación esta por debajo de la media.

Para una muestra de datos el puntaje z es calculado como
x−x
z=
sx
Los puntajes z son también denominados de valores estandarizados y no tienen unidades.
Por ejemplo:
si z = 2 significa que la observación esta a 2 desviaciones estándar por encima de la media.
si z = −1.6 significa que la observación esta a 1.6 desviaciones estándar por abajo de la media.
Ejemplo 6.1.
Las calificaciones en un examen de matemáticas e historia generaron las medias 13 y 17 y las desviacio-
nes estándar 3 y 4 respectivamente. Si un alumno obtuvo 14 en matemáticas y 16 en historia, en cuál de
los dos curso tiene mejor rendimiento relativo?
Solución:
Matemáticas Historia
x = 13 y = 17
sx = 3 sy = 4
x = 14 y = 16
x−x 14 − 13 y−y 17 − 16
zx = = zy = =
sx 3 sy 4
Interpretación:
15
Probabilidad y Estadística 6. Puntaje z
Ejemplo 6.2.
La media de las notas de un curso es 75 puntos con una desviación estándar de 5 puntos, Bryan tiene
un puntaje z = −2. Cuantos puntos Bryan tiene en el curso?
16
Probabilidad y Estadística 7. Índices de asimetría y curtosis
7 Índices de asimetría y curtosis

Asimetría
El índice de asimetría de Pearson para datos no agrupados por intervalos es dado por
x − Mo 3(x − Me)
AS = ≈
s s
Interpretación:
a) Si AS = 0 entonces se dice que la distribución es simétrica, luego x = Me = Mo.
b) Si AS > 0 la distribución de los datos es asimétrica positiva o sesgada a la derecha, esto significa
que Mo < Me < x
c) Si AS < 0 la distribución de los datos es asimétrica negativa o sesgada a la izquierda, x < Me < Mo
17
Ejemplo 7.1.
Las personas sensibles a la sal deben tener cuidado con el contenido de sodio en los alimentos. A
continuación se muestra el contenido de sodio (en miligramos) en una porción de 3 cucharadas de 32
marcas de mantequilla de maní.
0 110 125 150

0 110 130 150
0 115 130 150
5 120 140 160
15 120 140 180
50 120 140 190
65 120 140 200
110 120 150 250
Indique que tipo de asimetría se presenta en los datos.
18
Curtosis
La curtosis de una distribución de frecuencias mide el apuntamiento o agudeza de la distribución
(polígono) de frecuencia. La curtosis puede ser calculado utilizando
P75 − P25
K= − 0 .5
P90 − P10
Interpretación:
Si K → 0 la distribución es normal
Si K → 0.5 la distribución es leptocúrtica
Si K → −0.5 la distribución es platicúrtica
19
Ejemplo 7.2.
Las personas sensibles a la sal deben tener cuidado con el contenido de sodio en los alimentos. A
continuación se muestra el contenido de sodio (en miligramos) en una porción de 3 cucharadas de 32
marcas de mantequilla de maní.
0 110 125 150

0 110 130 150
0 115 130 150
5 120 140 160
15 120 140 180
50 120 140 190
65 120 140 200
110 120 150 250
Calcule la curtosis para los datos anteriores
20
Probabilidad y Estadística 8. Grafico de box-plot
8 Grafico de box-plot
Rango intercuartil (IQR)
El rango intercuartil es la diferencia entre el tercer Q3 y el primer cuartil Q1 . Esta medida es mas estable
que el rango (R) por no considerar os valores extremos.
El rango intercuartil (IQR) contiene el 50 % de los datos y es útil para detectar datos atípicos (outliers)
RI = Q3 − Q1
Ejemplo 8.1.
Con los siguientes datos
4 8 9 11 11 13 16 18 20 25
a) Encuentre los cuartiles inferior (Q1 ) y superior (Q3 ) para este conjunto de datos
b) Calcule IQR
21

ch4 Medidas Dispersion PDF

Cargado por

Copyright:

Formatos disponibles

ch4 Medidas Dispersion PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ch4 Medidas Dispersion PDF

Cargado por

Copyright:

Formatos disponibles

Probabilidad y Estadística 1.

Última revisión: 7 de mayo de 2020

3. Varianza y desviación estándar 4

4. Varianza y desviación estándar: datos agrupados por intervalos 11

7. Índices de asimetría y curtosis 17

Definición 1.1 (Medida de Dispersión)

la dispersión es pequeña si los datos son próximos uno de los otros

la dispersión es grande si los valores son muy diferentes (dispersos)

cuantificar y conocer la variabilidad (dispersión) de los datos.

Definición 2.1 ( Rango )

se observa que en la muestra 1 el rango es dado por R1 = 15 − 2 = 13, y el rango en la muestra 2 es R2 = 10 − 4 = 6,

3 Varianza y desviación estándar

2.75 2.62 2.74 3.85 2.34 2.74 3.93 4.21 3.88

Encuentre la varianza muestral s2 y la desviación estándar muestral, s.

en que a y b son constantes. Entonces la varianza muestral de los valores transformados

grupo 1 grupo 2 grupo3

Encuentre la media, varianza y desviación estándar del costo final de producción.

y1 = 1.15x1 + 2 = 1.15(25) + 2 = 30.75

Teorema 3.1 (Teorema de Chebyshev)

a) El intervalo [x − 2sx ; x + 2sx ] (k = 2) contiene por lo menos

Interpretación: dentro de 2 desviaciones estándar (2sx ) de la media (x) , siempre se encontrará

c) El intervalo [x − 4sx ; x + 4sx ] (k = 4) contiene por lo menos

4 Varianza y desviación estándar: datos agrupados por intervalos

fi : frecuencia absoluta de cada intervalo

x es la media aritmética calculada de los datos agrupados en intervalos.

La desviación estándar es dada por la raíz cuadrada de la varianza.

Tabla 1: Cálculo de la varianza para las edades de los regidores.

La media aritmética es x = 48.92 años, luego la varianza es

Definición 5.1 (Coeficiente de Variación)

A partir del coeficiente de variación se puede evaluar la homogeneidad de un conjunto de datos y

Media dispersión: 15 % < CV < 30 %

Alta dispersión: CV > 30 %

Fumadores 69.3 56 22.1 47.6

Definición 6.1 (Puntaje z (z-Scores))

Un puntaje positivo indica que la observación esta por encima de la media.

Un puntaje negativo indica que la observación esta por debajo de la media.

Los puntajes z son también denominados de valores estandarizados y no tienen unidades.

si z = 2 significa que la observación esta a 2 desviaciones estándar por encima de la media.

7 Índices de asimetría y curtosis

a) Si AS = 0 entonces se dice que la distribución es simétrica, luego x = Me = Mo.

0 110 125 150

Indique que tipo de asimetría se presenta en los datos.

Si K → 0.5 la distribución es leptocúrtica

Si K → −0.5 la distribución es platicúrtica

0 110 125 150

Calcule la curtosis para los datos anteriores

También podría gustarte