Medidas Resumen de Localización Dispersión y Forma
Medidas Resumen de Localización Dispersión y Forma
Medidas Resumen de Localización Dispersión y Forma
RESUMEN DE DATOS
MEDIDAS DE LOCALIZACIN
INTRODUCCION
Una vez clasificados los datos originales mediante tablas de frecuencias, es necesario
calcular un conjunto de medidas resumen o ndices que caractericen de una forma ms precisa la
distribucin que se est estudiando y, de este modo, podemos tener una idea de cmo estn
situados los datos a lo largo del eje real.
Estos ndices o medidas resumen permiten hacer comparaciones entre dos o ms muestras o
poblaciones.
Las medidas resumen se calculan a partir de los datos obtenidos de una muestra o de toda la
poblacin. Dependiendo del caso, adoptan diferentes nombres. De este modo,
a) Las medidas descriptivas calculadas a partir de los datos de una muestra se denominan
estadgrafos. Entre los estadgrafos ms comunes tenemos la media muestral, la varianza
muestral y la proporcin muestral.
b) Las medidas descriptivas calculadas a partir de los datos de la poblacin se denominan
parmetros. Entre los parmetros ms comunes tenemos la media poblacional, la varianza
poblacional y la proporcin poblacional.
LA MEDIA ARITMETICA
Ejemplo 1: Suponiendo que el nmero de hijos en cada una de las familias de un grupo de 15
profesores es como sigue:
2, 0, 3, 2, 1, 2, 2, 4, 2, 2, 0, 1, 3, 2, 1
2 0 3 2 ...... 3 2 1
La media es = 1.8
15
En promedio, los 15 profesores tienen 1.8 hijos.
x1 f1 x2 f 2 ... xk f k k x f
i i (2)
N i 1 N
siendo k el nmero de valores diferentes de la variable X, x i cada valor diferente de la variable y fi
su respectiva frecuencia (caso discreto).
Ejemplo 2: Los datos de la variable X: nmero de hijos, de una poblacin de 49 jefes de familia, se
distribuyen del modo siguiente:
Xi: 0 1 2 3 4 5 6 k = 7, i = 1,,7 n= 49
fi: 5 14 14 8 6 1 1
b) Si los datos estn agrupados en intervalos de clase, reemplazar en la frmula (2) los valores
x i por las marcas de clase Xi (caso continuo).
Intervalos Xi fi
5 x<9 7 2
9 x<13 11 4 k = 5 i=1,,5 n = 17
13 x<17 15 7
17 x<21 19 3
21 x<25 23 1
Tambin se puede calcular la media considerando las frecuencias relativas. Sabiendo que
k
f
hi i , reemplazando en la frmula (2) se tiene = xi hi . (3)
N i 1
PROPIEDADES DE LA MEDIA
Ejemplo 4: Sean los datos 11, 12, 13, 14, 15 cuya media es 13. Entonces ( xi ) (1-
3) + (2-3) + (3-3) + (4-3) + (5-3) = 0
3. La suma de los cuadrados de las distancias entre los datos y su media es mnima; esto es,
N N
( X ) ( X A)
i 1
i
2
i 1
i
2
, para cualquier valor A.
Esta propiedad indica que la media es, en cierto sentido, el valor ms prximo al conjunto de
datos.
Ejemplo 5: Para los datos 11, 12, 13, 14, 15 ; X 13 . Sea A = 12.
Siendo ( X i 13) 2 10 y ( X i 12) 2 15 , se cumple la propiedad.
4. Si a cada uno de los datos se le suma o se le resta una constante k , entonces la media de los
datos transformados es igual a la media de los datos originales aumentada o disminuida en la
constante k ; esto es,
M ( X i k) = M ( X i ) k .
Ejemplo 6:
Datos originales, xi 11, 12, 13, 14, 15 M ( xi ) = X = 13
Sea k 5 xi 5 16, 17, 18, 19, 20 M ( xi 5) = 13 + 5 18
Sea k 3 xi 3 8, 9, 10, 11, 12 M ( xi 3) = 13 - 3 10
5. Si a los datos se le multiplica o divide por una constante k , entonces la media de los datos
transformados es igual a la media de los datos originales multiplicada o dividida por la
constante k ; esto es,
x M( xi )
M ( k xi ) = k M ( xi ) o M i =
k k
Ejemplo 7:
Para los datos x i : 1, 2, 3, 4, 5 es x 3.
Sea k 4 para los datos 4 xi : 4, 8, 12, 16, 20 es M(4 xi ) 4(3) 12
Ejemplo 8:
Ejemplo 9:
El promedio de los precios de los artculos que conforman la canasta familiar es 500 u.m.
Si cada artculo de la canasta aumenta el 15% de su precio, entonces el nuevo promedio de
los precios de la canasta es igual a 1.15 x 500 = 575 u.m.
Ejemplo 10:
Si tenemos los datos 1, 2, 3, 4, 5 entonces es x 3 .
Si tenemos los datos 1, 2, 3, 4, 5, 6, 7, 45, 55, entonces es x 14.22 . En casos como este,
donde uno o unos cuantos datos se alejan de la masa, la media no es adecuada, ya que no
representa bien al conjunto.
Ejemplo 11:
El salario medio de 40 obreros de la fbrica A es 200 u.m. y el de 20 obreros de la fbrica B
es 250 u.m. Luego, el salario medio de los 60 obreros es
(40200) (20250)
XT 216.667
40 20
LA MODA, Mo
Ejemplo 12: De la base de datos de la prctica 4 (problema 3, de los 40 clientes), se observa que
en la distribucin de la variable sector ocupacional acerca de los que solicitaron prestamos no
hipotecarios, el valor que ms se repite es 1( quince veces).
Moda = 1 (negocios), la mayora de los clientes que solicitaron prstamos no hipotecarios
corresponde al sector negocios.
Xi: 0 1 2 3 4 5 6
fi: 5 14 14 8 6 1 1
NOTA:
Si los datos corresponden a una variable contnua y estn agrupados en intervalos de clase,
no es posible determinar exactamente el valor de la moda. Lo que s puede hacerse es identificar el
intervalo modal, aqul que tiene la mayor frecuencia, representado por su marca de clase o punto
medio.
OBSERVACIN:
Se usa la moda cuando se desea obtener el valor ms tpico del conjunto de datos. As por
ejemplo, hablando del sueldo promedio en cierta industria, nos referimos a menudo al sueldo
modal. Tambin, cuando el tipo de cambio de la moneda extranjera es estable, hacemos referencia
al valor modal como precio promedio.
LA MEDIANA, Me
Puede ser usada como ndice de centralizacin de datos asociados con escalas de medicin
ordinal, de intervalo y de razn.
La mediana de un conjunto de N datos es el valor que ocupa la posicin central; es decir, es
el dato que divide al conjunto de observaciones en dos partes iguales, 50% menores o iguales que la
mediana y 50% mayores que la mediana.
Para calcular la mediana se procede del modo siguiente:
1) Se ordenan los datos de menor a mayor (estadsticas de orden).
2) Se ubica el dato que ocupa la posicin central:
Si el nmero N de datos es impar, la mediana es el dato que ocupa la posicin (N+1)/2.
Si el nmero N de datos es par, la mediana ser el punto medio de los 2 datos centrales que
ocupan las posiciones N/2 y N/2 + 1.
Si los datos estn agrupados en una tabla de distribucin de frecuencias, se tienen dos casos:
a) Si se tiene la lista de datos con sus respectivas frecuencias (variable cuantitativa discreta),
siempre ser posible determinar el valor exacto de la mediana. Solamente se tiene que ubicar
el dato central que est en la posicin N/2 ( 50%), utilizando las frecuencias acumuladas.
M e a 0.5 H a 0.5 H a
o M e a (b a) (5)
ba Hb Ha Hb Ha
donde:
a es el lmite inferior del intervalo mediano,
b es el lmite superior del intervalo mediano,
Ha es la frecuencia relativa acumulada hasta el extremo a y
Hb es la frecuencia relativa acumulada hasta el extremo b.
Ejemplo 16: Los datos siguientes representan los pesos de un grupo de 50 personas.
Peso(kg.) Xi fi hi Fi Hi
[46, 53) 49.5 3 0.06 3 0.06
[53, 60) 56.5 7 0.14 10 0.20
[60, 67) 63.5 7 0.14 17 0.34
******** [67, 74) 70.5 18 0.36 35 0.70
[74, 81) 77.5 8 0.16 43 0.86
[81, 88) 84.5 4 0.08 47 0.94
[88, 95) 91.5 3 0.06 50 1.00
Observando la columna Hi notamos que el valor del peso que ocupa la posicin central est en el
intervalo [67,74). Luego,
0.500.34
M e 67 (74 67) 011
.
0.70 0.34
Este valor se puede interpretar del modo siguiente: aproximadamente, el 50% de las personas pesan
menos de 70.11 kg. y el resto pesa ms de 70.11 kg.
Observaciones:
X Me Mo Mo Me X X Me Mo
MEDIDAS DE POSICIN
Hemos visto que la mediana divide el conjunto de datos en dos partes iguales. Si se desea
dividir el conjunto de datos en cuatro partes iguales, se usarn los cuartiles. Las medidas de
posicin que dividen a la masa de datos en diez partes iguales se llaman deciles y las que la dividen
en cien partes iguales se llaman centiles o percentiles.
Muchas veces se desea describir la posicin de un cierto valor en un conjunto de datos. Para
ello se usan los percentiles. El primer paso para la obtencin de un percentil es ordenar los datos.
Para un conjunto de n datos ordenados el i-simo percentil est definido como el valor que
ocupa la posicin o el rango (in/100)+0.5, para i = 1,2, ..., 99
Cuando el valor del rango no es entero, se acostumbra tomar el promedio de los datos cuyos
rangos son prximos a este nmero.
Ejemplo 19:
En el siguiente conjunto de 10 datos ordenados: 15 15 16 17 18 19 21 23 25 25 el
percentil 25 es el dato que ocupa la posicin 25x10/100 + 0.5 = 3; esto es P25 = 16. Notar que
debajo de 16 existe aproximadamente el 25% de los datos.
El percentil 45 es 18 (pues su rango es 45x10/100+0.5 = 5).
El percentil 50 tiene rango 50x10/100 + 0.5 = 5.5; como el rango no es entero, el percentil 50 ser el
promedio de los datos que ocupan las posiciones 5 y 6. As, P50 = (18+19)/2 = 18.5 .
El percentil 75 es el dato que ocupa la octava posicin, esto es P75 = 23.
Notas:
(k / 100) H a
Pk a (b a)
Hb Ha
Ejemplo 20: Con los datos del ejm. 16 calcularemos, en forma aproximada, los percentiles 25 y 75.
conjunto 1: 1 2 3 4 5
conjunto 2: 5 10 15 20 25
conjunto 3: 10 20 30 40 50.
En el primero, cuya media es 3, pareciera que los datos estn muy concentrados. En el segundo,
cuya media es 15, los datos estn menos concentrados. En el tercero, cuya media es 30, los datos
estn ms distantes, mucho ms dispersos.
Pero, concentrados o dispersos alrededor de qu valor? Se debe tener un punto de referencia.
Entonces, es importante tomar en cuenta la variacin de los datos alrededor de un valor
central para no llegar a conclusiones engaosas.
Ya veremos despus que los tres conjuntos tienen la misma dispersin relativa.
Entre las medidas de dispersin ms conocidas tenemos: el recorrido o rango, el rango intercuartil,
la varianza, la desviacin estndar, el coeficiente de variacin.
EL RANGO
Ejemplo 22:
Para las siguientes edades de un grupo de 6 personas: 1 2 3 4 5 21 el rango es 20; y para
las siguientes edades de otro grupo de 7 personas: 47 54 57 60 63 65 67 el rango tambin es
20. A pesar de tener el mismo rango de edades, vemos que el comportamiento de los datos al
interior de cada conjunto es totalmente diferente.
Estos dos ejemplos muestran que el rango no indica de qu manera se distribuyen los
datos.
Observaciones:
El rango puede ser una medida de dispersin poco til si queremos conocer el
comportamiento de los datos al interior de los dos datos extremos.
Puede darse el caso en que el mnimo y el mximo de dos conjuntos de datos sean los
mismos y al interior de ellos los datos pueden tener comportamientos muy diferentes.
Es por esto que el rango tiene un uso muy limitado.
Por otra parte, si existen datos atpicos, estos afectarn fuertemente el valor del rango.
Ejemplo 23:
Para los conjuntos de datos del ejemplo 21 se tiene la siguiente informacin.
Conjunto 1: media 3, rango de 1 a 5
Conjunto 2: media 15, rango de 5 a 25
Conjunto 3: media 30, rango de 10 a 50
Los tres conjuntos muestran rangos diferentes y medias diferentes. Qu se puede decir
comparando la dispersin? Siendo las medias diferentes, no podemos usar los rangos directamente.
Ya veremos otro indicador de variabilidad que tome en cuenta a todos los datos y no solo a los
extremos.
EL RANGO INTERCUARTIL
Peso(kg.) Xi fi hi Fi Hi
[46, 53) 49.5 3 0.06 3 0.06
[53, 60) 56.5 7 0.14 10 0.20
[60, 67) 63.5 7 0.14 17 0.34
[67, 74) 70.5 18 0.36 35 0.70
[74, 81) 77.5 8 0.16 43 0.86
[81, 88) 84.5 4 0.08 47 0.94
[88, 95) 91.5 3 0.06 50 1.00
( xi ) 2
2 Var ( X ) = i 1
N
Es la media de los cuadrados de las distancias respecto a la media.
Si los datos estn agrupados en tablas de frecuencia, para calcular la varianza, se debe tomar en
cuenta el nmero de veces que se repite cada dato (caso discreto) o la frecuencia de cada marca de
clase (caso contnuo), de modo que:
N
(x x) f
i
2
i
2 Var ( X ) = i 1
N
donde xi es el valor de la variable (caso discreto) o la marca de clase (caso continuo)
Var ( xi k ) Var ( xi )
Ejm 26: Para los datos 1, 2, 3, 4 ,5 es x 3 y 2 . Sea k=3. Los nuevos datos x i 3 son 4, 5,
2
180
6, 7, 8 cuya media es 6 y cuya varianza es Var ( xi 3) 36 2 .
5
4) Si a cada uno de los datos se le multiplica por una constante k , entonces la varianza de los
datos transformados es igual a la varianza de los datos originales multiplicada por el cuadrado de la
constante; esto es,
Var ( kxi ) k 2Var ( xi ), donde k es una constante.
Datos, xi : 1, 2, 3, 4, 5 x 3 y 2 .
2
Ejm 27:
Sea k 5 . Los nuevos datos ( kxi ) son: 5, 10, 15, 20, 25, cuya media es 15 y su varianza es
1375
Var ( kxi ) 225 50 52 2
5
5) Si un conjunto de datos ha sido dividido en r subconjuntos, cada uno de los cuales tiene un
tamao ni , una media x i y una varianza Si2 (i 1, 2, ..., r ) , en este caso la dispersin o
variabilidad del conjunto total se debe a las variaciones dentro de cada subconjunto (intravarianza)
y a las variaciones entre los diferentes subconjuntos (intervarianza).
S 2
n
i i
S 2
dentro M (S )
i
2 i 1
, donde Si2 es la varianza de cada subconjunto, ni es el
n
tamao de cada subconjunto, n es el conjunto total.
r
(x i x ) 2 ni
2
S entre Var ( xi ) i 1
, donde
n
x i es la media de cada subconjunto;
x es la media del conjunto total;
ni es el tamao de cada subconjunto.
Reemplazando en (*) se tiene:
r r
S 2
n
i i (x i x ) 2 ni
S2 i 1
+ i 1
n n
Nota 1: Para el caso en que se tenga dos subconjuntos, con medias x1 , x 2 , tamaos n1 , n2 ,
varianzas S12 , S22 , respectivamente, entonces:
x n x 2 n2
x 1 1 , donde n n1 n2 .
n
S 2 n S22 n2 ( x x ) 2 n1 ( x2 x ) 2 n2
2
Sdentro 1 1 2
, Sentre 1
n n
de modo tal que S Sd Se .
2 2 2
Nota 2: Para dos subconjuntos de tamao n1 y n 2 que tienen medias iguales y varianzas S12 , S22 ,
respectivamente, la varianza total ser
S12 n1 S22 n2
S 2
n
Ejm 28: Descomposicin de la varianza
DESVIACIN MEDIA
Para un conjunto de n datos, la desviacin media es la media de las desviaciones de los datos
respecto a su media, desviaciones en valor absoluto.
|
=|
=
DESVIACIN MEDIANA
Para un conjunto de n datos, la desviacin mediana es la media de las desviaciones de los datos
respecto a su mediana, desviaciones en valor absoluto.
=| |
=
Si se tuviera los datos agrupados en tablas de frecuencias, habra que multiplicar cada desviacin
por su respectiva frecuencia absoluta simple, tanto para el clculo de la desviacin media como para
la desviacin mediana.
COEFICIENTE DE VARIACION
Dos conjuntos de datos pueden tener una misma media. Analizando la dispersin, podemos
utilizar directamente la desviacin estndar para comparar la variabilidad en ambos conjuntos de
datos, ya que estas desviaciones han sido calculadas utilizando la misma media.
Cuando los promedios son diferentes, no se puede usar directamente las desviaciones tpicas
para comparar la variabilidad, puesto que stas han sido calculadas tomando en cuenta medias
diferentes.
Para comparar la variabilidad de grupos de datos que tienen diferentes medias, se usa otro
ndice de dispersin denominado coeficiente de variacin, el cual es una medida relativa de
dispersin, y est definido como el cociente entre la desviacin estndar y la media aritmtica:
s
CV x 100
X
Se expresa en porcentaje. El grupo de datos que tiene el menor coeficiente de variacin es el que
tiene la menor dispersin. Tambin se le usa para comparar la variabilidad de dos o ms conjuntos
de datos que estn expresados en unidades diferentes.
As, para los conjuntos vistos en el ejemplo 21, cuyas medias respectivas son 3, 15 y 30, y cuyas
varianzas son 2, 50 y 200 respectivamente, el coeficiente de variacin de cada conjunto es 0.47
(47%). Ahora podemos decir que, con respecto a la media, los tres conjuntos tienen igual dispersin
relativa.
MEDIDAS DE FORMA
Las medidas resumen relacionadas a la forma de una distribucin son de dos tipos:
MEDIDAS DE ASIMETRA
La asimetra es el grado en que los datos se reparten de manera equilibrada por encima y por
debajo de una medida de tendencia central. Cuando la distribucin de los datos no es simtrica se
dice que es sesgada. Una medida para el sesgo se obtiene con la diferencia media moda. Si la
diferencia es positiva, la curva tiene una cola a la derecha; si la diferencia es cero, la curva es
simtrica; si la diferencia es negativa, la curva tiene una cola a la izquierda.
Para comparar la simetra de dos o ms distribuciones, que pueden estar expresadas en
diferentes unidades, se estandarizan los sesgos, obtenindose la medida que se conoce como sesgo
de Pearson:
Media Moda
a1 =
Desv. estndar
Otra forma equivalente de expresar el sesgo de Pearson es mediante la relacin
3( Media Mediana )
Sesgo de Pearson = a2 =
Desv.estd .
Si el sesgo es igual a cero, la curva de distribucin es simtrica; si este valor es positivo, la curva
tiene una cola a la derecha; si la diferencia es negativa, la curva tiene una cola a la izquierda.
(0.5)(P75 P25 )
En distribuciones normales el valor de es aproximadamente 0.263 resultando k =
P90 P10
0. Es por ello que, si:
ESTANDARIZACIN DE DATOS
Ejemplo 30 (a):
En un curso de post grado, las calificaciones de un grupo de estudiantes tiene media 34,6 y
desviacin estndar 9,6. Javier pertenece a este grupo y su nota es 48. Cul es la ubicacin de
Javier en este grupo?
La nota estandarizada de Javier es Z = (48 34,6) / 9,6 = 1,4. Entonces, la nota de Javier se ubica
a 1,4 desviaciones estndar por encima de la media.
Ejemplo 30 (b):
En el aula A la nota de Estadstica es 13 y la desviacin estndar es 2, mientras que en el aula B las
notas de Estadstica tienen media 16 y desviacin estndar 1. Juan, que estudia en el aula A, obtuvo
la nota 12, y Pedro, que estudia en el aula B, obtuvo la nota 14. La nota estandarizada de Juan es ZJ
= (12-13)/2 = 0.5 y la de Pedro es ZP = (14-16)/1 = 2. Entonces, Juan est en mejor posicin en
su aula que Pedro en la suya.