CUARTILES

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 15

CUARTILES, DECILES Y PERCENTILES

Aunque la varianza y la desviacin estndar son la medidas de dispersin ms


tiles en anlisis estadstico, existen otras tcnicas con las cuales puede
medirse la dispersin de un conjunto de datos. Estas medidas adicionales de
dispersin son los cuartiles, los deciles y los percentiles.

Cuartiles.
Son valores de la variable que dividen los datos ordenados en cuartos; cada
conjunto de datos tiene tres cuartiles. El primer cuartil, Q1 ,es un nmero tal

que a lo sumo 25% de los datos son menores en valor que Q1 y a lo sumo 75%
son mayores. El segundo cuartil es la mediana (50%). El tercer cuartil, Q3 , es

un nmero tal que a lo sumo 75% de los datos son menores en valor que Q3 y
a lo sumo 25% son mayores.

Datos clasificados en orden ascendente

25% 25% 25% 25%

Li Q1 Q2 Q3 Ls

Cada conjunto de datos tiene tres cuartiles que lo dividen en cuatro partes
iguales. El primer cuartil es ese valor debajo del cual clasifica el 25% de las
observaciones, y sobre el cual puede encontrarse el 75% restante. El segundo
cuartil es justo la mitad. La mitad de las observaciones estn por debajo y la
mitad por encima; en este sentido, es lo mismo que la mediana. El tercer cuartil
es el valor debajo del cual est el 75% de las observaciones y encima del cual
puede encontrarse el 25% restante.
La determinacin de los cuartiles con frecuencia es de utilidad. Por ejemplo
muchas escuelas de posgrados admitirn slo a aquellos estudiantes que
estn en el 25% superior (tercer cuartil) de los candidatos. Las empresas, con
frecuencia, desean sealar las plantas cuyos deficientes registros de
produccin los colocan por debajo del cuartil inferior. Con un poco de
imaginacin es posible prever numerosos ejemplos en los cuales la
determinacin de cuartiles puede ser de gran beneficio.

Deciles.
Son valores de la variable que dividen los datos ordenados en diez partes
iguales (9 divisiones).

Datos clasificados en orden ascendente

10% 10% 10% 10% 10% 10% 10% 10% 10% 10%

Li D1 D2 D3 D4 D5 D6 D7 D8 D9 Ls

Percentiles.
Son los valores de la variable que dividen un conjunto de datos clasificados en
100 subconjuntos iguales; cada conjunto de datos tiene 99 percentiles. El
k-simo percentil, Pk , es un valor que a lo sumo k% de los datos son menores

en valor que Pk y a lo sumo (100 - k)% de los datos son mayores.

Datos clasificados en orden ascendente

1% 1% 1% 1% 1% 1% 1% 1%

Li P1 P2 P3 P4 P96 P97 P98 P99 Ls


Los deciles separan un conjunto de datos en 10 subconjuntos iguales, y los
percentiles en 100 partes. El primer decil es la observacin debajo de la cual
se encuentra el 10% de las observaciones, mientras que el 90% restante se
encuentra encima de ste. El primer percentil es el valor debajo del cual se
encuentra el 1% de las observaciones, y el resto estn encima de ste. Puede
aplicarse una interpretacin similar al resto de deciles y percentiles. Todo
conjunto de datos tiene 9 deciles y 99 percentiles.
Un percentil y su ubicacin en un arreglo ordenado se identifica mediante los
subndices. Por ejemplo, el decimoquinto percentil se indica como P 15, y su
ubicacin en la serie ordenada es L15.

Para ilustrar el clculo de percentiles, se asume que se tienen observaciones


para el nmero de acciones correspondientes a 50 acciones transados en la
Bolsa de Valores de Nueva York, como se muestra en la siguiente tabla. Vale
la pena destacar que los datos han sido puestos en una serie ordenada. El
lugar del P simo percentil se halla

Ubicacin de un percentil

En donde es el sitio del percentil en una serie ordenada


es el nmero de observaciones
es el percentil deseado

Se asume que se desea calcular el percentil 25, P25, para las acciones de la
tabla. Se debe hallar el primero su ubicacin en la serie ordenada.
Nmeros de acciones 3 10 19 27 34 38 48 56 67 74
transadas en la Bolsa de 4 12 20 29 34 39 48 59 67 74
Valores de Nueva York (en 7 14 21 31 36 43 52 62 69 76
100s)
9 15 25 31 37 45 53 63 72 79
10 17 27 34 38 47 56 64 73 80

El valor resultante de 12.75 decide que el percentil 25 est ubicado al 75% del
trayecto comprendido entre la doceava observacin, que es 20 y la treceava
observacin que es 21, es decir, P25 =20 + 0.75 (21-20) = 20.75.

Si se desea calcular el percentil 35, se halla

El percentil 35 est al 85% del trayecto comprendido entre la observacin 17,


que es 29 y la observacin 18 que es 31, es decir P 35 = 29 + (0.85)(31-29) =
30.7. Por tanto el 35% de las observaciones est por debajo de 30.7 y el 65%
restante por encima de 30.7.

Regresando a los deciles y cuartiles por un momento, se nota que el primer


decil es igual a P10, el segundo decil es igual a P20, y as sucesivamente.
Adicionalmente, el primer cuartil es igual a P25, el segundo cuartil es igual a P50,
y P75, se encuentra en el tercer cuartil. Teniendo esto en mente, el clculo de
deciles y cuartiles se vuelve simplemente un asunto de determinacin de los
percentiles apropiados de acuerdo con las reglas que se acaban de establecer.
Ejemplo 1
Para la siguiente coleccin de datos 1, 1, 1, 2, 3, 3, 4, 4, 5, 9, 9, 19, 20 y 20
calcule:

a) El primero y el tercer cuartil. Ubquelos en un diagrama de caja.


b) El octavo decil.
c) El percentil 42, el 50 y el 87.

Solucin
Cuartiles
Para el clculo de los cuartiles debemos determinar la posicin del dato que
ocupa cada cuartil con la condicin de que dividan a la coleccin de datos en
cuatro partes iguales. De esta forma encontramos con que el segundo cuartil
coincide con la mediana dado que divide a la coleccin en dos partes iguales,
n 1 14 1
por lo que su posicin es 7.5 .
2 2

1 1 1 2 3 3 4 4 5 9 9 19 20 20

Posicin 7.5

Valor de Q2 = 4

Esto significa que la mediana es 4. Ahora el primer cuartil es la mediana de los


datos que se encuentran a la izquierda de la mediana o segundo cuartil. As, la
n 1 7 1
posicin del primer cuartil es 4 . Esto significa que el primer
2 2
cuartil es el valor que est en la cuarta posicin, es decir, 2. Del mismo modo,
el tercer cuartil es el valor que est en la cuarta posicin desde el otro extremo,
es decir, 9.
Como vemos en el diagrama de caja siguiente, al ubicar la caja entre el primero
y el tercer cuartil, se puede tener una idea de la distribucin de los datos, es
decir, se observa que hay una mayor concentracin de datos hacia los valores
pequeos puesto que la caja est desplazada a la izquierda.

2 4 9
1 20

Valor menor Valor mayor

Primer cuartil Q1 Tercer cuartil Q 3

Segundo cuartil Q2 o mediana

Deciles

En cuanto al octavo decil, bastara con ubicar la posicin en que se encuentra a


n 14
travs de la frmula 8 8 11.2 . Esto quiere decir que entre el dato que se
10 10
encuentra en la posicin 11 y la 12 est el octavo decil, pero ms cerca de la
11 que de la 12 puesto que la posicin es la 11.2. El resultado sera 9.2 porque
entre el 9 y el 19 (que son los datos cuyas posiciones son 11 y 12
respectivamente) hay exactamente 10 unidades.

Percentiles

Con relacin a los percentiles pedidos, tendramos que ubicar las posiciones
correspondientes como lo hicimos con los deciles. Para la posicin del percentil
n 14
42 tendramos la siguiente frmula 42 42 5.88 . Esto quiere decir que
100 100
el percentil 42 se encuentra entre los datos que ocupan la posicin 5 y la 6.
Afortunadamente en este caso ambos datos son 3 por lo que el percentil 42 es
3.

Para el percentil 50 basta con buscar la mediana puesto que coinciden. La


mediana de esta coleccin es 4. Por ltimo, el percentil 87 se buscara con el
n 14
mismo procedimiento usado anteriormente, es decir, 87 87 12.18 nos
100 100
dara la posicin del percentil buscado que en este caso es entre las posiciones
12 y la 13, ms cerca de la primera. El resultado sera que el percentil 87 toma
el valor de 19.18.

Ejemplo 2.
Ejemplo: En la siguiente serie simple, que corresponde a la edad de los
trabajadores de una micro empresa: 33, 26, 66, 45, 28, 59, 33, 36, 26, 45, 62,
45, ordenar los datos y calcular los cuartiles uno, dos y tres, los deciles uno,
tres, cinco y nueve; y, los percentiles nueve, diez y cincuenta.

Solucin.
Ordenamos los datos de mayor a menor:
26, 26, 28, 33, 33, 36, 45, 45, 45, 59, 62, 66

Cuartiles
Hallamos la ubicacin del cuartil uno con la frmula:

Calculamos el valor del cuartil uno:

El primer cuartil se localiza entre el tercer y cuarto valor y se encuentra a 0.25


de la distancia entre ellos. Como el tercer valor es 28, y el cuarto es 33,
obtenemos la distancia entre ellos restando el valor mayor del menor; es decir,
33 28 = 5. Para ubicar el primer cuartil, hay que moverse a 0.25 de distancia
entre el tercer valor y el cuarto, por lo que 0.25(5) = 1.25. Para terminar el
procedimiento, sumamos 1.25 al primer valor, y resulta as que el primer cuartil
es:
Q1 = 28 + 1.25 = 29.25
Hallamos la ubicacin del cuartil dos con la frmula:

Calculamos el valor del cuartil dos:

Hallamos la ubicacin del cuartil tres con la frmula:

Calculamos el valor del cuartil tres:


El tercer cuartil se localiza entre el noveno y dcimo valor y se encuentra a 0.75
de la distancia entre ellos. Como el noveno valor es 45, y el dcimo es 59,
obtenemos la distancia entre ellos restando el valor mayor del menor; es decir,
59 45 = 14. Para ubicar el tercer cuartil, hay que moverse a 0.75 de distancia
entre el noveno valor y el dcimo, por lo que 0.75(14) = 10.5. Para terminar el
procedimiento, sumamos 10.5 al primer valor, y resulta as que el tercer cuartil
es:
Q3 = 45 + 10.5 = 55.5

Deciles
Hallamos la ubicacin del decil uno con la frmula:
Calculamos el valor del decil uno:
El primer decil se localiza entre el primero y segundo valor y se encuentra a 0.3
de la distancia entre ellos. Como el primer valor es 26, y el segundo es 26, se
asume que el valor del primer decil es de 26.
D1 = 26

Hallamos la ubicacin del decil tres con la frmula:

Calculamos el valor del decil tres:


El tercer decil se localiza entre el tercer y cuarto valor y se encuentra a 0.9 de
la distancia entre ellos. Como el tercer valor es 28, y el cuarto es 33,
obtenemos la distancia entre ellos restando el valor mayor del menor; es decir,
33 28 = 5. Para ubicar el tercer decil, hay que moverse a 0.9 de distancia
entre el tercer valor y el cuarto, por lo que 0.9(5) = 4.5. Para terminar el
procedimiento, sumamos 4.5 al primer valor, y resulta as que el tercer decil es:
D3 = 28 + 4.5 = 32.5

Hallamos la ubicacin del decil cinco con la frmula:

Calculamos el valor del decil cinco:

Hallamos la ubicacin del decil nueve con la frmula:


UAP[Escriba el ttulo del documento]

Calculamos el valor del decil nueve:


El noveno decil se localiza entre el onceavo y doceavo valor y se encuentra a
0.7 de la distancia entre ellos. Como el onceavo valor es 62, y el doceavo es
66, obtenemos la distancia entre ellos restando el valor mayor del menor; es
decir, 66 62 = 4. Para ubicar el noveno decil, hay que moverse a 0.7 de
distancia entre el onceavo valor y el doceavo, por lo que 0.7(4) = 2.8. Para
terminar el procedimiento, sumamos 2.8 al primer valor, y resulta as que el
noveno decil es:

D9 = 62 + 2.8 = 64.8

Percentiles
Hallamos la ubicacin del percentil diez con la frmula:

Calculamos el valor del percentil diez:


Por lo tanto el valor de P10 = 26

Hallamos la ubicacin del percentil cincuenta con la frmula:

Calculamos el valor del percentil cincuenta:


Por lo tanto el valor de P50 = 40.5
UAP[Escriba el ttulo del documento]
Diagramas de cava

Existed Unna gran varied ad de graphics estadsticas para cxtraer


informacin acerca de las propiedades de un conjuncts de datos.
Una grafica util para reflejar propiedades de los datos es la grafica de
caja ("box plots") que se basa en la mediana (o en la media), los
cuartiles y valorcs extremos. La caja representa el rango intercuartil que
encierra el 50% de los valores y tiene la mediana (Me) dibujada dentro. El
rango intercuartil ticne como extremos el percentile 75, P15 (cuartil
superior) y el percentil 25, P25 (cuartil inferior).
Adernas de la caja se incluye la extension de los datos mcdiante segmentos
que se exticnden de la caja hacia el valor maxi mo ( U) y hacia el valor mfnimo
(L) de los datos. Este recuadro se dibuja con el eje de la variable en
forma horizontal o vertical como se indica en Ia figura que sigue.
u

Me

Diagrama de Cajay Extensiones

De un grafico de cajas, se obtiene informaci6n de los datos acerca de: La


centralizaci6n (Observando la ubicaci6n de la mediana)
La dispersion o variabilidad (mediante el rango intercuartil: RI= P15 - P25)
La asimetrfa (comparando: Me - P25 con P15- Me)
Las colas (por la Iongitud de los segmentos que salen de los lados de la caja)

MEDIDAS DE DISPERSION

Introduccion

Las mcdidas de tendencia central no son suficientes para describir un conjunto


de valores de alguna variable estadfstica. Los promedios determinan el centro,
pero nada indican acerca de c6mo estan situados los datos respecto al centro.
En primer lugar se necesita una medida del grado de dispersion o variabilidad con
rcspecto al centro con la finalidad de ampliar la descripci6n de los datos o de
comparar dos o mas series de datos.
En segundo lugar se necesita una medida del grado de asimetria o deformaci6n
UAP[Escriba el ttulo del documento]
en ambos [ados del centro de una serie de datos, con el fin de describir la forma
de la distribuci6n de los datos. Esta medida se denomina indice de asimetria.
En tercer lugar se necesita una medida que nos permita comparar el
apuntamiento o curtosis de distribuciones simetricas con respecto a la distribuci6n
sirnetrica normal. Esta medida se denomina indice de apurztamientoo curtosis.
Las estadfsticas de asimetrfa y apuntamiento se incluyen en este capftulo dada su
poca importancia.
El lector deberfa correr paquetes de computo entre otros el MCEST para las
aplicaciones de este capitulo.

Medidas de dispersion

Las medidas de dispersion o variabilidad son numeros que mideo el grado de


separacion de los datos con respecto a un valor central, que generalmente es la
media aritrnetica,
Las principales medidas de dispersion son:
el rango,el rango intercuartil. la varianza,la desviacion estdndar, yel coeficiente de
variacion.Rango o recorrido de una variable

Definicion.

El rango de variaci6n o recorrido. R. de una sene de datos. es la


diferencia entre sus valores rnaximo y mfnimo. Esto es,

R = Xmax - Xmin

siendo xmax el valor maximo y xmin el valor mirurno.


El rango es una medida de dispersion muy facilmente calculable, pero es
muy inestable, ya que depende unicamenre de los dos valores extremos.
Su valor pucde cambiar grandemenle si se afiade o elimina un s61o dato. Por
tanto su uso es mu) limitado.

Por ejemplo, dadas las dos series de datos

a) I. 4, 4, 5, 5, 5, 5, 6, 6, 9 b) l, 2, 3, 4, 5, 6, 7, 8, 9

Ambas series tienen la misma media, 5, y el mismo rango, 8. pero las dos
series no tienen la misma dispersion, ya que la segunda riene mayor
variabilidad.

El empleo del rango como medida de cornparacion de variacion puedc


estar justificado cuando se precise rapidamente de una medida de
dispersion } no haya tiempo de calcular algunas de las otras.
UAP[Escriba el ttulo del documento]

Rango intercuartil y rango semiintercuartil

Definicidn. El rango intercuartil, RI, es la diferencia entre sus cuartiles


tercero y primero.

El rango intercuartil es una medida que excluyc el 25 % mas alto y el 25 %


mas bajo, dando un rango dentro de! cual se encucntra el 50% central
de los datos observados y a diferencia del rango total no se encuentra afectada
por los valores extremos.
Si el rango intercuartil es muy pequefio entonces describe alta uniformidad o
pequefia variabilidad de los valores centrales.
Por ejemplo, si en una distribucion de frecuencras de I 00 mgresos quincenales se
encuentran los cuartiles Q1 = 62$, y Q3 = 70$, entonces, el rango intercuartil es
RI = Q3 - Q1 = $70- 62$ = 8. Esto, mdica que el 50% de Ios ingresos
quincenales
de los 100 empleados vana dentro del valor $8.
El rango intercuartil se apli<;a a varj,ables meclid~ ~e(l -~ala por lo ienos
ordinal.

Deflnicion. El rango semiintercuartil, RSI, es igual al rango intercuartil dividido


por2.

El rango semiintercuartil se puede asociar con ]a mediana y se puede expresar en


funcion de ella. Si una distribucion es normal los cuartiles Q1 y Q3 son
equidistantes de la mediana. Se deduce entonces, que el rango intercuartil y la
mediana RSI, son la misma distancia. Ademas, como exactamente el 50% de
los
datos se encuentran en el rango intercuartil, entonces. el intervalo: mediana RSI
contiene tambien exactamente el 50% de los datos. Si la distribuci6n es
asimetrica, el intervalo: mediana RSI contendrfa aproximadamente el 50% de
Jos datos.

Por ejemplo, si en la distribucion de los JOO ingresos quincenales donde


Q1 = 62$ , y Q3 = 70$, el rango semiintercuartil es $4. Si la mediana fuera igual
a

$66, entonces, aproximadamente el 50% de tos dates se hallan comprendidos en


el intervalo $66 + 4.

NOTA. Si la distribucion es muy asimetrica, el rango intercuartil (o el


semiintercuartil) es preferible a la desviacion estandar como medida de la
dispersion.
UAP[Escriba el ttulo del documento]

Varianza y Desviaci6n estandar

La varianza, es una medida que cuantifica el grado de dispersion o de variacion de


los valores de una variable cuantitativa con respecto a su media aritmetica. Si Jos
valores tienden a concentrarse alrededor de su media, la varianza sera pequeiia.
Si los valores tienden a distribuirsc lejos de la media, la varianza sera grande.
La varianza calculada a partir de una muestra sera denotada por s 2 y refenda a
una poblacion se denotara por cr2
Definici6n. La varianza se define como la media aritmetica de los cuadrados de las
diferencias de los datos con respecto a su media aritmetica,
Coeficiente de varlacion

Definici6n. El coeficiente de variacion, C. V. es una medida de dispersion relativa


(libre de unidades de medidas), que se define como la desviaci6n estandar
dividido por la media aritmetica, Esto es,
s
C.V.=-=,o en%
x
El coeficiente de variaci6n se utiliza para comparar la variabilidad de dos o mas
series de datos que tengan medias iguales o diferentes o que tengan unidades
de medida iguales o diferentes (por decir, una serie en kilogramos y otra serie
en metros).

Por dar un ejemplo, si dos secciones HI y H2 de matematica I, tienen la misma


desviaci6n estandar igual a 14, no podemos concluir que los dos horarios tienen la
misma variabilidad. Asi mismo, si las desviaciones estandares de H 1 y H2
son iguales a 2 y 4 respectivamente no podemos concluir que las notas de H2 son
mas dispersas que las de H 1. La variabilidad depende de las medias de los dos
grupos.
Si la media del horario HI es 16 y la media del horario H2 es 11, los
coeficientes de variaci6n respectivos son:

También podría gustarte