Me 2
Me 2
Me 2
UNIDAD Nº I
Estadística Descriptiva.
www.iplacex.cl
SEMANA 2
Introducción
Tal como ya ha sido estudiado, la estadística descriptiva comprende la presentación,
organización y resumen de los datos de una manera científica. Mediante el estudio de
ciertos estadísticos, es posible conocer magnitudes que representan a la globalidad de
los datos disponibles de forma resumida. Incluye diversos métodos de organizar y
representar gráficamente los datos, con el objetivo de formarnos una idea de lo que nos
muestran. Las tablas, los diagramas de barras, o los gráficos sectoriales o gráficos de
“torta” son algunos de los elementos de la estadística descriptiva. Los estadísticos más
comunes de la estadística descriptiva son los estadísticos de centralización y los
estadísticos de dispersión.
Los estadísticos de centralización nos entregan una visión numérica de la variable objeto
de estudio sobre la cual tienden a concentrarse las observaciones (datos). Los
estadísticos de centralización más comunes son la madia aritmética, la mediana, la moda
y los percentiles. Una vez definidos los valores en torno a los cuales tienden a
concentrarse las observaciones, el siguiente planteamiento es describir que tan
agrupados (concentrados) o dispersos se encuentran los datos de la muestra en torno a
los estadísticos de centralización, pues una medida de tendencia central (centralización)
es insuficiente para caracterizar una distribución.
www.iplacex.cl2
Ideas Fuerza
Una vez construidas las tablas de distribución de frecuencia, una buena forma de
presentar la información obtenida es a partir de las diferentes representaciones gráficas
que se estudiarán en la presente semana. En el mercado, y en la web, existen varios
software o aplicaciones para su elaboración.
www.iplacex.cl3
Desarrollo
3. Representación gráfica
El objetivo básico de un gráfico es transmitir la información de forma tal que pueda ser
captada rápidamente, de un “golpe de vista”. Luego, un gráfico debe ser ante todo
sencillo y claro, a pesar de su aspecto artístico, ya que se elabora para ser incluido en
un trabajo científico.
Existen múltiples tipos de gráficos, pero aquí trataremos principalmente los más
ampliamente utilizados, estos son: grafico de barras, sectoriales o gráficos de “torta”,
histogramas, pictogramas, ojiva, gráfico de tallo y hojas y diagrama de dispersión.
www.iplacex.cl4
Ejemplo 4:
La siguiente tabla muestra el número de hijos por familia en una localidad rural. Para lo
anterior se ha tomado como muestra el registro de 20 familias de dicha localidad.
2 1 1 3 1 2 5 1 2 3
4 2 3 2 1 4 2 3 2 1
𝐹𝑖 𝐻𝑖
𝑥𝑖 𝑓𝑖 ℎ𝑖 ℎ𝑖 ∙ 100 𝑖 𝑖
𝑓𝑖 ⁄20 (%) ∑ 𝑓𝑗 ∑ ℎ𝑗
1 1
1 6 0,30 30 6 0,30
2 7 0,35 35 13 0,65
3 4 0,20 20 17 0,85
4 2 0,10 10 19 0,95
5 1 0,05 5 20 1,00
Del gráfico se puede observar, por ejemplo: i) que el 35% de las familias de la localidad
rural tienen 2 hijos, ii) el 10%de las familias tiene 4 hijos, entre otras.
www.iplacex.cl5
3.2 Gráficos sectoriales (gráfico de “torta”)
Ejemplo 5:
www.iplacex.cl6
3.3 Histogramas
Ejemplo 6:
www.iplacex.cl7
Construcción del histograma (nótese que cada barra va unida a la siguiente):
Del histograma se puede destacar, por ejemplo: i) que el 43% de los resultados de
𝑔
laboratorio arrojaron un valor medio de 29,5 𝑐𝑚3 ; o bien, ii) el 5% de los resultados de
𝑔
laboratorio dieron como resultado un 37,5 en promedio, entre otros.
𝑐𝑚3
Nótese que el histograma realizado para el Ejemplo 6 las barras se han dibujado
verticalmente, sin embargo, si bien es menos frecuente, también es posible construirlo
dibujando las barras de forma horizontal, siempre una barra unida a las otras.
3.4 Pictograma
Los pictogramas son gráficos similares a los gráficos de barra, pero con la diferencia que
en estos diagramas se emplea un dibujo en una determinada escala para expresar la
unidad de medida de los datos. En el eje de la ordenada se representa la frecuencia
absoluta acumulada o relativa acumulada.
Es común ver gráficos de barras, donde las barras se reemplazan por dibujos a diferentes
escalas, con el único fin de hacer más ilustrativo el gráfico, estos tipos de gráficos no
constituyen un pictograma.
www.iplacex.cl8
Ejemplo 7:
3.5 La Ojiva
Una ojiva es una gráfica lineal que representa frecuencias acumuladas. En el eje de la
abscisa se representan los límites de los intervalos, o bien, la marca de clase. La gráfica
en sí misma comienza en el límite inferior del primer intervalo, o primera marca de clase
y finaliza en el límite superior del último intervalo o en la última marca de clase. Las ojivas
son útiles para determinar el número de valores que se encuentran por debajo de un
valor particular.
Ejemplo 8:
www.iplacex.cl9
De la Ojiva es posible señalar, por ejemplo: i) el 95% de los resultados de laboratorio
𝑔
indican que la densidad del asfalto tiene un valor de 35 𝑐𝑚3 o inferior (recuerde que el
límite superior del intervalo esta aumentado en la mitad de un decimal adicional); ii) el
14% de los resultados de laboratorio (100% − 86% = 14%) dan cuenta que la densidad
𝑔
del asfalto es igual o superior a 32 𝑐𝑚3 (el límite inferior está disminuido en la mitad de
un decimal adicional respecto del número de decimales de los datos originales).
Para construir una gráfica de tallo y hojas, ubique los tallos en una columna y trace a
continuación una línea vertical a su derecha. Posteriormente, considerando el tallo
correspondiente, ubique las siguientes unidades numéricas de los datos, finalmente
ordene de menor a mayor para facilitar la comprensión de la gráfica. Es importante que
la descomposición de los datos sea clara, en tallos y hojas, de manera que cualquier
lector pueda recrear las mediciones de ser necesario.
www.iplacex.cl10
Ejemplo 9:
90 70 70 70 75 70 65 68 60 74
70 95 75 70 68 65 40 65 70 72
Para crear el gráfico de tallo y hojas, se pude dividir, para este caso, cada observación
(dato) entre las unidades y las decenas. El número a la izquierda es el tallo; el de la
derecha es la hoja. Dicho lo anterior, para las zapatillas que cuestan US$65, el tallo es 6
y la hoja es 5. De esta forma continuamos clasificando el resto de los datos como sigue:
4 0
5
6 | 5 8 0 8 5 5
7 | 0 0 0 5 0 4 0 5 0 0
8
9 0 5
4 0
5
6 | 0 5 5 5 8 8
7 | 0 0 0 0 0 0 0 4 5 5
8
9 0 5
www.iplacex.cl11
Los siguientes datos muestran la estatura, en metros, de 10 pares de familia (padre e
hijo mayor).
Estatura
1,56 1,75 1,80 1,75 1,65 1,70 1,60 1,55 1,70 1,50
padre, [m]
Estatura hijo
1,16 1,80 1,70 1,70 1,65 1,75 1,40 1,55 1,65 1,50
mayor, [m]
Se puede señalar también que existen dos registros (estatura padre y su hijo mayor) que
no obedecen a la relación del resto de los datos. Lo anterior se puede observar en que
www.iplacex.cl12
los puntos 𝑃1 y 𝑃2 se encuentran fuera de la región comprendida entre las rectas “A” y
“B”. Finalmente se puede concluir que existe una buena relación entre la estatura del
padre y la estatura de su hijo mayor.
4. Medidas de resumen
Las gráficas pueden ayudar a describir la forma básica de una distribución de datos. Es
común el dicho popular: “una imagen vale más que mil palabras”, pero hay limitaciones
para usar gráficas, una de ellas es que las gráficas son un tanto imprecisas para usar en
inferencia estadística. Por ejemplo, supongamos que desea usar un histograma muestral
para hacer inferencias acerca de las diferencias en el nivel socio-económico entre una
comuna y otra. Si resultaran ser idénticas, sería posible señalar que la distribución del
nivel socio-económico entre una y otra comuna son las mismas, pero, si son diferentes,
es imposible describir el grado de diferencia.
www.iplacex.cl13
4.1 Medidas de posición
Este tipo de medidas de resumen tiene por finalidad concentrar en un solo valor
numérico toda la información referente a una determinada posición dentro de la
distribución que está siendo analizada. Las medidas de posición pueden ser de
tendencia central y no de tendencia central (o percentil).
www.iplacex.cl14
En la Figura 4 se observa, a lo largo del eje de las abscisas, que el sueldo central se
ubica entre las marcas de clase $540000 y $620000.
∑𝑛𝑖=1 𝑥𝑖
𝑥̅ =
𝑛
www.iplacex.cl15
Ejemplo 11:
86 78 79 85 82 85
91 77 81 87 80 84
∑𝑛𝑖=1 𝑥𝑖
𝑥̅ =
𝑛
77 + 78 + 79 + 80 + 81 + 82 + 84 + 85 + 85 + 86 + 87 + 91
𝑥̅ =
12
𝑥̅ = 82,9
Cálculo de la mediana:
77 78 79 80 81 82 84 85 85 86 87 91
82 + 84
𝑚𝑒 = = 83
2
Cálculo de la moda:
𝑚𝑜 = 85
www.iplacex.cl16
▪ Media aritmética ponderada, 𝑥̅𝑃 : La media aritmética de los valores 𝑥1 , 𝑥2 , …, 𝑥𝑛
ponderada por los pesos relativos 𝑝1, 𝑝2 , …, 𝑝𝑛 es el número:
∑𝒏𝒊=𝟏 𝑥𝑖 ∙ 𝑝𝒊
̅𝑷 =
𝒙
∑𝒏𝑖=1 𝑝𝒊
Ejemplo 12:
∑𝑘𝒊=𝟏 𝑥𝑖 ∙ 𝑓𝑖
𝑥̅ =
𝑛
∑𝑘𝒊=𝟏 𝑚𝑖 ∙ 𝑓𝑖
𝑥̅ =
𝑛
▪ Mediana de datos tabulados: Si los datos han sido tabulados en una distribución
de frecuencias por intervalos, la mediana se determina aproximadamente por
interpolación a partir de la distribución de frecuencias acumuladas. Primero se
determina el intervalo que contiene a la mediana utilizando el cociente 𝑛⁄2, luego la
mediana viene dada por la siguiente expresión:
www.iplacex.cl17
𝑛
− 𝐹𝑖−1
𝑚𝑒 = 𝐿𝑖 + 2 ∙𝐴
𝑓𝑖
Donde:
𝐿𝑖 : es el límite inferior del intervalo que contiene a la mediana.
𝑛 : es el número de datos totales observados.
𝐹𝑖−1 : es la frecuencia acumulada absoluta del intervalo inmediatamente anterior al
intervalo que contiene a la mediana.
𝐴 : es la amplitud del intervalo.
Ejemplo 13:
∑𝑘𝒊=𝟏 𝑚𝑖 ∙ 𝑓𝑖
𝑥̅ =
𝑛
www.iplacex.cl18
30,5 ∙ 1 + 38,5 ∙ 2 + 46,5 ∙ 4 + ⋯ + 86,5 ∙ 1 2724,5
𝑥̅ = =
45 45
𝑥̅ = 60,5
Cálculo de la mediana:
45
= 22,5
2
Nótese que el dato central 22,5 pertenece al intervalo (58,5 − 66,5), véase la columna
de las frecuencias absolutas acumuladas. Dado lo anterior se tiene que: 𝐿𝑖 =
58,5; 𝐹𝑖−1 = 17; 𝑓𝑖 = 16 y 𝐴 = 8. Luego la mediana para la distribución es la
siguiente:
𝑛
− 𝐹𝑖−1
𝑚𝑒 = 𝐿𝑖 + 2 ∙𝐴
𝑓𝑖
45
− 17
2
𝑚𝑒 = 58,5 + ∙8 → 𝑚𝑒 = 61,25
16
𝑑1
𝑚𝑜 = 𝐿𝑖 + [( ) 𝐴]
𝑑1 + 𝑑2
Donde:
𝐿𝑖 : es el límite inferior del intervalo modal.
𝑑1 : 𝑑1 = 𝑓𝑖 − 𝑓𝑖−1, esto es, 𝑑1 es igual a la frecuencia absoluta del intervalo modal
menos la frecuencia absoluta del intervalo inmediatamente anterior.
𝑑2 : 𝑑2 = 𝑓𝑖 − 𝑓𝑖+1 , esto es, 𝑑2 es igual a la frecuencia absoluta del intervalo modal
menos la frecuencia absoluta del intervalo inmediatamente posterior.
𝐴 : es la amplitud del intervalo modal.
www.iplacex.cl19
Es importante mencionar que el cálculo de la moda para datos agrupados en tablas
de frecuencias es aplicable sólo cuando se registra una única frecuencia máxima.
Ejemplo 14:
6
𝑚𝑜 = 58,5 + [( ) 8]
6+8
𝑚𝑜 = 61,93
(a)
www.iplacex.cl20
(b) (c)
El Percentil, o centil, es una medida de posición muy útil para dividir un conjunto grande
de datos. Los percentiles son valores que dividen la muestra o población en cien partes
iguales. Dado lo anterior, un percentil 𝑃𝑞% , corresponderá a un valor que deja por debajo
al 𝑞% de los valores y por tanto al (100 − 𝑃% ) por sobre. Así, por ejemplo, al calcular el
percentil 75%, 𝑃75% , se obtendrá un valor tal que el 75% de los datos se encuentra por
debajo del valor determinado, y por tanto, el 25% restante estará por sobre el valor del
percentil obtenido.
Para calcular un percentil cualquiera 𝑃𝑞% , inicialmente se debe identificar a qué intervalo
corresponde el percentil en cuestión, para esto se utiliza la siguiente expresión:
𝑞%
𝑥= 𝑛
100%
𝑥 − 𝐹𝑖−1
𝑃𝑞% = 𝐿𝑖 + ∙𝐴
𝑓𝑖
Donde:
www.iplacex.cl21
𝐿𝑖 : es el límite inferior del intervalo que contiene al percentil.
𝑛 : es el número de datos totales observados.
𝐹𝑖−1 : es la frecuencia acumulada absoluta del intervalo inmediatamente anterior al
intervalo correspondiente al percentil.
𝐴 : es la amplitud del intervalo que contiene al percentil.
Nótese que la mediana divide la muestra (ordenada) en dos mitades iguales, un percentil
la divide en cien partes iguales. Definimos ahora los cuartiles como los tres valores que
dividen la muestra en cuatro partes iguales. Así el primer cuartil 𝑄1⁄4 será la medida tal
que el 25% de los datos sean inferiores a su valor y el 75% restante de los datos sean
superiores. El segundo cuartil 𝑄1⁄2 coincide con la mediana y con el percentil 50%, 𝑃50% ,
mientras que el tercer cuartil 𝑄3⁄4 marcará el valor tal que las tres cuartas partes de las
observaciones o datos sean inferiores a él y una cuarta parte (25%) sea superior.
De la misma forma podemos definir los deciles como aquellos valores de la variable que
dividen la muestra ordenada en 10 partes iguales.
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
www.iplacex.cl22
grandemente si se añade o elimina un solo dato. Por lo tanto se debe tener claro que su
uso es muy limitado.
4.2.2 Varianza
La siguiente figura muestra, a través de una línea horizontal, la media aritmética. Nótese
que para ambas distribuciones la media aritmética es la misma. La Figura 6 (a) muestra
una mayor dispersión de los datos respecto de la media comparativamente con la Figura
6 (b). De acuerdo a la definición de varianza, la distribución mostrada en la Figura 6 (a)
tendrá una mayor varianza que la Figura 6 (b).
(a) (b)
Figura 6: Distribución de datos.
(a) Mayor varianza de los datos, (b) Menor varianza de los datos.
La varianza calculada a partir de una muestra será denotada por 𝑆 2 y referida a una
población se denotará por 𝜎 2 (sigma al cuadrado).
www.iplacex.cl23
▪ Varianza de datos no tabulados
∑𝑛𝑖=1(𝑥𝑖 − 𝑥)2
𝑆2 =
𝑛
www.iplacex.cl24
4.2.3 Desviación Estándar
𝑆 = √𝑆 2
𝑆 = √𝑈𝐹 2 = 𝑈𝐹
𝑆
𝐶𝑉 =
𝑥
𝑆
𝐶𝑉% = ∙ 100
𝑥
www.iplacex.cl25
Ejemplo 15:
Los siguientes datos corresponden al registro del peso, en kilogramos 𝑘𝑔, de 18 niños (y
niñas) recién nacidos en un día. Determine: la media aritmética, la varianza, la desviación
estándar y el coeficiente de variabilidad.
Realizando un tratamiento de los pesos de las niñas y niños recién nacidos como datos
no agrupados, se construye la tabla que a continuación se presenta. La segunda
columna, 𝑥𝑖 , corresponde a los diferentes pesos (datos) registrados, la tercera columna,
𝑥𝑖 − 𝑥̅ , procede al cálculo de las diferencias de cada dato respecto de la media aritmética,
y finalmente la cuarta columna, (𝑥𝑖 − 𝑥̅ )2 , corresponde a las diferencias de la tercera
columna al cuadrado, esto es:
Pesos
N° registrados 𝑥𝑖 − 𝑥̅ (𝑥𝑖 − 𝑥̅ )2
𝑥𝑖
1 2,83 -0,93 0,86
2 3,55 -0,21 0,04
3 3,78 0,02 0,00
4 3,02 -0,74 0,55
5 3,67 -0,09 0,01
6 3,85 0,09 0,01
7 3,54 -0,22 0,05
8 3,97 0,21 0,04
9 4,12 0,36 0,13
10 5,05 1,29 1,66
11 4,12 0,36 0,13
12 3,34 -0,42 0,18
13 4,67 0,91 0,83
14 3,54 -0,22 0,05
15 3,10 -0,66 0,44
16 4,15 0,39 0,15
17 4,25 0,49 0,24
18 3,07 -0,69 0,48
www.iplacex.cl26
Cálculo de la media aritmética:
∑𝑛𝑖=1 𝑥𝑖
𝑥̅ =
𝑛
67,62
𝑥̅ = → 𝑥̅ = 3,76
18
El promedio de los pesos de los 18 niños y niñas que nacieron ese día es de 3,76 𝑘𝑔.
Cálculo de la varianza:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥)2
𝑆2 =
𝑛
Lo anterior implica que debemos sumar la columna (𝑥𝑖 − 𝑥)2 de la tabla y dividir dicho
valor por el número total de datos registrados, esto es:
5,85 𝑘𝑔2
2
𝑆 = → 𝑆 2 = 0,29 𝑘𝑔2
18
∑𝑛𝑖=1(𝑥𝑖 − 𝑥)2
𝑆 = √𝑆 2 = √
𝑛
𝑆 = √0,29 𝑘𝑔2
𝑆 = √0,29 √𝑘𝑔2
𝑆 = 0,54 𝑘𝑔
www.iplacex.cl27
El muy común realizar una interpretación conjunta considerando la media aritmética y la
desviación estándar, esto es: Los pesos de las niñas y niños recién nacidos aquel
día tienen un peso promedio de 𝟑, 𝟕𝟔 𝒌𝒈 con una desviación estándar de 𝟎, 𝟓𝟒 𝒌𝒈.
Lo anterior expresado en notación matemática sería:
𝑥 = (𝑥̅ ± 𝑆) [𝑈𝑛𝑖𝑑𝑎𝑑𝑒𝑠]
En nuestro caso:
Lo anterior quiere decir, que en promedio los pesos de las niñas y niños nacidos
aquel día están entre los 𝟑, 𝟐𝟐 𝒌𝒈, (3,76 − 0,54) 𝑘𝑔, y los 𝟒, 𝟑𝟎 𝒌𝒈, (3,76 + 0,54) 𝑘𝑔.
𝑆
𝐶𝑉% = ∙ 100
𝑥
0,54
𝐶𝑉% = ∙ 100 → 𝐶𝑉% = 14,36%
3,76
Lo anterior nos da cuenta que los datos tienen una variabilidad del 14,36% respecto de
la media aritmética.
www.iplacex.cl28
Figura 7: Distribución simétrica.
Dos distribuciones pueden tener la misma media y la misma desviación estándar, pero
pueden diferir en el grado de asimetría.
𝑥̅ − 𝑚𝑜
𝐴𝑃 =
𝑆
𝑥̅ − 𝑚𝑜 ≅ 3(𝑥̅ − 𝑚𝑒 ).
3(𝑥̅ − 𝑚𝑒 )
𝐴𝑃 =
𝑆
www.iplacex.cl29
Donde:
𝑥̅ : corresponde a la media aritmética de la distribución.
𝑚0 : corresponde a la moda de la distribución.
𝑚𝑒 : corresponde la media de la distribución.
𝑆 : desviación estándar de la distribución de datos.
(a) (b)
4.3.2 Curtosis
Una curva simétrica con curtosis mayor que la curva normal es denominada curva
leptocúrtica y una curva simétrica con curtosis menor que la normal es denominada
curva platicúrtica.
www.iplacex.cl30
Figura 9: Distribuciones asimétricas.
𝑃75% − 𝑃25%
𝐾= − 0,5
𝑃90% − 𝑃10%
Si la distribución es normal, 𝐾 tiende a cero (el resultado está próximo al valor cero). Si
𝐾 tiende a 0,5, es leptocúrtica, y si 𝐾 tiende a –0,5, es platicúrtica.
www.iplacex.cl31
Conclusión
La presentación de información estadística tiene dos opciones de formato: el agrupar o
tabular, y representaciones gráficas. El primero consiste en el ordenamiento de los datos
obtenidos o seleccionados, en filas y columnas, denominado tabla de distribución de
frecuencias. El formato gráfico consiste en la utilización de puntos, líneas y figuras que
sirven para mostrar magnitudes asociadas a una escala de medición, de manera que se
facilita la comparación e interpretación de los datos estadísticos, sin que necesariamente
se incluyan los valores numéricos.
Las medidas de dispersión son útiles para determinar y cuantificar lo próximo o alejados
que están los datos de la muestra de un punto central. Estas medidas indicarán por un
lado el grado de variabilidad que hay en la muestra y, por otro, la representatividad de
dicho punto central. Las medidas de dispersión más ampliamente utilizadas son: el
rango, la varianza, la desviación estándar y el coeficiente de variabilidad.
www.iplacex.cl32
Bibliografía
www.iplacex.cl33
www.iplacex.cl34