Me 2

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 34

ESTADÍSTICA

UNIDAD Nº I
Estadística Descriptiva.

www.iplacex.cl
SEMANA 2

Introducción
Tal como ya ha sido estudiado, la estadística descriptiva comprende la presentación,
organización y resumen de los datos de una manera científica. Mediante el estudio de
ciertos estadísticos, es posible conocer magnitudes que representan a la globalidad de
los datos disponibles de forma resumida. Incluye diversos métodos de organizar y
representar gráficamente los datos, con el objetivo de formarnos una idea de lo que nos
muestran. Las tablas, los diagramas de barras, o los gráficos sectoriales o gráficos de
“torta” son algunos de los elementos de la estadística descriptiva. Los estadísticos más
comunes de la estadística descriptiva son los estadísticos de centralización y los
estadísticos de dispersión.

Los estadísticos de centralización nos entregan una visión numérica de la variable objeto
de estudio sobre la cual tienden a concentrarse las observaciones (datos). Los
estadísticos de centralización más comunes son la madia aritmética, la mediana, la moda
y los percentiles. Una vez definidos los valores en torno a los cuales tienden a
concentrarse las observaciones, el siguiente planteamiento es describir que tan
agrupados (concentrados) o dispersos se encuentran los datos de la muestra en torno a
los estadísticos de centralización, pues una medida de tendencia central (centralización)
es insuficiente para caracterizar una distribución.

www.iplacex.cl2
Ideas Fuerza
Una vez construidas las tablas de distribución de frecuencia, una buena forma de
presentar la información obtenida es a partir de las diferentes representaciones gráficas
que se estudiarán en la presente semana. En el mercado, y en la web, existen varios
software o aplicaciones para su elaboración.

Los estadísticos de centralización y de dispersión permiten obtener información numérica


explicita del conjunto de datos, es decir, entregan información precisa respecto del
comportamiento de la distribución, lo que posibilita, entre otras cosas, la comparación
entre una muestra y otra. A modo de ejemplo, estas técnicas nos permitirán comparar el
nivel de producción de una empresa, o su nivel de ventas, entre dos o más meses de
interés.

www.iplacex.cl3
Desarrollo
3. Representación gráfica

En muchas ocasiones la información proporcionada en una tabla es tan singular o


importante que se decide presentar esos resultados de forma gráfica. Cuando se decide
utilizar una representación gráfica, en general, esta sustituye a la tabla de distribución de
frecuencias. Dado que es deseable presentar sólo uno de estos dos elementos (gráfico,
o tabla de distribución de frecuencias), se acostumbra presentar la información numérica
relevante en el propio gráfico. Incluso, un número innecesariamente grande de gráficos
le puede restar lucidez al trabajo en lugar de proporcionarle calidad o rigor científico. Se
debe lograr un balance entre estas dos formas de presentación de resultados.

El objetivo básico de un gráfico es transmitir la información de forma tal que pueda ser
captada rápidamente, de un “golpe de vista”. Luego, un gráfico debe ser ante todo
sencillo y claro, a pesar de su aspecto artístico, ya que se elabora para ser incluido en
un trabajo científico.

Existen múltiples tipos de gráficos, pero aquí trataremos principalmente los más
ampliamente utilizados, estos son: grafico de barras, sectoriales o gráficos de “torta”,
histogramas, pictogramas, ojiva, gráfico de tallo y hojas y diagrama de dispersión.

3.1 Gráfico de barras

El diagrama principal para representar datos de variables discretas sin agrupar es el


grafico de barras. En éste se representan en el eje de las abscisas los distintos valores
de la variable y sobre cada uno de ellos se levanta una barra de longitud proporcional a
la frecuencia correspondiente. Pueden representarse tanto frecuencias absolutas 𝑓𝑖 ,
como las relativas ℎ𝑖 . En la práctica se pueden graduar simultáneamente el eje de las
ordenadas tanto en frecuencias absolutas como en relativas en tantos por ciento.

Un diagrama similar es el polígono de frecuencias. Este se obtiene uniendo con rectas


los extremos superiores de las barras del gráfico anterior. De la misma forma, pueden
representarse frecuencias absolutas o relativas.

www.iplacex.cl4
Ejemplo 4:

La siguiente tabla muestra el número de hijos por familia en una localidad rural. Para lo
anterior se ha tomado como muestra el registro de 20 familias de dicha localidad.

2 1 1 3 1 2 5 1 2 3
4 2 3 2 1 4 2 3 2 1

Construcción de la tabla de distribución de frecuencias:

𝐹𝑖 𝐻𝑖
𝑥𝑖 𝑓𝑖 ℎ𝑖 ℎ𝑖 ∙ 100 𝑖 𝑖
𝑓𝑖 ⁄20 (%) ∑ 𝑓𝑗 ∑ ℎ𝑗
1 1
1 6 0,30 30 6 0,30
2 7 0,35 35 13 0,65
3 4 0,20 20 17 0,85
4 2 0,10 10 19 0,95
5 1 0,05 5 20 1,00

Construcción del gráfico de barras:

Del gráfico se puede observar, por ejemplo: i) que el 35% de las familias de la localidad
rural tienen 2 hijos, ii) el 10%de las familias tiene 4 hijos, entre otras.

www.iplacex.cl5
3.2 Gráficos sectoriales (gráfico de “torta”)

Otra de las representaciones gráficas muy utilizada es el gráfico sectorial o diagrama de


sectores. En él se representa el valor de cada carácter como un sector o una proporción
de un círculo completo, siendo el área de cada sector, o, lo que es lo mismo, el arco
subtendido, proporcional a la frecuencia del carácter en cuestión. Se acostumbra escribir
dentro, o a un lado, de cada sector la frecuencia correspondiente. Este tipo de gráfico
proporciona una idea visual muy clara de cuáles son los caracteres que más se repiten.

Ejemplo 5:

El sub-gerente de calidad de una empresa de servicios se encuentra evaluado la calidad


del servicio percibida por los clientes durante el último mes. Para lo anterior cuenta con
el registro de las evaluaciones percibidas de 237 clientes. Los resultados se muestran
en la siguiente tabla de distribución de frecuencias:

Categoría 𝑓𝑖 ℎ𝑖 ℎ𝑖 ∙ 100 (%) 𝐹𝑖 𝐻𝑖


Excelente 110 0,46 46 110 0,46
Buena 90 0,38 38 200 0,84
Regular 23 0,10 10 223 0,94
Mala 12 0,05 5 235 0,99
Muy mala 2 0,01 1 237 1,00

El siguiente diagrama corresponde a un gráfico sectorial:

www.iplacex.cl6
3.3 Histogramas

El histograma es un tipo de gráfico muy similar al gráfico de barras, la diferencia radica


en que el histograma es una representación gráfica que se utiliza para variables
agrupadas por intervalos. Es decir, con los histogramas podemos representar variables
continuas o discretas, pero con muchos valores observados y cuyo nivel de medición sea
al menos de intervalos. Este tipo de gráficos no se pueden elaborar con atributos, sino
con variables medibles tales como peso, temperatura, tiempo, etc.

En definitiva, un histograma es una representación gráfica de una variable en forma de


barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores
representados. En el eje de las ordenadas se representan las frecuencias, y en el eje de
las abscisas, los valores de las variables, normalmente a través de las marcas de clase,
o bien los intervalos directamente.

Ejemplo 6:

La siguiente tabla de frecuencias agrupa 21 mediciones las que corresponden al


resultado de laboratorio que determina la densidad del asfalto en una obra vial.

Intervalo Marca Frecuencia Frecuencia Frecuencia Frecuencia


Densidad del de absoluta relativa absoluta relativa
asfalto Clase porcentual acumulada acumulada
𝑔
𝑐𝑚3 𝑚𝑖 𝑓𝑖 ℎ𝑖 ∙ 100 𝐹𝑖 𝐻𝑖

19,5 – 23,5 21,5 2 9,5 2 0,10

23,5 – 27,5 25,5 7 33,3 9 0,43

27,5 – 31,5 29,5 9 42,9 18 0,86

31,5 – 35,5 33,5 2 9,5 20 0,95

35,5 – 39,5 37,5 1 4,8 21 1,00

www.iplacex.cl7
Construcción del histograma (nótese que cada barra va unida a la siguiente):

Del histograma se puede destacar, por ejemplo: i) que el 43% de los resultados de
𝑔
laboratorio arrojaron un valor medio de 29,5 𝑐𝑚3 ; o bien, ii) el 5% de los resultados de
𝑔
laboratorio dieron como resultado un 37,5 en promedio, entre otros.
𝑐𝑚3

Nótese que el histograma realizado para el Ejemplo 6 las barras se han dibujado
verticalmente, sin embargo, si bien es menos frecuente, también es posible construirlo
dibujando las barras de forma horizontal, siempre una barra unida a las otras.

3.4 Pictograma

Los pictogramas son gráficos similares a los gráficos de barra, pero con la diferencia que
en estos diagramas se emplea un dibujo en una determinada escala para expresar la
unidad de medida de los datos. En el eje de la ordenada se representa la frecuencia
absoluta acumulada o relativa acumulada.

Es común ver gráficos de barras, donde las barras se reemplazan por dibujos a diferentes
escalas, con el único fin de hacer más ilustrativo el gráfico, estos tipos de gráficos no
constituyen un pictograma.

www.iplacex.cl8
Ejemplo 7:

Retomemos la tabla de distribución de frecuencia del Ejemplo 6. El pictograma queda


representado como sigue:

3.5 La Ojiva

Una ojiva es una gráfica lineal que representa frecuencias acumuladas. En el eje de la
abscisa se representan los límites de los intervalos, o bien, la marca de clase. La gráfica
en sí misma comienza en el límite inferior del primer intervalo, o primera marca de clase
y finaliza en el límite superior del último intervalo o en la última marca de clase. Las ojivas
son útiles para determinar el número de valores que se encuentran por debajo de un
valor particular.

Ejemplo 8:

Consideremos nuevamente el caso expuesto en el Ejemplo 6, el cual corresponde a 21


𝑔
datos obtenidos desde el laboratorio respecto de la densidad, en 𝑐𝑚3 , del asfalto medido
como control de calidad en distintos puntos de la obra vial. Si consideramos en el eje de
la abscisa los límites de cada intervalo, la Ojiva queda representada como sigue:

www.iplacex.cl9
De la Ojiva es posible señalar, por ejemplo: i) el 95% de los resultados de laboratorio
𝑔
indican que la densidad del asfalto tiene un valor de 35 𝑐𝑚3 o inferior (recuerde que el
límite superior del intervalo esta aumentado en la mitad de un decimal adicional); ii) el
14% de los resultados de laboratorio (100% − 86% = 14%) dan cuenta que la densidad
𝑔
del asfalto es igual o superior a 32 𝑐𝑚3 (el límite inferior está disminuido en la mitad de
un decimal adicional respecto del número de decimales de los datos originales).

3.6 Gráfico de Tallo y Hoja

Otra forma sencilla de exhibir la distribución de un conjunto de datos cuantitativos es la


gráfica de tallo y hojas. Esta gráfica presenta una exhibición gráfica de los datos
diferente a lo ya estudiado.

Para construir una gráfica de tallo y hojas, ubique los tallos en una columna y trace a
continuación una línea vertical a su derecha. Posteriormente, considerando el tallo
correspondiente, ubique las siguientes unidades numéricas de los datos, finalmente
ordene de menor a mayor para facilitar la comprensión de la gráfica. Es importante que
la descomposición de los datos sea clara, en tallos y hojas, de manera que cualquier
lector pueda recrear las mediciones de ser necesario.

www.iplacex.cl10
Ejemplo 9:

Los siguientes datos muestran una lista de precios, en dólares, de 20 marcas de


zapatillas deportivas. Construya una gráfica de tallo y hoja para mostrar la distribución
de los datos.

90 70 70 70 75 70 65 68 60 74
70 95 75 70 68 65 40 65 70 72

Para crear el gráfico de tallo y hojas, se pude dividir, para este caso, cada observación
(dato) entre las unidades y las decenas. El número a la izquierda es el tallo; el de la
derecha es la hoja. Dicho lo anterior, para las zapatillas que cuestan US$65, el tallo es 6
y la hoja es 5. De esta forma continuamos clasificando el resto de los datos como sigue:

4 0
5
6 | 5 8 0 8 5 5
7 | 0 0 0 5 0 4 0 5 0 0
8
9 0 5

Reordenando la clasificación anterior, e obtiene el siguiente gráfico de tallo y hoja:

4 0
5
6 | 0 5 5 5 8 8
7 | 0 0 0 0 0 0 0 4 5 5
8
9 0 5

3.7 Diagramas de dispersión

Los diagramas de dispersión o gráficos de correlación permiten estudiar la posible


asociación entre dos variables discretas o continuas. En este tipo de gráficos las
observaciones o datos se representan en coordenadas cartesianas, obteniéndose una
“nube de puntos” en el plano.
Ejemplo 10:

www.iplacex.cl11
Los siguientes datos muestran la estatura, en metros, de 10 pares de familia (padre e
hijo mayor).

Estatura
1,56 1,75 1,80 1,75 1,65 1,70 1,60 1,55 1,70 1,50
padre, [m]
Estatura hijo
1,16 1,80 1,70 1,70 1,65 1,75 1,40 1,55 1,65 1,50
mayor, [m]

El siguiente gráfico (diagrama de dispersión) muestra el grado de asociación que pudiese


existir entre la estatura del padre y la de su hijo mayor.

A partir de la observación del gráfico, sin cálculos de los estadísticos correspondientes,


se puede señalar que existe una buena relación entre la estatura del hijo mayor y la
estatura de su padre. Lo anteriormente se explica debido a que las rectas A y B forman
un ángulo pequeño entre sí.

Se puede señalar también que existen dos registros (estatura padre y su hijo mayor) que
no obedecen a la relación del resto de los datos. Lo anterior se puede observar en que

www.iplacex.cl12
los puntos 𝑃1 y 𝑃2 se encuentran fuera de la región comprendida entre las rectas “A” y
“B”. Finalmente se puede concluir que existe una buena relación entre la estatura del
padre y la estatura de su hijo mayor.

4. Medidas de resumen

Las gráficas pueden ayudar a describir la forma básica de una distribución de datos. Es
común el dicho popular: “una imagen vale más que mil palabras”, pero hay limitaciones
para usar gráficas, una de ellas es que las gráficas son un tanto imprecisas para usar en
inferencia estadística. Por ejemplo, supongamos que desea usar un histograma muestral
para hacer inferencias acerca de las diferencias en el nivel socio-económico entre una
comuna y otra. Si resultaran ser idénticas, sería posible señalar que la distribución del
nivel socio-económico entre una y otra comuna son las mismas, pero, si son diferentes,
es imposible describir el grado de diferencia.

Una forma de superar estos inconvenientes es usar medidas de resumen, también


llamadas medidas numéricas, que se pueden calcular para una muestra o una
población de mediciones, observaciones o datos. Las medidas numéricas que se
obtengan, permitirán comprender claramente la distribución de frecuencia. Estos
resultados se llaman parámetros cuando se asocian con la población y se denominan
estadísticos cuando se calculan a partir de mediciones muestrales.

www.iplacex.cl13
4.1 Medidas de posición

Este tipo de medidas de resumen tiene por finalidad concentrar en un solo valor
numérico toda la información referente a una determinada posición dentro de la
distribución que está siendo analizada. Las medidas de posición pueden ser de
tendencia central y no de tendencia central (o percentil).

4.1.1 Medidas de tendencia central

Ya hemos estudiado diferentes tipos de gráficas para describir una determinada


distribución de un conjunto de mediciones. El eje horizontal (eje de las abscisas) presenta
los distintos valores de 𝑥, y los datos serán distribuidos a lo largo de esta recta horizontal.
Una de las primeras mediciones numéricas importantes es una medida de centro o
medida de tendencia central, es decir, una medida a lo largo del eje horizontal que
localiza el centro de la distribución.

A modo de ejemplo, el siguiente histograma muestra la distribución del ingreso


correspondiente a 45 personas trabajadoras de una determinada empresa.

Figura 4: Histograma distribución de ingresos.

www.iplacex.cl14
En la Figura 4 se observa, a lo largo del eje de las abscisas, que el sueldo central se
ubica entre las marcas de clase $540000 y $620000.

Las medidas de tendencia central buscan el centro de la distribución, es decir, la


posición central de los datos. Existen diferentes medidas de tendencia central, pero
con diferentes sistemas de aplicación, entre los más utilizados se encuentran la media
aritmética o promedio, la mediana y la moda. Veamos en detalle cada una de ellas,
primero para datos no agrupados y luego para datos agrupados en tablas de
distribución de frecuencias.

▪ Media aritmética o promedio para datos no agrupados, 𝑥̅ : corresponde a la suma


del conjunto de las 𝑛 mediciones o datos, dividida entre el total de datos:

∑𝑛𝑖=1 𝑥𝑖
𝑥̅ =
𝑛

▪ Mediana para datos no agrupados, 𝑚𝑒 : La mediana 𝑚𝑒 de un conjunto de datos


corresponde al valor de 𝑥 que cae en la posición central cuando las mediciones o
datos se encuentran ordenadas de menor a mayor. Cuando el número total de datos
es impar, se obtiene claramente un único dato central. Para el caso en que el número
total de datos sea par, se tienen dos opciones a saber. La primera es encontrar ambos
datos o mediciones centrales (dos valores) y obtener el promedio entre ellos; y la
segunda es simplemente entregar ambos valores como las medianas de la
distribución. Es decir, una distribución podrá tener una o dos medianas según lo
determine el analista. En este curso, y con el ánimo sólo de uniformar la enseñanza,
para el caso en que el número total de datos sea un número par, la mediana
corresponderá al promedio de ambos datos centrales.

▪ Moda para datos no agrupados, 𝑚𝑜 : La moda es la categoría que se presenta con


más frecuencia o el valor de 𝑥 que se presenta con mayor frecuencia. La moda en
general se usa para describir conjuntos grandes de datos, mientras que la media y la
mediana se usan para conjuntos de datos grandes y pequeños. Debemos considerar
que la moda es el propio dato con mayor frecuencia, y no la frecuencia del dato. Otra
consideración que se debemos tener presente, es que una distribución puede tener
más de una moda, en estos casos hablaremos de una distribución bimodal o
multimodal según corresponda.

www.iplacex.cl15
Ejemplo 11:

Los siguientes datos corresponden al puntaje obtenido por 12 familias en un


cuestionario - test que mide la vulnerabilidad social de las familias. A partir de los datos
(puntajes), determine la media aritmética, la mediana y la moda.

86 78 79 85 82 85
91 77 81 87 80 84

Cálculo de la media aritmética:

∑𝑛𝑖=1 𝑥𝑖
𝑥̅ =
𝑛

Esto es (ordenando los datos de menos a mayor):

77 + 78 + 79 + 80 + 81 + 82 + 84 + 85 + 85 + 86 + 87 + 91
𝑥̅ =
12

𝑥̅ = 82,9

Cálculo de la mediana:

77 78 79 80 81 82 84 85 85 86 87 91

Considerando ambos datos centrales de la muestra, la mediana se obtiene:

82 + 84
𝑚𝑒 = = 83
2

Cálculo de la moda:

De acuerdo a la distribución (ordenada de menor a mayor) es posible observar que el


único dato que se repite (dos veces en este caso) es el dato de valor 85. Por lo anterior,
la moda de esta distribución es:

𝑚𝑜 = 85

www.iplacex.cl16
▪ Media aritmética ponderada, 𝑥̅𝑃 : La media aritmética de los valores 𝑥1 , 𝑥2 , …, 𝑥𝑛
ponderada por los pesos relativos 𝑝1, 𝑝2 , …, 𝑝𝑛 es el número:

∑𝒏𝒊=𝟏 𝑥𝑖 ∙ 𝑝𝒊
̅𝑷 =
𝒙
∑𝒏𝑖=1 𝑝𝒊

Ejemplo 12:

Si un estudiante en el semestre anterior ha obtenido un promedio de 6,3 en una


asignatura de 5 créditos, un 4,5 en una asignatura de 4 créditos y un 5,8 en una
asignatura de 2 créditos, determine la media ponderada (promedio ponderado) del
estudiante considerando los créditos de cada asignatura.

6,3 ∙ 5 + 4,5 ∙ 4 + 5,8 ∙ 2 61,1


𝑥̅ 𝑃 = = = 5,55 ≈ 5,6
5+4+2 11

▪ Media aritmética para datos agrupados de variable discreta: Si 𝑛 valores de una


variable estadística discreta 𝑋 se clasifican en 𝑘 valores distintos 𝑥1 , 𝑥2 , …, 𝑥𝑘 con
frecuencias absolutas respectivas 𝑓1 , 𝑓2 , …, 𝑓𝑘 , entonces su media aritmética es el
número:

∑𝑘𝒊=𝟏 𝑥𝑖 ∙ 𝑓𝑖
𝑥̅ =
𝑛

▪ Media aritmética para datos agrupados por intervalos: Si 𝑛 valores de alguna


variable 𝑋 están tabulados en una distribución de frecuencias de 𝑘 intervalos, donde,
𝑚1 , 𝑚2 , …, 𝑚𝑘 corresponden a las marcas de clase de cada intervalo, y 𝑓1 , 𝑓2 , …, 𝑓𝑘
son las frecuencias absolutas respectivas, entonces su media aritmética corresponde
al número:

∑𝑘𝒊=𝟏 𝑚𝑖 ∙ 𝑓𝑖
𝑥̅ =
𝑛

▪ Mediana de datos tabulados: Si los datos han sido tabulados en una distribución
de frecuencias por intervalos, la mediana se determina aproximadamente por
interpolación a partir de la distribución de frecuencias acumuladas. Primero se
determina el intervalo que contiene a la mediana utilizando el cociente 𝑛⁄2, luego la
mediana viene dada por la siguiente expresión:

www.iplacex.cl17
𝑛
− 𝐹𝑖−1
𝑚𝑒 = 𝐿𝑖 + 2 ∙𝐴
𝑓𝑖

Donde:
𝐿𝑖 : es el límite inferior del intervalo que contiene a la mediana.
𝑛 : es el número de datos totales observados.
𝐹𝑖−1 : es la frecuencia acumulada absoluta del intervalo inmediatamente anterior al
intervalo que contiene a la mediana.
𝐴 : es la amplitud del intervalo.

Ejemplo 13:

La siguiente tabla muestra una distribución del ingreso correspondiente a 45


trabajadores de una determinada empresa. Determine la media aritmética y la
mediana.

Intervalo Marca de Frecuencia Frecuencia Frecuencia Frecuencia


Densidad del Clase absoluta relativa absoluta relativa
asfalto porcentual acumulada acumulada
× 1000 $ 𝑚𝑖 𝑓𝑖 ℎ𝑖 ∙ 100% 𝐹𝑖 𝐻𝑖
26,5 – 34,5 30,5 1 2,2 1 0,02
34,5 – 42,5 38,5 2 4,4 3 0,07
42,5 – 50,5 46,5 4 8,9 7 0,16
50,5 – 58,5 54,5 10 22,2 17 0,38
58,5 – 66,5 62,5 16 35,6 33 0,73
66,5 – 74,5 70,5 8 17,8 41 0,91
74,5 – 82,5 78,5 3 6,7 44 0,98
82,5 – 90,5 86,5 1 2,2 45 1,00

Cálculo de la media aritmética:

La media aritmética para datos agrupados por intervalos se calcula mediante la


siguiente expresión:

∑𝑘𝒊=𝟏 𝑚𝑖 ∙ 𝑓𝑖
𝑥̅ =
𝑛

www.iplacex.cl18
30,5 ∙ 1 + 38,5 ∙ 2 + 46,5 ∙ 4 + ⋯ + 86,5 ∙ 1 2724,5
𝑥̅ = =
45 45

𝑥̅ = 60,5

Cálculo de la mediana:

Recodemos que la mediana corresponde al dato central de la distribución, por lo tanto,


sabiendo que se han clasificado 45 datos, se tiene:

45
= 22,5
2

Nótese que el dato central 22,5 pertenece al intervalo (58,5 − 66,5), véase la columna
de las frecuencias absolutas acumuladas. Dado lo anterior se tiene que: 𝐿𝑖 =
58,5; 𝐹𝑖−1 = 17; 𝑓𝑖 = 16 y 𝐴 = 8. Luego la mediana para la distribución es la
siguiente:

𝑛
− 𝐹𝑖−1
𝑚𝑒 = 𝐿𝑖 + 2 ∙𝐴
𝑓𝑖
45
− 17
2
𝑚𝑒 = 58,5 + ∙8 → 𝑚𝑒 = 61,25
16

▪ Moda de datos agrupados por intervalos: Para calcular la moda de 𝑛 datos


tabulados por intervalos, primero se determina el intervalo que contiene a la moda,
esto es, el intervalo que tiene la mayor frecuencia denominado, intervalo modal.

Luego se utiliza la ecuación:

𝑑1
𝑚𝑜 = 𝐿𝑖 + [( ) 𝐴]
𝑑1 + 𝑑2

Donde:
𝐿𝑖 : es el límite inferior del intervalo modal.
𝑑1 : 𝑑1 = 𝑓𝑖 − 𝑓𝑖−1, esto es, 𝑑1 es igual a la frecuencia absoluta del intervalo modal
menos la frecuencia absoluta del intervalo inmediatamente anterior.
𝑑2 : 𝑑2 = 𝑓𝑖 − 𝑓𝑖+1 , esto es, 𝑑2 es igual a la frecuencia absoluta del intervalo modal
menos la frecuencia absoluta del intervalo inmediatamente posterior.
𝐴 : es la amplitud del intervalo modal.

www.iplacex.cl19
Es importante mencionar que el cálculo de la moda para datos agrupados en tablas
de frecuencias es aplicable sólo cuando se registra una única frecuencia máxima.

Ejemplo 14:

Utilizando la tabla de distribución de frecuencias del Ejemplo 13, determine la moda


de la distribución.

La tabla de distribución de frecuencia presenta una mayor frecuencia absoluta para el


intervalo (58,5 − 66,5). Para este intervalo en cuestión se tiene: 𝐿𝑖 = 58,5; 𝐹𝑖−1 =
17; 𝑓𝑖 = 16; 𝑓𝑖−1 = 10; 𝑓𝑖+1 = 8 y 𝐴 = 8. Aplicando la ecuación correspondiente, se
tiene:

6
𝑚𝑜 = 58,5 + [( ) 8]
6+8

𝑚𝑜 = 61,93

▪ Relación entre media, mediana y moda

Es recomendable comparar los valores obtenidos para la media, moda y mediana,


para conocer de mejor manera la distribución de los datos que estamos analizando.
Diferencias importantes entre media y la moda, o bien entre la media y la mediana
indican que la distribución de los datos es asimétrica (concepto que revisaremos más
adelante), y si son iguales o relativamente muy cercano, la distribución de los datos
será simétrica. Observe los siguientes gráficos:

(a)

www.iplacex.cl20
(b) (c)

Figura 5: Distribución de datos simétricas y asimétricas.


(a) Distribución simétrica, (b) Distribución asimétrica negativa y
(c) Distribución asimétrica positiva

4.1.2 Percentiles, medida de posición no central

El Percentil, o centil, es una medida de posición muy útil para dividir un conjunto grande
de datos. Los percentiles son valores que dividen la muestra o población en cien partes
iguales. Dado lo anterior, un percentil 𝑃𝑞% , corresponderá a un valor que deja por debajo
al 𝑞% de los valores y por tanto al (100 − 𝑃% ) por sobre. Así, por ejemplo, al calcular el
percentil 75%, 𝑃75% , se obtendrá un valor tal que el 75% de los datos se encuentra por
debajo del valor determinado, y por tanto, el 25% restante estará por sobre el valor del
percentil obtenido.

Para calcular un percentil cualquiera 𝑃𝑞% , inicialmente se debe identificar a qué intervalo
corresponde el percentil en cuestión, para esto se utiliza la siguiente expresión:

𝑞%
𝑥= 𝑛
100%

Véase la columna de las frecuencias absolutas acumuladas para determinar a qué


intervalo corresponde el percentil. Luego el percentil en cuestión viene dado por la
siguiente expresión:

𝑥 − 𝐹𝑖−1
𝑃𝑞% = 𝐿𝑖 + ∙𝐴
𝑓𝑖

Donde:

www.iplacex.cl21
𝐿𝑖 : es el límite inferior del intervalo que contiene al percentil.
𝑛 : es el número de datos totales observados.
𝐹𝑖−1 : es la frecuencia acumulada absoluta del intervalo inmediatamente anterior al
intervalo correspondiente al percentil.
𝐴 : es la amplitud del intervalo que contiene al percentil.

Nótese que la mediana divide la muestra (ordenada) en dos mitades iguales, un percentil
la divide en cien partes iguales. Definimos ahora los cuartiles como los tres valores que
dividen la muestra en cuatro partes iguales. Así el primer cuartil 𝑄1⁄4 será la medida tal
que el 25% de los datos sean inferiores a su valor y el 75% restante de los datos sean
superiores. El segundo cuartil 𝑄1⁄2 coincide con la mediana y con el percentil 50%, 𝑃50% ,
mientras que el tercer cuartil 𝑄3⁄4 marcará el valor tal que las tres cuartas partes de las
observaciones o datos sean inferiores a él y una cuarta parte (25%) sea superior.

De la misma forma podemos definir los deciles como aquellos valores de la variable que
dividen la muestra ordenada en 10 partes iguales.

4.2 Medidas de dispersión

Las medidas de tendencia central no son suficientes para describir un conjunto de


valores de alguna variable estadística. Los promedios determinan el centro, pero nada
indican acerca de cómo están situados los datos respecto al centro.

Las medidas de dispersión o variabilidad son números que miden el grado de


separación de los datos con respecto a un valor central, que generalmente es la
media aritmética. Las principales medidas de dispersión son: el rango, la varianza, la
desviación estándar y el coeficiente de variación.

4.2.1 El Rango o recorrido de una variable

El Rango de variación o recorrido, 𝑅, de una serie de datos corresponde a la diferencia


entre sus valores máximo y mínimo. Esto es:

𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛

Siendo 𝑥𝑚𝑎𝑥 el valor máximo y 𝑥𝑚𝑖𝑛 el valor mínimo.


El rango es una medida de dispersión muy fácilmente calculable, pero es muy inestable,
ya que depende únicamente de los dos valores extremos. Su valor puede cambiar

www.iplacex.cl22
grandemente si se añade o elimina un solo dato. Por lo tanto se debe tener claro que su
uso es muy limitado.

4.2.2 Varianza

La varianza es una medida que cuantifica el grado de dispersión o de variación de los


valores de una variable cuantitativa con respecto a su media aritmética. Si los valores
tienden a concentrarse alrededor de su media, la varianza será pequeña. Si los valores
tienden a distribuirse lejos de la media, la varianza será grande.

La siguiente figura muestra, a través de una línea horizontal, la media aritmética. Nótese
que para ambas distribuciones la media aritmética es la misma. La Figura 6 (a) muestra
una mayor dispersión de los datos respecto de la media comparativamente con la Figura
6 (b). De acuerdo a la definición de varianza, la distribución mostrada en la Figura 6 (a)
tendrá una mayor varianza que la Figura 6 (b).

(a) (b)
Figura 6: Distribución de datos.
(a) Mayor varianza de los datos, (b) Menor varianza de los datos.

La varianza calculada a partir de una muestra será denotada por 𝑆 2 y referida a una
población se denotará por 𝜎 2 (sigma al cuadrado).

La varianza se define como la media aritmética de los cuadrados de las diferencias


de los datos con respecto a su media aritmética.

www.iplacex.cl23
▪ Varianza de datos no tabulados

La varianza de 𝑛 valores 𝑥1 , 𝑥2 , … , 𝑥𝑛 , de alguna variable cuantitativa 𝑋 cuya media 𝑥,


se calcula mediante la siguiente expresión:

∑𝑛𝑖=1(𝑥𝑖 − 𝑥)2
𝑆2 =
𝑛

Nótese que la unidad resultante de la varianza corresponde a la propia unidad de los


datos originales pero elevada al cuadrado, así por ejemplo, si los datos pertenecieran
al peso de 100 recién nacidos vivos, cuya unidad de medida es el “kilogramo” 𝑘𝑔, la
unidad de la varianza en este caso sería 𝒌𝒈𝟐 , lo cual se debe tener especial atención
al momento de interpretar este indicador estadístico.

▪ Varianza de datos tabulados, distribución discreta

La varianza de 𝑛 valores de una variable estadística discreta 𝑋 que se clasifican en 𝑘


valores distintos 𝑥1 , 𝑥2 , … , 𝑥𝑘 , con frecuencias absolutas respectivas 𝑓1 , 𝑓2 , … , 𝑓𝑘 , y cuya
media aritmética es 𝑥 se calcula utilizando la siguiente ecuación:

∑𝑘𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑥)2


𝑆2 =
𝑛

▪ Varianza de datos tabulados por intervalos

La varianza de 𝑛 valores de alguna variable 𝑋, tabulados en 𝑘 intervalos, con marcas


de clase 𝑚1 , 𝑚2 , … , 𝑚𝑘 , frecuencias absolutas respectivas 𝑓1 , 𝑓2 , … , 𝑓𝑘 , y con media
aritmética 𝑥 se calcula utilizando la siguiente ecuación:

∑𝑘𝑖=1 𝑓𝑖 (𝑚𝑖 − 𝑥)2


𝑆2 =
𝑛

Nota: Algunos autores definen la varianza en estadística descriptiva con denominador


𝑛 − 1 (en reemplazo de 𝑛). Lo anterior, para efectos de este apunte, será considerado
cuando 𝑛 ≤ 10.

www.iplacex.cl24
4.2.3 Desviación Estándar

La desviación estándar corresponde a la raíz cuadrada positiva de la varianza para cada


caso particular antes visto. Esto es:

𝑆 = √𝑆 2

O bien: 𝜎 = √𝜎 2 cuando se trata de una población.

Nótese que la desviación estándar viene a solucionar la dificultad de interpretación que


presenta la varianza, esto es, que la unidad resultante de la varianza es la unidad de
los datos originales al cuadrado. Por ejemplo, si los datos correspondieran al sueldo
mensual de 50 trabajadores de una empresa en Unidades de Fomento 𝑈𝐹, la varianza
resultará en 𝑈𝐹 2 . De esta forma, la desviación estándar, al calcularse como la raíz
cuadrada de la varianza, elimina la potencia de la unidad resultante. Para nuestro
ejemplo, la situación sería como sigue:

𝑆 = √𝑈𝐹 2 = 𝑈𝐹

4.2.4 Coeficiente de Variación

El coeficiente de variación 𝐶𝑉 es una medida de dispersión relativa (libre de unidades


de medida), que se define como la desviación estándar dividido por la media aritmética.
Esto es:

𝑆
𝐶𝑉 =
𝑥

El coeficiente de variación se utiliza para comparar la variabilidad de dos o más series


de datos que tengan medias iguales o diferentes, o que tengan unidades de medidas
iguales o diferentes (por decir, una serie de datos en kilógramos y otra serie en metros).
Este indicador estadístico puede expresarse como 𝐶𝑉 = 𝑆⁄𝑥, o bien en porcentaje como
sigue:

𝑆
𝐶𝑉% = ∙ 100
𝑥

www.iplacex.cl25
Ejemplo 15:

Los siguientes datos corresponden al registro del peso, en kilogramos 𝑘𝑔, de 18 niños (y
niñas) recién nacidos en un día. Determine: la media aritmética, la varianza, la desviación
estándar y el coeficiente de variabilidad.

2,83 3,55 3,78 3,02 3,67 3,85 3,54 3,97 4,12


5,05 4,12 3,34 4,67 3,54 3,10 4,15 4,25 3,07

Realizando un tratamiento de los pesos de las niñas y niños recién nacidos como datos
no agrupados, se construye la tabla que a continuación se presenta. La segunda
columna, 𝑥𝑖 , corresponde a los diferentes pesos (datos) registrados, la tercera columna,
𝑥𝑖 − 𝑥̅ , procede al cálculo de las diferencias de cada dato respecto de la media aritmética,
y finalmente la cuarta columna, (𝑥𝑖 − 𝑥̅ )2 , corresponde a las diferencias de la tercera
columna al cuadrado, esto es:

Pesos
N° registrados 𝑥𝑖 − 𝑥̅ (𝑥𝑖 − 𝑥̅ )2
𝑥𝑖
1 2,83 -0,93 0,86
2 3,55 -0,21 0,04
3 3,78 0,02 0,00
4 3,02 -0,74 0,55
5 3,67 -0,09 0,01
6 3,85 0,09 0,01
7 3,54 -0,22 0,05
8 3,97 0,21 0,04
9 4,12 0,36 0,13
10 5,05 1,29 1,66
11 4,12 0,36 0,13
12 3,34 -0,42 0,18
13 4,67 0,91 0,83
14 3,54 -0,22 0,05
15 3,10 -0,66 0,44
16 4,15 0,39 0,15
17 4,25 0,49 0,24
18 3,07 -0,69 0,48

www.iplacex.cl26
Cálculo de la media aritmética:

∑𝑛𝑖=1 𝑥𝑖
𝑥̅ =
𝑛

67,62
𝑥̅ = → 𝑥̅ = 3,76
18

El promedio de los pesos de los 18 niños y niñas que nacieron ese día es de 3,76 𝑘𝑔.

Cálculo de la varianza:

La varianza (para datos no agrupados) se calcula mediante la siguiente expresión:

∑𝑛𝑖=1(𝑥𝑖 − 𝑥)2
𝑆2 =
𝑛

Lo anterior implica que debemos sumar la columna (𝑥𝑖 − 𝑥)2 de la tabla y dividir dicho
valor por el número total de datos registrados, esto es:

5,85 𝑘𝑔2
2
𝑆 = → 𝑆 2 = 0,29 𝑘𝑔2
18

Cálculo de la desviación estándar:

La desviación estándar se calcula como la raíz cuadrada de la varianza. Téngase


especial atención el tratamiento de la unidad de medida de la varianza.

∑𝑛𝑖=1(𝑥𝑖 − 𝑥)2
𝑆 = √𝑆 2 = √
𝑛

𝑆 = √0,29 𝑘𝑔2

𝑆 = √0,29 √𝑘𝑔2

𝑆 = 0,54 𝑘𝑔

www.iplacex.cl27
El muy común realizar una interpretación conjunta considerando la media aritmética y la
desviación estándar, esto es: Los pesos de las niñas y niños recién nacidos aquel
día tienen un peso promedio de 𝟑, 𝟕𝟔 𝒌𝒈 con una desviación estándar de 𝟎, 𝟓𝟒 𝒌𝒈.
Lo anterior expresado en notación matemática sería:

𝑥 = (𝑥̅ ± 𝑆) [𝑈𝑛𝑖𝑑𝑎𝑑𝑒𝑠]

En nuestro caso:

𝑥 = 𝑝𝑒𝑠𝑜 = (3,76 ± 0,54) 𝑘𝑔

Lo anterior quiere decir, que en promedio los pesos de las niñas y niños nacidos
aquel día están entre los 𝟑, 𝟐𝟐 𝒌𝒈, (3,76 − 0,54) 𝑘𝑔, y los 𝟒, 𝟑𝟎 𝒌𝒈, (3,76 + 0,54) 𝑘𝑔.

Cálculo del coeficiente de variabilidad:

𝑆
𝐶𝑉% = ∙ 100
𝑥

Para nuestro caso:

0,54
𝐶𝑉% = ∙ 100 → 𝐶𝑉% = 14,36%
3,76

Lo anterior nos da cuenta que los datos tienen una variabilidad del 14,36% respecto de
la media aritmética.

4.3 Medidas de Formas

4.3.1 Índices de Asimetría

Se dice que una distribución de frecuencias es simétrica, si los intervalos equidistantes


del intervalo central tienen iguales frecuencias. También se dice que una distribución es
simétrica si su curva de frecuencias es simétrica con respecto al centro, esto significa
que si la distribución se divide en dos partes justo en su centro, la forma de la distribución
hacia la derecha es la misma forma que el lado de la izquierda. Esto es:

www.iplacex.cl28
Figura 7: Distribución simétrica.

Dos distribuciones pueden tener la misma media y la misma desviación estándar, pero
pueden diferir en el grado de asimetría.

Si la distribución es simétrica, como lo muestra la Figura 7, entonces la media, la mediana


y la moda coinciden. En contraposición, si estos tres indicadores estadísticos no
coinciden, la distribución tiene que ser asimétrica.

Existen varias medidas de asimetría, una de ellas es el coeficiente o índice de


asimetría de Pearson.

El índice de asimetría de Pearson se determina mediante la siguiente expresión:

𝑥̅ − 𝑚𝑜
𝐴𝑃 =
𝑆

En distribuciones asimétricas se verifica que:

𝑥̅ − 𝑚𝑜 ≅ 3(𝑥̅ − 𝑚𝑒 ).

Dado lo anterior, el índice de Pearson puede obtenerse también utilizando la siguiente


expresión:

3(𝑥̅ − 𝑚𝑒 )
𝐴𝑃 =
𝑆

www.iplacex.cl29
Donde:
𝑥̅ : corresponde a la media aritmética de la distribución.
𝑚0 : corresponde a la moda de la distribución.
𝑚𝑒 : corresponde la media de la distribución.
𝑆 : desviación estándar de la distribución de datos.

Nótese que si 𝐴𝑃 = 0, la distribución es simétrica puesto que 𝑥̅ = 𝑚𝑜 . Si 𝐴𝑃 > 0, entonces


la distribución es asimétrica hacia la derecha, ver Figura 8 (a), o tiene sesgo
positivo. Si 𝐴𝑃 < 0, entonces la distribución es asimétrica hacia la izquierda, ver figura 8
(b), o tiene sesgo negativo.

(a) (b)

Figura 8: Distribuciones asimétricas.


(a) Distribución asimétrica positiva y (b) Distribución asimétrica negativa.

4.3.2 Curtosis

La curtosis es la propiedad de una distribución de frecuencias por la cual se compara la


dispersión de los datos observados cercanos al valor central con la dispersión de los
datos cercanos a ambos extremos de la distribución. La curtosis se mide en comparación
a la curva simétrica normal o mesocúrtica, ver Figura 9.

Una curva simétrica con curtosis mayor que la curva normal es denominada curva
leptocúrtica y una curva simétrica con curtosis menor que la normal es denominada
curva platicúrtica.

www.iplacex.cl30
Figura 9: Distribuciones asimétricas.

Una forma de determinar la curtosis, 𝐾, de una distribución es utilizando diferentes


percentiles como se presenta en la siguiente ecuación:

𝑃75% − 𝑃25%
𝐾= − 0,5
𝑃90% − 𝑃10%

Si la distribución es normal, 𝐾 tiende a cero (el resultado está próximo al valor cero). Si
𝐾 tiende a 0,5, es leptocúrtica, y si 𝐾 tiende a –0,5, es platicúrtica.

www.iplacex.cl31
Conclusión
La presentación de información estadística tiene dos opciones de formato: el agrupar o
tabular, y representaciones gráficas. El primero consiste en el ordenamiento de los datos
obtenidos o seleccionados, en filas y columnas, denominado tabla de distribución de
frecuencias. El formato gráfico consiste en la utilización de puntos, líneas y figuras que
sirven para mostrar magnitudes asociadas a una escala de medición, de manera que se
facilita la comparación e interpretación de los datos estadísticos, sin que necesariamente
se incluyan los valores numéricos.

El gráfico estadístico debe estructurarse teniendo en cuenta la utilidad que preste al


usuario objetivo, es decir, que quien lo diseña debe colocarse en el lugar del que utilizará
la información. Cada representación gráfica tiene una forma propia, pero existen normas
generales que permiten, hasta cierto punto, presentarlas con criterio uniforme.

La estadística descriptica es en sí misma una herramienta fundamental para el análisis


de datos de los estudios correspondientes, en ella encontramos medidas de posición y
de dispersión, las cuales se utilizan para describir la distribución de los datos. Las
medidas de posición nos indican hacia dónde se inclinan o se agrupan mayormente los
datos. Las más utilizadas son: la media aritmética, la mediana y la moda.

Las medidas de dispersión son útiles para determinar y cuantificar lo próximo o alejados
que están los datos de la muestra de un punto central. Estas medidas indicarán por un
lado el grado de variabilidad que hay en la muestra y, por otro, la representatividad de
dicho punto central. Las medidas de dispersión más ampliamente utilizadas son: el
rango, la varianza, la desviación estándar y el coeficiente de variabilidad.

www.iplacex.cl32
Bibliografía

- Canavos, G. (1988). Probabilidad y Estadística: Aplicaciones y Métodos. Mc Graw-


Hill. México D. F., México.

- Walpole, Ronald E (1992). Probabilidades y Estadística. 3ª edición. Interamericana


McGraw-Hill. México.

- Cordova, M. (2003). Estadística Descriptiva e Inferencial con Aplicaciones, 5ª edición.


Editorial Moshera S.R.L. Perú.

- Wisniewski, M. (2008). Estadística y Probabilidad. Editorial Trillas. México.

- Walpole Ronald E. (2012). Probabilidad y Estadística para Ingeniería y Ciencias.


Editorial Pearson Educación. México.

www.iplacex.cl33
www.iplacex.cl34

También podría gustarte