1.4 Medidas de Tendencia Central y Dispersion

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 11

1.4 Medidas de tendencia central y de dispersión.

Este tema es sumamente importante porque se verán los elementos básicos de la estadística
descriptiva que son fundamentales para poder describir las características de un conjunto de datos. En el
panorama general se puede señalar que, para describir, explorar y comparar conjuntos de datos, las
siguientes características suelen ser de suma importancia: 1. el centro, 2. la variación, 3. la distribución, 4.
los valores extremos y 5. las características de los datos que cambian con el tiempo.
En el esquema siguiente se muestran las medidas estadísticas que se abordarán.

1.4.1 Medidas de tendencia central.

Una medida de tendencia central es un valor que se encuentra en el centro o a la mitad de un


conjunto de datos. Hay muchas formas distintas de determinar el centro, por lo que se tienen diferentes
definiciones de las medidas de tendencia central, que son: la media, la mediana, y la moda.

Media
La media (aritmética), por lo general, es la medida numérica más importante que se utiliza para
describir datos; comúnmente se le conoce como promedio.

LA MEDIA de una muestra es igual a la suma de todos los valores de las mediciones de la
muestra dividida entre el tamaño de la muestra.

a) Media para datos no agrupados.


Como es frecuente que las fórmulas estadísticas comprendan la suma de números o “sumarlos”,
usamos un símbolo para indicar el proceso de sumar. Suponga que hay n mediciones en la variable x y que
las llamamos x1, x2, …, xn. Para sumar las n mediciones, usamos esta notación abreviada:

1
Estadística BLVD. JUAN PABLO II #1302 449 910 5000
FRACC. EXHACIENDA DE LA CANTERA C.P.20200 WWW.UTAGS.EDU.MX
∑𝑛𝑖=1 𝑥𝑖 que significa 𝑥1 + 𝑥2 + 𝑥3 +. . . +𝑥𝑛
La letra griega mayúscula “sigma” ( ) pide sumar los términos que aparezcan a su derecha,
empezando con el número debajo de la sigma (i = 1) y terminando con el número arriba (i = n). No obstante,
como las sumas típicas en cálculos estadísticos se hacen casi siempre sobre el conjunto total de n mediciones,
se puede usar una notación más sencilla: ∑ 𝑥𝑖 que significa “la suma de todas las mediciones de x”.
La media muestral y la media poblacional se calculan en la misma manera, pero la notación
abreviada que se emplea es diferente, como se muestra en seguida:

∑ 𝑥𝑖
Media muestral: Media poblacional: 𝜇=
𝑁

EJEMPLO 1
Calcula las medias de las muestras siguientes:

Solución
Para la muestra 1:

Para la muestra 2:

Propiedades de la media aritmética


La media aritmética es una medida de ubicación muy utilizada. Cuenta con algunas propiedades
importantes:
1. Todo conjunto de datos de intervalo –o de nivel de razón– posee una media. Recuerde del capítulo
1 que los datos del nivel de razón incluyen datos como edades, ingresos y pesos, en estos la distancia
entre los números es constante.
2. Todos los valores se encuentran incluidos en el cálculo de la media.
3. La media es única. Solo existe una media en un conjunto de datos.
4. La suma de las desviaciones de cada valor de la media es cero. Expresado simbólicamente:

Como ejemplo de la última propiedad tenemos la media de la muestra 1 en el ejemplo 1 es de 4.333,


entonces: (3 − 4.333) + (4 − 4.333) + (6 − 4.333) + (3 − 4.333) + (5 − 4.333) + (5 − 4.333) = 0

También puedes consultar la siguiente liga el tutorial para calcular la media, mediana y moda para datos
no agrupados Media, mediana y moda datos no agrupados.flv

2
Estadística BLVD. JUAN PABLO II #1302 449 910 5000
FRACC. EXHACIENDA DE LA CANTERA C.P.20200 WWW.UTAGS.EDU.MX
a) Media para datos agrupados.
Cuando los datos se encuentran agrupados en una tabla de distribución de frecuencias, la media de
∑ 𝑓𝑥𝑖 𝑓𝑥1 +𝑓𝑥2 +...+𝑓𝑥𝑛
la muestra se calcula con la fórmula = =
𝑛 𝑛

EJEMPLO 2
Calcule la media de los siguientes datos agrupados, correspondientes a la entrevista de
20 jóvenes para conocer la cantidad en litros de refresco que beben al día. Realizando las
multiplicaciones de los datos de la columna de las marcas de clase (x) por la frecuencia (f) o sea:
0.165 X 6 = 0.99; 0.495 X 4 = 1.98; etc., quedando la tabla:

Por último, se divide el total (sumatoria) de la columna fx entre n:

∑ 𝑓𝑥𝑖 14.85
= = = 0.7425
𝑛 20
Mediana

La mediana es el valor que se encuentra exactamente a la mitad de un arreglo ordenado, es decir, el


conjunto de datos ordenados de menor a mayor. De lo anterior se deduce que la mitad de las observaciones
son menores o iguales a la mediana

LA MEDIANA es el valor que se encuentra exactamente a la mitad de un conjunto de datos


ordenados de menor a mayor.

a) Mediana para datos no agrupados.

Para calcular la mediana debemos considerar dos casos:


- Si el número de datos (n) es impar, la mediana es el valor de en medio.
- Si el número de datos (n) es par, la mediana es el promedio de las dos observaciones de en medio.

3
Estadística BLVD. JUAN PABLO II #1302 449 910 5000
FRACC. EXHACIENDA DE LA CANTERA C.P.20200 WWW.UTAGS.EDU.MX
Al contrario de la media, a la mediana no la afectan valores extremos o aberrantes, ya que sólo considera
la posición del valor central.

EJEMPLO 3 Calcula las medianas de las muestras siguientes :

Solución
Primero ordenamos en forma ascendente los datos; para la muestra 1:

Como n (el número de datos de la muestra) es par, los valores centrales son 5 y 6. Entonces:

Para la muestra 2:
Como n es impar, entonces el valor central se localiza solo en la posición central, por tanto, Mediana = 17.

a) Mediana para datos agrupados


La median para una distribución de frecuencias se calcula mediante la fórmula:
𝑛
− 𝑓𝑎𝑚
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 𝐿𝑖 + 2 (𝑐)
𝑓 𝑚𝑒𝑑.
Donde: Li= límite inferior de la clase mediana; f am = frecuencia acumulada antes de la clase mediana;
f med.= frecuencia de la clase mediana; c = ancho de clase.

EJEMPLO 4 Determine la mediana de la siguiente distribución de frecuencias correspondiente a la


entrevista a 20 jóvenes para conocer la cantidad en litros de refresco que beben al día.

Solución
Lo primero es identificar cual es la clase mediana. En este caso como son 20 datos el dato número 10
(que es el que divide en dos partes iguales a la muestra) lo contiene la clase 0.33 < 0.66 ya que acumula hasta
esta clase 10 frecuencias. Entonces Li= 0.33; f med = 4; f am= 6; c = 0.33; n = 20 y sustituyendo los valores en
la fórmula:

4
Estadística BLVD. JUAN PABLO II #1302 449 910 5000
FRACC. EXHACIENDA DE LA CANTERA C.P.20200 WWW.UTAGS.EDU.MX
20
−6
2
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 0.33 + (0.33) = 𝟎. 𝟔𝟔
4

Moda

LA MODA es el valor que más se repite en una lista de datos, es decir, el que se presenta con
mayor frecuencia

Puede darse el caso que haya dos modas en una lista de Si hay más de dos modas en un conjunto
datos, lo que recibe el nombre de bimodal. Si hay más de dos de datos, no se tendrá una buena
modas, se denomina multimodal. descripción de la distribución de éstos.

a) Moda para datos no agrupados.

EJEMPLO 5 Calcula la moda de las muestras siguientes:

Solución

Para la muestra 1: al observar la tabla se nota que el valor – 5 aparece tres veces, o sea tiene 3
frecuencias, por lo tanto, es una distribución unimodal y tiene moda = – 5.
Para la muestra 2: al observar la tabla se puede advertir que es una distribución multimodal, ya que
son tres valores (– 8, 8 y 13), los que tiene un mayor número de frecuencias (2), por consiguiente,
moda = – 8, 8, 13.

La moda es de utilidad para resumir datos nominales. Un ejemplo de esta aplicación se muestra en
seguida:
EJEMPLO 6
Una compañía creó cinco aceites para baño. La grafica de barras muestra los resultados
de una encuesta de mercado diseñada para determinar que aceite para baño prefieren los consumidores. La
mayoría de los encuestados se inclinó por Lamoure, según lo evidencia la barra más grande. Por
consiguiente, Lamoure representa la moda.

5
Estadística BLVD. JUAN PABLO II #1302 449 910 5000
FRACC. EXHACIENDA DE LA CANTERA C.P.20200 WWW.UTAGS.EDU.MX
b) Moda para datos agrupados

La moda de una tabla de frecuencias se calcula mediante la fórmula:


△1
𝑀𝑜𝑑𝑎 = 𝐿𝑖 + (𝑐)
△1 +△2
Donde: Li = Límite inferior de la clase modal; c= ancho de clase
△1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑚𝑜𝑑𝑎𝑙 − 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟
△2 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑚𝑜𝑑𝑎𝑙 − 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟
La clase modal es la clase que más frecuencias presenta.

EJEMPLO 7 Determine la moda de la siguiente tabla de frecuencias del peso de 500 alumnos
varones de una Universidad.

Solución
Lo primero que hay que considerar es identificar la clase modal. Analizando la tabla se puede observar
que la clase 65 ≤ 𝑥 < 70 tiene la mayor frecuencia (155) por lo tanto esta clase es la clase modal. Entonces
△1 = 155 − 103 = 52, ; △2 = 155 − 101 = 54; 𝐿𝑖 = 65; 𝑐 = 10, sustituyendo los valores en la fórmula:
6
Estadística BLVD. JUAN PABLO II #1302 449 910 5000
FRACC. EXHACIENDA DE LA CANTERA C.P.20200 WWW.UTAGS.EDU.MX
52
𝑀𝑜𝑑𝑎 = 65 + (10) = 𝟔𝟗. 𝟗𝟎𝟓
52 + 54
También puedes consultar el siguiente tutorial para el cálculo de las medidas de tendencia central
para datos agrupados Media, mediana y moda datos agrupados.flv

1.4.2 Medidas de dispersión

Es importante también analizar cuán cercanos o lejanos están los datos respecto, por ejemplo, al
valor medio. Para determinar esto se recurre a las llamadas medidas de dispersión o de variabilidad; de
ellas, las medidas más importantes son el rango, la varianza y la desviación estándar. De esta manera, si dos
grupos de datos tienen el mismo centro, este centro es más descriptivo para el grupo que presente menor
variabilidad. En otras palabras, un valor pequeño en una medida de dispersión indica que los datos se
acumulan con proximidad alrededor de la media aritmética. Por consiguiente, la media se considera
representativa de los datos. Por lo contrario, una medida grande de dispersión indica que la media no es
confiable.

Rango (Rg)

RANGO de un conjunto de n mediciones se define como la diferencia entre el valor más grande y
el más pequeño.

𝑅𝑔 = 𝑉𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑉𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜


El rango se emplea mucho en aplicaciones de control de procesos estadísticos (CPE) como
consecuencia de que resulta fácil de calcular y entender.

EJEMPLO 8
Consulte la gráfica y determine el rango del número de monitores de computadora
producidos por hora en las plantas de Baton Rouge y Tucson. Interprete los dos rangos.

7
Estadística BLVD. JUAN PABLO II #1302 449 910 5000
FRACC. EXHACIENDA DE LA CANTERA C.P.20200 WWW.UTAGS.EDU.MX
Solución
El rango de la producción por hora de monitores de computadora en la planta de Baton Rouge es de
𝑅𝑔 = 52 − 48 = 44. El rango de la producción por hora en la planta de Tucson es de 𝑅𝑔 = 60 − 40 = 20.
Por tanto: 1. Existe menos dispersión en la producción por hora en la planta de Baton Rouge que en la planta
de Tucson, porque el rango de 4 monitores de computadora es menor que el rango de 20 monitores; 2. La
producción se acumula más alrededor de la media de 50 en la planta de Baton Rouge que en la planta de
Tucson (ya que un rango de 4 es menor que un rango de 20). Así, la producción media en la planta de Baton
Rouge (50 monitores de computadora) resulta una medida de ubicación más representativa que la media de
50 monitores de computadora en la planta de Tucson.

Varianza (S2) y desviación estándar o típica (S).

VARIANZA (S2) de un conjunto de n mediciones se define como el promedio de las


desviaciones con respecto a la media elevado al cuadrado.

DESVIACIÓN ESTÁNDAR (S) de un conjunto de n mediciones se define como la raíz


cuadrada de la varianza.

a) Varianza y desviación estándar para datos no agrupados.

La varianza es la medida de dispersión más importante, pues tiene como base el promedio aritmético
de las desviaciones (distancia de un valor con respecto a la media) elevado al cuadrado. En otras palabras,
muestra cuán alejados o cuán cercanos están los datos respecto a la media.
Una de las grandes ventajas de la varianza es que, si un dato está muy cerca de la media, al elevar esa
distancia al cuadrado se hará más pequeña. Si el dato está muy lejos de la media, la distancia al cuadrado
entre ese dato y la media se hará mayor. De esta manera hace más evidente si una distribución tiene una
dispersión alta o baja.

La varianza de una población (𝝈𝟐 ) se determina con la siguiente fórmula:

Donde: 𝑥𝑖 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒𝑙 𝑑𝑎𝑡𝑜; 𝜇 = 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛; 𝑁 = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛

La varianza de una muestra (𝑺𝟐 ) se determina con la siguiente fórmula:

8
Estadística BLVD. JUAN PABLO II #1302 449 910 5000
FRACC. EXHACIENDA DE LA CANTERA C.P.20200 WWW.UTAGS.EDU.MX
Donde: 𝑥𝑖 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒𝑙 𝑑𝑎𝑡𝑜; = 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎; 𝑛 = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎

La desviación estándar de una población (𝝈) se determina con la siguiente fórmula:

∑(𝑥𝑖 − 𝜇)2
𝜎=√
𝑁

La desviación estándar de una muestra (S) se determina con la siguiente fórmula:

∑(𝑥𝑖 − )2
𝑆=√
𝑛−1

EJEMPLO 9 Calcula la varianza y la desviación estándar de la muestra siguiente:

Solución
Primero, calculamos la media:

Después, calculamos la varianza de la muestra:

Finalmente, obtenemos la raíz cuadrada de la varianza para conocer la desviación estándar:

b) Varianza y desviación estándar para datos agrupados.

Para calcular la varianza de una muestra de datos agrupados en tabla de frecuencias se usa la fórmula:
.
∑ 𝑓(𝑥𝑖 − )2
𝑆2 =
𝑛−1

Donde 𝑥𝑖 = 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒; 𝑓 = 𝑓𝑟𝑒𝑐. 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒; 𝑛 = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎; = 𝑚𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.

EJEMPLO 10 La siguiente tabla de frecuencias corresponde a la distribución de frecuencias de los


precios de las ventas de vehículos (miles de dólares) de Whitner Autoplex. Determine
la varianza y desviación estándar.

9
Estadística BLVD. JUAN PABLO II #1302 449 910 5000
FRACC. EXHACIENDA DE LA CANTERA C.P.20200 WWW.UTAGS.EDU.MX
Solución
Para determinar la varianza y desviación estándar:

Paso 1: Calcule la media. Multiplique las marcas de clase x por la frecuencia de clase (16.5) (7) = 115.5; y
∑ 𝑓𝑥 1848
sume todos los valores de este producto y divida entre 80. = = = 23.1
𝑛 80
Paso 2: Reste a cada marca de clase la media y eleve al cuadrado. En el caso de la primera clase sería
(16.5 – 23.1)2 = (–6.6)2 = 43.56; en el caso de la segunda clase (19.5 – 23.1)2 = (–3.6)2 = 12.96 y así en lo
sucesivo.
Paso 3: Multiplique la diferencia al cuadrado por la frecuencia de clase. Para la primera clase el valor es
7(16.5 – 23.1)2 = 304.92; para la segunda 24(19.5 – 23.1)2 = 311.04 y así sucesivamente.
Paso 4: Sume todos los valores de las diferencias al cuadrado multiplicadas por la frecuencia de clase y
sustituya los valores en la fórmula.

∑ 𝑓(𝑥𝑖 − )2 1501.2
𝑆2 = = = 𝟏𝟗. 𝟎𝟎𝟐𝟓 𝑆 = √19.0025 = 𝟒. 𝟑𝟓𝟗
𝑛−1 80−1

El valor de la desviación estándar significa que la dispersión con respecto al precio promedio del auto
puede variar +/- 4,359 dls. En otras palabras, el precio de venta promedio por auto es de 23, 100 dls
pero puede variar desde 18,741 a 27,459 dls.

Para ampliar la información consulte el archivo anexo I.4 Media, mediana y moda para datos agrupados.

FUENTE: Anderson, D.R. (2008). Estadística para Administración y Economía. (10ª ed.). México. Cengage
Learning; Lind, D.A. (2008). Estadística Aplicada a los Negocios y Economía. (13ª ed.). México. Mc Graw-Hill;

10
Estadística BLVD. JUAN PABLO II #1302 449 910 5000
FRACC. EXHACIENDA DE LA CANTERA C.P.20200 WWW.UTAGS.EDU.MX
Gutierrez, A.B. (2012). Probabilidad y Estadística Enfoque por Competencias. México. Mc Graw-Hill.Triola
M.F. (2009). Estadística. (10ª ed.). México. Pearson Educación.

11
Estadística BLVD. JUAN PABLO II #1302 449 910 5000
FRACC. EXHACIENDA DE LA CANTERA C.P.20200 WWW.UTAGS.EDU.MX

También podría gustarte