Texto Diseñado para Estudiantes de Pre y Posgrado

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 12

67

El percentil 30

Posición:

138.9 – 85 = 53.9

fi = 90

Estos resultados nos indican que el 25% de los empleados ganan salarios por debajo de $ 334; que bajo 541.57
gana el 57% de los empleados y sobre $359.88, gana el 70%de los empleados.
3. Medidas de dispersión de datos no agrupados

Estas medidas son necesarias para la mejor comprensión de la distribución de un conjunto


de observaciones realizadas en un estudio estadístico y se complementan con las medidas de
centralización vistas anteriormente, toda vez que proporcionan conjuntamente una descripción
numérica más completa de los datos.

Recordemos que las medidas de tendencia central localizan generalmente a un valor que se halla
ubicado en el centro de la distribución, pero no informa sobre el grado de dispersión o variabilidad del
conjunto de datos. El análisis de los resultados de estas medidas también permite comparar los
grados de dispersión entre dos o más distribuciones.

Las principales medidas de variabilidad que estudiaremos son:

o Rango o amplitud de variación


o Desviación media
o Desviación estándar
o Varianza
o Coeficiente de variación

Amplitud de variación (Rango)

Es la medida más simple de dispersión y se obtiene al establecer la diferencia entre el


máximo y el mínimo de los datos cuantitativos.

Amplitud de variación = Máximo – Mínimo


68

El valor obtenido nos brinda la información en relación al intervalo entre los valores límites en los que se
observaron los datos; su utilización está más ligada al control estadísticos de procesos y no es muy utilizada
como medida de dispersión, ya que se ve muy influenciada por la presencia de los valores extremos tanto
inicial como final.

Ejemplo 1:

1.-Determinar la amplitud de variación de las siguientes edades:

25 43 28 32 27 39 40 29 28 33 36 30

Máximo = 43

Mínimo = 25

Amplitud de variación = 43 – 25 = 18

Este valor nos permite también comparar con estudios de la misma naturaleza y establecer con buen
criterio que el conjunto de datos que tenga la menor amplitud de variación, será el que tenga menos
variabilidad o menor dispersión.

Desviación media
Es la medida de dispersión que mide más exactamente el grado de dispersión de un conjunto
de datos con relación a la media aritmética. En otras palabras es la medida que nos determina
en cuantas unidades en promedio los datos se hallan desviados o alejados de la media
aritmética.

El uso de esta medida no es muy generalizado por cuanto para su determinación se utiliza el valor
absoluto de las desviaciones, esta situación no permite un trabajo algebraico mayor, por lo tanto se utiliza
con mayor frecuencia la desviación estándar para representar a la dispersión de los datos frente a la media. Por
medio de la siguiente expresión se calcula la desviación media (DM).
𝑥|𝑥 − 𝑥|
𝑥𝑥 =
𝑥
Dónde:

x: Valor de cada observación

𝑥: Media aritmética de las

observaciones n: observaciones del

estudio

| |: Valor absoluto

Ejemplo 1:
69

En un almacén se determinó en una semana el ingreso de clientes por día, obteniéndose los siguientes
resultados, lunes: 250, martes: 265, miércoles: 243, jueves: 225, viernes: 274y sábado
294. Calcular la desviación media de estos datos.

Solución: Primero se calcula la media aritmética y luego se determina los valores de absolutos
de las desviaciones de las observaciones frente a la media aritmética.
𝑥𝑥𝑥 + 𝑥𝑥𝑥 + 𝑥𝑥𝑥 + 𝑥𝑥𝑥 + 𝑥𝑥𝑥 + 𝑥𝑥𝑥
𝑥= = 𝑥𝑥𝑥. 𝑥
𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥
𝑥
Número de Desviación
(X - X X )
clientes absoluta
250 250 – 258.5 = - 8.5 8.5
265 265 – 258.5 = 6.5 6.5
243 243 – 258.5 = -15.5 15.5
225 225 – 258.5 = - 33.5 33.5
274 274 – 258.5 = 15.5 15.5
294 294 – 258.5 = 35.5 35.5
Total 115
𝑥|𝑥 − 𝑥| 𝑥𝑥
𝑥𝑥 = =
𝑥 = 𝑥𝑥, 𝑥 𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥
𝑥
𝑥
La interpretación de este resultado, nos indica que en promedio 19.2 clientes por día están alejados o
dispersos los datos obtenidos en este estudio, en relación con la media diaria de visitas que es de 258.5
clientes por día.

Desviación estándar (varianza):


Estas dos medidas de dispersión se basan en los cuadrados de las desviaciones de los
elementos con relación a la media aritmética y podemos indicar que la varianza es la media
aritmética de las desviaciones cuadráticas con relación a la media aritmética general, mientras
que la desviación estándar constituye la raíz cuadrada positiva de la varianza.

Medida Población Muestra


Varianza σ2 S2
Desviación estándar σ S

σ: letra griega sigma minúscula

La interpretación de la desviación estándar es la misma que se le dio a la desviación media, es decir,


proporciona el valor promedio de las desviaciones de los elementos, con relación a la media aritmética;
a pesar de que los valores no son iguales. La interpretación para la varianza es más compleja toda vez
que las unidades están al cuadrado, sin embargo es una mediad
70

muy útil cuando se comparan estudios estadísticos de la misma naturaleza. Las expresiones de cálculo
que nos permitirán determinar sus valores se expresan en la siguiente tabla:

Tabla 22 expresiones de cálculo

MEDIDA POBLACIÓN MUESTRA

𝑥(𝑥 − 𝑥)2 𝑥(𝑥 − 𝑥)2


Varianza 𝑥2 = 𝑥2 =
𝑥 𝑥−1

Desviación estándar 𝑥(𝑥 − 𝑥)2 𝑥(𝑥 − 𝑥)2


𝑥=√ 𝑥 =√
𝑥 𝑥−1
Elaboración: Autores

Como se puede observar en las fórmulas de cálculo de la varianza y desviación estándar de muestra el
denominador es algo diferente a las expresiones de la población, ya que al total de elementos de la
muestra, se descuenta una unidad, esto se realiza con el objeto de que el estadístico sea un mejor
estimador del parámetro.

Las expresiones anotadas anteriormente se basan en el concepto de estas medidas, sin embargo se utilizan
operativamente otras expresiones equivalentes que resultan de un manejo algebraico de las anteriores ya
que facilitan sustantivamente los cálculos.

Las fórmulas alternativas son:

Tabla 23 expresiones de cálculo

Varianza muestral: 𝑥𝑥𝑥2 −


(𝑥𝑥)2
𝑥2 =
𝑥(𝑥 − 1)
Desviación 𝑥𝑥𝑥2 −
estándar muestral: (𝑥𝑥)2
𝑥=√
𝑥(𝑥 − 1)
Elaboración: Autores

Ejemplo 1:

La producción diaria de una fábrica de mesas fue de: lunes 15, martes 18, miércoles 19, jueves 21 y viernes
16, si se considera a estas observaciones como una unidad poblacional, calcular la varianza y la desviación
estándar poblacional

Solución:
71

Calculamos primeramente la media aritmética, para luego proceder a calcular las deviaciones cuadráticas
y aplicar la fórmula de cálculo.

μ = 15 + 18+ 19+21+16 = 17.8 mesas diarias.


5
Producción (
DÍA X–μ (X – μ)2
x)
Lunes 15 - 2.8 7.84
Martes 18 0.2 0.04
Miércoles 19 1.2 1.44
Jueves 21 3.2 10.24
Viernes 16 -1.8 3.24
TOTAL 79 0 22.80

𝑥(𝑥 − 𝑥)2 22.80


𝑥2 = = = 4.56 𝑥𝑥 𝑥𝑥𝑥𝑥𝑥 𝑥𝑥 𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥
𝑥 5
𝑥(𝑥 − 𝑥)2 22.8
𝑥=√ =√ = √4.56 = 2.14 𝑥𝑥𝑥𝑥𝑥
𝑥 5

La interpretación de la desviación estándar, nos indica que en promedio la producción diaria de esta unidad
poblacional varía en 2.14 mesas por día. Nótese que la varianza es más difícil de ser interpretada.

4. Medidas de dispersión para datos agrupados

Cuando los datos se encuentran categorizados mediante distribuciones de frecuencia, será necesario que se
trabaje con la marca de clase de cada categoría y la frecuencia de clase respectiva para poder calcular las
medidasdedispersión,en especial, se pondráénfasis enla desviación estándar.

Desviación Estándar
Igual que en el cálculo de la desviación estándar de datos no agrupados, podemos utilizar dos
procedimientos que responden al criterio conceptual el uno y a la forma simplificada el otro. Se debe en
primera instancia determinar la marca de clase de cada categoría con el objeto de calcular las desviaciones de la
marca de clase con relación a la media aritmética, o los cuadrados de la marca
de clase.

Las siguientes expresiones nos permitirán realizar el respectivo cálculo:


72

𝑥(𝑥 − 𝑥)2 ∗ 𝑥 𝑥𝑥(𝑥 − 𝑥)2 ∗ 𝑥 − (𝑥𝑥𝑥)2


𝑥 =√ 𝑥=√
𝑥 −1 𝑥(𝑥 − 1)

En el siguiente Ejemplo calcularemos la desviación estándar, siguiendo los dos procedimientos anotados.

Ejemplo:

1.-El reporte de una muestra de 100 envases de refresco sabor a limón

determinó la siguiente distribución de frecuencias, con esta información calcular la desviación estándar, e
interpretar los resultados:
Tabla 24 reporte de muestra de 100 envases

Nº DE
CONTENIDO (cm3)
ENVASES
497 –498 5
498 –499 23
499 –500 40
500 –501 22
501 –502 10
TOTAL 100
Elaboración: Autores

Primer procedimiento: Calculamos las respectivas marcas de clase, para luego calcular la media
aritmética de la distribución. Posteriormente se determinan las desviaciones cuadráticas de las marcas de
clase, que se las multiplica por la frecuencia de clase.

CONTENID Nº DE MARCA
x*f (x-x)2 (x-x)2f
O (cm^3) ENVASES CLASE
497 – 498 5 497,5 2487,5 4,3681 21,84
498 – 499 23323 498,5 11465,5 1,1881 27,326
499 – 500 40 499,5 19980 0,0081 0,324
500 – 501 22 500,5 11011 0,8281 18,218
501 – 502 10 501,5 5015 3,6481 36,481
TOTAL 1000 49959 104,109
73

497.5 ∗ 498.5 ∗ 23 + 499.5 ∗ 40 + 500.5 ∗ 22 + 501.5 ∗ 10


𝑥= = 𝑥𝑥𝑥. 𝑥𝑥 𝑥𝑥𝑥
𝑥𝑥𝑥

𝑥(𝑥 − 𝑥)2 ∗ 𝑥 104.19 = 1.026 𝑥𝑥3


𝑥=√ =√
𝑥−1 100 − 1

Segundo Procedimiento: Se calculan las marcas de clase, a continuación se determinan los


cuadrados de estas marcas de clase. Luego se establecen los productos entre las marcas de clase y las
frecuencias y los cuadrados de las marcas de clase por las frecuencias.

CONTENIDO Nº DE MARCA
x^2 x*f x^2*f
(cm^3) ENVASES CLASE
497 – 498 5 497,5 247506 2487,5 1237531,3
498 – 499 23 498,5 248502 11465,5 5715551,8
499 – 500 40 499,5 249500 19980 9980010
500 – 501 22 500,5 250500 11011 5511005,5
501 – 502 10 501,5 251502 5015 2515022,5
TOTAL 100 49959 24959121

𝑥𝑥(𝑥 − 𝑥)2 ∗ 𝑥 − 100(24959121) −(49959)2


(𝑥𝑥𝑥)2 =√ = 1.026 𝑥𝑥3
𝑥=√ 100(100 − 1)
𝑥(𝑥 − 1)

Como se puede advertir, los resultados obtenidos en ambos procedimientos son iguales. La
interpretación que se da es que los envases tienen en promedio una desviación de más o menos 1,026 cm3
con relación a la media aritmética.

Si necesita determinar la varianza de este conjunto de datos, simplemente obtenemos el cuadrado de la


desviación estándar. S2 = (1.026)2 = 1.0524 cm6.

La desviación estándar además de permitirnos conocer el grado de dispersión de un conjunto de datos, tiene
otras aplicaciones muy importantes que a continuación se establecen.

Teorema de Chebyshev
Este teorema establece que para cualquier conjunto de datos estadísticos, la proporción
(p) mínima de elementos que se hallan ubicados entre la media aritmética y más o menos “k”
desviaciones estándares (μ + k σ) viene dado por la siguiente expresión:

P≥ 1 -1 donde k >1
K2
74

Específicamente el teorema determina que el al menos el 75% de los datos encuentran en el intervalo [
µ-2σ;µ+2σ ], porque si k = 2, entonces 1 – 1/k² = 1 – ¼ = ¾ = 0.75, que expresado porcentualmente es 75%.
Pero hay que tomar en consideración que este valor es un límite inferior; por lo tanto puede ser que un
mayor porcentaje de elementos se hallen dentro de este intervalo.

Si aplicamos el teorema en mención (cuando k = 2) al Ejemplo anterior, podemos establecer los límites
del intervalo de la siguiente forma:

µ= 499.59 cm3, σ = 1.026 cm3 µ-

2σ =497.54 cm3

µ+2σ = 501.64 cm3

Podemos observar que estos dos valores son aproximadamente igual a las marcas de clase de la primera
categoría (497.5) y la última (501.5), por lo tanto podemos observar que casi el 100% de los envases
se encuentran dentro de estos límites. Esto hace que el teorema sea verdadero.

Cabe resaltar que el teorema es válido si la constante (k) es mayor a uno, caso contrario el teorema no
tiene validez. En la siguiente figura se puede observar el contenido del teorema que fue creado por el
matemático ruso Pafnuty L. Chebyshev (1821 – 1894).

Figura 12 Teorema de Chebyshev

Al menos el 75%

Aplicación del Teorema de Chebyshev para 2σ

Regla empírica
75

Si los datos se encuentran distribuidos normalmente, la regla empírica provee una mejor
aproximación de la concentración de datos entre la media aritmética y un valor de más o menos “k”
desviaciones estándares. Esta regla se aplica cuando k = 1, 2 o 3. En una unidad posterior se estudiará con
más detalle la distribución normal y sus aplicaciones, donde el valor de k puede tomar otros valores y no solo
los enteros 1, 2, y 3.

Tabla 25 Teorema de Chebyshev

REGLA INTERVALO PORCENTAJE DE ELEMENTOS

EMPIRICA µ±1σ 68%

µ±2σ 95%

µ±3σ 99.7%

Elaboración: Autores

Entonces la lectura de estos intervalos es, si los datos se encuentran distribuidos normalmente o se
aproximan a esta distribución, el 68% de los datos se hallan entre la media aritmética y más o menos una
desviación estándar; el 95% de los elementos observados se encuentranentre lamedia ymáso menosdos
desviaciones estándares yel 99.7%de las observaciones entre la media y tres desviaciones estándares.

En la figura que consta a continuación se puede observar con claridad lo mencionadoen el párrafo
anterior. Se determinó que en cinco semanas los precios de una acción A fueron: 55, 70, 63, 69, 72. Los
precios de una acción B en esas mismas cinco semanas fueron: 15, 18, 14,
10, 8.

¿Cómo asesor bursátil cuál acciónrecomendaría comprar? Calculamoslamediaaritmética y la desviación


estándar de cada acción:

ACCIONES
MEDIDAS
A B
Media aritmética $ 65,80 $ 13,00
Desviación estándar $ 6,91 $ 4,00
Coeficiente de variación 10,50% 30,77%

Podemos advertir que si nos centramos en el análisis de la desviación estándar, tomaríamos la decisión
de comprar las acciones B, pero al analizar los coeficientes de variación de estos precios, observamos que
la acción A tiene menor variabilidad, esto significa que los precios de la
76

acción son más estables y existe menos probabilidad de sufrir pérdidas por descensos bruscos en los
precios. Entonces sin lugar a dudas nuestra recomendación será adquirir acciones tipo A.

5. Medidas de forma
Son valores que representan o dan a conocer la manera en que los datos se hallan
distribuidos en relación a la media aritmética y toman como referente de comparación
a la distribución normal o campana de Gauss, en lo que hace relación al sesgo y a
la curtosis. Adicionalmente se toma en consideración al diagrama de caja y bigotes.

Coeficiente de asimetría
Las distribuciones de frecuencia que tienen una representación como la figura de la regla
empírica, son distribuciones consideradas como simétricas, esto significa que la mitad de la
distribución derecha se refleja en la mitad izquierda, tomando como eje de simetría la línea
vertical que pasa por la media aritmética.

La asimetría o sesgo se hace presente cuando la distribución carece de simetría, debido a la presencia
de valores extremos bien bajos o bien altos. La presencia de estos valores influye en la media aritmética y
por lo tanto toma un valor o menor a la mediana o mayor que ella.

La expresión que nos permite calcular el valor del coeficiente de asimetría se lo debe a Karl Pearson, quién
desarrolló dos expresiones, una de las más utilizadas es la siguiente expresión:
𝑥(𝑥 −𝑥𝑥𝑥𝑥𝑥𝑥𝑥)
𝑥𝑥 =
𝑥
Si la distribución es simétrica, su coeficiente de asimetría es cero, en vista de que la media aritmética es
igual que la mediana. Si la media aritmética es mayor que la mediana, entonces la distribución es
asimétrica positiva o tiene sesgo positivo; por el contrario si la media es menor que la mediana, entonces la
distribución tiene sesgo o asimetría negativa.

Generalmente el coeficiente de asimetría se halla ubicado en el intervalo entre- 3 y + 3. Si el valor del


coeficiente se acerca a los límites indica que la distribución es muy asimétrica, en cambio, si está próximo a
cero se trata de una distribución que tiende a ser simétrica

Relación de la media, la mediana y la moda con el sesgo

En la siguiente figura se observa como las medidas de centralización se relacionan entre sí, y con la
asimetría de la distribución. Si las tres medidas son iguales la distribución no tiene sesgo; si: media <
mediana < moda, la distribución es asimétrica negativa y si: media > mediana > moda, la distribución
tiene sesgo positivo
77

Figura 13 Relación de la media, la mediana y la moda con el sesgo

Ejemplo 1:

En una muestra de 10 maletas de equipaje, se determinó los siguientes pesos expresados en kilogramos:
25.2, 18.5, 32.7, 28.4, 32.3, 39.7, 23.8, 42.8, 21.5 y 52.3. Determinar el coeficiente de asimetría de estos
datos.

Calculamos, lamedia aritmética, lamediana y la desviación estándar deestos datos, obteniéndose los
siguientes resultados.

Media aritmética = 31.72 kg mediana = 30.35 kg desviación estándar = 9.57 kg

Entonces el coeficiente de asimetría es:


𝑥(𝑥 − 3(31.72 – 30.35)
𝑥𝑥𝑥𝑥𝑥𝑥𝑥) = = 𝑥. 𝑥𝑥
𝑥𝑥 = 𝑥. 𝑥𝑥
𝑥
Este resultado nos indica que los datos se hallan sesgados ligeramente hacia laderecha,por lo tanto
tienen asimetría positiva.
78

Curtosis:
Se encarga de describir el grado de apuntamiento que tiene una distribución,
considerando a la distribución normal como referente de comparación, las más altas y que no
tienen muchos datos dispersos en las colas, toman el nombre de leptocúrticas, en cambio
aquellas que son más bien aplanadas por disponer de datos más dispersos hacia las colas toman
el nombre de platicúrticas y aquellas que tienen un apuntamiento como la distribución normal,
se denominan mesocúrticas.

La medida que determina este apuntamiento se denomina curtosis, la expresión de cálculo que determina
el valor de la misma está dado por una expresión que relaciona las desviaciones de cuarto grado de los
elementos con la cuarta potencia de ladesviación estándar. Nosotros no veremos el cálculo de esta
medida por no ser muy utilizada en la cotidianidad. Si el lector está interesado en investigar la forma de
cálculo, puede remitirse a cualquier página web relacionada.

En la figura3 adjunta se observa el grado de apuntamiento de las distribuciones

Figura 14 apuntamiento de las distribuciones

Diagrama de caja y bigotes:


Es un gráfico que también permite observar o describir la forma de un conjunto de datos
estadístico. Para su determinación toma en consideración cinco datos:

1. La mediana o cuartil 2

2. El cuartil 1

3. El cuartil 3

4. El máximo (mayor valor observado)

5. El mínimo (menor valor observado)

También podría gustarte