Semana 9 (2da) y Semana 10 (1ra) Medidas de Dispersión

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 47

PROGRAMA DE ESTUDIOS GENERALES

ÁREA DE CIENCIAS

CAPÍTULO 4.3
MEDIDAS ESTADÍSTICAS DE
DISPERSIÓN Y VARIABILIDAD

ESTADÍSTICA BÁSICA PARA LOS NEGOCIOS


Semana 9
VARIABILIDAD DE LOS DATOS
CLASIFICACIÓN DE LAS MEDIDAS DE VARIABILIDAD.

Medidas de
variabilidad

Medidas absolutas de Medidas relativas de


variabilidad variabilidad

Rango o Coeficiente
Rango Desviación Desviación
amplitud Varianza de variación
intercuartil media estándar
total
Medidas de variabilidad: Contenido

• Medidas absolutas de variabilidad:

 Rango.
 Rango intercuartil.
 Desviación media.
 Varianza.
 Desviación estándar.

• Medidas relativas de variabilidad.


Coeficiente de variación.
OBJETIVOS

Al finalizar la sesión, el estudiante


estará en condiciones de entender el
concepto de variación y su
importancia en el análisis estadístico
de datos.
3. Medidas estadísticas de dispersión o variabilidad

Las medidas estadísticas de variabilidad o dispersión nos indican si los


valores de una variable están próximos entre sí, o si por el contrario están
muy dispersas. Tienen por objeto, obtener un valor que mide el grado de
variabilidad o dispersión de todas las mediciones.
3.1 Clasificación de las medidas de dispersión o variabilidad.

Las medidas estadísticas de variabilidad se clasifican en: absolutas y relativas.

3.1.1 Medidas absolutas de variabilidad.

Son valores expresados en las mismas unidades de la variable en estudio y


por lo tanto no permiten comparaciones o análisis respecto a la mayor o
menor dispersión de series expresadas en diferentes unidades. Las
principales medidas absolutas son:
- Rango o amplitud total.
- Rango intercuartil.
- Desviación media.
- Varianza.
- Desviación estándar.
3.1.2 Medidas relativas de variabilidad.

Son medidas adimensionales y por lo tanto no expresadas en


ninguna unidad específica, obviando así el inconveniente señalado
para las medidas absolutas. Con estas medidas es posible la
comparación de la variabilidad entre dos o más series de datos. La
principal medida es el coeficiente de variación.
3.2 Rango o amplitud total ( R )

Una primera medida razonable de la variabilidad es el rango o amplitud total


(también llamado recorrido), que se obtiene como la diferencia entre el valor
máximo y el mínimo del conjunto de observaciones. Se calcula con la fórmula

 
𝑅 = 𝑥 𝑚𝑎𝑥 − 𝑥 𝑚𝑖𝑛
Es fácil de calcular y se expresa en las mismas unidades que la variable, aunque
posee varios inconvenientes:
- No utiliza todas las observaciones (sólo dos de ellas).
- Puede verse muy afectada por alguna observación extrema.
- El rango aumenta con el número de observaciones, o bien se queda
igual. En cualquier caso, nunca disminuye.

Ejemplo 1
 
El gerente de un centro comercial de venta de partes de computadora, desea conocer el
rango de variación de las comisiones ganadas la semana anterior por agentes de venta,
para tal fin seleccionó una muestra de 25 agentes, a quienes se les preguntó cuánto
habían ganado de comisiones () la semana pasada. Los datos recolectados, en soles, son:
300 420 300 170 230 130 260 170 300 260 260 170 300
420 70 80 260 440 80 300 420 230 130 230 300

Al calcular el rango se tiene

𝑅=440−70=370
 

Interpretación:

El rango o amplitud total, es decir, la diferencia entre la comisión más alta y la más
baja es 370 soles.
 
3.3 Rango intercuartil ()

 
Es la diferencia entre el tercer cuartil y el primer cuartil . En otras palabras, el rango
intercuartil es la amplitud o rango del 50% central de los datos. Se calcula con la
fórmula:
 
𝑅𝑄 =𝑄 3 −𝑄 1
Representación gráfica del rango intercuartil.
Ejemplo 2

Los sueldos mensuales iniciales (en dólares) de una muestra aleatoria de 12 recién
egresados de la carrera de administración de una universidad privada de la ciudad de
Egresado Sueldo mensual
Lima, son los siguientes: inicial
1 3 450
2 3 550
3 3 650
4 3 480
5 3 355
6 3 310
7 3 490
8 3 730
9 3 540
10 3 925
11 3 520
12 3 480
Primero se ordenan los datos de menor a mayor y luego se calculan los
cuartiles, inferior y superior, tal como se muestra a continuación

𝑄
  =3 450+0,25 ( 3 480− 3 450 ) =3 457,5
1
 𝑄 =3 550+0,75 ( 3 650 −3 550 ) =3 625
3

25% de datos 50% de datos 25% de datos


(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11)
(12)

3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3
310 355 450 3 480 480 490 520 540 550 650 730 925
310 355 450 3 480 480 490 520 540 550 650 730 925
Luego, se calcula el rango intercuartil con

  𝑅 𝑄 =3 625 − 3 457,5=167,5

Interpretación:

El 50% central de egresados de administración tienen sueldos que se encuentran entre


3 457,5 y 3 625 dólares, que equivale a un rango intercuartil de 167,5 dólares.
 
3.4 Desviación media ()

Se define como el promedio de las diferencias en valor absoluto de los datos de la


variable respecto a la media aritmética.

3.4.1 Calculo de la desviación media con datos no agrupados

 
Si tenemos un conjunto de observaciones, entonces la desviación media se calcula
con:
𝑛
 
1
𝐷 𝑚= ∑ │ 𝑥 𝑖 − 𝑋
´│
𝑛 𝑖=1
Ejemplo 3

A continuación, se presentan los tiempos de espera (en minutos) de 11 clientes


para ser atendidos en la ventanilla de un Banco:

1 2 3 4 5 6 7 8 9 10 11
15 10 20 11 8 15 9 12 18 11 14
15 10 20 11 8 15 9 12 18 11 14

La media aritmética de los datos es

´𝑋 = 15+10+…+14 =13
 

11
Luego, la desviación media de los datos es

𝐷 𝑚=¿15 − 13∨+¿ 10 −13∨+…+¿ 14 − 13∨ ¿ =3,09 ¿


 
11

Interpretación:

En promedio, el tiempo de espera de un cliente se desvía del tiempo medio de espera


en 3,09 minutos.
3.4.2 Calculo de la desviación media con datos agrupados:

Si los datos están agrupados en una tabla de frecuencia, la desviación media se


calcula con:   𝑘
1
𝐷𝑚= ∑ │ 𝑥 𝑖 − 𝑋´ │ 𝑓 𝑖
𝑛 𝑖=1
donde:
 
= valor de la marca de clase
 
= frecuencia absoluta simple de la marca de clase
Ejemplo 4
Retomando el estudio en el distrito de Ventanilla, respecto a la edad en que los
trabajadores del distrito solicitaron su jubilación, se requiere calcular e interpretar la
desviación media de estas edades. Se muestran los cálculos necesarios en la tabla 4.1

Tabla 4.1 Distribución de trabajadores según edad de jubilación.

Edad
[63 ; 68) 65,5 71 4 650,5 606,34

[68 ; 73) 70,5 162 11 421,0 573,48

[73 ; 78) 75,5 91 6 870,5 132,86

[78
[78 ;; 83)
83) 80,5
80,5 79
79 6
6 359,5
359,5 510,34
510,34

[83
[83 ;; 88)
88) 85,5
85,5 47
47 4
4 018,5
018,5 538,62
538,62

Total
Total -----
----- 450
450 33
33 320,0
320,0 2
2 361,64
361,64
La media aritmética de los datos es:

 
´ 33 320
𝑋= =74,04
450
Luego, su desviación media es
  5
1 2361,64
𝐷𝑚= ∑ │𝑥 𝑖 − 𝑋´ │𝑓 𝑖= =5,25
𝑛 𝑖=1 450
Interpretación:

En promedio, la edad de jubilación de un trabajador se desvía de la edad media


de jubilación, en 5,25 años.
 
3.5 Varianza ()

La varianza es el promedio de los cuadrados de las desviaciones de los datos con respecto
a su media.

La varianza presenta el inconveniente de no tener la misma dimensión que las


observaciones, debido a que se expresa en unidades cuadradas (por ejemplo, si las
observaciones se miden en metros, la varianza lo hace en metros al cuadrado) lo que
dificulta su interpretación.
3.5.1 Calculo de la varianza con datos no agrupados

 
Si tenemos los datos observados de la variable para una muestra de tamaño ,
representados por entonces la varianza de la muestra se calcula con la fórmula

𝑛
 

1
𝑛
2
∑ 𝑥 2𝑖 − 𝑛 𝑋´ 2
2 ´ 2 𝑖=1
𝑆 𝑥= ∑ ( 𝑥 − 𝑋 ) ⟺ 𝑆 =  
𝑛 − 1 𝑖=1 𝑖 𝑥
𝑛 −1
Ejemplo 1

A continuación, se presentan los tiempos de espera (en minutos) de una muestra de


11 clientes para ser atendidos en la ventanilla de un Banco

1 2 3 4 5 6 7 8 9 10 11

15 10 20 11 8 15 9 12 18 11 14
15 10 20 11 8 15 9 12 18 11 14

La media aritmética de estos datos es

´𝑋 = 15+10+ …+14 =13


 

11
Luego, la varianza de la muestra es

  (15 − 13)2+(10− 13)2 +…+(14 − 13)2


2
𝑆 = 𝑥 =14,2
11 − 1

La varianza de los tiempos de espera de la muestra resulta 14,2 minutos al cuadrado.


No tiene interpretación práctica.
3.5.2 Calculo de la varianza con datos agrupados:

 
Si tenemos los datos observados de una muestra de tamaño , resumidos en una tabla de
frecuencias, entonces la varianza de la muestra se calcula con la fórmula

𝑘
 

1
𝑘
2
∑ 𝑥2𝑖 𝑓 𝑖 −𝑛 𝑋´ 2
2 ´ 2 𝑖=1
𝑆 = 𝑥 ∑ ( 𝑥 − 𝑋 ) 𝑓 ⟺ 𝑆 =  
𝑛 − 1 𝑖=1 𝑖 𝑖 𝑥
𝑛 −1
Ejemplo 2

 Se ha tomado una muestra de 30 alumnos de la Escuela de Negocios y se les ha


preguntado por el número de asignaturas desaprobadas () en el semestre anterior. Los
datos recolectados se resumieron en la tabla 4.2 y con estos datos resumidos se requiere
calcular la varianza.
Tabla N° 4.2 Distribución de alumnos
según asignaturas desaprobadas

0 1 0 0
1 2 2 2
2 4 8 16
3 12 36 108
4 9 36 144
5 2 10 50
Total 30 92 320
Se calcula la media aritmética
6
 
∑ 𝑥𝑖 𝑓 𝑖 92
´ = 𝑖=1
𝑋 = =3,067
30 30

Luego, se calcula la varianza:

6
 
∑ 𝑥2
𝑖 𝑓 𝑖 − 𝑛 𝑋
´ 2

𝑆2
𝑥=
𝑖=1
=320 − 30 ¿ ¿
𝑛 −1

La varianza del número de cursos desaprobados resulta 1,3036 unidades cuadradas.


No tiene interpretación práctica.
Ejemplo 3

Con la finalidad de conocer la varianza de los gastos semanales (en soles) del personal
administrativo de una empresa de cemento en Lima, en el mes de enero del 2016, se
seleccionó una muestra de 30 personas. Los datos resumidos y los cálculos necesarios
se presentan en la siguiente tabla 4.3.

Tabla N° 4.3 Distribución de empleados según gasto semanal


Gasto
[200 ; 400) 300 0 0 0

[400 ; 600) 500 1 500 250 000

[600
[600 ;; 800)
800) 700
700 4
4 2
2 800
800 1
1 960
960 000
000

[800
[800 ;; 1000)
1000) 900
900 9
9 8
8 100
100 7
7 290
290 000
000

[1000
[1000 ;; 1200)
1200) 1
1 100
100 16
16 17
17 600
600 19
19 360
360 000
000

Total
Total -----
----- 30
30 29
29 000
000 28
28 860
860 000
000
Se calcula la media aritmética
5
 
∑ 𝑥𝑖 𝑓 𝑖
´ = 𝑖=1 29 000
𝑋 = = 966,667
30 30

Luego, se calcula la varianza


5
  2 2
∑ 𝑥𝑖 𝑓 𝑖 − 𝑛 ´
𝑥
𝑆 2𝑥 = 𝑖=1
=28 860 000 − 30 ¿ ¿
𝑛−1

La varianza del gasto del personal administrativo seleccionado resulta 28 505,08


soles al cuadrado. No tiene interpretación práctica.
3.5.3 Propiedades de la varianza

 
a) Para cualquier conjunto de datos la varianza es siempre una cantidad no negativa.

 
b) Si las observaciones tienen valores iguales, entonces la varianza es cero. Es decir, la
varianza de una constante es cero. Si , entonces

 
c) La varianza del producto de una constante por una variable, es igual al cuadrado de la
constante por la varianza de la variable. Es decir si , entonces:
 
d) La varianza de la suma de una variable más o menos una constante, es igual a la varianza de la
variable. Es decir si , entonces:

 
e) En general, la varianza cumple con la siguiente propiedad: si , entonces
 
3.6 Desviación estándar

El problema de la varianza es que no tiene interpretación práctica por sus unidades


cuadráticas. Si queremos que la medida de dispersión sea de la misma dimensión que
las observaciones bastará tomar su raíz cuadrada. Por ello se define la desviación
estándar, como la raíz cuadrada positiva de la varianza, es decir:

𝑛
 


2
´ )
∑ ( 𝑥𝑖 − 𝑋
𝑖=1
𝑆 𝑥= , para   datos   no  agrupado
𝑛 −1

  𝑘


2
´
∑ ( 𝑥𝑖 − 𝑋 ) 𝑓 𝑖
𝑖=1
𝑆 𝑥= , para   datos   agrupados
𝑛 −1
Ejemplo 4

En el ejemplo 3, se calculó la varianza de los gastos semanales (en soles) de una


muestra del personal administrativo de una empresa de cemento en Lima. En ese
caso la desviación estándar resulta

𝑆 𝑥 =√ 28 505,08=168,83
 

Interpretación:

Se puede decir que la cantidad típica en que los gastos semanales de los trabajadores
difieren del gasto semanal promedio es 168,83 soles.
3.6.1 Propiedades de la desviación
estándar
 
a) Para cualquier conjunto de datos la desviación estándar es siempre una cantidad no negativa.

 
b) Si las observaciones tienen valores iguales, entonces la desviación estándar es cero. Es decir, la
desviación estándar de una constante es cero. Si , entonces

 
c) La desviación estándar del producto de una constante por una variable, es igual a la constante por
la desviación estándar de la variable. Es decir, si , entonces
 
d) La desviación estándar de la suma de una variable más o menos una constante, es igual a la
desviación estándar de la variable. Es decir, si , entonces

 
e) En general, la desviación estándar cumple con lo siguiente: si , entonces

 
f) La desviación estándar tiene la propiedad de que en el intervalo se encuentra, al menos, el 75% de
las observaciones. Incluso si tenemos muchos datos y estos provienen de una distribución
simétrica, podremos llegar al 95% o más.
 
Ejemplo 5

 En un centro comercial de venta de partes de computadora, se seleccionó una muestra de


25 agentes de venta, a quienes se les preguntó cuánto habían ganado de comisiones () la
semana pasada. Los datos recolectados, en nuevos soles, son:

300 420 300 170 230 130 260 170 300 260 260 170 300

420 70 80 260 440 80 300 420 230 130 230 300

a) Si las comisiones de los agentes se incrementaron en 10% más una bonificación de


20 soles, calcule e interprete la desviación estándar.
 
b) ¿Qué porcentaje de datos se concentra en el intervalo
Solución:

a) La media aritmética de los datos es


25
 
∑ 𝑥𝑖 300+420+ …+230+300 6230
´ = 𝑖=1
𝑋 = = =249,20
𝑛 25 25

La varianza y desviación estándar de los datos es


5
  ∑ 𝑥2 ´ 2
𝑖 −𝑛 𝑋
𝑆2
𝑥=
𝑖= 1
=1830100 − 25 ¿ ¿
𝑛 −1

 
𝑆 𝑥 = √ 11566=107,55
 
Se define la variable , entonces se tiene
 
𝑌 =1,1 𝑋 + 20
𝑆  𝑦 =1,1 𝑆 𝑥 =1,1×107,55=118,31
Se puede decir que después del aumento, la cantidad típica en que las
comisiones difieren de la comisión promedio es 118,31 soles.

b) Con estos datos el intervalo es

( 𝑋´ −2 𝑆 𝑥 ; 𝑋´ +2𝑆 𝑥)=( 249,2−2×107,55;249,2+2×107,55 )=(34,1;464,3)


 

 
Por lo tanto, observamos que en este caso el 100% de los datos están en el intervalo , tal
como indica la propiedad f de la desviación estándar.
 
3.8 Coeficiente de variación

Es la medida relativa de variabilidad que se define como la relación entre la desviación


estándar y la media aritmética. Dicho concepto se utiliza para calcular el nivel de
desviación de una serie de datos respecto al valor promedio o media aritmética y está
dado por
  𝑆𝑥
𝐶𝑉 𝑥 = × 100
𝑋
´
El coeficiente de variación se expresa en porcentaje y se utiliza para:

 Medir el grado de variabilidad de un conjunto de datos.

 Comparar el grado de variabilidad entre dos o más distribuciones aun cuando las
unidades de medida de las variables están expresadas en diferentes unidades o
escalas de medición.
3.7.1 Interpretación del coeficiente de variación

Rango del Interpretación Nivel de variabilidad

0% < < 5% Datos muy homogéneos

Baja variabilidad
5 %≤ < 10% Datos homogéneos

10% ≤ < 15% Datos regularmente homogéneos

Moderada variabilidad
15% ≤ < 20% Datos regularmente heterogéneos

20% ≤ < 25% Datos heterogéneos


Alta variabilidad
≥ 25% Datos muy heterogéneos
Ejemplo 6

Con la finalidad de conocer la dispersión de los gastos semanales (en soles) del personal
administrativo de una empresa de cemento en Lima, en el mes de enero del 2016, se seleccionó
una muestra de 30 personas. Los datos resumidos y los cálculos correspondientes se
presentan en la tabla 4.4.

Tabla N° 4.4 Distribución de empleados según gasto semanal

Gasto
[200 ; 400) 300 0 0 0
[400 ; 600) 500 1 500 250 000
[600 ; 800) 700 4 2 800 196 000
[800 ; 1 000) 900 9 8 100 729 000

[1 000 ; 1 200) 1 100 16 17 600 1 936 000


Total ----- 30 29 000 28 860 000
La media aritmética de los datos es
 
 

La varianza y la desviación estándar son respectivamente


5
 
∑ 𝑥2
𝑖 𝑓 𝑖 − 𝑛 𝑋
´ 2

2 𝑖=1
𝑆 𝑥= = 28 860 000 − 30 ¿ ¿
𝑛 −1

 𝑆 𝑥 = √ 28 505,08=168,83
Luego, el coeficiente de variación es

  168,83
𝐶𝑉 𝑥 = × 100 =17,47 %
966,667

 
Como el está entre 15% y 20%, la variabilidad de los gastos semanales del personal
administrativo de la empresa de cemento es moderada, son gastos regularmente
heterogéneos.
Ejemplo 7

Con el propósito de comparar la homogeneidad de las utilidades mensuales (en nuevos


soles) de las pequeñas empresas frente a las grandes empresas del sector transporte, se
han seleccionado 2 muestras de este tipo de empresas, cuyos resultados se resumen a
continuación:

Tipo de empresa

Pequeña empresa 40 6 500 430

Gran empresa 25 68 700 14 500

El coeficiente de variación para las pequeñas empresas es


  430
𝐶𝑉 1= ×100=6,62 %
6500
El coeficiente de variación para las grandes empresas es

  14 500
𝐶𝑉 2= ×100=21,11 %
68 700
 
Como , se concluye que las pequeñas empresas generan utilidades más homogéneas entre
ellas (sólo 6,62% de variabilidad) en comparación con las grandes empresas (con 21,11%
de variabilidad).

También podría gustarte