Clase4 Unidad 1 y 2

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 23

Estadística I

Prof. Patricia Caro


Unidad 1
EL MÉTODO ESTADÍSTICO. ORGANIZACIÓN Y
PRESENTACIÓN DE DATOS

Unidad 2
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión
Recordemos:
Una medida de dispersión es un número que
nos indica el grado de concentración de un
conjunto de datos. Si el resultado es pequeño,
entonces los valores son homogéneos o existe
poca dispersión.

Llevando esto a un extremo, piense……


¿en qué caso la dispersión sería cero?
Medidas de dispersión

- Rango o Recorrido
- Recorrido intercuartil
- Varianza
- Desviación estándar
- Coeficiente de variación
Rango o recorrido

El rango (R) es la diferencia entre el valor máximo


y mínimo que asume la variable en estudio.
Su fórmula de cálculo es: R = xmax - xmin
Ejemplo: se tienen los datos sobre las cotizaciones de dos acciones en
la bolsa para la última semana:
Acción A 8,0 8,0 8,4 8,5 8,6 8,8 9,0 10,0
Acción B 8,0 9,3 9,5 10,2 10,9 11,5 13,4 14,0

RA = 10 - 8 = 2 Las cotizaciones de la acción A


presentan menos variabilidad
RB = 14 - 8 = 6 que las de la acción B.
Características del Rango

 Es fácil de calcular.
 Está basado únicamente en el valor más bajo y
más alto de un grupo de datos.
 Al no considerar todos los valores de la variable
es afectado por los valores extremos y puede no
ser una medida adecuada de dispersión.
 Es útil cuando se trabaja con pocos datos.
Recorrido intercuartil

El recorrido intercuartil (IQR o RI), se calcula


como la diferencia entre el tercer cuartil y el
primero y refleja la variación que existe en el 50 %
central de los datos.

Su fórmula de cálculo es: RI = Q3 - Q1

Para los datos de los días de licencia por enfermedad:

Q1 = 0
Q3 = 5
RI = 5 - 0 = 5
Características del
Recorrido Intercuartil

 No está afectado por los valores extremos.

 Al igual que el recorrido total de la variable, es


una medida limitada, en cuanto a que no
considera la totalidad de los datos, pero nos
permite tener una primera aproximación de la
variabilidad en el centro de la distribución.
Varianza
Si queremos medir la variabilidad de los datos
respecto de la media aritmética, utilizaremos la
varianza como medida de dispersión.
La varianza, V(x), es el promedio de la variable
desvío al cuadrado, definiendo el desvío respecto
de la media aritmética.

 Su fórmula de cálculo es, para una serie simple:

Parámetro

Estimador
Varianza

 En el caso de datos discretos organizados en una tabla


de distribución de frecuencias:

σ𝑘 ҧ 2 .𝑛𝑖
𝑖=1(𝑥𝑖 −𝑥) Donde k: cantidad de valores
𝑆 =
2
distintos que asume la variable
𝑛−1

 En el caso de datos continuos organizados en una tabla


de distribución de frecuencias:
Donde k: cantidad de intervalos
σ𝑘 ´
ҧ 2 .𝑛𝑖
𝑖=1(𝑥𝑖 −𝑥) de clase y x’i es el punto medio o
𝑆2= marca de clase
𝑛−1
Otra fórmula de cálculo de la Varianza

 Para facilitar el cálculo, se utiliza también una fórmula


que se obtiene a partir de la definición de varianza.

2
V ( x) = M ( x 2 ) - [M ( x) ]
Propiedades de la Varianza

1) La varianza de una variable es siempre no negativa

Esto se debe a que en su fórmula de cálculo se toman los valores de la


variable elevados al cuadrado.
Propiedades de la Varianza
2) La varianza de una constante es igual a cero

Por ejemplo:
x1= 5 x2= 5 x3= 5

Demuestre numéricamente que la varianza de estos datos es cero


Propiedades de la Varianza
3) La varianza de una constante por una variable es igual
al cuadrado de la constante por la varianza de la variable
2 donde c es una constante
V (c.x) = c .V ( x)
Propiedades de la Varianza
4) La varianza
de una
constante más
donde c es una constante
(o menos) una
variable es a
la varianza de
la variable.

V ( x ± c) = V ( x)
Propiedades de la Varianza
5) La varianza de una suma (o diferencia) de variables es
igual a la suma de las varianzas de las variables siempre
y cuando ambas sean independientes.

V ( x ± y ) = V ( x) + V ( y )

¿Qué sucede si ambas variables no son independientes?


Esta propiedad no se cumple, cuestión que será analizada
y demostrada más adelante cuando trabajemos con
distribuciones bidimensionales.
Desviación estándar

La desviación estándar, DE(X), se define


como la raíz cuadrada positiva de la varianza

𝐷𝐸 𝑥 = 𝑉 𝑥

Debido a que la varianza está expresada en unidades


al cuadrado, por su definición, la desviación estándar
nos permite eliminar el efecto del cuadrado.
De esta manera es la desviación estándar la que esta
expresada en las unidades originales de medida.
Características de la
desviación estándar

 Tiene en cuenta todos los datos y se calcula con


respecto a la media aritmética.
 Las propiedades no se aplican sobre la DE(x) sino
sobre la V(x).
 No puede ser negativa.
 Cuanto más dispersos están los datos, mayor es el
valor de la DE(x).
 Cuanto más homogéneos son los datos, menor es el
valor de DE(x).
Varianza y desviación estándar
 Ejemplo 2
x= número de veces que concurrió al negocio en el último mes

x ni X2ini
x= 4
1 3 3 492 −25.4 2
2 4 16 𝑆2= = 3,83
3 3 27 24
4 5 80
5 3 75 𝑆 = 3,83=1,96
6 4 144
7 3 147
Total 25 492 Los valores de la variable difieren por encima
y por debajo de la media, en promedio, en
1,96 veces.
Coeficiente de variación
La DE(x) es una medida apropiada para extraer conclusiones
sobre la dispersión de un solo conjunto de datos pero si se
quieren comparar dos o más conjuntos, sólo es posible cuando
tienen las mismas unidades de medida y la misma media. Si
esto no ocurre, podemos arribar a conclusiones equivocadas.
Para solucionar este inconveniente se aplica el coeficiente de
variación.

El coeficiente de variación, CV(x), es una


medida relativa de dispersión que se calcula como
el cociente entre la desviación estándar y la media

𝐷𝐸(𝑥)
𝐶𝑉 𝑥 =
𝑀(𝑥)
Características del
coeficiente de variación

 Se puede expresar en porcentajes e indica cuál es


el porcentaje de dispersión que existe entre los
datos y la media.
 No está expresado en la unidad de medida de los
datos.
 Sirve para comparar la variabilidad de
distribuciones expresadas en distintas unidades de
medida o que, estando expresadas en la misma
unidad de medida, tienen diferente media.
 Puede asumir valores entre 0 e infinito.
Coeficiente de variación

 Ejemplo: se tienen los siguientes datos referidos a


los sueldos de los empleados de una empresa

Sección Salario promedio Desviación


estándar
Producción $650 $100
Ventas $2500 $200

Si analizáramos las desviaciones estándar concluiríamos que los


salarios de los empleados de Producción tienen una menor
dispersión que los de Ventas. Sin embargo, como las medias son
diferentes resulta conveniente calcular el CV (x).
Coeficiente de variación

100
CV ( x producción ) = = 0,1538 = 15,38%
650
200
CV ( xventas ) = = 0, 08 = 8%
2500

Los salarios de los empleados de Producción presentan


una dispersión del 15,38 % respecto del promedio,
mientras que los salarios de Ventas tienen una variación
relativa del 8%. En este último grupo los salarios son
más homogéneos y, en consecuencia, la media es
más representativa como medida de posición.
Integrando….
En una empresa se analizan las variables “inasistencia por
enfermedad en el último año (en días)” y “antigüedad en el empleo
(en años)” de sus 74 empleados. Y se nos brinda la siguiente
información:

Inasistencia Antigüedad a) ¿Cuál de las variables


Media aritmética 5,8 10,3 consideradas presenta menor
variabilidad?
Matriz de Covarianza
a) La empresa está evaluando un programa
Inasistencia Antigüedad social para mejorar las condiciones de
trabajo de sus empleados, con lo cual se
Inasistencia 9,06 7,52 prevé mejorar la inasistencia
disminuyéndola en dos días. ¿Este cambio
Antigüedad 7,52 8,12 influye en la variabilidad relativa de la
variable inasistencias en la empresa?

También podría gustarte