01 Estadística Descritiva
01 Estadística Descritiva
01 Estadística Descritiva
De acuerdo con los valores que cada variable puede asumir, las escalas pueden
clasificarse en discontinuas o discretas y Continuas.
Las escalas Discretas o Discontinuas son aquellas en que la variable puede tomar un
número finito de valores y su característica básica es la igualdad entre sus unidades
contables. Las mediciones hechas con escalas discontinuas son siempre precisas, si se ha
empleado el procedimiento de cómputo adecuado.
Las escalas Continuas son aquellas en que la variable puede tomar infinitos valores
entre dos valores dados cualquiera, la medición de variables continuas es siempre
aproximada y la característica básica de estas escalas es la igualdad de las unidades de
medidas.
ESTADÍSTICA DESCRIPTIVA
La estadística es un campo del conocimiento que permite deducir y evaluar
conclusiones obtenidas a partir de datos observados. Cuando las conclusiones a cerca de una
determinada población se obtienen a partir de datos observados en una muestra, la estadística
recibe el nombre de Estadística Inferencial.
GLOSARIO
VARIABLE: Característica o fenómeno que puede tomar diferentes valores. Así, peso,
coeficiente intelectual y sexo son variables dado que pueden tomar distintos valores cuando
se observan diferentes individuos. Una variable se diferencia de una constante ya que el valor
de ésta nunca puede variar, por ej. π, e, etc.
DATOS: Números o medidas que han sido recopilados como resultados de observaciones.
Pueden ser recuentos tales como el número de individuos que prefieren al candidato A, o
pueden ser las calificaciones en un certamen.
PARÁMETRO: Cualquier característica de una población que sea medible, por ejemplo, el
% de votos que logrará el candidato A en las próximas elecciones parlamentarias.
MUESTRA: Un subconjunto de la Población o Universo, la muestra debe ser representativa
de la Población.
VARIABLE CONTINUA: Es aquella variable cuantitativa que puede tomar infinitos valores
entre dos valores distintos observables.
VARIABLE DISCRETA: Es aquella variable cuantitativa que puede tomar un número finito
de valores entre dos valores distintos observables.
VARIABLE DICOTOMICA: Es aquella variable que asume sólo dos resultados posibles,
pero toda variable se puede dicotomizar utilizando algún criterio razonable.
DISTRIBUCIONES DE FRECUENCIAS
La información estadística puede constar de un gran número de observaciones, y
mientras mayor sea su número más conveniente y necesario es presentarla en forma
resumida, lo cual puede omitir algunos detalles, pero mantiene la naturaleza general de la
información.
común seleccionar un numero arbitrario entre 5 y 20, dado que menos de 5 no informa sobre
la forma de distribución de los datos y más de 20 resultan gráficos demasiado extensos y
poco explicativos.
Al construir una distribución de este tipo se debe tratar que los intervalos tengan igual
amplitud para que los futuros gráficos tengan columnas de igual base y sea más fácil su
interpretación, también en lo posible tratar de no generar clases con frecuencia cero.
Tablas de frecuencias
Variable Clase LI LS MC FA FR
Edad 1 32.00 37.00 34.50 15 0.10
Edad 2 37.00 42.00 39.50 35 0.23
Edad 3 42.00 47.00 44.50 46 0.31
Edad 4 47.00 52.00 49.50 40 0.27
Edad 5 52.00 57.00 54.50 11 0.07
Edad 6 57.00 62.00 59.50 2 0.01
Edad 7 62.00 67.00 64.50 1 0.01
1.- Frecuencia Relativa: Es el cuociente entre la frecuencia Absoluta y el total de los casos
analizados. Son todos valores menores que 1 y su suma es la unidad. Se puede expresar en
%. Se designa por fr.
2.- Frecuencia Acumulada: Es la suma de las frecuencias Absolutas hasta un determinado
valor de la variable, se designa por Fi y se pueden obtener sumando de menor a mayor o
viceversa. Si las frecuencias que se acumulan son las frecuencias relativas se obtiene la
frecuencia Acumulada relativa que se designa por Fr.
Representación Gráfica
Consiste en representar los datos en forma de dibujo, de modo que se pueda percibir
los hechos esenciales de una distribución de frecuencia y compararlo con los de otra si fuera
necesario.
Los gráficos no deben considerarse como sustituto del tratamiento estadístico de los
datos, sino como una ayuda visual para la interpretación de ellos.
Tipos de gráficos
10
0
Hist Music Ingen
Ingen
25%
Music Hist
30% 45%
30
de cada clase se representa mediante el área del
20
rectángulo correspondiente y por lo tanto su altura
10
Polígono de Frecuencia:
Es la figura que resulta al unir los puntos correspondientes a las ordenadas en la
marca de clase para las distintas frecuencias de los intervalos. Si el polígono de frecuencias
POLIGONO DE FRECUENCIAS HISTOGRAMA DE FREC ACUMULADAS
50 158
Número de trabajadores
Número de trabajadores
40 126
30 95
20 63
10 32
0 0
30 34 38 43 47 52 56 61 65 70 27 32 37 42 47 52 57 62 67 72
Edad Edad
Gráfico de Cajas:
Este grafico se utiliza para mostrar la dispersión
Gráfico de Cajas
de los datos, además se muestra la media (por un punto) 70
50
existen diferentes criterios para ubicar estas barreras,
uno se basa en desviaciones estándar y otro en el rango
40
semi-intercuartilico, los puntos que se ubican fuera de
estas barreras se consideran datos atípicos y requieren 30
x
i 1
i
X =
N
b) Datos Agrupados: en este caso cada valor de la variable se representa con
frecuencias ; f1, f2, ...........fn y X está dado por :
n n
i 1
f i xi fx i i
i 1
X = n
=
f
N
i
i 1
Propiedades
a) Si x i = a + h x’i X = a + h X ’i
b) Si x i = x’i X = X ’i
n
c) La función y = f
i 1
i ( x i - x ) 2 es mínima cuando x = X
2.- Mediana ( Md )
Corresponde a aquel valor de la variable, tal que la mitad de los valores observados
son menores y la otra mitad son mayores que él.
Datos no Agrupados: La Mediana es el valor central de los datos ordenados si se tiene
un número impar de observaciones, y es el promedio de los dos valores centrales si el número
de observaciones es par.
Ejemplo : i ) 1 - 2 - 3 - 4 - 6 - 8 - 9 Md. = 4
10 12
ii ) 6 - 7 - 9 - 10 - 12 - 13 - 14 - 15 Md. = = 11
2
Características de la X :
1) El valor de la media aritmética se basa en todas las observaciones, por lo que
está afectada por todos los valores de la variable.
Esto puede resultar que en ciertas ocasiones se les dé demasiada influencia a
algunos valores extremos.
2) La media aritmética puede ser calculada si se conocen los valores individuales
de la variable, o si se conoce el valor total y el número de casos, o si se dispone de una
distribución de frecuencias que permita estimar una buena aproximación del valor promedio
de los casos contenidos en cada clase.
3) La media aritmética se presta a manipulaciones algebraicas posteriores.
Características de la Md.:
1) Es afectada por la posición de cada caso de la serie, pero no por los valores
de los casos. Esto implica que si ocurren desviaciones extremas respecto al centro de la
distribución, la mediana será menos afectada que la X .
2) La Md. no se presta a manipulaciones algebraicas en una forma tan
satisfactoria como lo hace la X .
Características de la Mo.:
1) El valor del modo se determina por los casos en el punto de mayor
concentración y no es afectado por los demás valores de la variable.
2) El Mo. verdadero es difícil de calcular, aunque es fácil obtener un valor
aproximado.
3) El Mo no se presta a manipulaciones algebraicas posteriores.
Medidas de Orden
Son medidas que dividen a la distribución en un cierto número de partes iguales, los
mas usados son los Cuartiles, Deciles, Percentiles.
Cuartiles:
Dividen a la distribución en 4 partes, se designan por Q1, Q2, Q3.
Q1 = Es un valor tal que un cuarto de los valores observados son menores y los ¾
restantes son mayores que él.
Q2 = Md.
Q3 = Es el valor que ¾ de los valores observados por debajo y un cuarto por
encima de él.
Deciles :
Dividen a la distribución en 10 partes iguales, se designan por D1, D2, .......D9.
D6 =Es un valor tal que 6/10 de los valores observados son menores y los 4/10
restantes son mayores que él.
Obs. D5 = Q2 = Md.
Percentiles:
Dividen a la distribución en 100 partes iguales y se designan por P1, P2,............P99.
P37 = Es el valor de la variable tal que 37/100 de los valores observados son
menores y los 63/100 restantes son mayores que él.
Obs. -) P 50 = D 5 = Q 2 = Md.
-) P 40 = D4
Medidas de Dispersión
Son aquellas que resumen la forma en que los valores observados se desvían
respecto de una medida de tendencia central considerada.
X
i 1
i X
a) Datos no Agrupados M.D. =
N
N N
f i 1
i Xi X f i Xi X
i 1
b) Datos agrupados M.D. = N
=
f
N
i
i 1
N n
( xi ) 2 (x i x) 2
a) Datos no Agrupados σ= i 1
S = i 1
N n 1
N n
f i ( xi ) 2
f i ( xi x ) 2
b) Datos agrupados σ= i 1
S= i 1
N n 1
Varianza ( S2 )
Corresponde al cuadrado de la desviación estándar.
Medidas de Forma
Son aquellas que resumen la forma en que los valores observados se distribuyen, El
coeficiente de Asimetría permite medir la asimetría de los datos respecto de su media, la
asimetría puede ser a izquierda o a derecha y el coeficiente de Curtosis mide la altura del
histograma comparado con una distribución normal, el resultado puede indicar que la
distribución es leptocurtica, mesocurtica o platicurtica.
0.33
0
frecuencia relativa
0.25
0
0.17
0
0.08
0 0.00
10 20 30 40 50 60 70
0 B
0 10 20 30 40 50 60 70
Histograma-B
Histograma-A
Medidas resumen
46 datos y su Q Q Plot
distribución. El 70
38 n= 150 r= 0.992 (Edad)
Cuantiles observados(Edad)
gráfico
58
30
Denominado Q-
45
Q Plot, muestra
los cuantiles normales y versus los cuantiles 33
distribución normal.