Estadistica Descriptiva
Estadistica Descriptiva
Estadistica Descriptiva
Dar una visión más clara acerca de la información proveniente de diversas fuentes.
Como una de las tareas de la Estadı́stica es el estudio de fenómenos aleatorios, esto hace muy
pertinente el tratar de explicar la manera como se comportan (Variabilidad).
Entre otras cosas la Estadı́stica se ocupa del manejo de la información que pueda ser cuantificada.
Implica esto la descripción de conjuntos de datos y la inferencia a partir de la información recolectada
de un fenómeno de interés. La función principal de la estadı́stica abarca:
Delimitar con precisión la población de referencia o el conjunto de datos en estudio, las unidades
que deben ser observadas, las caracterı́sticas o variables que serán medidas u observadas.
Depuración de la información.
2
Algunos tópicos fundamentales de la Estadı́stica se presentan brevemente, los cuales se usan frecuen-
temente en investigación. Durante el transcurso del curso se estudiarán algunos de ellos.
Inferencia estadı́stica. Permite evaluar la información de manera que se puedan obtener con-
clusiones generales del fenómeno bajo estudio.
Elementos de regresión. Sirven para explorar la posible relación entre variables de respuesta y
variables explicativas.
Un investigador está interesado en determinar el caudal promedio de un rı́o; para esto decide
medir y registar tal caudal durante 30 dı́as.
2. Cada uno de ellos tiene un factor de incertidumbre, pues en el momento de realizar cualquiera
de ellos el investigador no sabe que resultado va a obtener.
3. Cada uno de ellos tiene un factor de variabilidad ya que en repeticiones sucesivas del experi-
mento se pueden presentar resultados diferentes.
De los tres experimentos se puede observar que el primero de ellos (el de la medición de caudales)
genera datos que son producto de mediciones. El segundo de ellos (el de la ley de impuestos) genera
datos que representan categorı́as de respuesta y el tercero (el de la lı́nea de producción) genera datos
que son producto de conteos. Con lo anterior, podemos ahora dar algunas definiciones.
Variable. Es una caracterı́stica que varı́a de un objeto o individuo a otro (por ejemplo la estatura,
la dureza o el tiempo de duración de un componente) o en el mismo individuo (por ejemplo, la
presión sanguı́nea). En estadı́stica, los tipos más comunes de variables son Continuas, Discretas y
Categóricas.
Variables continuas. Son aquellas que provienen de procesos que involucran mediciones. Por
ejemplo las estaturas de los estudiantes de primer año en una universidad.
Variables discretas. Son aquellas que provienen de procesos que involucran conteos. Por
ejemplo el número de vehı́culos que llegan a un semáforo en un intervalo de tiempo.
Variables categóricas. Son aquellas que provienen de procesos que involucran clasifiaciones.
Por ejemplo la variable sexo o estrato socio-económico.
1. Nominal. Este nivel se utiliza cuando los valores en los que se mide la variable son códigos
que representan la pertenencia a una categorı́a. Por ejemplo, en un estudio de una cierta
enfermedad, el 1 puede representar su presencia y el 0 su ausencia. Otro ejemplo puede ser
estado civil, 1=Casado, 2=Soltero, 3=Unión libre. Observe que no se puede decir que 3 ¿2. Las
variables de tipo nominal no admiten medidas básicas de resumen.
2. Ordinal. Se usa cuando los valores de una variable informan acerca de un orden o jerarquı́a.
Por ejemplo, se pueden usar los valores 1, 2 y 3 para representar distintas quemaduras, es decir,
1=leve, 2=severa, 3=muy severa. Con este tipo de variables ya tiene sentido establecer una
relación de orden y afirmar que 3 > 2 > 1.
3. Intervalo. Se usa para mediciones de naturaleza cuantitativa que se hacen con escalas que
tienen como base un valor de cero arbitrario. Por ejemplo un registro de 0 ± C no indica la
ausencia de temperatura.
4. Razón. Se usa para mediciones de naturaleza cuantitativa que se hacen con escalas que tienen
como base un valor de cero absoluto. Por ejemplo, longitud del brazo, estatura, tiempo de
duración, número de artı́culos defectuosos en una linea de producción, presión sanguı́nea.
Conceptos básicos
Un aspecto importante en Estadı́stica está relacionado con a manera como la información es pre-
sentada y analizada. De este análisis previo pueden desprenderse diferentes formas de abordar la
solución a determinada pregunta de investigación. Una primera parte consiste en realizar un adecua-
do resumen de la información disponible y presentarla en términos de algunas medidas puntuales o
de gráficos.
b) Escoja un número de sub-intervalos o clases de igual longitud, de manera que cubran el rango
de los datos, sin traslaparse (aunque es posible construir clases o intervalos de longitudes
variables). Estos intervalos son llamados Intervalos de Clase.
c) Cuente cuantas observaciones están en cada sub-intervalo. Este conteo es llamado Frecuencia
de Clase.
Frecuencia de clase
FR = .
Número total de observaciones
La elección del número de clases o intervalos, constituye un proceso de ensayo y error. Algunas
propuestas empı́ricas se han planteado, buscando una selección más o menos adecuada del número
de clases. No se puede establecer que una es superior a otra, sólo pueden utilizarse como puntos de
referencia.
En general, se sugiere que entre 5 y 25 clases es un número adecuado para agrupar los datos. Sin
embargo, debe tenerse especial cuidado en esta selección. Es importante anotar que al agrupar los
6
datos en clases, se sacrifica la información relacionada con cómo se distribuyen los datos en cada
clase, y se reemplaza por la frecuencia en dicha clase. Si se tienen pocas clases, la pérdida de infor-
mación es muy grande. Si se tienen pocos datos y muchas clases, no se evidenciará ningún tipo de
comportamiento de interés en los datos.
Cuando se tiene un número considerable de datos, es importante establecer algún tipo de técnica
para identificar datos en cada clase (una puede ser organizando los datos de menor a mayor). Los
avances computacionales han permitido obviar este aspecto.
Ejemplo
Se tiene información de un grupo de estudiantes de un curso de primer semestre, donde se registraron,
para cada sujeto, la Estatura(en cms), Masa(en Kg), Edad (en años), Estrato socio-económico, Horas
dedicadas semanalmente a estudiar (sin incluir horas de clase), Gasto semanal(en pesos), Género
(HOMBRE o MUJER), Tipo de colegio del cual se graduó. Los datos se muestran a continuación:
ESTATURA MASA EDAD ESTRATO HORAS GASTO GENERO TIP_COLE ESTATURA MASA EDAD ESTRATO HORAS GASTO GENERO TIP_COLE
148 65 24 1 20 20000 MUJER PUBLICO 169 62 17 2 5 8000 HOMBRE PUBLICO
154 49 22 3 40 25000 MUJER PUBLICO 170 53 26 3 12 30000 MUJER PUBLICO
157 63 18 4 15 24000 HOMBRE PRIVADO 170 58 18 2 20 50000 HOMBRE PUBLICO
158 57 18 4 30 50000 MUJER PRIVADO 170 69 24 4 32 70000 HOMBRE PUBLICO
158 67 17 3 10 17000 MUJER PRIVADO 170 86 28 1 20 10000 HOMBRE PUBLICO
159 51 20 2 15 10000 MUJER PUBLICO 171 95 25 3 30 20000 HOMBRE PUBLICO
160 53 17 3 20 70000 MUJER PRIVADO 172 56 17 2 28 70000 HOMBRE PUBLICO
160 50 18 1 16 10000 MUJER PUBLICO 172 65 20 2 12 40000 HOMBRE PUBLICO
160 54 18 3 10 40000 MUJER PRIVADO 172 58 17 4 20 25000 HOMBRE PRIVADO
161 54 21 2 8 36000 MUJER PUBLICO 172 63 19 2 18 25000 HOMBRE PUBLICO
162 56 21 2 38 50000 MUJER PUBLICO 172 90 24 3 16 50000 HOMBRE PUBLICO
162 67 18 2 21 40000 MUJER PUBLICO 173 66 21 3 14 25000 HOMBRE PRIVADO
162 48 21 3 19 50000 HOMBRE PRIVADO 174 81 27 3 8 40000 HOMBRE PRIVADO
162 44 21 2 7 50000 MUJER PUBLICO 175 82 19 4 10 70000 HOMBRE PUBLICO
163 55 17 2 25 48000 HOMBRE PUBLICO 177 58 18 4 24 12500 HOMBRE PUBLICO
164 55 20 2 25 40000 HOMBRE PUBLICO 178 95 19 4 15 50000 HOMBRE PRIVADO
164 54 17 3 15 20000 MUJER PUBLICO 180 79 19 2 8 50000 HOMBRE PRIVADO
164 54 17 2 18 54000 HOMBRE PUBLICO 180 85 22 3 48 60000 HOMBRE PUBLICO
165 56 19 3 10 75000 MUJER PUBLICO 181 71 18 4 16 23000 HOMBRE PRIVADO
165 52 17 2 12 30000 MUJER PUBLICO 181 64 17 3 20 40000 HOMBRE PUBLICO
165 58 33 2 20 40000 HOMBRE PRIVADO 182 70 20 3 14 40000 HOMBRE PRIVADO
166 52 17 3 20 50000 MUJER PRIVADO 182 86 22 3 15 30000 HOMBRE PRIVADO
168 64 17 3 40 20000 HOMBRE PRIVADO
Para la variable Sexo. Se elabora una tabla de frecuencias, indicando el número de hombres y mujeres
y el porcentaje que representa cada categorı́a.
GENERO Frecuencia Porcentaje
_______________________________
HOMBRE 28 62.22
MUJER 17 37.78
Para la variable Edad. Observe que esta variable aparece en una escala de razón, pero con valores
enteros. Sin agrupar la información se tienen los siguientes gráficos en SAS y R:
7
Otra manera de visualizar estos datos es agrupando en clases o intervalos disjuntos. Se porponen
varias formas de agrupar los valores de esta variable.
1. Se agrupa la información por rangos (7 clases).
(16.6, 19], (19, 21.4], (21.4, 23.8], (23.8, 26.2], (26.2, 28.6], (28.6, 31], (31, 33.4] .
El gráfico resultante se conoce como Histograma de Frecuencias. Este se ilustra en la figura 4. Los
valores en medio de cada barra son los puntos medios de cada intervalo de clase o Marcas de Clase.
9
Cuando solo se desea tener una idea gráfica del comportamiento de una variable, a veces no es tan
necesario intervenir tanto en la construcción de un histograma. La mayorı́a de software estadı́stico,
tienen reglas muy similares para la elección del número de clases o intervalos. Usando el paquete R
se muestra un diagrama de barras para la variable Estrato e histogramas para las variables Estatura,
Masa y Gasto.
Dichos gráficos se muestran en la figura 5.
Aunque no es una regla general una tabla de frecuencias deberia poseer las siguientes caracteristicas:
1. UNIFORMIDAD: Clases de igual amplitud o de amplitud variable que dependen del tipo de
datos.
Los diagramas de caja y bigotes son herramientas gráficas muy útiles para describir caracterı́sticas
importantes en un conjunto de datos, como son centro, simetrı́a o asimetrı́a, valores atı́picos(raros),
etc. La construcción de este diagrama emplea medidas descriptivas que son poco sensibles a datos
extremos y por lo tanto presentan una descripción más clara de la información. Básicamente em-
pleamos para su construcción los tres cuarteles, los valores mı́nimos y máximos y la media Muestral
solo como medida de localización en el gráfico. Una observación se dice Atı́pica o Inusual si está a
más de 1.5 veces el rango intercualtil de alguno de los cuarteles Q1 o Q3. Una observación se dice
Atı́pica Extrema si está a más de 3 veces el rango Intercuartil de alguno de los cuartiles Q1 o Q3. El
diagrama está conformado por una caja la cual se construye con ayuda del primer y tercer cuartil. La
mediana es dibujada en el interior de la caja al igual que la media muestral. Los bigotes se extienden
desde los cuartiles a la derecha y a la izquierda. Su longitud depende de si hay o no datos atı́picos.
En la figura 6, se muestran dos tipos de boxplot.
11
Los Box-plot, para las variables Estatura, Masa, Edad y Gasto, se muestran en la figura 7.
Este conjunto de datos por si solo no muestra ninguna faceta interesante. A simple vista se puede
apreciar un valor mı́nimo y un valor máximo y que hay algunos valores que se repiten. Por lo tanto es
supremamente difı́cil tratar de determinar alguna caracterı́stica de interés de la población de la cual
provienen; si el número de datos aumenta es todavı́a más difı́cil detectar caracterı́sticas importantes.
Existen técnicas estadı́sticas que permiten extraer información que puede resultar de algún modo
importante para tomar decisiones en un determinado momento.
Hay dos maneras de analizar estos datos:
1. Datos agrupados: Consiste básicamente en la conformación de clases de una cierta longitud
donde la pertenencia de un dato a cada clase estará determinada por su valor. Con esta técnica
es posible experimentar perdida de información.
2. Datos sin agrupar: Consiste en manipular los datos tal y como fueron recopilados.
Como ejemplo, considere los datos de las Estaturas de los estudiantes del curso de primer semestre.
Con base en la tabla de frecuencias se tiene que:
7
P
mi fi
i=1
X Agrup =
n
(152.5 × 1) + (157.5 × 3) + (162.5 × 6) + (167.5 × 10) + (172.5 × 11) + (177.5 × 12) + (182.5 × 5)
=
48
= 171.15 .
(p − a) × h
xp = L + ,
f
donde:
14
n: Número de datos.
Para identificar la clase del percentil se identifica cual clase tiene una frecuencia relativa acumulada
igual o superior a p.
Ejemplo
Usando los datos de estaturas calcule el P50 .
Se observa que en la columna de frecuencias relativas acumuladas el intervalo de clase donde esta
frecuencia supera a 0.5 es el quinto intervalo, donde la frecuencia acumulada es 0.6458, la cual
excede a 0.5. Por lo tanto la clase del percentil será (170, 175]. Usando este intervalo se tiene que:
L = 170, n = 40, f = 0.2292, a = 0.4166, p = 0.5, h = 5 . Ası́:
(0.5 − 0.4166) × 5
P50 = 170 + = 171.82 .
0.2292
El 50 % de los estudiantes del curso tienen estaturas inferiores o iguales a 171.8 cms.
Los percentiles P25 , P50 y P75 , dividen los datos en cuatro partes porcentualmente iguales. Estos
percentiles son llamados Cuartiles y se denotan Q1 , Q2 y Q3 , respectivamente.
La mediana
Corresponde al percentil 50. Es usualmente denotada X̃. Su cálculo se realiza con el mismo procedi-
miento utilizado en la obtención de los percentiles.
15
Medidas de dispersión
Estas medidas permiten cuantificar numéricamente, que tan dispersos se encuentran los datos ya
sea con respecto a la media o con respecto a las unidades de medición. Entre las más comunes se
encuentran:
Rango intercuartil
Es la diferencia entre el percentil 75 y el percentil 25. Valores grandes quiere decir que el 50 % de los
datos más centrales se encuentran muy dispersos.
Donde Q1 = P25 se denomina Primer cuartil y Q3 = P75 se denomina Tercer cuartil. El nombre
de cuartil proviene del hecho de que la unidad se divide en cuatro partes iguales y el de percentil
proviene del hecho de que la unidad se divide en cien partes iguales.
2
Para los datos de estaturas se tiene: Sagrup = 54, 937 , los percentiles 25 y 75 son P 25 = 166,
P 75 = 177.08. El rango intercuartil es QRANGE = 177.08 − 166 = 11.08 .
Para el cálculo de estas medidas se consideran todos y cada uno de los datos, por lo cual la perdida de
información contenida en la muestra se reduce. También se dividen en dos: Medidas de localización
y Medidas de dispersión. En las medidas de localización se circunscriben las medidas de tendencia
central.
16
Media muestral
Se define como la suma de todos los elementos de la muestra dividido por el tamaño de la muestra.
Cuando la distribución de la cual provienen los datos es simétrica y no hay presencia de valores extre-
mos, la media muestral es un buen representante del conjunto de datos. La media no necesariamente
es un valor del conjunto de observaciones. Se denota con el sı́mbolo X. Se calcula con la siguiente
fórmula, Pn
Xi
X = i=1 , i = 1, 2, · · · , n
n
La media representa el punto de equilibrio de los datos.
Ejemplo
(La media es sensible a valores extremos). Considere los ingresos mensuales en pesos de 8 empleados
públicos:
500000, 750000, 600000, 550000, 700000, 550000, 550000, 600000.
Calcule el ingreso mensual medio.
Solución
Ejemplo
Se registra el número de tasas de café consumidas por un empleado de oficina en un perı́odo de 20
dias:
4 5 3 6 7 1 2 3 0 5 6 5 8 4 0 2 3 7 5 6
Ejemplo
Se registran las edades de 15 personas en un grupo. Estas son:
18, 20, 19, 19, 21, 22, 20, 23, 21, 24, 19, 20, 22, 21, 24 (en años). Calcule la edad promedio de las 15 per-
sonas.
Solución
La edad promedio de este grupo es : X̄ = 313 15
= 20.86 ≈ 20.9 . Si resumimos esta información en una
tabla de frecuencia
Edad 18 19 20 21 22 23 24
frecuencia 1 3 3 3 2 1 2
En el ejemplo anterior, suponga que otra persona adicional tiene una edad de 35 años. El cálculo de
la edad promedio es: X̄ = 313+35
16
= 348
16
= 21.8 .
313+45
Si la edad adiccional fuera 45 años, entonces X̄ = 16
= 22.4 .
313+55
Si la edad fuera 55 años, entonces X̄ = 16
= 23 .
Ejemplo
Considere los siguientes datos ordenados de menor a mayor:
500, 550, 550, 600, 700, 750, 750, 800, 900, 950 . Para esta muestra calcule la moda.
Solución
Se puede observar que el conjunto de datos tiene dos modas que son respectivamente: 550 y 750.
Ejemplo
Considere los ingresos mensuales en dolares de 8 empleados públicos, 500, 750, 600, 550, 700, 2000,
550, 550. La muestra ordenada es 500, 550, 550, 550, 600, 700, 750, 2000. Calcule la mediana.
19
Solución
Como n es par
X( n ) + X( n +1) X(4) + X(5) 550 + 600
2 2
X̃ = = = = 575 .
2 2 2
Este valor de la mediana es una medida más representativa que X. El 50 % de los ingresos de los
empleados son inferiores o iguales a 575 dólares.
Ejemplo
Considere los siguientes datos ordenados de menor a mayor:
500, 550, 550, 600, 700, 750, 750, 800, 900, 950 . Halle el percentil 76 usando el método expuesto arriba.
Solución
La muestra ya esta ordenada, entonces usando el método anterior n (0.76) = 7.6 por lo tanto,
P76 = X(8) = 800 . El 76 % de los empleados tienen ingresos inferiores o iguales a 800 dólares.
18 19 19 19 20 20 20 21 21 21 22 22 23 24 24
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 ,
X(8) + X(9)
Se encuesta a otra persona y su edad resulta ser 30 años, la mediana en este caso es X̃ = 2
=
21 + 21
2
= 21 .
Al igual que para datos agrupados, se pueden calcular los Cuartiles Q1 , Q2 , Q3 y los percentiles.
Ejemplo
Para los datos de edades, calcule el primer cuartil y el percentil 60.
Solución
El primer cuartil es el percentil 25. Ahora 0.25 (15) = 3.75 . El primer cuartil Q1 , debe dejar al
20
menos 4 valores en ó por debajo de el y 12 valores en ó por encima de el. Ası́ Q1 = X(4) = 19 . El
25 % de las personas tienen edades inferiores o iguales a 19 años.
El percentil 60 . (0.6) (15) = 9 . Al menos 9 valores en ó por debajo de él y 6 valores en ó por encima
X +X
de él. En este caso dicho percentil corresponderı́a a P 60 = (9) 2 (10) = 21 . El 60 % de las personas
tienen edades inferiores o iguales a 21 años.
Medidas de dispersión
La varianza
La varianza muestral mide que tanto se alejan los datos de la media. Valores grandes de la varianza
indican una gran dispersión. Se denota por S 2 . Se calcula con la siguiente fórmula,
Pn 2
2 i=1 Xi − X
S = .
n−1
Interpretar la varianza puede resultar un poco complicado ya que esta expresada en unidades cuadra-
das; por ejemplo, la varianza podrı́a estar en minutos cuadrados o en kilogramos cuadrados. Por esta
razón se acostumbra reportar la raı́z cuadrada de la varianza, que recibe el nombre de Desviación
estándar. Si por ejemplo un investigador toma mediciones de temperatura en una región durante
cierto tiempo y al final reporta: ‘Se observó una temperatura promedio de 28o C con una desviación
estándar de 1o C ’quiere decir que algunas veces la temperatura puede bajar hasta 27o C y algunas
veces puede subir hasta 29o C.
Ejemplo
Para los datos de las edades, se tiene que:
(Xi − 20.9)2
P
2
S = 15 − 1
= 3.4095 ≈ 3.41 y S = 1.8466 ≈ 1.85
Lo cual significa que la desviación promedio en cuanto a la media es de 1.85 años. En otras palabras,
la mayorı́a de los estudiantes del curso tienen edades entre 19 y 23 años.
El rango intercuartil
Esta medida es la diferencia entre el percentil 75 y el 25. Mide que tan disperso está el 50 % de los
datos más centrales. Se calcula ası́
Coeficiente de variación
El coeficiente de variación que se define como : C.V = XS .
Es una fracción de la media muestral. Se usa para comparar la variabilidad de dos o más conjuntos
de datos.
Ejemplo
Considere las siguientes medidas que se tomaron a dos poblaciones, una de hombres de 25 años y
otra de niños de 11 años. Tales medidas son,
X adultos = 66 kgs
Sadultos = 4.5 kgs
X niños = 36 kgs
Sniños = 4.5 kgs
Calcule el coeficiente de variación para los adultos y para los niños. Con los datos anteriores se puede
observar que
4.5
C.Vadultos = = 0.0682
66
4.5
C.Vniños = = 0.125
36
Se puede concluir que los pesos de los niños son más variables que los de los adultos.