Estadistica Descriptiva

1
Breve Repaso de Estadı́stica Descriptiva.

René Iral Palomino.
¿Por qué estudiar Estadı́stica?
El estudio de la Estadı́stica permite, entre muchas cosas más:
Aprender las reglas y métodos usados en el tratamiento de información.
Evaluar y cuantificar la importancia de los resultados estadı́sticos obtenidos.
Entender mejor algunos fenómenos de interés (Sociales, Económicos, Biológicos, Educacionales,

etc.)
Dar una visión más clara acerca de la información proveniente de diversas fuentes.
Algunos aspectos estadı́sticos manejados en la información obtenida de la radio, la televisión u otro

medio, influencian fuertemente a gran cantidad de personas pero a veces no proporcionan una des-
cripción cabal de lo que pretenden mostrar.
Como una de las tareas de la Estadı́stica es el estudio de fenómenos aleatorios, esto hace muy
pertinente el tratar de explicar la manera como se comportan (Variabilidad).
Entre otras cosas la Estadı́stica se ocupa del manejo de la información que pueda ser cuantificada.
Implica esto la descripción de conjuntos de datos y la inferencia a partir de la información recolectada
de un fenómeno de interés. La función principal de la estadı́stica abarca:
Resumir Simplificar Comparar Relacionar Proyectar.
Entre las tareas que debe enfrentar un estudio estadı́stico están:
Delimitar con precisión la población de referencia o el conjunto de datos en estudio, las unidades
que deben ser observadas, las caracterı́sticas o variables que serán medidas u observadas.
Estrategias de Observación: Censo, Muestreo, Diseño de Experimental.
Recolección y Registro de la información.
Depuración de la información.
2
Producción de resúmenes estadı́sticos (gráficos y/o numéricos).
Interpretación de los resultados.
Algunos tópicos fundamentales de la Estadı́stica se presentan brevemente, los cuales se usan frecuen-
temente en investigación. Durante el transcurso del curso se estudiarán algunos de ellos.
Diseño de experimentos. Esta relacionado con la etapa de obtención de información. Permite la

determinación del tipo de datos a incluir en el estudio, la cantidad de datos. La determinación
de cuantas unidades se deben incluir en el estudio es crucial ya que con esto se ahorra tiempo
y dinero.
Estadı́stica descriptiva. Permite obtener un resumen de la información contenida en los da-

tos por medio de funciones especı́ficas llamadas estadı́sticos muestrales las cuales sirven para
obtener valores numéricos que representan caracterı́sticas sobresalientes que pudieran estar pre-
sentes. También permite la construcción de gráficos que permiten mirar en conjunto la totalidad
de los datos y detectar comportamientos interesantes de ellos.
Inferencia estadı́stica. Permite evaluar la información de manera que se puedan obtener con-
clusiones generales del fenómeno bajo estudio.
Estadı́stica no paramétrica. Permite realizar pruebas estadı́sticas e implementar modelos donde

no es posible asumir algunos supuestos previos.
Elementos de regresión. Sirven para explorar la posible relación entre variables de respuesta y
variables explicativas.
Niveles de medición y tipos de variables

Los siguientes ejemplos servirán para introducir algunas definiciones importantes.
Un investigador está interesado en determinar el caudal promedio de un rı́o; para esto decide
medir y registar tal caudal durante 30 dı́as.
Un investigador está interesado en determinar la proporción de personas que están a favor de

una cierta ley de impuestos; para esto decide elaborar un cuestionario, selecciona adecuada-
mente una muestra al azar y registra la respuesta de los individuos que puede ser SI, NO, No
sabe No responde (NS/NR), las cuales pueden ser codificadas ası́: SI=1, NO=2, NS/NR=3.
3
Un ingeniero esta interesado en determinar el número promedio de artı́culos defectuosos de

una linea de producción; para esto decide contar y registrar diariamente y durante 30 dı́as el
numero de defectuosos.
Los tres experimentos expuestos tiene en común tres caracterı́sticas:
1. Cada uno de ellos generan datos.
2. Cada uno de ellos tiene un factor de incertidumbre, pues en el momento de realizar cualquiera
de ellos el investigador no sabe que resultado va a obtener.
3. Cada uno de ellos tiene un factor de variabilidad ya que en repeticiones sucesivas del experi-
mento se pueden presentar resultados diferentes.
De los tres experimentos se puede observar que el primero de ellos (el de la medición de caudales)
genera datos que son producto de mediciones. El segundo de ellos (el de la ley de impuestos) genera
datos que representan categorı́as de respuesta y el tercero (el de la lı́nea de producción) genera datos
que son producto de conteos. Con lo anterior, podemos ahora dar algunas definiciones.
Variable. Es una caracterı́stica que varı́a de un objeto o individuo a otro (por ejemplo la estatura,
la dureza o el tiempo de duración de un componente) o en el mismo individuo (por ejemplo, la
presión sanguı́nea). En estadı́stica, los tipos más comunes de variables son Continuas, Discretas y
Categóricas.
Variables continuas. Son aquellas que provienen de procesos que involucran mediciones. Por
ejemplo las estaturas de los estudiantes de primer año en una universidad.
Variables discretas. Son aquellas que provienen de procesos que involucran conteos. Por
ejemplo el número de vehı́culos que llegan a un semáforo en un intervalo de tiempo.
Variables categóricas. Son aquellas que provienen de procesos que involucran clasifiaciones.
Por ejemplo la variable sexo o estrato socio-económico.
Observe que la variable que se genera en un experimento de medición de presión sanguı́nea es de

naturaleza diferente a la de clasificar personas por su sexo. La primera se registra en milı́metros de
mercurio y además valores grandes dan la idea de mayor presión sanguı́nea mientra que la segunda se
mide por medio de valores que representan la pertenencia a una categorı́a, por ejemplo 1=Masculino,
2=femenino, pero el 2 no indica una categorı́a mayor a la que representa el 1.
La diferencia en la información obtenida permite identificar cuatro niveles básicos de medición que
son:
4
1. Nominal. Este nivel se utiliza cuando los valores en los que se mide la variable son códigos
que representan la pertenencia a una categorı́a. Por ejemplo, en un estudio de una cierta
enfermedad, el 1 puede representar su presencia y el 0 su ausencia. Otro ejemplo puede ser
estado civil, 1=Casado, 2=Soltero, 3=Unión libre. Observe que no se puede decir que 3 ¿2. Las
variables de tipo nominal no admiten medidas básicas de resumen.
2. Ordinal. Se usa cuando los valores de una variable informan acerca de un orden o jerarquı́a.
Por ejemplo, se pueden usar los valores 1, 2 y 3 para representar distintas quemaduras, es decir,
1=leve, 2=severa, 3=muy severa. Con este tipo de variables ya tiene sentido establecer una
relación de orden y afirmar que 3 > 2 > 1.
3. Intervalo. Se usa para mediciones de naturaleza cuantitativa que se hacen con escalas que
tienen como base un valor de cero arbitrario. Por ejemplo un registro de 0 ± C no indica la
ausencia de temperatura.
4. Razón. Se usa para mediciones de naturaleza cuantitativa que se hacen con escalas que tienen
como base un valor de cero absoluto. Por ejemplo, longitud del brazo, estatura, tiempo de
duración, número de artı́culos defectuosos en una linea de producción, presión sanguı́nea.
Conceptos básicos
Un aspecto importante en Estadı́stica está relacionado con a manera como la información es pre-
sentada y analizada. De este análisis previo pueden desprenderse diferentes formas de abordar la
solución a determinada pregunta de investigación. Una primera parte consiste en realizar un adecua-
do resumen de la información disponible y presentarla en términos de algunas medidas puntuales o
de gráficos.
Aspectos principales a tener en cuenta en la descripción de un conjunto de datos
a) Resumen y descripción de diferentes patrones en los datos por medio de:

Presentación de tablas y gráficos.
Examinar de todas las formas posibles los gráficos en busca de caracterı́sticas de interés.
Buscar en los datos graficados observaciones inusuales, que se alejan del grueso de obser-
vaciones graficadas.
b) Cálculo de medidas numéricas.
Valores tı́picos o representativos que den idea de centralidad o localización.
La variabilidad presente en los datos.
5
Descripción de Datos por tablas o gráficos

Distribuciones de frecuencia
Cuando se tiene un número considerable de datos, una manera de representarlos es a través de un

agrupamiento en clases. Si los datos son de tipo discreto o categórico, las clases estarán determinadas
por las escalas de medición de la variable de interés. Sin embargo, si el número de valores que asume
la variable es muy grande, es necesario agrupar dichos valores en clases. En el caso de variables
continuas, es imperativo realizar un agrupamiento de los datos, considerando observaciones cercanas,
en clases o intervalos. El resultado de este agrupamiento es resumido en una tabla, que usualmente
se denomina Tabla de Frecuencias. El procedimiento a seguir para este proceso es como sigue:
a) Encuentre el mı́nimo y máximo de los valores registrados.
b) Escoja un número de sub-intervalos o clases de igual longitud, de manera que cubran el rango
de los datos, sin traslaparse (aunque es posible construir clases o intervalos de longitudes
variables). Estos intervalos son llamados Intervalos de Clase.
c) Cuente cuantas observaciones están en cada sub-intervalo. Este conteo es llamado Frecuencia
de Clase.
d) Calcule, para cada clase, la frecuencia relativa. Esta se calcula como:
Frecuencia de clase
FR = .
Número total de observaciones
La elección del número de clases o intervalos, constituye un proceso de ensayo y error. Algunas
propuestas empı́ricas se han planteado, buscando una selección más o menos adecuada del número
de clases. No se puede establecer que una es superior a otra, sólo pueden utilizarse como puntos de
referencia.
Sturges (1926), establece que el número de clases es K puede obtenerse como K = 1 +

3.33 log10 (n), siendo n el número de datos. Esta propuesta subestima el número de interva-
los.
√
Velleman (1976), K = 2 n, recomendada cuando n es pequeño (n ≤ 50)
Dixon y Kronmal (1965), K = 10log10 (n), para n grande (n > 50).
En general, se sugiere que entre 5 y 25 clases es un número adecuado para agrupar los datos. Sin
embargo, debe tenerse especial cuidado en esta selección. Es importante anotar que al agrupar los
6
datos en clases, se sacrifica la información relacionada con cómo se distribuyen los datos en cada
clase, y se reemplaza por la frecuencia en dicha clase. Si se tienen pocas clases, la pérdida de infor-
mación es muy grande. Si se tienen pocos datos y muchas clases, no se evidenciará ningún tipo de
comportamiento de interés en los datos.
Cuando se tiene un número considerable de datos, es importante establecer algún tipo de técnica
para identificar datos en cada clase (una puede ser organizando los datos de menor a mayor). Los
avances computacionales han permitido obviar este aspecto.
Ejemplo
Se tiene información de un grupo de estudiantes de un curso de primer semestre, donde se registraron,
para cada sujeto, la Estatura(en cms), Masa(en Kg), Edad (en años), Estrato socio-económico, Horas
dedicadas semanalmente a estudiar (sin incluir horas de clase), Gasto semanal(en pesos), Género
(HOMBRE o MUJER), Tipo de colegio del cual se graduó. Los datos se muestran a continuación:
ESTATURA MASA EDAD ESTRATO HORAS GASTO GENERO TIP_COLE ESTATURA MASA EDAD ESTRATO HORAS GASTO GENERO TIP_COLE
148 65 24 1 20 20000 MUJER PUBLICO 169 62 17 2 5 8000 HOMBRE PUBLICO
154 49 22 3 40 25000 MUJER PUBLICO 170 53 26 3 12 30000 MUJER PUBLICO
157 63 18 4 15 24000 HOMBRE PRIVADO 170 58 18 2 20 50000 HOMBRE PUBLICO
158 57 18 4 30 50000 MUJER PRIVADO 170 69 24 4 32 70000 HOMBRE PUBLICO
160 54 18 3 10 40000 MUJER PRIVADO 172 58 17 4 20 25000 HOMBRE PRIVADO
162 67 18 2 21 40000 MUJER PUBLICO 173 66 21 3 14 25000 HOMBRE PRIVADO
162 48 21 3 19 50000 HOMBRE PRIVADO 174 81 27 3 8 40000 HOMBRE PRIVADO
163 55 17 2 25 48000 HOMBRE PUBLICO 177 58 18 4 24 12500 HOMBRE PUBLICO
164 55 20 2 25 40000 HOMBRE PUBLICO 178 95 19 4 15 50000 HOMBRE PRIVADO
164 54 17 2 18 54000 HOMBRE PUBLICO 180 85 22 3 48 60000 HOMBRE PUBLICO
165 58 33 2 20 40000 HOMBRE PRIVADO 182 70 20 3 14 40000 HOMBRE PRIVADO
166 52 17 3 20 50000 MUJER PRIVADO 182 86 22 3 15 30000 HOMBRE PRIVADO
168 64 17 3 40 20000 HOMBRE PRIVADO
Para la variable Sexo. Se elabora una tabla de frecuencias, indicando el número de hombres y mujeres
y el porcentaje que representa cada categorı́a.
GENERO Frecuencia Porcentaje
_______________________________
HOMBRE 28 62.22
MUJER 17 37.78
Para la variable Edad. Observe que esta variable aparece en una escala de razón, pero con valores
enteros. Sin agrupar la información se tienen los siguientes gráficos en SAS y R:
7
Fig. 1: Diagrama de Barras para Edad
Otra manera de visualizar estos datos es agrupando en clases o intervalos disjuntos. Se porponen
varias formas de agrupar los valores de esta variable.
1. Se agrupa la información por rangos (7 clases).
Edad Frecuencia F. Relativa

17 4 0.267
18-20 5 0.378
21-23 5 0.178
24-26 4 0.111
27-29 3 0.044
30-32 1 0.000
33 1 0.022
Fig. 2: Diagrama de Barras para Edad

8
2. Se agrupa la información por rangos con una regla especı́fica.
Para la variable estatura. Usando la regla de Sturges se obtiene
K = 1 + 3.33 log10 (n) = 1 + 3.33 ∗ log10 (45) = 6.505 ≈ 7 .
Ası́, se consideran 7 clases o intervalos. La mı́nima Edad es de 17 años y la máxima es de 33. El

rango de las estaturas es R = 16. Si se asumen intervalos o clases de igual longitud, la amplitud para
cada intervalo estará dada por:
Rango 16
A= = = 2.286 .
K 7
Para efectos de manejar un valor más simple como amplitud esta es redondeada a 2.4. Con esto
se tiene que el rango a sido ampliado en 0.8 años. (NR ango :7 ×2.4 = 16.8). La pregunta es como
repartir este excedente. La mayorı́a de usuarios propone que se haga de manera equitativa, es decir,
restar al mı́nimo la misma cantidad que se le suma al máximo. La figura 3 ilustra lo que se propone.
Fig. 3: Rango Ampliado para Edad
Los intervalos de clase que se conforman son:
(16.6, 19], (19, 21.4], (21.4, 23.8], (23.8, 26.2], (26.2, 28.6], (28.6, 31], (31, 33.4] .
La respectiva tabla de frecuencias está dada por:
Edad Frecuencia F. Relativa Marca

(16.6, 19] 20 0.444 17.8
(19, 21.4] 14 0.311 20.2
(21.4, 23.8] 3 0.067 22.6
(23.8, 26.2] 5 0.111 25
(26.2, 28.6] 2 0.044 27.4
(28.6, 31] 0 0.000 29.8
(31, 33.4] 1 0.022 32.2
El gráfico resultante se conoce como Histograma de Frecuencias. Este se ilustra en la figura 4. Los
valores en medio de cada barra son los puntos medios de cada intervalo de clase o Marcas de Clase.
9
Fig. 4: Histograma para Edad
Cuando solo se desea tener una idea gráfica del comportamiento de una variable, a veces no es tan
necesario intervenir tanto en la construcción de un histograma. La mayorı́a de software estadı́stico,
tienen reglas muy similares para la elección del número de clases o intervalos. Usando el paquete R
se muestra un diagrama de barras para la variable Estrato e histogramas para las variables Estatura,
Masa y Gasto.
Dichos gráficos se muestran en la figura 5.
Aunque no es una regla general una tabla de frecuencias deberia poseer las siguientes caracteristicas:
1. UNIFORMIDAD: Clases de igual amplitud o de amplitud variable que dependen del tipo de
datos.
2. UNICIDAD: Clases no traslapadas.
3. COMPLETEZ: Cada dato pertenece a una y sólo una clase.

10
Fig. 5: Diagrama de Barras e Histogramas
Box-Plot o Diagrama de Cajas y Bigotes
Los diagramas de caja y bigotes son herramientas gráficas muy útiles para describir caracterı́sticas
importantes en un conjunto de datos, como son centro, simetrı́a o asimetrı́a, valores atı́picos(raros),
etc. La construcción de este diagrama emplea medidas descriptivas que son poco sensibles a datos
extremos y por lo tanto presentan una descripción más clara de la información. Básicamente em-
pleamos para su construcción los tres cuarteles, los valores mı́nimos y máximos y la media Muestral
solo como medida de localización en el gráfico. Una observación se dice Atı́pica o Inusual si está a
más de 1.5 veces el rango intercualtil de alguno de los cuarteles Q1 o Q3. Una observación se dice
Atı́pica Extrema si está a más de 3 veces el rango Intercuartil de alguno de los cuartiles Q1 o Q3. El
diagrama está conformado por una caja la cual se construye con ayuda del primer y tercer cuartil. La
mediana es dibujada en el interior de la caja al igual que la media muestral. Los bigotes se extienden
desde los cuartiles a la derecha y a la izquierda. Su longitud depende de si hay o no datos atı́picos.
En la figura 6, se muestran dos tipos de boxplot.
11
Fig. 6: Construcción de un Box-Plot
Los Box-plot, para las variables Estatura, Masa, Edad y Gasto, se muestran en la figura 7.
Fig. 6: Box-Plot para Estatura, Masa, Edad y Gasto

12
Análisis descriptivo de un conjunto de n datos

Suponga que se tienen n datos recopilados sobre una variable y que pueden representar los tiempos
de duración de una baterı́a para vehı́culo. Estos datos pueden ser los que aparecen a continuación:
2.2 3.4 2.5 3.3 4.7 4.1 1.6 4.3 3.1 3.8 3.5 3.1 3.4 3.7 3.2 4.5 3.3 3.6 4.4 2.6
3.2 3.8 2.9 3.2 3.9 3.7 3.1 3.3 4.1 3.0 3.0 4.7 3.9 1.9 4.2 2.6 3.7 3.1 3.4 3.5
Este conjunto de datos por si solo no muestra ninguna faceta interesante. A simple vista se puede
apreciar un valor mı́nimo y un valor máximo y que hay algunos valores que se repiten. Por lo tanto es
supremamente difı́cil tratar de determinar alguna caracterı́stica de interés de la población de la cual
provienen; si el número de datos aumenta es todavı́a más difı́cil detectar caracterı́sticas importantes.
Existen técnicas estadı́sticas que permiten extraer información que puede resultar de algún modo
importante para tomar decisiones en un determinado momento.
Hay dos maneras de analizar estos datos:
1. Datos agrupados: Consiste básicamente en la conformación de clases de una cierta longitud
donde la pertenencia de un dato a cada clase estará determinada por su valor. Con esta técnica
es posible experimentar perdida de información.
2. Datos sin agrupar: Consiste en manipular los datos tal y como fueron recopilados.
Medidas numéricas en datos agrupados

Las medidas numéricas descriptivas se dividen en dos: Medidas de localización y Medidas de
dispersión. En las medidas de localización se circunscriben las medidas de tendencia central.
Medidas de localización y de tendencia central

Estas medidas permiten cuantificar numéricamente, caracterı́sticas de la población de la cual fueron
tomados los datos. Entre las más comunes se encuentran:
La media muestral para datos agrupados

Es un valor que trata de representar el comportamiento promedio del conjunto de datos. Corresponde
a una estimación de la media poblacional. En el caso de datos agrupados se define como:
k
P #celdas
P
mi fi marca de clase × Frecuencia de clase
i=1 i=1
X Agrup = = .
n Total Frecuencias
13
Como ejemplo, considere los datos de las Estaturas de los estudiantes del curso de primer semestre.
Con base en la tabla de frecuencias se tiene que:
Esta Frec F. Rel Frec Acu F R Acum Marca

(150, 155] 1 0.0208 1 0.0208 152.5
(155, 160] 3 0.0625 4 0.0833 157.5
(160, 165] 6 0.125 10 0.2083 162.5
(165, 170] 10 0.2083 20 0.4166 167.5
(170, 175] 11 0.2292 31 0.6458 172.5
(175, 180] 12 0.25 43 0.8958 177.5
(180, 185] 5 0.1042 48 1 182.5
7
P
mi fi
i=1
X Agrup =
n
(152.5 × 1) + (157.5 × 3) + (162.5 × 6) + (167.5 × 10) + (172.5 × 11) + (177.5 × 12) + (182.5 × 5)
=
48
= 171.15 .
La moda muestral para datos agrupados

Es el valor que que presenta mayor frecuencia. Se define como la marca de clase del intervalo con
mayor frecuencia absoluta. En el ejemplo anterior, se tiene que, moda = 177.5 cms.
Percentiles muestrales para datos agrupados

Los percentiles son aquellos valores abajo y arriba de los cuales se encuentra una cierta proporción
de datos del conjunto. Por ejemplo, el percentil 10 es aquel valor tal que al menos el 10 % de los datos
son inferiores a el y al menos el 90 % de los datos son superiores a el. Si la caracterı́stica de interés
está asociada a una variable X, el percentil 100p %, para 0 < p < 1, suele denotarse por xp . Otra
manera de denotar un percentil, es a través del porcentaje que representa. Por ejemplo, el percentil
25, suele denotarse como P25 .
Para calcularlo se requiere la columna de frecuencias relativas acumuladas, que se obtiene de la tabla
de frecuencias, usando la siguiente fórmula:
(p − a) × h
xp = L + ,
f
donde:
14
L: Lı́mite inferior de la clase que contiene el percentil.
n: Número de datos.
f : Frecuencia relativa de la clase que contiene el percentil.
a: Frecuencia relativa acumulada del intervalo anterior al del percentil.
h: Longitud de la clase del percentil.
Para identificar la clase del percentil se identifica cual clase tiene una frecuencia relativa acumulada
igual o superior a p.
Ejemplo
Usando los datos de estaturas calcule el P50 .
Se observa que en la columna de frecuencias relativas acumuladas el intervalo de clase donde esta
frecuencia supera a 0.5 es el quinto intervalo, donde la frecuencia acumulada es 0.6458, la cual
excede a 0.5. Por lo tanto la clase del percentil será (170, 175]. Usando este intervalo se tiene que:
L = 170, n = 40, f = 0.2292, a = 0.4166, p = 0.5, h = 5 . Ası́:
(0.5 − 0.4166) × 5
P50 = 170 + = 171.82 .
0.2292
El 50 % de los estudiantes del curso tienen estaturas inferiores o iguales a 171.8 cms.
Los percentiles P25 , P50 y P75 , dividen los datos en cuatro partes porcentualmente iguales. Estos
percentiles son llamados Cuartiles y se denotan Q1 , Q2 y Q3 , respectivamente.
Fig. 18: Cuartiles
La mediana
Corresponde al percentil 50. Es usualmente denotada X̃. Su cálculo se realiza con el mismo procedi-
miento utilizado en la obtención de los percentiles.
15
Medidas de dispersión
Estas medidas permiten cuantificar numéricamente, que tan dispersos se encuentran los datos ya
sea con respecto a la media o con respecto a las unidades de medición. Entre las más comunes se
encuentran:
La varianza muestral para datos agrupados

2
Esta medida indica que tanto se alejan los datos respecto de la media muestral. Se denota Sagrup . Se
calcula por medio de la siguiente fórmula:
Pk 2
2 i=1 mi − X agrup × fi
Sagrup = .
n
Rango intercuartil
Es la diferencia entre el percentil 75 y el percentil 25. Valores grandes quiere decir que el 50 % de los
datos más centrales se encuentran muy dispersos.
QRANGE = Q3 − Q1 = P75 − P25
Donde Q1 = P25 se denomina Primer cuartil y Q3 = P75 se denomina Tercer cuartil. El nombre
de cuartil proviene del hecho de que la unidad se divide en cuatro partes iguales y el de percentil
proviene del hecho de que la unidad se divide en cien partes iguales.
2
Para los datos de estaturas se tiene: Sagrup = 54, 937 , los percentiles 25 y 75 son P 25 = 166,
P 75 = 177.08. El rango intercuartil es QRANGE = 177.08 − 166 = 11.08 .
Cálculo de medidas numéricas para datos no agrupados
Para el cálculo de estas medidas se consideran todos y cada uno de los datos, por lo cual la perdida de
información contenida en la muestra se reduce. También se dividen en dos: Medidas de localización
y Medidas de dispersión. En las medidas de localización se circunscriben las medidas de tendencia
central.
16
Medidas de localización y de tendencia central
Media muestral
Se define como la suma de todos los elementos de la muestra dividido por el tamaño de la muestra.
Cuando la distribución de la cual provienen los datos es simétrica y no hay presencia de valores extre-
mos, la media muestral es un buen representante del conjunto de datos. La media no necesariamente
es un valor del conjunto de observaciones. Se denota con el sı́mbolo X. Se calcula con la siguiente
fórmula, Pn
Xi
X = i=1 , i = 1, 2, · · · , n
n
La media representa el punto de equilibrio de los datos.
Ejemplo
(La media es sensible a valores extremos). Considere los ingresos mensuales en pesos de 8 empleados
públicos:
500000, 750000, 600000, 550000, 700000, 550000, 550000, 600000.
Calcule el ingreso mensual medio.
Solución
500000 + · · · + 550000 + 600000

x= = 600000 .
8
El ingreso de los empleados muestreados está alredeedor de los 600000 pesos. Suponga que un nuevo
empleado es adiccionado a la lista y su ingreso es de 2000000. El ingreso promedio será X̄ = 755555.6 .
Observe que este valor es superior a la mayorı́a de las cifras del conjunto de datos. Esto se debe a que
uno de los ingresos es muy grande en comparacion con los otros ingresos. Este valor no representa
en gran medida al grueso de los ingresos.
Ejemplo
Se registra el número de tasas de café consumidas por un empleado de oficina en un perı́odo de 20
dias:
4 5 3 6 7 1 2 3 0 5 6 5 8 4 0 2 3 7 5 6
Calcule el número promedio de tasas de café.

Solución
X̄ = 82
20
= 4.1 . Un empleado consume en promedio alrededor de 4 tazas por dia.
17
Ejemplo
Se registran las edades de 15 personas en un grupo. Estas son:
18, 20, 19, 19, 21, 22, 20, 23, 21, 24, 19, 20, 22, 21, 24 (en años). Calcule la edad promedio de las 15 per-
sonas.
Solución
La edad promedio de este grupo es : X̄ = 313 15
= 20.86 ≈ 20.9 . Si resumimos esta información en una
tabla de frecuencia
Edad 18 19 20 21 22 23 24
frecuencia 1 3 3 3 2 1 2
La edad promedio se puede calcular como:

n
1X
X̄ = f i Xi .
n i=1
Es un cálculo similar al caso de datos agrupados. Usando esta tabla se obtiene:
18(1) + 19(3) + 20(3) + 21(3) + 22(2) + 23(1) + 24(2)

X̄ =
15
313
X̄ = = 20.9
15
P P
xi f i x i fi
X̄ = = P
15 fi
En el ejemplo anterior, suponga que otra persona adicional tiene una edad de 35 años. El cálculo de
la edad promedio es: X̄ = 313+35
16
= 348
16
= 21.8 .
313+45
Si la edad adiccional fuera 45 años, entonces X̄ = 16
= 22.4 .
313+55
Si la edad fuera 55 años, entonces X̄ = 16
= 23 .
Observe que la media muestral tiende a acercarse al valor extremo.
La moda en datos sin agrupar

Se define como el dato que presenta mayor frecuencia en la muestra. Para calcularla se recomienda
ordenar las observaciones de menor a mayor. Es posible que un conjunto de datos no tenga moda o
18
que tenga varias modas.
Ejemplo
Considere los siguientes datos ordenados de menor a mayor:
500, 550, 550, 600, 700, 750, 750, 800, 900, 950 . Para esta muestra calcule la moda.
Solución
Se puede observar que el conjunto de datos tiene dos modas que son respectivamente: 550 y 750.
Percentiles para datos sin agrupar

Una aproximación a los valores de los percentiles se puede obtener por medio del siguiente algoritmo
que muestra como se calcula el percentil de orden p, con 0 < p < 1 .
1. Ordene la muestra de menor a mayor
2. Calcule el percentil 100p %, xp como

X(n p) +X(n p+1)

 2
Si n p es un natural
xp = ,
X([[n p]]+1) Si n p no es un natural

El sı́mbolo [[ ]] representa la función Mayor Entero.
La mediana en datos sin agrupar

Es un valor arriba del cual se encuentra el 50 % de los datos y abajo del cual se encuentra el otro
50 %. No es tan sensible como X a valores extremos. Se denota X̃. Para hallarla se deben ordenar
los datos de menor a mayor. Suponga que se tiene el siguiente conjunto de datos X1 , X2 , . . . , Xn , si
se ordenan de menor a mayor se obtiene la siguiente sucesión X(1) , X(2) , . . . , X(n) . X̃ se calcula por
medio de, 
 X( n+1 )
 2
Si n es impar
X̃ = .
 X( n ) +X( n +1)
2 2
Si n es par

2
Ejemplo
Considere los ingresos mensuales en dolares de 8 empleados públicos, 500, 750, 600, 550, 700, 2000,
550, 550. La muestra ordenada es 500, 550, 550, 550, 600, 700, 750, 2000. Calcule la mediana.
19
Solución
Como n es par
X( n ) + X( n +1) X(4) + X(5) 550 + 600
2 2
X̃ = = = = 575 .
2 2 2
Este valor de la mediana es una medida más representativa que X. El 50 % de los ingresos de los
empleados son inferiores o iguales a 575 dólares.
Ejemplo
Considere los siguientes datos ordenados de menor a mayor:
500, 550, 550, 600, 700, 750, 750, 800, 900, 950 . Halle el percentil 76 usando el método expuesto arriba.
Solución
La muestra ya esta ordenada, entonces usando el método anterior n (0.76) = 7.6 por lo tanto,
P76 = X(8) = 800 . El 76 % de los empleados tienen ingresos inferiores o iguales a 800 dólares.
Para el ejemplo anterior, de las edades, calcular la mediana.

Solución
La mediana se calcula como: X̃ = X( 15 +1) = X(8) . Ahora, como
2
18 19 19 19 20 20 20 21 21 21 22 22 23 24 24
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 ,
entonces: X8 = 21, es decir, X̃ = 21 . El 50 % de las personas encuestadas tienen edades inferiores

o iguales a 21 años.
X(8) + X(9)
Se encuesta a otra persona y su edad resulta ser 30 años, la mediana en este caso es X̃ = 2
=
21 + 21
2
= 21 .
Si la edad de esa nueva persona es 50 años, se tiene que

X +X
X̃ = (8) 2 (9) = 21 +2 21 = 21 . Es decir, la mediana no se vé afectada por datos muy extremos o
atı́picos.
Al igual que para datos agrupados, se pueden calcular los Cuartiles Q1 , Q2 , Q3 y los percentiles.
Ejemplo
Para los datos de edades, calcule el primer cuartil y el percentil 60.
Solución
El primer cuartil es el percentil 25. Ahora 0.25 (15) = 3.75 . El primer cuartil Q1 , debe dejar al
20
menos 4 valores en ó por debajo de el y 12 valores en ó por encima de el. Ası́ Q1 = X(4) = 19 . El
25 % de las personas tienen edades inferiores o iguales a 19 años.
El percentil 60 . (0.6) (15) = 9 . Al menos 9 valores en ó por debajo de él y 6 valores en ó por encima
X +X
de él. En este caso dicho percentil corresponderı́a a P 60 = (9) 2 (10) = 21 . El 60 % de las personas
tienen edades inferiores o iguales a 21 años.
Medidas de dispersión
La varianza
La varianza muestral mide que tanto se alejan los datos de la media. Valores grandes de la varianza
indican una gran dispersión. Se denota por S 2 . Se calcula con la siguiente fórmula,
Pn 2
2 i=1 Xi − X
S = .
n−1
Interpretar la varianza puede resultar un poco complicado ya que esta expresada en unidades cuadra-
das; por ejemplo, la varianza podrı́a estar en minutos cuadrados o en kilogramos cuadrados. Por esta
razón se acostumbra reportar la raı́z cuadrada de la varianza, que recibe el nombre de Desviación
estándar. Si por ejemplo un investigador toma mediciones de temperatura en una región durante
cierto tiempo y al final reporta: ‘Se observó una temperatura promedio de 28o C con una desviación
estándar de 1o C ’quiere decir que algunas veces la temperatura puede bajar hasta 27o C y algunas
veces puede subir hasta 29o C.
Ejemplo
Para los datos de las edades, se tiene que:
(Xi − 20.9)2
P
2
S = 15 − 1
= 3.4095 ≈ 3.41 y S = 1.8466 ≈ 1.85
Lo cual significa que la desviación promedio en cuanto a la media es de 1.85 años. En otras palabras,
la mayorı́a de los estudiantes del curso tienen edades entre 19 y 23 años.
El rango intercuartil
Esta medida es la diferencia entre el percentil 75 y el 25. Mide que tan disperso está el 50 % de los
datos más centrales. Se calcula ası́
RANGO INTERCUARTIL = Qrange = Q3 − Q1 = P75 − P25 .

21
Coeficiente de variación
El coeficiente de variación que se define como : C.V = XS .
Es una fracción de la media muestral. Se usa para comparar la variabilidad de dos o más conjuntos
de datos.
Ejemplo
Considere las siguientes medidas que se tomaron a dos poblaciones, una de hombres de 25 años y
otra de niños de 11 años. Tales medidas son,
X adultos = 66 kgs
Sadultos = 4.5 kgs
X niños = 36 kgs
Sniños = 4.5 kgs
Calcule el coeficiente de variación para los adultos y para los niños. Con los datos anteriores se puede
observar que
4.5
C.Vadultos = = 0.0682
66
4.5
C.Vniños = = 0.125
36
Se puede concluir que los pesos de los niños son más variables que los de los adultos.

Estadistica Descriptiva

Cargado por

Copyright:

Formatos disponibles

Estadistica Descriptiva

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Descriptiva

Cargado por

Copyright:

Formatos disponibles

1

Breve Repaso de Estadı́stica Descriptiva.

¿Por qué estudiar Estadı́stica?

El estudio de la Estadı́stica permite, entre muchas cosas más:

Aprender las reglas y métodos usados en el tratamiento de información.

Evaluar y cuantificar la importancia de los resultados estadı́sticos obtenidos.

Entender mejor algunos fenómenos de interés (Sociales, Económicos, Biológicos, Educacionales,

Algunos aspectos estadı́sticos manejados en la información obtenida de la radio, la televisión u otro

Resumir Simplificar Comparar Relacionar Proyectar.

Entre las tareas que debe enfrentar un estudio estadı́stico están:

Estrategias de Observación: Censo, Muestreo, Diseño de Experimental.

Recolección y Registro de la información.

Producción de resúmenes estadı́sticos (gráficos y/o numéricos).

Interpretación de los resultados.

Diseño de experimentos. Esta relacionado con la etapa de obtención de información. Permite la

Estadı́stica descriptiva. Permite obtener un resumen de la información contenida en los da-

Estadı́stica no paramétrica. Permite realizar pruebas estadı́sticas e implementar modelos donde

Niveles de medición y tipos de variables

Un investigador está interesado en determinar la proporción de personas que están a favor de

Un ingeniero esta interesado en determinar el número promedio de artı́culos defectuosos de

Los tres experimentos expuestos tiene en común tres caracterı́sticas:

1. Cada uno de ellos generan datos.

Observe que la variable que se genera en un experimento de medición de presión sanguı́nea es de

Aspectos principales a tener en cuenta en la descripción de un conjunto de datos

a) Resumen y descripción de diferentes patrones en los datos por medio de:

Descripción de Datos por tablas o gráficos

Cuando se tiene un número considerable de datos, una manera de representarlos es a través de un

a) Encuentre el mı́nimo y máximo de los valores registrados.

d) Calcule, para cada clase, la frecuencia relativa. Esta se calcula como:

Sturges (1926), establece que el número de clases es K puede obtenerse como K = 1 +

Dixon y Kronmal (1965), K = 10log10 (n), para n grande (n > 50).

Fig. 1: Diagrama de Barras para Edad

Edad Frecuencia F. Relativa

Fig. 2: Diagrama de Barras para Edad

2. Se agrupa la información por rangos con una regla especı́fica.

Para la variable estatura. Usando la regla de Sturges se obtiene

K = 1 + 3.33 log10 (n) = 1 + 3.33 ∗ log10 (45) = 6.505 ≈ 7 .

Ası́, se consideran 7 clases o intervalos. La mı́nima Edad es de 17 años y la máxima es de 33. El

Fig. 3: Rango Ampliado para Edad

Los intervalos de clase que se conforman son:

La respectiva tabla de frecuencias está dada por:

Edad Frecuencia F. Relativa Marca

Fig. 4: Histograma para Edad

2. UNICIDAD: Clases no traslapadas.

3. COMPLETEZ: Cada dato pertenece a una y sólo una clase.

Fig. 5: Diagrama de Barras e Histogramas

Box-Plot o Diagrama de Cajas y Bigotes

Fig. 6: Construcción de un Box-Plot

Fig. 6: Box-Plot para Estatura, Masa, Edad y Gasto

Análisis descriptivo de un conjunto de n datos

Medidas numéricas en datos agrupados

Medidas de localización y de tendencia central

La media muestral para datos agrupados

Esta Frec F. Rel Frec Acu F R Acum Marca

La moda muestral para datos agrupados

Percentiles muestrales para datos agrupados

L: Lı́mite inferior de la clase que contiene el percentil.

f : Frecuencia relativa de la clase que contiene el percentil.

a: Frecuencia relativa acumulada del intervalo anterior al del percentil.

h: Longitud de la clase del percentil.