Estadistica Descriptiva

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 21

1

Breve Repaso de Estadı́stica Descriptiva.


René Iral Palomino.

¿Por qué estudiar Estadı́stica?

El estudio de la Estadı́stica permite, entre muchas cosas más:

Aprender las reglas y métodos usados en el tratamiento de información.

Evaluar y cuantificar la importancia de los resultados estadı́sticos obtenidos.

Entender mejor algunos fenómenos de interés (Sociales, Económicos, Biológicos, Educacionales,


etc.)

Dar una visión más clara acerca de la información proveniente de diversas fuentes.

Algunos aspectos estadı́sticos manejados en la información obtenida de la radio, la televisión u otro


medio, influencian fuertemente a gran cantidad de personas pero a veces no proporcionan una des-
cripción cabal de lo que pretenden mostrar.

Como una de las tareas de la Estadı́stica es el estudio de fenómenos aleatorios, esto hace muy
pertinente el tratar de explicar la manera como se comportan (Variabilidad).
Entre otras cosas la Estadı́stica se ocupa del manejo de la información que pueda ser cuantificada.
Implica esto la descripción de conjuntos de datos y la inferencia a partir de la información recolectada
de un fenómeno de interés. La función principal de la estadı́stica abarca:

Resumir Simplificar Comparar Relacionar Proyectar.

Entre las tareas que debe enfrentar un estudio estadı́stico están:

Delimitar con precisión la población de referencia o el conjunto de datos en estudio, las unidades
que deben ser observadas, las caracterı́sticas o variables que serán medidas u observadas.

Estrategias de Observación: Censo, Muestreo, Diseño de Experimental.

Recolección y Registro de la información.

Depuración de la información.
2

Producción de resúmenes estadı́sticos (gráficos y/o numéricos).

Interpretación de los resultados.

Algunos tópicos fundamentales de la Estadı́stica se presentan brevemente, los cuales se usan frecuen-
temente en investigación. Durante el transcurso del curso se estudiarán algunos de ellos.

Diseño de experimentos. Esta relacionado con la etapa de obtención de información. Permite la


determinación del tipo de datos a incluir en el estudio, la cantidad de datos. La determinación
de cuantas unidades se deben incluir en el estudio es crucial ya que con esto se ahorra tiempo
y dinero.

Estadı́stica descriptiva. Permite obtener un resumen de la información contenida en los da-


tos por medio de funciones especı́ficas llamadas estadı́sticos muestrales las cuales sirven para
obtener valores numéricos que representan caracterı́sticas sobresalientes que pudieran estar pre-
sentes. También permite la construcción de gráficos que permiten mirar en conjunto la totalidad
de los datos y detectar comportamientos interesantes de ellos.

Inferencia estadı́stica. Permite evaluar la información de manera que se puedan obtener con-
clusiones generales del fenómeno bajo estudio.

Estadı́stica no paramétrica. Permite realizar pruebas estadı́sticas e implementar modelos donde


no es posible asumir algunos supuestos previos.

Elementos de regresión. Sirven para explorar la posible relación entre variables de respuesta y
variables explicativas.

Niveles de medición y tipos de variables


Los siguientes ejemplos servirán para introducir algunas definiciones importantes.

Un investigador está interesado en determinar el caudal promedio de un rı́o; para esto decide
medir y registar tal caudal durante 30 dı́as.

Un investigador está interesado en determinar la proporción de personas que están a favor de


una cierta ley de impuestos; para esto decide elaborar un cuestionario, selecciona adecuada-
mente una muestra al azar y registra la respuesta de los individuos que puede ser SI, NO, No
sabe No responde (NS/NR), las cuales pueden ser codificadas ası́: SI=1, NO=2, NS/NR=3.
3

Un ingeniero esta interesado en determinar el número promedio de artı́culos defectuosos de


una linea de producción; para esto decide contar y registrar diariamente y durante 30 dı́as el
numero de defectuosos.

Los tres experimentos expuestos tiene en común tres caracterı́sticas:

1. Cada uno de ellos generan datos.

2. Cada uno de ellos tiene un factor de incertidumbre, pues en el momento de realizar cualquiera
de ellos el investigador no sabe que resultado va a obtener.

3. Cada uno de ellos tiene un factor de variabilidad ya que en repeticiones sucesivas del experi-
mento se pueden presentar resultados diferentes.

De los tres experimentos se puede observar que el primero de ellos (el de la medición de caudales)
genera datos que son producto de mediciones. El segundo de ellos (el de la ley de impuestos) genera
datos que representan categorı́as de respuesta y el tercero (el de la lı́nea de producción) genera datos
que son producto de conteos. Con lo anterior, podemos ahora dar algunas definiciones.

Variable. Es una caracterı́stica que varı́a de un objeto o individuo a otro (por ejemplo la estatura,
la dureza o el tiempo de duración de un componente) o en el mismo individuo (por ejemplo, la
presión sanguı́nea). En estadı́stica, los tipos más comunes de variables son Continuas, Discretas y
Categóricas.

Variables continuas. Son aquellas que provienen de procesos que involucran mediciones. Por
ejemplo las estaturas de los estudiantes de primer año en una universidad.

Variables discretas. Son aquellas que provienen de procesos que involucran conteos. Por
ejemplo el número de vehı́culos que llegan a un semáforo en un intervalo de tiempo.

Variables categóricas. Son aquellas que provienen de procesos que involucran clasifiaciones.
Por ejemplo la variable sexo o estrato socio-económico.

Observe que la variable que se genera en un experimento de medición de presión sanguı́nea es de


naturaleza diferente a la de clasificar personas por su sexo. La primera se registra en milı́metros de
mercurio y además valores grandes dan la idea de mayor presión sanguı́nea mientra que la segunda se
mide por medio de valores que representan la pertenencia a una categorı́a, por ejemplo 1=Masculino,
2=femenino, pero el 2 no indica una categorı́a mayor a la que representa el 1.
La diferencia en la información obtenida permite identificar cuatro niveles básicos de medición que
son:
4

1. Nominal. Este nivel se utiliza cuando los valores en los que se mide la variable son códigos
que representan la pertenencia a una categorı́a. Por ejemplo, en un estudio de una cierta
enfermedad, el 1 puede representar su presencia y el 0 su ausencia. Otro ejemplo puede ser
estado civil, 1=Casado, 2=Soltero, 3=Unión libre. Observe que no se puede decir que 3 ¿2. Las
variables de tipo nominal no admiten medidas básicas de resumen.
2. Ordinal. Se usa cuando los valores de una variable informan acerca de un orden o jerarquı́a.
Por ejemplo, se pueden usar los valores 1, 2 y 3 para representar distintas quemaduras, es decir,
1=leve, 2=severa, 3=muy severa. Con este tipo de variables ya tiene sentido establecer una
relación de orden y afirmar que 3 > 2 > 1.
3. Intervalo. Se usa para mediciones de naturaleza cuantitativa que se hacen con escalas que
tienen como base un valor de cero arbitrario. Por ejemplo un registro de 0 ± C no indica la
ausencia de temperatura.
4. Razón. Se usa para mediciones de naturaleza cuantitativa que se hacen con escalas que tienen
como base un valor de cero absoluto. Por ejemplo, longitud del brazo, estatura, tiempo de
duración, número de artı́culos defectuosos en una linea de producción, presión sanguı́nea.

Conceptos básicos
Un aspecto importante en Estadı́stica está relacionado con a manera como la información es pre-
sentada y analizada. De este análisis previo pueden desprenderse diferentes formas de abordar la
solución a determinada pregunta de investigación. Una primera parte consiste en realizar un adecua-
do resumen de la información disponible y presentarla en términos de algunas medidas puntuales o
de gráficos.

Aspectos principales a tener en cuenta en la descripción de un conjunto de datos

a) Resumen y descripción de diferentes patrones en los datos por medio de:


ˆ Presentación de tablas y gráficos.
ˆ Examinar de todas las formas posibles los gráficos en busca de caracterı́sticas de interés.
ˆ Buscar en los datos graficados observaciones inusuales, que se alejan del grueso de obser-
vaciones graficadas.
b) Cálculo de medidas numéricas.
ˆ Valores tı́picos o representativos que den idea de centralidad o localización.
ˆ La variabilidad presente en los datos.
5

Descripción de Datos por tablas o gráficos


Distribuciones de frecuencia

Cuando se tiene un número considerable de datos, una manera de representarlos es a través de un


agrupamiento en clases. Si los datos son de tipo discreto o categórico, las clases estarán determinadas
por las escalas de medición de la variable de interés. Sin embargo, si el número de valores que asume
la variable es muy grande, es necesario agrupar dichos valores en clases. En el caso de variables
continuas, es imperativo realizar un agrupamiento de los datos, considerando observaciones cercanas,
en clases o intervalos. El resultado de este agrupamiento es resumido en una tabla, que usualmente
se denomina Tabla de Frecuencias. El procedimiento a seguir para este proceso es como sigue:

a) Encuentre el mı́nimo y máximo de los valores registrados.

b) Escoja un número de sub-intervalos o clases de igual longitud, de manera que cubran el rango
de los datos, sin traslaparse (aunque es posible construir clases o intervalos de longitudes
variables). Estos intervalos son llamados Intervalos de Clase.

c) Cuente cuantas observaciones están en cada sub-intervalo. Este conteo es llamado Frecuencia
de Clase.

d) Calcule, para cada clase, la frecuencia relativa. Esta se calcula como:

Frecuencia de clase
FR = .
Número total de observaciones
La elección del número de clases o intervalos, constituye un proceso de ensayo y error. Algunas
propuestas empı́ricas se han planteado, buscando una selección más o menos adecuada del número
de clases. No se puede establecer que una es superior a otra, sólo pueden utilizarse como puntos de
referencia.

Sturges (1926), establece que el número de clases es K puede obtenerse como K = 1 +


3.33 log10 (n), siendo n el número de datos. Esta propuesta subestima el número de interva-
los.

Velleman (1976), K = 2 n, recomendada cuando n es pequeño (n ≤ 50)

Dixon y Kronmal (1965), K = 10log10 (n), para n grande (n > 50).

En general, se sugiere que entre 5 y 25 clases es un número adecuado para agrupar los datos. Sin
embargo, debe tenerse especial cuidado en esta selección. Es importante anotar que al agrupar los
6

datos en clases, se sacrifica la información relacionada con cómo se distribuyen los datos en cada
clase, y se reemplaza por la frecuencia en dicha clase. Si se tienen pocas clases, la pérdida de infor-
mación es muy grande. Si se tienen pocos datos y muchas clases, no se evidenciará ningún tipo de
comportamiento de interés en los datos.

Cuando se tiene un número considerable de datos, es importante establecer algún tipo de técnica
para identificar datos en cada clase (una puede ser organizando los datos de menor a mayor). Los
avances computacionales han permitido obviar este aspecto.

Ejemplo
Se tiene información de un grupo de estudiantes de un curso de primer semestre, donde se registraron,
para cada sujeto, la Estatura(en cms), Masa(en Kg), Edad (en años), Estrato socio-económico, Horas
dedicadas semanalmente a estudiar (sin incluir horas de clase), Gasto semanal(en pesos), Género
(HOMBRE o MUJER), Tipo de colegio del cual se graduó. Los datos se muestran a continuación:
ESTATURA MASA EDAD ESTRATO HORAS GASTO GENERO TIP_COLE ESTATURA MASA EDAD ESTRATO HORAS GASTO GENERO TIP_COLE
148 65 24 1 20 20000 MUJER PUBLICO 169 62 17 2 5 8000 HOMBRE PUBLICO
154 49 22 3 40 25000 MUJER PUBLICO 170 53 26 3 12 30000 MUJER PUBLICO
157 63 18 4 15 24000 HOMBRE PRIVADO 170 58 18 2 20 50000 HOMBRE PUBLICO
158 57 18 4 30 50000 MUJER PRIVADO 170 69 24 4 32 70000 HOMBRE PUBLICO
158 67 17 3 10 17000 MUJER PRIVADO 170 86 28 1 20 10000 HOMBRE PUBLICO
159 51 20 2 15 10000 MUJER PUBLICO 171 95 25 3 30 20000 HOMBRE PUBLICO
160 53 17 3 20 70000 MUJER PRIVADO 172 56 17 2 28 70000 HOMBRE PUBLICO
160 50 18 1 16 10000 MUJER PUBLICO 172 65 20 2 12 40000 HOMBRE PUBLICO
160 54 18 3 10 40000 MUJER PRIVADO 172 58 17 4 20 25000 HOMBRE PRIVADO
161 54 21 2 8 36000 MUJER PUBLICO 172 63 19 2 18 25000 HOMBRE PUBLICO
162 56 21 2 38 50000 MUJER PUBLICO 172 90 24 3 16 50000 HOMBRE PUBLICO
162 67 18 2 21 40000 MUJER PUBLICO 173 66 21 3 14 25000 HOMBRE PRIVADO
162 48 21 3 19 50000 HOMBRE PRIVADO 174 81 27 3 8 40000 HOMBRE PRIVADO
162 44 21 2 7 50000 MUJER PUBLICO 175 82 19 4 10 70000 HOMBRE PUBLICO
163 55 17 2 25 48000 HOMBRE PUBLICO 177 58 18 4 24 12500 HOMBRE PUBLICO
164 55 20 2 25 40000 HOMBRE PUBLICO 178 95 19 4 15 50000 HOMBRE PRIVADO
164 54 17 3 15 20000 MUJER PUBLICO 180 79 19 2 8 50000 HOMBRE PRIVADO
164 54 17 2 18 54000 HOMBRE PUBLICO 180 85 22 3 48 60000 HOMBRE PUBLICO
165 56 19 3 10 75000 MUJER PUBLICO 181 71 18 4 16 23000 HOMBRE PRIVADO
165 52 17 2 12 30000 MUJER PUBLICO 181 64 17 3 20 40000 HOMBRE PUBLICO
165 58 33 2 20 40000 HOMBRE PRIVADO 182 70 20 3 14 40000 HOMBRE PRIVADO
166 52 17 3 20 50000 MUJER PRIVADO 182 86 22 3 15 30000 HOMBRE PRIVADO
168 64 17 3 40 20000 HOMBRE PRIVADO

Para la variable Sexo. Se elabora una tabla de frecuencias, indicando el número de hombres y mujeres
y el porcentaje que representa cada categorı́a.
GENERO Frecuencia Porcentaje
_______________________________
HOMBRE 28 62.22
MUJER 17 37.78

Para la variable Edad. Observe que esta variable aparece en una escala de razón, pero con valores
enteros. Sin agrupar la información se tienen los siguientes gráficos en SAS y R:
7

Fig. 1: Diagrama de Barras para Edad

Otra manera de visualizar estos datos es agrupando en clases o intervalos disjuntos. Se porponen
varias formas de agrupar los valores de esta variable.
1. Se agrupa la información por rangos (7 clases).

Edad Frecuencia F. Relativa


17 4 0.267
18-20 5 0.378
21-23 5 0.178
24-26 4 0.111
27-29 3 0.044
30-32 1 0.000
33 1 0.022

Fig. 2: Diagrama de Barras para Edad


8

2. Se agrupa la información por rangos con una regla especı́fica.

Para la variable estatura. Usando la regla de Sturges se obtiene

K = 1 + 3.33 log10 (n) = 1 + 3.33 ∗ log10 (45) = 6.505 ≈ 7 .

Ası́, se consideran 7 clases o intervalos. La mı́nima Edad es de 17 años y la máxima es de 33. El


rango de las estaturas es R = 16. Si se asumen intervalos o clases de igual longitud, la amplitud para
cada intervalo estará dada por:
Rango 16
A= = = 2.286 .
K 7
Para efectos de manejar un valor más simple como amplitud esta es redondeada a 2.4. Con esto
se tiene que el rango a sido ampliado en 0.8 años. (NR ango :7 ×2.4 = 16.8). La pregunta es como
repartir este excedente. La mayorı́a de usuarios propone que se haga de manera equitativa, es decir,
restar al mı́nimo la misma cantidad que se le suma al máximo. La figura 3 ilustra lo que se propone.

Fig. 3: Rango Ampliado para Edad

Los intervalos de clase que se conforman son:

(16.6, 19], (19, 21.4], (21.4, 23.8], (23.8, 26.2], (26.2, 28.6], (28.6, 31], (31, 33.4] .

La respectiva tabla de frecuencias está dada por:

Edad Frecuencia F. Relativa Marca


(16.6, 19] 20 0.444 17.8
(19, 21.4] 14 0.311 20.2
(21.4, 23.8] 3 0.067 22.6
(23.8, 26.2] 5 0.111 25
(26.2, 28.6] 2 0.044 27.4
(28.6, 31] 0 0.000 29.8
(31, 33.4] 1 0.022 32.2

El gráfico resultante se conoce como Histograma de Frecuencias. Este se ilustra en la figura 4. Los
valores en medio de cada barra son los puntos medios de cada intervalo de clase o Marcas de Clase.
9

Fig. 4: Histograma para Edad

Cuando solo se desea tener una idea gráfica del comportamiento de una variable, a veces no es tan
necesario intervenir tanto en la construcción de un histograma. La mayorı́a de software estadı́stico,
tienen reglas muy similares para la elección del número de clases o intervalos. Usando el paquete R
se muestra un diagrama de barras para la variable Estrato e histogramas para las variables Estatura,
Masa y Gasto.
Dichos gráficos se muestran en la figura 5.

Aunque no es una regla general una tabla de frecuencias deberia poseer las siguientes caracteristicas:

1. UNIFORMIDAD: Clases de igual amplitud o de amplitud variable que dependen del tipo de
datos.

2. UNICIDAD: Clases no traslapadas.

3. COMPLETEZ: Cada dato pertenece a una y sólo una clase.


10

Fig. 5: Diagrama de Barras e Histogramas

Box-Plot o Diagrama de Cajas y Bigotes

Los diagramas de caja y bigotes son herramientas gráficas muy útiles para describir caracterı́sticas
importantes en un conjunto de datos, como son centro, simetrı́a o asimetrı́a, valores atı́picos(raros),
etc. La construcción de este diagrama emplea medidas descriptivas que son poco sensibles a datos
extremos y por lo tanto presentan una descripción más clara de la información. Básicamente em-
pleamos para su construcción los tres cuarteles, los valores mı́nimos y máximos y la media Muestral
solo como medida de localización en el gráfico. Una observación se dice Atı́pica o Inusual si está a
más de 1.5 veces el rango intercualtil de alguno de los cuarteles Q1 o Q3. Una observación se dice
Atı́pica Extrema si está a más de 3 veces el rango Intercuartil de alguno de los cuartiles Q1 o Q3. El
diagrama está conformado por una caja la cual se construye con ayuda del primer y tercer cuartil. La
mediana es dibujada en el interior de la caja al igual que la media muestral. Los bigotes se extienden
desde los cuartiles a la derecha y a la izquierda. Su longitud depende de si hay o no datos atı́picos.
En la figura 6, se muestran dos tipos de boxplot.
11

Fig. 6: Construcción de un Box-Plot

Los Box-plot, para las variables Estatura, Masa, Edad y Gasto, se muestran en la figura 7.

Fig. 6: Box-Plot para Estatura, Masa, Edad y Gasto


12

Análisis descriptivo de un conjunto de n datos


Suponga que se tienen n datos recopilados sobre una variable y que pueden representar los tiempos
de duración de una baterı́a para vehı́culo. Estos datos pueden ser los que aparecen a continuación:
2.2 3.4 2.5 3.3 4.7 4.1 1.6 4.3 3.1 3.8 3.5 3.1 3.4 3.7 3.2 4.5 3.3 3.6 4.4 2.6
3.2 3.8 2.9 3.2 3.9 3.7 3.1 3.3 4.1 3.0 3.0 4.7 3.9 1.9 4.2 2.6 3.7 3.1 3.4 3.5

Este conjunto de datos por si solo no muestra ninguna faceta interesante. A simple vista se puede
apreciar un valor mı́nimo y un valor máximo y que hay algunos valores que se repiten. Por lo tanto es
supremamente difı́cil tratar de determinar alguna caracterı́stica de interés de la población de la cual
provienen; si el número de datos aumenta es todavı́a más difı́cil detectar caracterı́sticas importantes.
Existen técnicas estadı́sticas que permiten extraer información que puede resultar de algún modo
importante para tomar decisiones en un determinado momento.
Hay dos maneras de analizar estos datos:
1. Datos agrupados: Consiste básicamente en la conformación de clases de una cierta longitud
donde la pertenencia de un dato a cada clase estará determinada por su valor. Con esta técnica
es posible experimentar perdida de información.
2. Datos sin agrupar: Consiste en manipular los datos tal y como fueron recopilados.

Medidas numéricas en datos agrupados


Las medidas numéricas descriptivas se dividen en dos: Medidas de localización y Medidas de
dispersión. En las medidas de localización se circunscriben las medidas de tendencia central.

Medidas de localización y de tendencia central


Estas medidas permiten cuantificar numéricamente, caracterı́sticas de la población de la cual fueron
tomados los datos. Entre las más comunes se encuentran:

La media muestral para datos agrupados


Es un valor que trata de representar el comportamiento promedio del conjunto de datos. Corresponde
a una estimación de la media poblacional. En el caso de datos agrupados se define como:
k
P #celdas
P
mi fi marca de clase × Frecuencia de clase
i=1 i=1
X Agrup = = .
n Total Frecuencias
13

Como ejemplo, considere los datos de las Estaturas de los estudiantes del curso de primer semestre.
Con base en la tabla de frecuencias se tiene que:

Esta Frec F. Rel Frec Acu F R Acum Marca


(150, 155] 1 0.0208 1 0.0208 152.5
(155, 160] 3 0.0625 4 0.0833 157.5
(160, 165] 6 0.125 10 0.2083 162.5
(165, 170] 10 0.2083 20 0.4166 167.5
(170, 175] 11 0.2292 31 0.6458 172.5
(175, 180] 12 0.25 43 0.8958 177.5
(180, 185] 5 0.1042 48 1 182.5

7
P
mi fi
i=1
X Agrup =
n
(152.5 × 1) + (157.5 × 3) + (162.5 × 6) + (167.5 × 10) + (172.5 × 11) + (177.5 × 12) + (182.5 × 5)
=
48
= 171.15 .

La moda muestral para datos agrupados


Es el valor que que presenta mayor frecuencia. Se define como la marca de clase del intervalo con
mayor frecuencia absoluta. En el ejemplo anterior, se tiene que, moda = 177.5 cms.

Percentiles muestrales para datos agrupados


Los percentiles son aquellos valores abajo y arriba de los cuales se encuentra una cierta proporción
de datos del conjunto. Por ejemplo, el percentil 10 es aquel valor tal que al menos el 10 % de los datos
son inferiores a el y al menos el 90 % de los datos son superiores a el. Si la caracterı́stica de interés
está asociada a una variable X, el percentil 100p %, para 0 < p < 1, suele denotarse por xp . Otra
manera de denotar un percentil, es a través del porcentaje que representa. Por ejemplo, el percentil
25, suele denotarse como P25 .
Para calcularlo se requiere la columna de frecuencias relativas acumuladas, que se obtiene de la tabla
de frecuencias, usando la siguiente fórmula:

(p − a) × h
xp = L + ,
f

donde:
14

L: Lı́mite inferior de la clase que contiene el percentil.

n: Número de datos.

f : Frecuencia relativa de la clase que contiene el percentil.

a: Frecuencia relativa acumulada del intervalo anterior al del percentil.

h: Longitud de la clase del percentil.

Para identificar la clase del percentil se identifica cual clase tiene una frecuencia relativa acumulada
igual o superior a p.

Ejemplo
Usando los datos de estaturas calcule el P50 .
Se observa que en la columna de frecuencias relativas acumuladas el intervalo de clase donde esta
frecuencia supera a 0.5 es el quinto intervalo, donde la frecuencia acumulada es 0.6458, la cual
excede a 0.5. Por lo tanto la clase del percentil será (170, 175]. Usando este intervalo se tiene que:
L = 170, n = 40, f = 0.2292, a = 0.4166, p = 0.5, h = 5 . Ası́:

(0.5 − 0.4166) × 5
P50 = 170 + = 171.82 .
0.2292
El 50 % de los estudiantes del curso tienen estaturas inferiores o iguales a 171.8 cms.

Los percentiles P25 , P50 y P75 , dividen los datos en cuatro partes porcentualmente iguales. Estos
percentiles son llamados Cuartiles y se denotan Q1 , Q2 y Q3 , respectivamente.

Fig. 18: Cuartiles

La mediana
Corresponde al percentil 50. Es usualmente denotada X̃. Su cálculo se realiza con el mismo procedi-
miento utilizado en la obtención de los percentiles.
15

Medidas de dispersión

Estas medidas permiten cuantificar numéricamente, que tan dispersos se encuentran los datos ya
sea con respecto a la media o con respecto a las unidades de medición. Entre las más comunes se
encuentran:

La varianza muestral para datos agrupados


2
Esta medida indica que tanto se alejan los datos respecto de la media muestral. Se denota Sagrup . Se
calcula por medio de la siguiente fórmula:
Pk 2
2 i=1 mi − X agrup × fi
Sagrup = .
n

Rango intercuartil

Es la diferencia entre el percentil 75 y el percentil 25. Valores grandes quiere decir que el 50 % de los
datos más centrales se encuentran muy dispersos.

QRANGE = Q3 − Q1 = P75 − P25

Donde Q1 = P25 se denomina Primer cuartil y Q3 = P75 se denomina Tercer cuartil. El nombre
de cuartil proviene del hecho de que la unidad se divide en cuatro partes iguales y el de percentil
proviene del hecho de que la unidad se divide en cien partes iguales.
2
Para los datos de estaturas se tiene: Sagrup = 54, 937 , los percentiles 25 y 75 son P 25 = 166,
P 75 = 177.08. El rango intercuartil es QRANGE = 177.08 − 166 = 11.08 .

Cálculo de medidas numéricas para datos no agrupados

Para el cálculo de estas medidas se consideran todos y cada uno de los datos, por lo cual la perdida de
información contenida en la muestra se reduce. También se dividen en dos: Medidas de localización
y Medidas de dispersión. En las medidas de localización se circunscriben las medidas de tendencia
central.
16

Medidas de localización y de tendencia central

Media muestral
Se define como la suma de todos los elementos de la muestra dividido por el tamaño de la muestra.
Cuando la distribución de la cual provienen los datos es simétrica y no hay presencia de valores extre-
mos, la media muestral es un buen representante del conjunto de datos. La media no necesariamente
es un valor del conjunto de observaciones. Se denota con el sı́mbolo X. Se calcula con la siguiente
fórmula, Pn
Xi
X = i=1 , i = 1, 2, · · · , n
n
La media representa el punto de equilibrio de los datos.

Ejemplo
(La media es sensible a valores extremos). Considere los ingresos mensuales en pesos de 8 empleados
públicos:
500000, 750000, 600000, 550000, 700000, 550000, 550000, 600000.
Calcule el ingreso mensual medio.
Solución

500000 + · · · + 550000 + 600000


x= = 600000 .
8
El ingreso de los empleados muestreados está alredeedor de los 600000 pesos. Suponga que un nuevo
empleado es adiccionado a la lista y su ingreso es de 2000000. El ingreso promedio será X̄ = 755555.6 .
Observe que este valor es superior a la mayorı́a de las cifras del conjunto de datos. Esto se debe a que
uno de los ingresos es muy grande en comparacion con los otros ingresos. Este valor no representa
en gran medida al grueso de los ingresos.

Ejemplo
Se registra el número de tasas de café consumidas por un empleado de oficina en un perı́odo de 20
dias:

4 5 3 6 7 1 2 3 0 5 6 5 8 4 0 2 3 7 5 6

Calcule el número promedio de tasas de café.


Solución
X̄ = 82
20
= 4.1 . Un empleado consume en promedio alrededor de 4 tazas por dia.
17

Ejemplo
Se registran las edades de 15 personas en un grupo. Estas son:
18, 20, 19, 19, 21, 22, 20, 23, 21, 24, 19, 20, 22, 21, 24 (en años). Calcule la edad promedio de las 15 per-
sonas.
Solución
La edad promedio de este grupo es : X̄ = 313 15
= 20.86 ≈ 20.9 . Si resumimos esta información en una
tabla de frecuencia

Edad 18 19 20 21 22 23 24
frecuencia 1 3 3 3 2 1 2

La edad promedio se puede calcular como:


n
1X
X̄ = f i Xi .
n i=1

Es un cálculo similar al caso de datos agrupados. Usando esta tabla se obtiene:

18(1) + 19(3) + 20(3) + 21(3) + 22(2) + 23(1) + 24(2)


X̄ =
15
313
X̄ = = 20.9
15
P P
xi f i x i fi
X̄ = = P
15 fi

En el ejemplo anterior, suponga que otra persona adicional tiene una edad de 35 años. El cálculo de
la edad promedio es: X̄ = 313+35
16
= 348
16
= 21.8 .

313+45
Si la edad adiccional fuera 45 años, entonces X̄ = 16
= 22.4 .

313+55
Si la edad fuera 55 años, entonces X̄ = 16
= 23 .

Observe que la media muestral tiende a acercarse al valor extremo.

La moda en datos sin agrupar


Se define como el dato que presenta mayor frecuencia en la muestra. Para calcularla se recomienda
ordenar las observaciones de menor a mayor. Es posible que un conjunto de datos no tenga moda o
18

que tenga varias modas.

Ejemplo
Considere los siguientes datos ordenados de menor a mayor:
500, 550, 550, 600, 700, 750, 750, 800, 900, 950 . Para esta muestra calcule la moda.
Solución
Se puede observar que el conjunto de datos tiene dos modas que son respectivamente: 550 y 750.

Percentiles para datos sin agrupar


Una aproximación a los valores de los percentiles se puede obtener por medio del siguiente algoritmo
que muestra como se calcula el percentil de orden p, con 0 < p < 1 .

1. Ordene la muestra de menor a mayor

2. Calcule el percentil 100p %, xp como


X(n p) +X(n p+1)

 2
Si n p es un natural
xp = ,
X([[n p]]+1) Si n p no es un natural

El sı́mbolo [[ ]] representa la función Mayor Entero.

La mediana en datos sin agrupar


Es un valor arriba del cual se encuentra el 50 % de los datos y abajo del cual se encuentra el otro
50 %. No es tan sensible como X a valores extremos. Se denota X̃. Para hallarla se deben ordenar
los datos de menor a mayor. Suponga que se tiene el siguiente conjunto de datos X1 , X2 , . . . , Xn , si
se ordenan de menor a mayor se obtiene la siguiente sucesión X(1) , X(2) , . . . , X(n) . X̃ se calcula por
medio de, 
 X( n+1 )
 2
Si n es impar
X̃ = .
 X( n ) +X( n +1)
2 2
Si n es par

2

Ejemplo
Considere los ingresos mensuales en dolares de 8 empleados públicos, 500, 750, 600, 550, 700, 2000,
550, 550. La muestra ordenada es 500, 550, 550, 550, 600, 700, 750, 2000. Calcule la mediana.
19

Solución
Como n es par
X( n ) + X( n +1) X(4) + X(5) 550 + 600
2 2
X̃ = = = = 575 .
2 2 2
Este valor de la mediana es una medida más representativa que X. El 50 % de los ingresos de los
empleados son inferiores o iguales a 575 dólares.

Ejemplo
Considere los siguientes datos ordenados de menor a mayor:
500, 550, 550, 600, 700, 750, 750, 800, 900, 950 . Halle el percentil 76 usando el método expuesto arriba.
Solución
La muestra ya esta ordenada, entonces usando el método anterior n (0.76) = 7.6 por lo tanto,
P76 = X(8) = 800 . El 76 % de los empleados tienen ingresos inferiores o iguales a 800 dólares.

Para el ejemplo anterior, de las edades, calcular la mediana.


Solución
La mediana se calcula como: X̃ = X( 15 +1) = X(8) . Ahora, como
2

18 19 19 19 20 20 20 21 21 21 22 22 23 24 24
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 ,

entonces: X8 = 21, es decir, X̃ = 21 . El 50 % de las personas encuestadas tienen edades inferiores


o iguales a 21 años.

X(8) + X(9)
Se encuesta a otra persona y su edad resulta ser 30 años, la mediana en este caso es X̃ = 2
=
21 + 21
2
= 21 .

Si la edad de esa nueva persona es 50 años, se tiene que


X +X
X̃ = (8) 2 (9) = 21 +2 21 = 21 . Es decir, la mediana no se vé afectada por datos muy extremos o
atı́picos.

Al igual que para datos agrupados, se pueden calcular los Cuartiles Q1 , Q2 , Q3 y los percentiles.

Ejemplo
Para los datos de edades, calcule el primer cuartil y el percentil 60.
Solución
El primer cuartil es el percentil 25. Ahora 0.25 (15) = 3.75 . El primer cuartil Q1 , debe dejar al
20

menos 4 valores en ó por debajo de el y 12 valores en ó por encima de el. Ası́ Q1 = X(4) = 19 . El
25 % de las personas tienen edades inferiores o iguales a 19 años.
El percentil 60 . (0.6) (15) = 9 . Al menos 9 valores en ó por debajo de él y 6 valores en ó por encima
X +X
de él. En este caso dicho percentil corresponderı́a a P 60 = (9) 2 (10) = 21 . El 60 % de las personas
tienen edades inferiores o iguales a 21 años.

Medidas de dispersión

La varianza
La varianza muestral mide que tanto se alejan los datos de la media. Valores grandes de la varianza
indican una gran dispersión. Se denota por S 2 . Se calcula con la siguiente fórmula,
Pn 2
2 i=1 Xi − X
S = .
n−1

Interpretar la varianza puede resultar un poco complicado ya que esta expresada en unidades cuadra-
das; por ejemplo, la varianza podrı́a estar en minutos cuadrados o en kilogramos cuadrados. Por esta
razón se acostumbra reportar la raı́z cuadrada de la varianza, que recibe el nombre de Desviación
estándar. Si por ejemplo un investigador toma mediciones de temperatura en una región durante
cierto tiempo y al final reporta: ‘Se observó una temperatura promedio de 28o C con una desviación
estándar de 1o C ’quiere decir que algunas veces la temperatura puede bajar hasta 27o C y algunas
veces puede subir hasta 29o C.

Ejemplo
Para los datos de las edades, se tiene que:
(Xi − 20.9)2
P
2
S = 15 − 1
= 3.4095 ≈ 3.41 y S = 1.8466 ≈ 1.85
Lo cual significa que la desviación promedio en cuanto a la media es de 1.85 años. En otras palabras,
la mayorı́a de los estudiantes del curso tienen edades entre 19 y 23 años.

El rango intercuartil
Esta medida es la diferencia entre el percentil 75 y el 25. Mide que tan disperso está el 50 % de los
datos más centrales. Se calcula ası́

RANGO INTERCUARTIL = Qrange = Q3 − Q1 = P75 − P25 .


21

Coeficiente de variación
El coeficiente de variación que se define como : C.V = XS .
Es una fracción de la media muestral. Se usa para comparar la variabilidad de dos o más conjuntos
de datos.
Ejemplo
Considere las siguientes medidas que se tomaron a dos poblaciones, una de hombres de 25 años y
otra de niños de 11 años. Tales medidas son,

X adultos = 66 kgs
Sadultos = 4.5 kgs
X niños = 36 kgs
Sniños = 4.5 kgs

Calcule el coeficiente de variación para los adultos y para los niños. Con los datos anteriores se puede
observar que
4.5
C.Vadultos = = 0.0682
66
4.5
C.Vniños = = 0.125
36
Se puede concluir que los pesos de los niños son más variables que los de los adultos.

También podría gustarte