Descriptiva II 2017 UNQ

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 28

Probabilidad y Estadística

ESTADISTICA DESCRIPTIVA
En un problema de Probabilidad, se supone que se conocen las propiedades de
la población en estudio, y se formulan y responden preguntas respecto de una
muestra.

En un problema estadístico, el experimentador dispone de características de la


muestra y desea sacar conclusiones con respecto a la población.
La relación entre las dos disciplinas puede resumirse como:

Generalmente en la vida profesional tenemos algún problema relacionado con


datos. En definitiva una pregunta que queremos contestar.

En base a esa respuesta que necesitamos, deberemos elegir métodos para


analizar esos datos.

En mi fábrica textil, ¿Influirá el porcentaje de algodón en mis telas sobre la


resistencia de la tela?

Un médico hizo un estudio donde le preguntó a sus pacientes su altura y su


peso. Después los pesó y los midió. Quiere saber si en realidad sus pacientes
reportan un peso inferior al que tienen…

En una embotelladora de agua mineral, tienen 2 máquinas. El departamento


de control de calidad sospecha que las maquinas difieren en el volumen de
llenado…

Una fábrica de zapatos está investigando cajas que sean más resistentes a la
compresión. Para eso analiza 4 tipos de cajas diferentes. ¿Las cajas difieren en
su resistencia a la compresión?

 Recolección de datos
 Organizar y resumir datos – sacar conclusiones
 Censo vs. Muestra: tiempo y $$

Etapas en toda investigación

 Diseño: Planeamiento y desarrollo


 Descripción: Resumen y exploración de los datos
 Inferencia: Predicción y toma de decisiones

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 1


Probabilidad y Estadística
Tipos de variables

Variables cualitativas
Registran la presencia de un atributo, una categoría, éstas deben ser
mutuamente excluyentes y exhaustivas (pueden cuantificarse, de alguna
manera). Por ejemplo:

Algunos ejemplos de variables cualitativas

Cualitativas nominales: No hay un orden natural. Entonces asignamos un


“nombre”.

Por ejemplo:
Fuma – No fuma
Grupo sanguíneo: A, B, AB, 0

Cualitativas ordinales: Existe un orden natural.


Por ejemplo:
Tipo de herida: Leve=0, Moderada=1, Severa=2, Fatal=3

Variables cuantitativas

En las variables cuantitativas el resultado es un número generalmente con


dimensión. Pueden ser:

Cuantitativa discreta: los números que asume son naturales o están en un


conjunto finito; frecuentemente surgen por conteo. Ejemplo: cantidad de hijos;
cantidad de terremotos en América del Sur.

Cuantitativa continua: es una medición que se expresa en unidades y que


puede tomar, al menos teóricamente, un número infinito de valores dentro de
un rango. En la práctica estos valores posibles dependen de la precisión del
instrumento de medición o por la manera de medirla.
Ejemplo: altura, peso, tiempo empleado en cierto experimento.

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 2


Probabilidad y Estadística
Cuantitativa discreta:
Cantidad de hijos

Cuantitativa continua:
Altura de los alumnos

Ejemplo: Si la variable aleatoria X tiene distribución Normal (3, 0.1)

Y seleccionamos una muestra de tamaño 50. Luego calculamos su media y


graficamos la distribución de la media para n=50.

Observación: ¿Qué significa n suficientemente grande? ¿Cómo sabemos si la


aproximación es buena?

El tamaño de muestra requerido para que la aproximación sea razonablemente


buena, depende de la forma de la distribución de las Xi .

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 3


Probabilidad y Estadística

Mientras más simétrica y acampanada sea la distribución original de


los datos, más rápidamente se obtiene una buena aproximación de la
media y del total a la normal.

Ejemplo sobre TCL: Supongamos que la variable aleatoria X tiene


distribución Exponencial (0.1)

Y seleccionamos una muestra de tamaño 50. Luego calculamos su media y


graficamos la distribución aproximada de la media para n=50.

Ejemplo sobre TCL: Supongamos que la variable aleatoria X tiene


distribución Uniforme (1,3)
Y seleccionamos una muestra de tamaño 50. Luego calculamos su media y
graficamos la distribución aproximada de la media para n=50.

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 4


Probabilidad y Estadística

DISTRIBUCIONES DE BINOMIALES PARA DISTINTOS TAMAÑOS DE


MUESTRAS (Corolario del Teorema Central del Limite)

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 5


Probabilidad y Estadística
Uso de programas estadísticos

Se dispone de cantidad de programas estadísticos. Es aconsejable optar por


algunos de ellos teniendo en cuenta:

 Que sea metodológicamente confiable. Esto es que no tenga errores.


 Estudiarlo a fin de poder aprovechar todo su potencial.
 Que su manejo sea amigable.
 Casi todos leen datos de archivos excel.

Algunos programas confiables disponibles: Statistixs, S-Plus, Infostat,


SAS, Stata. Utilizaremos el programa R.

Como cargar R:
http://www.r-project.org/
http://cran.r-project.org/
Figura en Argentina la Universidad Nacional de La Plata:

http://mirror.fcaglp.unlp.edu.ar/CRAN/
Instalar paquetes en R: Desde la ventana de comandos:
>library(Devore7)

Instalar paquete: R comander


>library(Rcmdr)

Al recibir un conjunto de datos para su análisis, debemos revisarlo:


 Si existen datos faltantes.
 Errores de tipeo o en el ingreso de los datos.
 Preparar el archivo para que el software lo pueda leer.

GRAFICOS
Gráfico de tallo hoja (Stem leaf)
Gráfico de puntos (Dot plots)
Diagrama de barras (Bar charts)
Histograma (Histogram)
Diagrama de frecuencias acumuladas
Polígono de frecuencias
Boxplot
QQplot

Gráfico Tallo - Hoja


Proporciona una primera aproximación rápida de la distribución de los datos

Se procede de la siguiente manera:


 Se separa cada observación en dos partes: tallo y hoja.
 Se lista en forma vertical y creciente los tallos y se agregan las hojas a
la derecha del tallo correspondiente.

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 6


Probabilidad y Estadística

Datos:
15, 16, 21,23, 23, 26, 26, 30, 32, 41

¿Qué información es deseable obtener?

Rango de las observaciones, valores máximos y mínimos.


Si hay simetría, asimetría a derecha o izquierda.
Si se visualizan picos.
Posición del centro de la distribución y concentración de los datos
Desviaciones muy marcadas respecto del comportamiento general.
Casos atípicos.
Si hay grupos separados.

Tragedia del transbordador espacial Challenger 1986


Devore Ejemplo 1.1
Las razones de la falla de la misión se enfocó en el comportamiento de los
sellos anulares del motor del cohete. Se estudió la temperatura del sello anular
del motor del cohete en cada encendido de prueba o lanzamiento del cohete.
Los datos son los siguientes:

84 49 61 40 83 67 45 66 70 69 80 58 68 60 67 72 73 70 57 63 70 78 52 67
53 67 75 61 70 81 76 79 75 76 58 31

Gráfico Tallo – Hoja en R


Graficas – Graficas de Tallos y Hojas –
Menu con el nombre de la variable del conjunto de datos activo: temp

> stem(xmp01.01$temp)
The decimal point is 1 digit(s) to the right of the |

3 | 1
4 | 059
5 | 23788
6 | 01136777789
7 | 000023556689
8 | 0134

Se observa una asimetría en los datos hacia la izquierda!!

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 7


Probabilidad y Estadística
Capitulo 1 ejemplo 5, Devore 6 (Nombre del archivo en R: xmp01.05)

En un artículo de «Health and Behavioral consequences of Binge Drinking in


college» se describe un estudio detallado del alto consumo de alcohol en las
140 Universidades de los Estados Unidos. Se definió la variable aleatoria X:
porcentaje de alumnos con alto consumo de alcohol en cada Universidad. Se
considera alto consumo de alcohol para los varones, 5 o mas copas seguidas y
para las mujeres 4 o más copas seguidas.

> stem(xmp01.05$bingePct)

The decimal point is 1 digit(s) to the right of the |

0 | 4
0 |
1 | 134
1 | 5678889
2 | 12234
2 | 56666777889999
3 | 0112233344
3 | 555666677777888899999
4 | 11122222334444
4 | 5566666677788888999
5 | 001112222334
5 | 55666667777888899
6 | 011112444
6 | 55666778

Gráfico de puntos
Es un atractivo resumen de datos numéricos cuando el conjunto es
relativamente pequeño.
Así como el tallo hoja, el grafico de puntos nos da información sobre
localización, dispersión, extremos y cortes.

Para el ej 1.1 de Devore6: Tragedia del transbordador espacial Challenger


1986

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 8


Probabilidad y Estadística
Para el ej 1.5 de Devore6: Alto consumo de alcohol en 140
Universidades de EEUU

> dotplot(xmp01.05$bingePct)

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 9


Probabilidad y Estadística

Diagrama de Barras: Datos cualitativos

Histogramas: Datos cuantitativos

Diagrama de Barras

Se utiliza para representar datos cualitativos o cuantitativos discretos


En el eje de abscisas (x) los valores de la variable
En el eje de ordenadas (y) la frecuencia absoluta o relativa

Frecuencia (f): Es la cantidad de veces que se repite un valor de la variable.


Frecuencia relativa: Es el cociente entre f y el número de observaciones n.

Ejemplo de Diagrama de Barras - Datos cualitativos

El ejercicio 29 del capítulo 1 de Devore7:


Considere los siguientes tipos de problemas de salud que aqueja a los que
trabajan plantando árboles.
J: hinchazón de articulaciones
F: Fatiga
B: dolor de espalda
M: debilidad muscular
C: tos
N: irritación de nariz
O: otro
Grafique el histograma:

Rcmdr:
Datos – Conjuntos de datos en paquetes – Leer conjunto de datos en paquete
adjunto: Devore7 – ex01.29

Graficas: Está inactivo Histograma, está activo Diagrama de Barras.

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 10


Probabilidad y Estadística

Diagrama de Frecuencias acumuladas


Ordenamos de manera creciente los datos y sea fk la frecuencia absoluta del
dato xk. Llamaremos F(xk) a la frecuencia acumulada, que es el número de
observaciones que no exceden xk.

Si representamos en el eje de abscisas los reales y en el eje de ordenadas las


Frecuencias acumuladas relativas, tendremos una función escalonada cuyo
conjunto imagen es el intervalo [0;1].

Ejemplo
Tras encuestar a 25 familias acerca del número de hijos que tenían, se
obtuvieron los siguientes resultados: datos discretos.

La Tabla de distribución de frecuencias queda:

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 11


Probabilidad y Estadística

Histograma para datos agrupados

Eje x de abscisas: Intervalos


Con intervalos de igual longitud,
Histograma: se grafican los rectángulos con altura igual a la frecuencia o
frecuencia relativa del intervalo correspondiente.

¿Qué forma puede tener un histograma?

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 12


Probabilidad y Estadística
Un aspecto a tener en cuenta en la distribución de los datos es la simetría. Un
conjunto de datos que no se distribuye simétricamente, se llama asimétrico.
La asimetría puede verse en el esquema de Tallo y Hoja o en el Histograma.

En los siguientes gráficos se muestran algunas de las formas posibles


que puede tener un histograma:

Histograma del Ejemplo1 sobre la falla de la misión Challenger


(temperatura de sello anular del motor,v.a. continua ) en R

> hist(tmp)

En el eje y tenemos la frecuencia. Supongamos que queremos tener en el eje


y la frecuencia relativa, o sea la probabilidad

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 13


Probabilidad y Estadística
Histograma del Ejemplo5 sobre alto consumo de alcohol en 140
Universidades de Estados Unidos, en R

Histograma del Ejemplo10 cap 1 sobre información sobre hábitos de


consumo de energía de clientes, en R

Medidas de resumen

Se resumirá la información de los datos provenientes de variables numéricas


mediante medidas de fácil interpretación que reflejen sus características más
relevantes.

Medidas de posición o de tendencia central

¿Cuál es el valor central o que mejor representa a todos los datos?

Si la distribución es simétrica, diferentes medidas darán resultados similares.


Si la distribución es asimétrica, no existirá un CENTRO evidente.

Media o Promedio Muestral


Dados un conjunto de n datos x1, x2, … , xn se llama Media Muestral a la suma
de todos los datos dividido el total de observaciones.

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 14


Probabilidad y Estadística

Estatura Media para una población homogénea o heterogénea

Una interpretación física: representemos los puntos en una escala


horizontal, y demos a cada punto un peso de 1kg. El punto en el cual la
balanza estará equilibrada es el punto donde se encuentra la media.

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 15


Probabilidad y Estadística

Media Muestral

Media Muestral en el ejemplo 01.01 del Challenger, con R

Entonces, le voy a pedir al R en el Comander que elabore todas las medidas de


resumen que pueda:
Estadísticos – Resúmenes – Resúmenes numéricos

Mediana Muestral (Robusta)

Teniendo las observaciones ordenadas de manera creciente, es aquel valor que


divide a la muestra en dos partes de igual tamaño.

Para hallarla debemos considerar dos posibilidades:

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 16


Probabilidad y Estadística
Comparación entre Media y Mediana Muestral

La Mediana es resistente a los casos atípicos pero utiliza poca información

Modo o Moda
 Es la observación de mayor frecuencia.
 Puede haber más de una.
 Puede no existir.
 Es de poca importancia.
 En la 1ª y 2ª muestra, Modo=2

Ubicación de Media, Mediana y Modo en base a la simetría de la


distribución

Media, Mediana y Rango en el ejemplo del Challenger con R

> summary(tmp)
Min. 1st Qu. Median Mean 3rd Qu. Max.
31.00 59.50 67.50 65.86 75.00 84.00

Medidas de variabilidad o de dispersión


¿Cuán dispersos están los datos?
¿Cuán próximos están del valor típico?

Ejemplo

Coinciden Media y Mediana en ambas muestras!

Como medir entonces las diferencias que se observan en las muestras???

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 17


Probabilidad y Estadística
Rango
Rango Muestral: Es la diferencia entre el mayor valor y el menor valor.

Esta medida es muy sensible a la presencia de datos extremos!!!

Varianza Muestral
En la 3ª y 4ª Muestra, Media y Mediana coinciden (5)
y el Rango también coincide (10)
Se calcula la Varianza Muestral como:

Promedio de los cuadrados de los desvíos respecto de la media


Desvío o dispersión Muestral

3ª Muestra: s2= 20.5 y s= 4.258


4ª Muestra: s2= 12.5 y s= 3.536

Tanto la varianza como el desvío son sensibles a datos atípicos.

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 18


Probabilidad y Estadística

Una medida de variabilidad más resistente que el desvió estándar es la


DISTANCIA INTERCUARTIL (Robusta)

Se comienza por definir los percentiles


Los percentiles son valores que dividen a la distribución en partes iguales.

Vimos ya el percentil 50% la MEDIANA

El percentil a % de la distribución de los datos es el valor por debajo del cual


se encuentran el a % de los datos en la muestra ordenada.
Para calcularlo:
1. Se ordena la muestra de menor a mayor

2. Se busca el dato que ocupa la posición

Como caso particular de los percentiles: Los cuartiles

Primer Cuartil q1: deja a izquierda el 25% de los datos.


Segundo Cuartil q2: coincide con la Mediana.
Deja a izquierda el 50% de los datos.

Tercer Cuartil q3: deja a izquierda el 75% de los datos.

Gráficamente esto es ….

Cuartiles en R para el ejemplo 01.01 del Challenger

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 19


Probabilidad y Estadística

Distancia Intercuartil (IQR)

Una medida sumamente interesante es la Distancia o Rango Intercuartil.

Entre ambos cuartiles tenemos el 50% de los datos centrales.

Para el ejemplo: q1=59.50 q3=75

Distancia Intercuartil = dl (IQR) = 75 – 59.50= 15.50

Box Plot o diagramas de Caja

Se presentan en escala vertical u horizontal. Se dibuja una caja cuyos


extremos son los cuartiles 1 y 3 y un segmento en el centro que representa la
mediana.

Box Plot o diagramas de Caja Largo de los Bigotes

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 20


Probabilidad y Estadística

Box Plot o diagramas de Caja

Largo de los Bigotes y Outliers o datos atípicos

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 21


Probabilidad y Estadística
Tallo hoja, Histograma y Box Plot para el ejemplo 01.01, accidente del
Challenger, con R

Tallo hoja, Histograma y Box Plot para el ejemplo 01.05, consumo de


alcohol en 140 Universidades, con R

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 22


Probabilidad y Estadística

Histograma y Box Plot, para los datos de los pesos reportados y reales
de pacientes.

Ejemplo: Un experimento en el cual se compararon varios tipos diferentes de


cajas con respecto a la resistencia a la compresión. ¿Sugieren los datos que la
resistencia a la compresión de las cajas varía según el tipo de caja?

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 23


Probabilidad y Estadística
Para el ejemplo 01.02, sobre resistencia del concreto a la flexion, con
R

Histograma y Box Plot para el ejemplo 01.02, resistencia a la flexión


del concreto, con R

¿La muestra proviene de una distribución en particular?

Muchos procedimientos de inferencia estadística están basados en la


suposición de que la distribución de la población es de un tipo específico.

Una forma efectiva de verificar una suposición distribucional es construir un


gráfico de probabilidad o Qqplot (Gráfico Cuantil – Cuantil).

Si interesa comparar con la distribución Normal se llama gráfico de


probabilidad normal o Plot Normal.

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 24


Probabilidad y Estadística
Qqplot o gráfico Cuantil – Cuantil (Plot Normal)

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 25


Probabilidad y Estadística

 Las distintas curvaturas que pueden presentar estos gráficos, sugieren


que tipo de distribución puede tener la población de origen.

 La mayoría de los software estadísticos realiza estos gráficos y además


proveen el valor del estadístico de Shapiro-Wilk, W, que mide la
asociación entre los cuantiles poblacionales y muestrales.

PARA EL EJEMPLO LO HEMOS HECHO CON 10 DATOS PERO NO ES


CONVENIENTE REALIZAR QQPLOT NI BOXPLOT CON MENOS DE 15
DATOS.

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 26


Probabilidad y Estadística
Tallo hoja, Histograma y Box Plot para el ejemplo 01.01, accidente del
Challenger, con R

QQPlot para el ejemplo 01.05, consumo de alcohol, con R

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 27


Probabilidad y Estadística
QQPlot para el ejemplo 01.02, resistencia a la flexión del concreto.

Cuatrimestre II – 2017 – Dr. Vera – Lic. Buongiorno Página 28

También podría gustarte