Curso de Probabilidad y Estadística Uaq
Curso de Probabilidad y Estadística Uaq
Curso de Probabilidad y Estadística Uaq
Qu es la Estadstica?
Cada persona es un individuo, por lo que es diferente de manera nica a los dems. No
obstante, cuando se trata de un solo rasgo, muchos valores de una sola variable tomados
de muchos individuos, suele generar un patrn (Johnson, 1999). La metodologa
estadstica se usa para describir y ayudar a explicar estos patrones. La Estadstica aplica
tcnicas matemticas para cuantificar las ideas que se estn investigando y para reducir la
informacin a un formato numrico, en el que sta puede tratarse grfica o
algebraicamente.
OBJETIVO DEL CURSO
Objetivo: desarrollar la capacidad de razonamiento formal utilizando las herramientas
bsicas de la estadstica descriptiva y de la teora de probabilidades para muestrear,
procesar y comunicar informacin social y cientfica, para la toma de decisiones en la vida
cotidiana, en un clima de colaboracin y respeto.
1.1 Definicin de Probabilidad:
La teora de la probabilidad es la teora matemtica que modela los fenmenos aleatorios. Un
fenmeno aleatorio es aquel que, a pesar de realizarse el experimento bajo las mismas
condiciones determinadas, tiene como resultados posibles un conjunto de alternativas.
TEMARIO
Unidad I. Estadstica Descriptiva
I.1 Conceptos generales
I.1.1 Antecedentes histricos
I.1.2 Elementos fundamentales
I.1.3 Tipos de Variables
I.1.4 Escalas de medicin
I.1.5 Organizacin de la informacin
I.1.6 Distribucin de frecuencias y representacin grfica
I.2 Medidas de Tendencia Central
I.2.1 Mediana, Moda, Media aritmtica, geomtrica y armnica
I.2.2 Propiedades
I.3 Medidas de dispersin
1
Para la pregunta que se menciona aqu (intencin del voto), el parmetro sera la
proporcin de la poblacin que votara por cada partido (% voto pri, % voto pan, %voto
prd, etc.)
El valor de un parmetro es aquel nmero que se obtendra si se midiera o revisara la
poblacin completa en lugar de solo una muestra. Este valor generalmente se desconoce,
por lo que se estima o pronostica por medio de una muestra.
Otro ejemplo
De un proceso de produccin de tornillos se desea saber cul es el dimetro promedio de
los tornillos que se producen. Se toma una muestra de 50 tornillos y se mide el dimetro
de cada uno. Se promedian los dimetros de los tornillos de la muestra y se toma este
valor como una estimacin del dimetro promedio de los tornillos que se producen.
Poblacin: Todos los tornillos que se producen usando el proceso
Parmetro: dimetro promedio de los tornillos de la poblacin (se desconoce)
_Cuantitativa puede asumir valores numricos. Tiene sentido realizar operaciones con los
nmeros, como por ejemplo el promedio
EJEMPLOS
(cualitativa) La calificacin de una pregunta en un examen: correcta=1, incorrecta=0.
(cualitativa) El gnero de un trabajador: femenino=1, masculino=2.
(cualitativa) El resultado de revisar un artculo: defectuoso=1, no defectuoso=0.
(cuantitativa) El tiempo que transcurre para que seque una capa de pintura.
(cuantitativa) El nmero de defectos encontrados en un metro cuadrado de tela
(cuantitativa) El contenido del lquido de una botella de refresco
(cuantitativa) El peso de un envase que se usa para contener un lquido
(cuantitativa) El tiempo que transcurre desde que un foco se enciende por primera vez
hasta que se funde
Escalas de Medicin
Hay 4 escalas:
Nominal: Los nmeros se usan para distinguir las categoras de la variable. Ejemplo:
estado civil, estado de empleo, ocupacin, gnero, etc.
Ordinal: Se usan nmeros para distinguir las categoras de la variable, pero estas
categoras llevan un orden. Ejemplo: Qu tan identificado usted con la afirmacin: el
que no tranza, no avanza? 1) totalmente, 2) regular, 3) nada
de Intervalo: Asume valores numricos y las operaciones aritmticas con dichos nmeros
tienen sentido, pero el cero de la escala es arbitrario. Este es el caso de muchos variables
sicolgicas, por ejemplo el IQ. Si una persona tiene un IQ de 50 y otra de 100, no significa
que la segunda sea el doble de inteligente que la primera. Lo mismo pasa con las
calificaciones de los exmenes. El 0 de la escala no significa una ausencia total de la
caracterstica que se mide. Si alguien obtiene 0 en una prueba no significa que su grado de
conocimiento sede Razn: Como la escala de intervalo pero con la diferencia de que el 0
es absoluto, es decir, refleja carencia absoluta de la caracterstica que se mide.
Ejemplo, longitud, peso, temperatura (k), densidad, tiempo, dinero
Algunos paquetes estadsticos no distinguen entre escala intervalo y razn, pues muchas
tcnicas estadsticas funcionan para ambas.
a nulo. Ejemplo: temperatura (C).
PROBABILIDAD Y ESTADSTICA
4 Sep 2008
6
RECOLECCIN DE DATOS
Cmo se obtiene?. Usando una tabla de nmeros aleatorios o cualquier otro dispositivo
que induzca aleatoriedad como una moneda, una baraja, una ruleta, etc.
ALEATORIEDAD
Aleatorio no es sinnimo de catico, sino una descripcin de un tipo de orden que emerge
slo en corridas largas (Moore, 1997)
1. Numere en una lista a todos los individuos de la poblacin de inters, llamemos N al tamao de
este conjunto.
2. Observe cuntos dgitos tiene el nmero N (por ejemplo N=150 tiene 3 dgitos). Llamemos r a
ese nmero.
3. Elija cualquier columna de ancho r en la tabla de nmeros aleatorios y recrrala de arriba hacia
abajo seleccionando los primeros n nmeros entre 1 y N que encuentre. Si se termina la columna y
no ha completado los n nmeros, contine el procedimiento con la siguiente columna de la
derecha.
Los elementos de la muestra sern aquellos que se encuentren asociados en la lista con
los nmeros aleatorios elegidos. Por ejemplo si la muestra es de tres individuos de un
7
listado de 30 y los nmeros seleccionados fueron 7, 5 y 21, entonces los individuos cuyos
nombres aparezcan en los renglones 7, 5 y 21 de la lista constituyen la muestra.
de qu tamao debe ser la muestra?
Sin embargo en una encuesta, para tomar una m.a.s. de elementos cuando el tipo de
parmetro que se desea estimar en una poblacin es una proporcin, el tamao se define
con la siguiente frmula que se evala en dos pasos:
Primer paso:
n0
0.96
e2
donde e es el margen de error que se desee utilizar y debe escribirse en forma de proporcin. El
nivel de confianza utilizado en esta frmula es del 95%.
Segundo paso: si N es el tamao de la poblacin de donde va a extraerse la muestra, entonces se
usa la estimacin del tamao de muestra obtenido en el primer paso y se sustituye junto con N en
la siguiente frmula:
n0
n
1 0
N
Continuacin
Cuando el tipo de parmetro es una media, un total u otro, se usan otras frmulas
(consultar un libro de muestreo)
Organizacin de la informacin
Cuando se tienen muchos datos, es difcil observar aspectos relevantes de los datos por lo
que se recurre a resumirlos.
Distribucin de frecuencias
8
Una distribucin de frecuencias es el conjunto de valores que toma una variable junto con
su frecuencia de aparicin.
Caso I: Variable Cualitativa, nominal u ordinal. Las grficas pueden ser de pastel o
circulares o bien pueden ser de barras.
Distribucin de frecuencias
Accidentes graves en carreteras estatales de Quertaro
durante el 2004
Graves
18%
No graves
82%
Frecuencia
Frecuencia
relativa
Porcentaje
Graves
483
0.1806
18
No graves
2191
0.8194
82
Total
2674
1.0
100
Accidentes
Categora
2191
2000
1500
1000
483
500
0
Graves
No graves
Distribucin de frecuencias
Los dispositivos tabulares pueden ser de dos clases: frecuencias agrupadas o sin agrupar
Ejemplo
4.6 5.0 5.1 5.2 5.5 5.9 6.1 6.2 6.3 6.3 6.4 6.4 6.5 6.5 6.6 6.6 6.7 6.8 6.9 6.9 6.9 7.0 7.0
7.0 7.1 7.1 7.2 7.2 7.2 7.3 7.4 7.4 7.5 7.5 7.6 7.6 7.8 7.8 8.0 8.1 8.5 8.5 9.0 9.0
Grfica de puntos
10
Distributions
Calificacin
Stem and Leaf
Stem
9
8
8
7
7
6
6
5
5
4
Leaf
00
55
01
556688
00011222344
556678999
123344
59
012
6
Count
2
2
2
6
11
9
6
2
3
1
4| 6 represents 4.6
Histograma
Los datos se agrupan en intervalos llamados clases y estas clases son representadas
por el punto medio del intervalo llamado marca de clase. Se hacen
aproximadamente n intervalos, donde n es el nmero de datos. El ancho de los
intervalos se calcula dividiendo el dato mximo menos el mnimo entre el nmero
de intervalos.
Intervalos
Frecuencia
Frec. acumulada
Frec. relativa
Frec.Rel.acum.
4.6 - 5.2
4/44=.045
.045
5.3 - 5.9
2/44
6/44=.136
6.0 - 6.6
11
17
11/44
17/44=.386
6.7 7.3
15
32
15/44
32/44=.727
7.4 - 8.0
40
8/44
40/44=.909
8.0 8.6
42
2/44
42/44=.955
8.7 9.3
44
2/44
44/44=1.0
11
Una vez realizada la tabla de frecuencias, se puede construir el histograma, dibujando dos ejes
perpendiculares uno horizontal, donde se ubican los valores de la variable y se levanta una barra
de altura proporcional a la frecuencia para cada intervalo y otro vertical donde se ubican los
valores de las frecuencias. De este modo, el rea bajo un histograma es 1.
Grfica de caja y bigotes
9,0
8,0
7,0
6,0
5,0
20
4,0
v1
Todas las grficas para variables cuantitativas tienen como objetivo visualizar:
1. La forma de la distribucin
Simtricas, en forma de campana (Significa que la mayor parte de los datos se distribuye
alrededor del centro y unos cuantos datos en los extremos)
Sesgada a la derecha (cola der. ms larga que la izquierda, los valores pequeos son ms
frecuentes que los grandes)
Sesgada a la izquierda (cola izquierda ms larga que la derecha, los valores ms grandes
son ms frecuentes que los pequeos)
Bimodal (la distribucin tiene dos montculos, puede ser sntoma de dos poblaciones
diferentes mezcladas)
12
Resmenes Numricos
1. Media aritmtica
2. Mediana
3. Moda
4. Media geomtrica
5. Media armnica
6. Media ponderada
1. Media aritmtica. Es el promedio simple de los datos. Es el resultado de sumar los datos y
dividir entre el nmero de ellos. Sea n el nmero de datos, sea X el smbolo para la variable. Se
denota por
el dato correspondiente al individuo i-simo. Se denota con el smbolo de
sumatoria, sigma mayscula, la suma de los datos desde i=1 hasta i=n:
n
i 1
i 1
Propiedades:
media es cero.
Ejemplo: Consideremos los sig. Datos: 2, 5, 3, 4, 5, 20. La media es 6.5. Observemos que en
estos 6 datos, 5 son cercanos entre s y uno es muy grande comparado con el resto. La
media no representa al grupo de los valores pequeos ni al dato grande. Cuando hay datos
extremos no es adecuada la media como medida de centralidad. En este caso es mejor
usar la mediana.
Sea x(i ) el dato que ocupa la posicin i-sima en el conjunto de datos ordenados en
forma ascendente
si n es impar
x n 1
( 2 )
Mediana x n x n
13
( 2 ) ( 2 1) si n es par
Propiedades:
No es sensible a datos extremos
No todos los datos contribuyen al clculo de su valor.
Es ms variable que la media en el muestreo
Ejemplo: con los datos anteriores: 2,5,3,4,5,20, ordenamos los datos:
2, 3, 4, 5, 5, 20 y observamos que existen dos datos centrales: el 4 y el 5. La mediana es el
promedio (4+5)/2=4.5
Propiedades: Puede suceder que existan varias modas o ninguna, por esta razn no se usa
mucho.
Ejemplo: en los datos 2,3,4,5,5,20, la moda es el 5 pues aparece 2 veces mientras el resto
slo aparece una vez.
En el conjunto de datos 2,3,5,6,10 no hay moda pues cada dato aparece una vez.
Media geomtrica. Es la raz n-sima del producto de todos los datos. Tiene aplicaciones
en economa.
Media geomtrica G n x1 x2 xn
Propiedades
i 1 ai
1
1
an
a1
14
Media ponderada wi xi
i 1
1. El rango
2. Desviacin media
3. Varianza
4. La desviacin estndar o tpica
5. El coeficiente de variacin
Rango= Mx Mn.
Desviacin Media. Es el promedio de los valores absolutos de las desviaciones de los datos
respecto a la media.
n
Desviacin Media
x x
i 1
s
2
(x x)
i 1
n 1
( x1 x ) 2 ( x2 x ) 2 ( xn x ) 2
n 1
Las unidades de la varianza son unidades al cuadrado, mientras que las de la desviacin
estndar son unidades lineales, es decir tienen las mismas unidades que los datos
originales.
15
CV ( y )
Sesgo
Apuntamiento
Sesgo u asimetra
1 n
( xi x ) 3
n
a x i 1 3
sx
Apuntamiento
Una medida del escarpamiento o concentracin en torno a la media de una distribucin de
frecuencias es la curtosis. Una mayor curtosis implica que la mayor parte de la varianza es
debida a desviaciones infrecuentes en los extremos, que se oponen a desviaciones
comunes de medidas menos pronunciadas.
4
3
4
Momentos
mk ( X )
1 n
( xi x )k
n i 1
16
Correlacin
Una relacin estadstica entre dos variables afirma que las mediciones de una variable
tienden a cambiar de forma consistente con las mediciones de la otra.
Dos variables pueden resultar correlacionadas por su relacin con una variable oculta, que
a su vez est correlacionada con ambas.
Quien puede decir si la relacin de dos variables es causal o no, es un especialista del rea
donde las variables se encuentran contextualizadas. Por lo general, para probar causalidad
se utilizan experimentos.
Los 4 aspectos de la relacin entre 2 variables
1. Existencia. Con base en el anlisis estadstico, es posible concluir que existe una
relacin entre dos variables?
2. Direccin: en general, a medida que los valores de una de las variables aumentan, los
de la otra variable disminuyen?, o bien, a medida que los valores de una variable
aumenta, los de la otra variable tambin aumentan?
3. Fuerza: hasta qu punto se reducen los errores al predecir los valores de una variable
en funcin de los valores de la otra variable?
Se utiliza una tabla de doble entrada tambin llamada tabla cruzada o de contingencia. En
esta tabla se muestran las frecuencias de las categoras de las variables medidas
simultneamente. Para visualizar si existe relacin y su naturaleza, se puede usar una
grfica de barras acumuladas o una de barras apiladas.
Ex alumnos
Apoyan la exhib.
172
278
Se oponen a la exhib
60
170
Si los datos de una tabla cruzada fueron obtenidos por muestreo, no sabemos qu tanto
del comportamiento de los datos se deba a la variabilidad inherente al muestreo y qu
tanto se deba a la relacin. Para determinar si existe relacin significativa, desde el punto
de vista estadstico, se realiza una prueba conocida como chi-cuadrado o ji-cuadrado. Pero
esto es ya una prueba de hiptesis. Tambin existen ndices de la fuerza de relacin y
otros tipos de grficas
Se pueden utilizar grficas de caja y bigotes para explorar la relacin entre estas variables.
Tambin se pueden calcular resmenes numricos para cada categora de la variable
cualitativa y comprar. La tcnica que se utiliza para explorar la relacin entre este tipo de
variables se llama Anlisis de Varianza (ANOVA).
Cuantitativa vs Cuantitativa
18
Grfica de dispersin
Es una grfica sencilla. Se trazan dos ejes perpendiculares entre s. Las mediciones de un
individuo se representan con un punto en el plano cartesiano. Luego se observa el patrn
general presentado por la nube de puntos.
En los estanques de la UAQ se cran peces tilapia (mojarras). Siendo todava alevines se les
coloca en un estanque, se les alimenta y se monitorea su crecimiento. Una manera de
entender cmo se da ese crecimiento es tratar de modelarlo, es decir ajustar un modelo
matemtico a las variables de longitud y peso del pez.
Diagrama de dispersin
longitud1
17
15
13
11
9
7
5
0
50
100
150
200
250
peso
Como primer paso del anlisis se realiz una grfica de dispersin del peso contra la
longitud del pez tilapia. Se observa de la grfica que la relacin no es lineal, es decir que
los puntos no se ajustan a una lnea recta.
19
longitud1
15
13
11
9
7
5
0
50
100
150
200
250
peso
Linear Fit
Polynomial Fit Degree=4
El coeficiente r de Pearson slo sirve cuando la relacin es lineal por lo que aqu no tendra
sentido usarlo.
El resultado del anlisis de correlacin es: s estn relacionados el peso y la longitud del
pez. Su relacin no es lineal.
Otro ejemplo
Ciudad
12
15
11
15
16
12
ventas
10
14
12
11
11
20
Multivariate
Scatterplot Matrix
17.5
15
12.5
Comerciales
10
7.5
15
12.5
10
Ventas
7.5
7.5
10
12.5
15
17.5
7.5
10
12.5
15
En la grfica se aprecia una relacin lineal moderada, se observa que los puntos pueden
encerrarse en una elipse elongada.
M ultiv ar iate
Cor relations
Comerciales
Ventas
Comerciales
1.0000
0.6611
Ventas
0.6611
1.0000
21
El coeficiente r
Siempre que la grfica de dispersin muestre una relacin lineal o al menos no muestre
una relacin no lineal, se calcula el coeficiente r de Pearson, el cual tiene las siguientes
cualidades:
Se dice que 2 variables tienen relacin directa si a medida que los valores de una variable
aumentan, los valores de la otra tambin.
Se dice que 2 variables tienen relacin indirecta si a medida que los valores de una
variable aumentan, los de la otra disminuyen.
Ejemplo
Hay que aclarar que la relacin se considera en el promedio, es decir puede haber
individuos que escapen a la regla.
Distintas situaciones
Coeficiente r de Pearson
rxy
i 1
i 1
[( xi x )( yi y )]
( xi x ) 2
i 1
( yi y ) 2
22
Anlisis de Regresin
Recta de regresin
1) Los errores tienen distribucin Normal, con media igual a cero y varianza constante
desconocida (este ltimo se llama homoscedasticidad)
2) Los errores son independientes, es decir que las observaciones son no correlacionadas.
Intuitivamente, la recta que mejor ajusta los datos es aquella para la cual la discrepancia
entre los valores observados y los valores esperados o pronosticados por la recta es
mnima. Esto se expresa como
n
( y y )
i 1
es mnima
Interpretacin de la pendiente
No siempre tiene interpretacin adecuada, depende del contexto de los datos. Es el valor
de Y cuando X=0.
Parmetros y estimaciones
a y b son parmetros desconocidos, sus estimaciones obtenidas por medio de los datos se
denotan con un gorro sobre el smbolo.
( x x )( y
i
i 1
y)
(x x)
i 1
a y bx
Ejemplo
Xi
12
10
15
14
11
12
15
16
11
12
11
24
Ventas
12.5
10
7.5
5
2.5
5
7.5
10
12.5
15
17.5
Comerciales
Linear Fit
Linear Fit
Ventas = 3.7098361 + 0.5081967 Comerciales
Summary of Fit
RSquare
RSquare Adj
Root Mean Square Error
Mean of Response
Observations (or Sum Wgts)
0.437007
0.366633
2.252549
9.3
10
Analysis of V ariance
Source
Model
Error
C. Total
DF Sum of Squares
1
8
9
Mean Square
F Ratio
31.5082
5.0740
6.2098
Prob > F
31.508197
40.591803
72.100000
0.0374
Parameter Es timates
Term
Intercept
Comerciales
Estimate
3.7098361
0.5081967
Std Error
t Ratio
Prob>| t|
2.353674
0.203936
1.58
2.49
0.1536
0.0374
Residuales o residuos
Tambin se grafican los residuales contra los valores predichos y no deben observarse
patrones no aleatorios (homoscedasticidad)
Por ltimo se grafican los residuales contra los residuales desfasados para comprobar la
independencia. Tampoco deben observarse patrones sospechosos de no aleatoriedad.
25
Orgenes de la Probabilidad
La historia del azar
Dispositivos de azar similares a los anteriores se han usado desde la remota antigedad
para descubrir la voluntad de los dioses
Juegos de azar en la antigedad:
Los juegos ms comunes eran los lanzamientos de huesos (huesos astragali). Los huesos
astragalus son huesos bastante regulares en su forma, se encuentran en el taln de ovejas
y perros
Cuando se lanzan pueden descansar sobre cualquiera de sus 4 lados (tiene 6 lados pero 2
estn redondeados)
Se han encontrado huesos astragalus con una antigedad de 4,000 aos. Abajo, las
primeras 2 imgenes de izquierda a derecha son dados antiguos, la tercera imagen
corresponde a un hueso astragalus
Filippo Calandri, nacido en Siena hacia el ao 1467, en uno de los primeros tratados de
aritmtica, publica una primera versin del llamado problema del reparto de apuestas que
ms tarde trataron en su correspondencia Blas Pascal y Fermat. El problema lo plantea de
la siguiente forma:
Dos personas juegan a la palla grossa (Juego de pelota, antecedente del tenis), de forma
que gana el juego el primero que consiga seis victorias. Por azar, cuando uno de los dos ha
ganado 5 veces y el otro 3, explota la pelota y es imposible terminar el juego. Se quiere
saber qu parte de la apuesta inicial le corresponde a cada uno.
ms frecuente obtener 10 puntos que 9, a pesar de que en ambos casos hay seis formas
distintas de obtener dichas sumas? Galileo demostr, que realmente los dos resultados
no eran igualmente probables. La solucin del mismo la recogi en el libro
Consideraciones sobre el juego de los dados, publicado en 1718, muchos aos despus de
la muerte de su autor.
27
Una de las dificultades en el desarrollo de esta teora fue el obtener una definicin precisa
de probabilidad. La bsqueda de esta definicin dur casi tres siglos y fue resuelta
finalmente en 1933 por el ruso Andrey Kolmogorov (1903-1987) que finalmente construye
una teora axiomtica de la probabilidad
Probabilidad
Ley de los grandes nmeros
Experimento Aleatorio
Aleatoriedad
Decimos que un fenmeno es aleatorio si:
sin embargo, existe un patrn predecible a largo plazo, que puede describirse por la
distribucin de los resultados de una cantidad grande de ensayos
Ejemplos de fenmenos aleatorios
Juegos de azar: lanzamiento de dados, de monedas, girar una ruleta, extraer un boleto de
una urna, etc.
Si se lanzan dos dados y se suman los puntos de las caras superiores, los posibles
resultados son: 2, 3, 4, , 12.
= {guila, sol}
= {1,2,3,4,5,6}
= {2,3,4,,11,12}
= {1,2,3,,100}
29
12
14
16
18
20
Ensayo
Fit Each Value
Lanzamientos de 1 moneda
Frecuencia relativa de guila
0.6
0.55
0.5
0.45
0.4
0.35
0 10 20 30 40 50 60 70 80 90 100
120
ensayo nmero
30
Considere el experimento de medir la velocidad con la que un vehculo pasa por un punto
determinado de una carretera, la velocidad de un vehculo ser un valor positivo, de modo
que
=(0, )
Es una funcin que a cada punto del espacio muestral de un experimento, le asigna un
nmero real.
Sea X el tiempo que transcurre desde que un cliente entra al banco hasta el momento en
que es atendido.
Entonces X:=(9,17)(0,)
El valor esperado
31