Notas de Probabilidad - Kalemkerian

Las siguientes son notas del curso de Introduccin a la Probabilidad y Estadstica
que he dictado en 2010, para licenciatura en matemtica. Por correccin de erratas y

comentarios, se agradece comunicarse a mi correo electrnico: [email protected]
Juan Kalemkerian
ndice general
1. Espacio de probabilidad.
1.1. -lgebra de conjuntos. . . .
1.2. Espacio de probabilidad. . .
1.3. Apndice y notas histricas.
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
2. Probabilidad condicional e independencia.

2.1. Probabilidad condicional. . . . . . . .
2.2. Independencia. . . . . . . . . . . . . . .
2.3. Notas histricas. . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
3. Variable Aleatoria.
3.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Funcin de distribucin de una variable aleatoria.
3.3. Variables Aleatorias Discretas. . . . . . . . . . . . .
3.4. Ejemplos de Variables discretas. . . . . . . . . . . .
3.5. Variables aleatorias absolutamente continuas. . . .
3.6. Ejemplos de variables absolutamente continuas. .
3.7. Variables aleatorias mixtas. . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4. Distribucin conjunta.
4.1. Propiedades. . . . . . . . . . . . . . . . . . . . . .
4.2. Vectores aleatorios discretos. . . . . . . . . . .
4.3. Vectores aleatorios absolutamente continuos.
4.3.1. Propiedades. . . . . . . . . . . . . . . . .
4.4. Independencia de variables aleatorias. . . . . .
4.5. Mtodo del Jacobiano. . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5. Integral de Riemann-Stieltjes.
5.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. Mtodos de integracin. . . . . . . . . . . . . . . . . . . . .
5.3. Extensin a funciones complejas e integrales impropias.
5.4. Aplicaciones a la teora de la probabilidad. . . . . . . . .
5.5. Integrales de Riemann-Stieltjes mltiples. . . . . . . . . .
5.5.1. Aplicaciones a la teora de la probabilidad. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
6
10
14
14
17
19
21
21
23
25
25
30
31
32
33
33
35
37
37
40
45
47
50
53
54
54
56
57
ndice general
5.5.2.
Integrales mltiples impropias.
. . . . . . . . . . . . . . .
6. Valor esperado.
6.1. Denicin. . . . . . . . . . . . . . . . . . . . . .
6.2. Ejemplos. . . . . . . . . . . . . . . . . . . . . .
6.3. Propiedades. . . . . . . . . . . . . . . . . . . . .
6.4. Teoremas de convergencia. . . . . . . . . . . .
6.4.1. Teorema de convergencia montona.
6.4.2. Teorema de convergencia dominada. .
6.4.3. Aplicaciones. . . . . . . . . . . . . . . .
7. Espacios Lp .
7.1. Denicin y propiedades. . . . . . . . . . .
7.2. Varianza de una variable aleatoria. . . .
7.3. Covarianza y coeciente de correlacin. .
7.4. Variables i.i.d. . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8. Convergencia en probabilidad, casi segura y en distribucin.

8.1. Convergencia en probabilidad y casi segura. . . . . . . . .
8.2. Leyes de los grandes nmeros. . . . . . . . . . . . . . . . .
8.2.1. Aplicaciones. . . . . . . . . . . . . . . . . . . . . . . .
8.3. Convergencia en distribucin. . . . . . . . . . . . . . . . . .
9. Funciones caractersticas.
9.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . .
9.2. Frmula de inversin. . . . . . . . . . . . . . . . . . . .
9.3. Caracterizacin de la convergencia en distribucin.
9.4. Teorema Central del Lmite. . . . . . . . . . . . . . . .
10.Estimacin puntual.
10.1. Estadsticos y estimadores. . . . . . . . . .
10.2. Mtodos de estimacin. . . . . . . . . . . .
10.2.1. Mtodo de los momentos. . . . . .
10.2.2. Mtodo de mxima verosimilitud.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
57
58
58
59
60
64
64
65
66
68
68
69
72
74
76
76
79
82
84
87
88
90
92
96
99
. 99
. 100
. 101
. 101
11.Intervalos de conanza.
104
11.1. Denicin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
11.2. Construccin de intervalos de conanza en algunos casos particulares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
11.3. Resumen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Captulo 1
Espacio de probabilidad.
1.1. -lgebra de conjuntos.
Denicin 1.1.
-lgebra de subconjuntos de .
Dado un conjunto 6= , diremos que A 2 es una -lgebra de subconjuntos de
si cumple los siguientes axiomas:
i) A.
ii) Si A A entonces Ac A.
iii) Si {An }nN A, entonces +
n=1 An A.
En todos los teoremas que siguen a continuacin se considera dada A una -lgebra
de subconjuntos de .
Teorema 1.2.
A.
Demostracin.
Como A entonces por ii) = c A.X
Teorema 1.3.
A1 , A2 , ..., An A
entonces
ni=1 Ai A.
Demostracin.
Basta usar el axioma iii) en el caso en que An+1 = An+2 = ... = A, entonces en
n
este caso se tiene que +
n=1 An = i=1 Ai A.X
Teorema 1.4.
Si
{An }nN A,
entonces
+
n=1 An A.
Demostracin.
Como An A cualquiera sea n, entonces por

ii) Acn) A para todo n. Entonces por
(
+ c c
+ c
A.X
iii) n=1
An A, y por lo tanto +
n=1 An = n=1 An
Teorema 1.5.
Si
A, B A,
entonces
A B A.
Captulo 1. Espacio de probabilidad.

Demostracin.
Basta observar que A B = A B c A ya que A, B c A, e interseccin nita de

elementos de A, pertenece a A.X
Teorema 1.6.
Si
es
-lgebra
de conjuntos sobre
una familia cualquiera de ndices, entonces
I A
es
para todo I , siendo I

-lgebra de conjuntos sobre
.
Demostracin.
Deno A = I A .
i) A para todo I, entonces A.
ii) Si A A, entonces A A para todo I, entonces Ac A para todo I ,
luego Ac A.
iii) Si {An }nN A, entonces {An }nN A para todo I, entonces +
n=1 An A
+
para todo I, entonces n=1 An A.X
Ejemplo 1.7.
{, } es -lgebra de conjuntos sobre , cualquiera sea el conjunto
Ejemplo 1.8.
2 es -lgebra de conjuntos sobre , cualquiera sea el conjunto .
Ejemplo 1.9.
Si A es tal que
A
, entonces {, , A, Ac } es -lgebra de
conjuntos sobre , cualquiera sea el conjunto .
Denicin 1.10.
-lgebra generada por una familia de subconjuntos de . Dada

F una familia de subconjuntos de , al conjunto A AF A le llamaremos -lgebra
engendrada por F y la notaremos por (F) .
:
La -lgebra generada por una familia de subconjuntos de , siempre existe y adems

es la menor -lgebra generada por una familia de subconjuntos de que contiene
aF .
Denicin 1.11. -lgebra de Borel en R. Consideramos F = {A R : A es abierto} .

Llamaremos -lgebra de Borel en R a (F) .
Teorema 1.12.
I1 = {(a, b) R : a < b} ; I2 = {[a, b) R : a < b} ;

I3 = {(a, b] R : a < b} ; I4 = {(a, +) R : a R} ; I5 = {[a, +) R : a R} ;
I6 = {(, a) R : a R} ; I7 = {(, a] R : a R} . Entonces
Si denimos
(I) = (I1 ) = (I2 ) = (I3 ) = (I4 ) = (I5 ) = (I6 ) = (I7 ) .

Demostracin.
Probaremos a modo de ejemplo que (I1 ) = (I2 ), para lo cual basta ver que
I1 (I2 ) y que I2
(I1 ).
Efectivamente, (a, b) = n:a+1/n<b [a + 1/n, b), lo cual prueba que (I1 ) (I2 ).
Adems, [a, b) = +
n=1 (a 1/n, b), lo cual prueba la otra inclusin.
Se deja como ejercicio vericar las dems igualdades. Para trabajar con (I), tener
en cuenta que todo abierto en R se puede escribir como una unin numerable de
5

intervalos abiertos. X
De manera similar se dene la -lgebra de Borel en Rk , como la -lgebra generada
por los abiertos de Rk , o sea como la menor -lgebra que contiene a todos los abiertos
de Rk . A los conjuntos de esta -lgebra, se les llama borelianos.
1.2. Espacio de probabilidad.

Denicin 1.13. Espacio de probabilidad.
Dado 6= , diremos que la terna (, A, P ) es un espacio de probabilidad sobre

si y slo A es una -lgebra de conjuntos sobre , y P es una funcin P : A [0, 1]
que cumple los siguientes axiomas:
i) P () = 1,
ii) si la familia de sucesos( {An }nN
A son disjuntos dos a dos (Ai Aj = para
)
+
todos i 6= j ), entonces P n=1 An = +
n=1 P (An ) .
En todos los teoremas que siguen se considera dado el espacio de probabilidad (, A, P ).
Teorema 1.14.
P () = 0.
Demostracin.
Consideramos la familia de sucesos disjuntos A1 = , A2 = A3 = ... = , luego

aplicamos el axioma ii) y obtenemos
+
n=1 An
= P () = P () +
P ()
n=2
por lo tanto n=2 P () = 0. Si fuera P () 6= 0, se tendra que la serie sera divergente y no podra ser cierta la igualdad anterior. Entonces P () = 0.X
Teorema
1.15. Si A1 , A2 , ..., An A y son disjuntos dos a dos, entonces P (ni=1 Ai ) =
n
i=1
P (Ai ) .
Demostracin.
Se aplica el axioma ii) teniendo en cuenta que si se agregan los conjuntos An+1 =
An+2 = ... = , se obtiene que
+
n=1 An
P (Ai ) +
i=1
i=n+1
P (Ai ) =
P (Ai )
i=1
)
(
n
pero P +
n=1 An = P (i=1 Ai ) de donde se deduce el resultado.X
Teorema 1.16.
Si
A, B A,
entonces
P (B A) = P (B) P (A B) .
Demostracin.
Escribimos la unin disjunta (B A) (A B) = B . Luego, aplicando el axioma ii)

obtenemos que P (B A) + P (A B) = P (B), de donde se deduce el resultado.X
6
Corolario 1.17.
Si
A, B A
son tales que
1.
P (B A) = P (B) P (A).
2.
P (A) P (B) .
A B,
entonces
Demostracin.
1. Es inmediato a partir de la propiedad anterior, si se observa que A B = A.X

2. Es inmediato ya que P (B) P (A) = P (B A) 0.X
Teorema 1.18.
Si
A, B A,
entonces
P (A B) = P (A) + P (B) P (A B) .
Demostracin.
Escribimos A B = (A B) (B A) (A B), unin disjunta, entonces
P (A B) = P (A B) + P (B A) + P (A B) =
P (A) P (A B) + P (B) P (A B) + P (A B)
de donde se deduce el resultado.X
Teorema 1.19.
P
Si
A1 , A2 , ..., An A
(ni=1 Ai )
(1)k1
k=1
entonces
P (Ai1 Ai2 ... Aik ) .
1i1 <i2 <...<ik n
Demostracin.
Se deja como ejercicio.
Teorema 1.20.
Si
A1 , A2 , ..., An A,
entonces
P (ni=1 Ai )
n
i=1
P (Ai ) .
Demostracin.
Se deja como ejercicio.
Teorema 1.21.
Propiedad de continuidad de las probabilidades.
1. Si la familia de sucesos
{An }nN A es tal que: A1 A2 A3 ...

)
(
P +
n=1 An = lmP (An ) .
entonces
2. Si la familia de sucesos
{An }nN A es tal que: A1 A2 A3 ...

)
(
P +
n=1 An = lmP (An ) .
entonces
Demostracin.

1. Denimos la familia de sucesos Bn = An An1 para n = 1, 2, 3... Sobreentenderemos que A0 = . Como An1 An cualquiera sea n, entonces
P (An An1 ) = P (An ) P (An1 ) . Por otro lado {Bn }nN A, es una
familia disjunta de sucesos, por lo que aplicando el axioma iii) se obtiene que
+
n=1 Bn
P (Bn ) =
n=1
P (An An1 ) =
n=1
[P (An ) P (An1 )]
n=1
= lmP (An ) .X
2. Tomando complementos obtenemos( que Ac1) Ac2 Ac3 ..., luego aplicando
c
c
la parte anterior, se obtiene que P +
n=1 An = lmP (An ) . O sea que
([ + ]c )
(
)
n=1 An
= 1 P +
A
=
n
n=1
lm [1 P (An )] .
Entonces
Teorema 1.22.
todo
n,
entonces
(
)
P +
n=1 An = lmP (An ) .X
Si la familia de sucesos {An }nN A
(
)
P +
n=1 An = 1.
es tal que
P (An ) = 1
para
Demostracin.
([
]c )
(
)
c
Debemos probar que P +
= P +
n=1 An
n=1 An = 0. A partir del teorema 1.20 y
tomando lmite obtenemos
P
c
+
n=1 An
P (Acn ) = 0.X
n=1
Denicin 1.23. Lmites superior e inferior de una sucesin de conjuntos.

Dados (, A, P ) espacio de probabilidad y {An }nN A, se denen el lmite superior
e inferior de la sucesin de sucesos como
limsup An : =
+
+
n=1 k=n
Ak y liminf An : =
+
+
Ak .
n=1 k=n
respectivamente.
Se deja como ejercicio vericar las siguientes propiedades.
1. limsup An = {w : w An para innitos valores de n} (ocurren innitos
An ).
2. liminf An =
{w : w An para todo n, salvo a lo sumo para una cantidad nita de ndices}
(ocurren An para todos los valores de n salvo a lo sumo una cantidad nita).
8

3. liminf An limsup An .
+
4. Como la sucesin Bn =
Ak es decreciente, entonces P (limsup An ) =
k=n
( + )
lim P
Ak .
k=n
5. Como la sucesin Bn =
Ak es creciente, entonces P (liminf An ) =lim P
k=n
( +
)
Ak .
k=n
6. Si {An }nN es una sucesin creciente de sucesos, entonces liminf An = limsup

+
An .
An =
n=1
7. Si {An }nN es una sucesin decreciente de sucesos, entonces liminf An = limsup

+
An =
An .
n=1
Observacin 1.24.
La denicin de lmite superior e inferior de una familia de
conjuntos se dene de igual modo aunque no estemos en un espacio de probabilidad.
Teorema 1.25.
A,
Dados
(, A, P )
espacio de probabilidad y una sucesin
{An }nN
entonces se cumple que

(1)
P (liminf An )
(2)
liminfP
( An )
(3)
limsupP
(An ) P (limsup An ) .
Demostracin.
Para la desigualdad (3), vemos que para todo n se tiene que
P (limsup An ) = limP
( +
Ak An , entonces
k=n
)
Ak
limsupP (An ) .
k=n
Un razonamiento anlogo prueba la desigualdad (1).

La desigualdad (2) es evidente.X
Ejemplo 1.26. Si es un conjunto innito numerable, es decir = {w1 , w2 , ..., wn , ...}

entonces si consideramos la sucesin {pn }nN tal que pn 0 para todo n N y
+
) todo A 2 , P (A) =
n=1 pn = 1, y denimos P : 2 [0, 1] tal( que para
n xn A pn , entonces se cumple que la terna , 2 , P es un espacio de probabilidad. Observamos que segn esta denicin se tiene que P ({wn }) = pn para todo
n.
:
Ejemplo 1.27. Modelo de equiprobabilidad. Si es nito, denimos P
: 2
[0, 1] tal que P (A) =
siendo n(A) la cantidad de elementos que tiene el conjunto A. Observamos que en este caso, se tiene que si = {w1 , w2 , ..., wn } entonces
P ({wi }) = 1/n para todo i = 1, 2, 3, ..., n, lo cual signica que todo elemento de
es igualmente probable.
n(A)
n()

En general, cuando es nito o innito numerable, si no se aclara nada al respecto
se sobreentiende que la -lgebra considerada es 2 . En numerosas ocasiones se est
en presencia de un espacio muestral nito donde cada elemento tiene la misma
probabilidad.
Ejemplo 1.28.
Se tiran 3 dados y se desea calcular la probabilidad de que salga al

menos un 2 en las 3 tiradas.
En este caso, = {(i, j, k) : i, j, k {1, 2, 3, 4, 5, 6}} . Para calcular n () observamos
que para la terna (i, j, k) tenemos 6 valores posibles de i, por cada valor de i tenemos
6 valores posibles para j por lo que existen 62 = 36 pares (i, j) , y por cada uno de
estos 36 pares tenemos 6 posibles valores de k , as obtenemos 63 = 216 ternas en .
Por otro lado, para el suceso A = sale al menos un 2 en las 3 tiradas", podemos
realizar la descomposicin A = B C D donde B = sale exactamente dos veces el 2
en las 3 tiradas", C = sale exactamente un 2 en las 3 tiradas", D = sale las 3 veces el
2 en las 3 tiradas". Esta unin es disjunta por lo que P (A) = P (B) + P (C) + P (D) .
Para calcular P (B) observamos que si el 2 sale en el primer lugar, tenemos 52 ternas,
pero el 2 puede salir en el segundo o en el tercer lugar, por lo que en total tendremos
n (B) = 3 52 = 75 y entonces P (B) = 75/216. Razonando similarmente, obtenemos
P (C) = 3 5/216 mientras que P (D) = 1/216, entonces P (A) = 91/216. Hubiera
sido ms sencillo observar que Ac = no sale ningn 2 en las 3 tiradas", entonces
tenemos 5 5 5 ternas donde esto ocurre, entonces P (Ac ) = 125/216 y por lo tanto
P (A) = 1 125/216 = 91/216.
Ejemplo 1.29.
Si se tiran 24 veces dos dados, es ms ventajoso apostar por la

aparicin de al menos un doble 6, o no? En este caso, el total de casos posibles son
... 36} = 3624 , mientras que si denimos el suceso A = no aparece ningn
|36 36 {z
24 veces
doble 6 en las 24 tiradas", tenemos que n (A) = |35 35 {z

... 35} = 3524 y por lo
24 veces
24
tanto P (A) = (35/36) = 0,508 por lo que es ms conveniente apostar a que no

aparece ningn doble 6 en 24 tiradas.
1.3. Apndice y notas histricas.

Comentario sobre la necesidad de trabajar con sigmas lgebras sobre espacios muestrales no numerables.
Dado un conjunto 6= , se dice que A es un lgebra de subconjuntos de si y slo

si cumple los siguientes axiomas:
1. A;
2. Si A A entonces Ac A;
3. Si A, B A entonces A B A.
10

En el caso en que = (0, 1), entonces se verica directamente que el conjunto I
formado por uniones nitas de conjuntos de la forma: (a, b]; (0, b]; (a, 1) con a, b
(0, 1) forman un lgebra de subconjuntos de (0, 1).
Por otro lado, tambin se puede vericar directamente que la funcin P : I [0, 1]
tal que P (A) = longitud de A, cualquiera sea A I, es una funcin que cumple ser
nitamente aditiva, tal que P ((0, 1)) = 1.
Un teorema importante de teora de la medida, el teorema de Carathodory nos
dice que si tenemos una terna (, I; P ) donde P es una funcin P : I [0, 1] que
cumple que P () = 1 y adems es nitamente aditiva ( o sea que P (A B) =
P (A) + P (B) siempre que A, B I sean tales que A B = ), entonces existe
una nica funcin P tal que (, (I) , P ) es un espacio de probabilidad, tal que
P (A) = P (A) para todo A I. Dicho de otra manera, si tenemos una funcin de
probabilidad nitamente aditiva, denida sobre un lgebra I de subconjuntos de ,
entonces puede ser extendida de manera nica sobre la -lgebra generada por I.
Volviendo al ejemplo del espacio (0, 1) y el lgebra I , entonces sabemos que (I) =
B(0,1) . Usando estas ideas veremos que existen conjuntos no borelianos. Denimos la
relacin en (0, 1), xRy si y slo si x y Q. Se verica en forma inmediata que la
misma dene una relacin de equivalencia en (0, 1) . Por lo tanto queda el conjunto
(0, 1) particionado en clases de equivalencia. Elegimos un elemento de cada clase, y
con ella formamos un conjunto que llamamos A. O sea que podemos escribir (0, 1) =
I A , donde la unin es disjunta, y adems x, y A si y slo si x y Q. Para
cada I elegimos a A de manera arbitraria (esto puede ser realizado gracias
al axioma de eleccin), entonces denimos el conjunto A = I {a } . Veremos a
partir del teorema de extensin de Carathodory que A no es boreliano. Para cada
racional q Q (0, 1) denimos el conjunto Aq = {x + q : x A, x + q 1}
{x + q 1 : x A, x + q > 1} . Observando que los Aq son los trasladados por q del
conjunto A, deducimos que si A fuera boreliano, entonces tambin lo sera Aq para
cada q Q (0, 1) . Observamos adems que para todo q Q (0, 1) se cumple que
P (Aq ) = P (A).
Por otro lado, se cumple que (0, 1) = qQ(0,1) Aq , adems la unin es disjunta. Por
lo tanto, extendiendo por Carathodory la funcin P a la -lgebra generada por I
que es la -lgebra de Borel en (0, 1), obtendramos que
1 = P ((0, 1)) =
P (Aq ) = 0
qQ(0,1)
lo cual es absurdo.
Observacin 1.30.
Este resultado adems de demostrar que existen conjuntos no
= (0, 1) , es imposible deprobabilidad sobre todos los subconjuntos de (0, 1), de tal modo de
de un intervalo incluido en (0, 1) sea la longitud del mismo.
borelianos, nos permite demostrar tambin que cuando

nir una funcin de
que la probabilidad
Por lo tanto si queremos trabajar con un espacio de probabilidad donde se elije un

punto al azar en el intervalo
incluido en
(0, 1)
(0, 1),
de tal modo que la probabilidad de un intervalo
sea la longitud del mismo, no nos quedar ms remedio que de-
11

nirlo como la longitud sobre los intervalos, y luego va el teorema de Carathodory,
extenderlo a la
-lgebra
de Borel sobre
(0, 1).
Un poco de historia.
Como fue visto en el ejemplo 1.29, la probabilidad de la aparicin de al menos un

doble seis cuando se tira 24 veces un par de dados, es 0,492, por lo tanto es levemente
desfavorable a apostar a que no sale ningn doble 6. Dada la proximidad de este valor
a 1/2, sin saber realizar este clculo, difcilmente podramos prever si era favorable o
desfavorable apostar a este evento, por el simple hecho de repetirlo muchas veces y
contabilizar su frecuencia. Esta situacin se le present a Antoine de Gombaud (caballero de Mer), noble francs quien en 1654 interesado en resolver este problema,
se lo plante a Blaise Pascal, quien comenz a cartearse con Pierre de Fermat, para
discutir y llegar a la solucin del problema. Si bien los juegos de azar, son tan antiguos
como la humanidad, y es natural pensar que los primeros matemticos babilnicos y
griegos ya trabajaron y por lo tanto obtuvieron ciertos resultados probabilsticos, se
considera que ste intercambio de correspondencia entre de Fermat y Pascal motiv
el inicio de la teora de la probabilidad, o al menos el comienzo de la construccin
de los principios de la misma. Christian Huygens (quien fuera maestro de Leibnitz),
enterado de esta correspondencia, en 1657 public lo que es conocido como el primer
libro de teora de probabilidades: De Ratiociniis in Ludo Aleae, que se trata de un
libro de problemas de juegos de azar.
Anterior en el tiempo a esta correspondencia y a Huygens, vale la pena destacar que
el matemtico italiano Gerolamo Cardano en el siglo XVI ya haba resuelto algunos
problemas de juegos de azar, e incluso escribi un tratado sobre probabilidad, Liber
de ludo aleae , pero el mismo fue publicado casi un siglo despus de su muerte, en
1663.
El primero en dar la denicin clsica de probabilidad (casos favorables sobre casos
posibles) fue James Bernoulli (1654-1705), en una obra fundamental para el desarrollo
de la teora de la probabilidad: Ars Conjectandi (El arte de conjeturar), esta obra
fue publicada en 1713. En 1812, Pierre Simon de Laplace, en su libro Thorie analytique des probabilits, introduce numerosas ideas y tcnicas para resolver problemas
de azar.
De manera un tanto irregular, numerosos matemticos aportaron nuevas ideas a la
teora, se plantearon nuevos problemas, y se desarrollaron nuevos conceptos, pero an
quedaba una denicin que sea adecuada y satisfactoria a situaciones donde est presente el azar, pero que no tienen que ver con juegos de azar, ni pueden ser repetidos
en idnticas condiciones muchas veces. Esta falta de una denicin precisa hizo que
muchos matemticos se desencantaran y consideraran a la probabilidad no como
una teora matemtica, y se alejaron de ella.
Durante los tres siglos en que se busc una denicin adecuada y amplia para la
probabilidad, hubieron distintas escuelas, como la clsica, la frecuencista y la subjetivista que tuvieron distintas controversias entre si, ya que todas daban deniciones
que no eran totalmente satisfactorias.
La escuela clsica es la que acotaba los problemas probabilsticos a los casos en que
es nito con resultados equiprobables, por lo que denan probabilidad como el
12

nmero casos favorables sobre el nmero de casos posibles. Claramente esta denicin no es aplicable a muchas situaciones que se dan en la prctica, tanto porque a
veces es innito, como cuando los elementos del mismo no son equiprobables. Otros
denieron lo que se llama interpretacin frecuencista, que dice que para calcular la
probabilidad de un evento se lo debe repetir n veces, y entonces es el lmite cuando
n tiende a ininto del nmero de veces que ocurre el evento dividido el nmero de
repeticiones del experimento (n). Nuevamente es claro que esta interpretacin tiene
el defecto de que muchas veces el experimento no puede ser repetido en idnticas
condiciones, y adems, no se pueden hacer innitos experimentos. Por otro lado, el
lmite no es el lmite usual, hay que denir otro concepto de lmite, ya que el azar
no permitira asegurarnos un n tal que a partir del mismo, la probabilidad del suceso
diste de la frecuencia observada tan poco como se quiera. Esta escuela est basada
en la ley de los grandes nmeros que veremos ms adelante.
Por ltimo los subjetivistas, decan que la probabilidad estaba dado por un carcter
subjetivo, en el sentido de que la probabilidad de un suceso, es el grado de conanza
que se tiene de que el mismo ocurra. De esta manera dos personas distintas pueden tener probabilidades diferentes para un mismo suceso, puesto que sus grados de
conanza de que el mismo ocurra son distintos. Incluso una misma persona, en otro
momento puede llegar a tener una valoracin distinta de la ocurrencia de un suceso
y por lo tanto cambiar su grado de conanza. Esta escuela tuvo por precursores a
Bruno de Finetti y Leonard Savage.
Hubo que esperar hasta 1933 cuando Andrei Nikolayevich Kolmogorov, en su monografa titulada Grundbegrie der Wahrscheinlichkeitsrechnung (Fundamentos de
Probabilidad) planteara la denicin axiomtica de espacio de probabilidad, dndose
cuenta a partir de la teora de la medida y de los trabajos de Borel y Lebesgue, que
calcular probabilidades, es una forma de medir. Se puede decir que a partir de este
trabajo, denitivamente y para todos los matemticos, la probabilidad pas a ser un
tema de matemtica, y adems concluy con todas las discusiones sobre la denicin
de probabilidad, ya que todas ellas quedaron como casos particulares de un espacio
de probabilidad.
Si bien un espacio de probabilidad es un caso particular de espacio de medida, tiene
conceptos y formas intuitivas de pensar problemas probabilsticos (como la probabilidad condicional y el concepto de independencia, que sern vistos en el prximo
captulo) que la independizan en muchos aspectos de la teora de la medida.
13
Captulo 2
Probabilidad condicional e
independencia.
2.1. Probabilidad condicional.
Supongamos que participamos de un juego en el que se tira una moneda sucesivamente dos veces, y nosotros apostamos a que salen ambas caras. La probabilidad
que tenemos de ganar la apuesta es 1/4. Ahora bien, si ya se lanz la primer moneda y sali cara, ahora nuestra probabilidad de ganar pas a ser 1/2. Se observa que en este caso, se agreg informacin sobre el experimento. En este ejemplo,
= {(C, C); (N, C); (C, N ); (N, N )} y si le llamamos A = {(C, C)} (salen ambas
caras) y B = {(C, C); (C, N )} (la primera sali cara), como dijimos P (A) = 1/4 pero
la probabilidad de que ganemos la apuesta sabiendo que el primer lanzamiento sali
cara, lo anotaremos como P (A/B) y vale P (A/B) = 1/2. Como se ve en este caso, al
cambiar la informacin que tenemos sobre el experimento, observamos que cambi el
espacio muestral. Al calcular P (A/B) pensamos el calcular la probabilidad de A, suponiendo que el espacio muestral es B . Si estamos en el modelo de equiprobabilidad,
calcularamos P (A/B) = n(AB)
ya que ahora nuestros casos posibles son el total de
n(B)
elementos de B , esto es n(B) y los casos favorables son aquellos en los que ocurre
el suceso A (de entre los que ocurren B ), esto es n(A B), por lo tanto observamos
que en el modelo de equiprobabilidad la manera general de calcular la probabilidad
condicional sera as:
P (A/B) =
n(A B)/n()
P (A B)
=
.
n(B)/n()
P (B)
Este clculo (y otros) motivan la siguiente denicin.
Denicin 2.1.
Si (, A, P ) es un espacio de probabilidad, dados A, B A donde

P (B) > 0. Denimos P (A/B) = P P(AB)
.
(B)
La notacin P (A/B), la leemos como la probabilidad de que ocurra A, sabiendo que
ocurre B . En todos los teoremas que siguen se considera dado (, A, P ) un espacio
de probabilidad.
14
Captulo 2. Probabilidad condicional e independencia.
Teorema 2.2.
P (A B) = P (A/B) P (B)
cualesquiera sean
A, B A
tal que
P (B) > 0.
Demostracin.
Evidente a partir de la denicin.X
Teorema 2.3. P (A/B) =

y
P (B/A)P (A)
cualesquiera sean
P (B)
A, B A tales que P (A) > 0
P (B) > 0.
Demostracin.
P (A/B) =
Teorema 2.4.
Si la familia
P (A B)
P (B/A) P (A)
=
.X
P (B)
P (B)
{Bn }nN A
es tal que
i) Bi Bj = para todos i 6= j (es decir que son sucesos disjuntos dos a dos), ii)
+
n=1 Bn = iii)P (Bn ) > 0 para todo n N. Entonces cualquiera sea A A se tiene
que
1.
Frmula de probabilidades totales.
P (A) =
P (A/Bn ) P (Bn ) .
n=1
2.
Frmula de Bayes.
Para
tal que
P (A) > 0,
P (A/Bk ) P (Bk )
P (Bk /A) = +
n=1 P (A/Bn ) P (Bn )
para todo
k N.
Demostracin.
1. Dado A, de ii) deducimos que A = +

n=1 (A Bn ) unin disjunta, entonces
P (A) =
P (A Bn ) =
n=1
P (A/Bn ) P (Bn ) .X
n=1
2. Dado cualquier k N, tenemos por aplicacin de la propiedad 2 que
P (Bk /A) =
P (A/Bk ) P (Bk )
P (A)
y luego usando la frmula de probabilidades totales se obtiene que
P (A/Bk ) P (Bk )
X
P (Bk /A) = +
n=1 P (A/Bn ) P (Bn )
15
Observacin 2.5.
los
Bn
Este teorema sigue siendo vlido si la particin de
en unin de
es nita.
Teorema 2.6.
BA
Si
PB : AB [0, 1],
tal que
P (B) > 0. Denimos AB = {A B : A A } y

PB (A) = P (A/B) . Entonces (B, AB , PB ) es un espacio de
es tal que
probabilidad.
Demostracin. Se deja como ejercicio chequear que AB es una -lgebra de con-
juntos sobre B y que PB dene una probabilidad sobre B .
Teorema 2.7.
Si
A, B, C A
con
P (B) > 0,
entonces
1.
P (Ac /B) = 1 P (A/B) .
2.
P (A C/B) = P (A/B) + P (C/B) P (A C/B) .
Demostracin. Ambas frmulas son consecuencias directas de la propiedad anterior.X
Teorema 2.8.
Si
A1 , A2 , ..., An A
cumplen que
P (A1 A2 ... An1 ) > 0
en-
tonces
P (A1 A2 ... An ) = P (A1 ) P (A2 /A1 ) P (A3 /A1 A2 ) ...P (An /A1 A2 ... An1 ) .
Demostracin. Se deja como ejercicio.X
Ejemplo 2.9.
Supongamos que se dispone de un bolillero con 44 bolillas numeradas

del 1 al 44. Se extraen 5 sucesivamente sin reponerse cada bolilla exprada. Se supone
que apostamos a que salen los nmeros 5,13,16,18,33. Deseamos calcular la probabilidad de que acertemos al menos 2 de los 5 extrados. En este caso, para calcular
los casos posibles, se ve que para la primer bolilla hay 44 posibles nmeros, para la
segunda 43 (todos menos el que sali en el primer lugar), para la siguiente 42, luego
41 y luego 40, as tenemos 44 43 42 41 40 casos posibles. Para los favorables,
calculamos los del complemento. Observamos que si le llamamos A = salen al menos
dos de los 5 apostados", entonces Ac = B C donde B =no sale ninguno de los 5
apostados C =sale exactamente uno de los 5 apostados". La unin es disjunta por
lo que P (Ac ) = P (B) + P (C) . Los casos posibles para B son 39 38 37 36 35
mientras que para C tenemos que 5 39 38 37 36 son todas las posibilidades
en que acertamos en la primera extraccin y no acertamos en las 4 restantes, a esos
hay que sumarles los que acertamos en la segunda y erramos en las restantes, etc,
etc, como cada uno de esos casos son 5 39 38 37 36 entonces el total de casos
favorables para C son 5 39 38 37 36 5, de esta forma
2
P (A) = 1
39 38 37 36 35 + 5 39 38 37 36 5
= 0, 0911.
44 43 42 41 40
Este mismo clculo podra haberse realizado mediante el uso de la propiedad anterior. Para calcular P (B) , llammosle A1 =no acierto la primer bolilla extrada",
16
A2 =no acierto la primer bolilla extrada",...,A5 =no acierto la quinta bolilla extrada". Entonces P (A1 ) = 39/44, P (A2 /A1 ) = 38/43, P (A3 /A1 A2 ) = 37/42,
P (A4 /A1 A2 A3 ) = 36/41 y P (A5 /A1 A2 A3 A4 ) = 35/40, as se tiene
P (B) = P (A1 A2 A3 A4 A5 ) =
39 38 37 36 35
44 43 42 41 40
Para P (C) lo separamos como suma de acertar exactamente la primera, ms acertar

exactamente la segunda, etc y denimos adecuadamente los conjuntos A1 , A2 , A3 , A4 , A5
y se procede de manera anloga.
Ejemplo 2.10.
Se tiene una urna compuesta por 3 bolillas azules, 2 blancas y una

roja, y una segunda urna compuesta por 3 blancas y 3 azules. Se extrae una bolilla
de la urna uno, se la deposita en la segunda y luego se extrae una bolilla de esta
segunda urna. Calculemos las probabilidades de: A =la segunda bolilla extrada es
azul", B =la primer bolilla extrada es azul, sabiendo que la segunda fue blanca".
En este caso, aplicamos la propiedad de probabilidades totales quedando P (A) =
P (A/1a blanca) P (1a blanca)+P (A/1a azul) P (1a azul)+P (A/1a roja) P (1a roja) =
33 43 31
+
+
= 0, 571.
76 76 76
Para B, usamos el teorema de Bayes quedando P (B) = P (1a azul / 2a blanca) =
P ( 2a b / 1a b) P (1a b)
=
P ( 2a b / 1a b) P (1a b) + P ( 2a b / 1a a) P (1a a) + P ( 2a b / 1a r) P (1a roja)
42
76
4
7
3
7
3
6
3
6
31
76
= 0, 6.
2.2. Independencia.
Denicin 2.11.
Dado (, A, P ) un espacio de probabilidad, se dice que la familia de sucesos {A }I donde I es una familia cualquiera de ndices, son sucesos
independientes si y slo si, para todo F I nito, se cumple que
(
)
P A =
P (A ) .
F
Observacin 2.12.
Si la familia de sucesos se reduce a dos, entonces la denicin
anterior nos dice que
AyB
lo cual en el caso en que
P (A/B) = P (A),
son independientes si y slo si
P (B) > 0
P (A B) = P (A) P (B) ,
es equivalente a pedir que se cumpla que
pero la ventaja que tiene la denicin dada es que no requiere
que los sucesos tengan probabilidad positiva.
17
Observacin 2.13.
Si la familia de sucesos se reduce a 3, digamos
A, B
C,
en-
tonces los mismos son independientes si y slo si se cumplen las siguientes cuatro
condiciones:
1.
P (A B) = P (A)P (B)
2.
P (A C) = P (A)P (C)
3.
P (B C) = P (B)P (C)
4.
P (A B C) = P (A)P (B)P (C)
Observacin 2.14.
sucesos
A, B
Observamos que en el caso anterior, para pedir que los tres
sean independientes, se requiere que sean independientes de a pares,
que son las condiciones 1,2 y 3, pero a esto se le debe agregar la condicin 4 ya que
las condiciones 1,2 y 3 (como se ver en el siguiente ejemplo) no aseguran que
independiente del suceso
sea
B C . Se puede chequear sin dicultad que las 4 condiciones

A, B y C aseguran la independencia de A con
que determinan la independencia de

B C y la de A con B C c etc.
Se deja como ejercicio vericar el siguiente ejemplo, donde se muestra que tres sucesos
pueden ser independientes tomados de a dos, pero no ser independientes.
Ejemplo 2.15. Se tira un par de dados, uno azul y uno verde. Denimos A =en el
dado azul sale el 5, B =en el dado verde sale el 3, C =la suma de los resultados
de ambos dados es un nmero par. Entonces A, B y C son independientes tomados
de a pares, pero A, B y C no son independientes.
Teorema 2.16. Dado (, A, P ) un espacio de probabilidad, si una familia de sucesos
{A }I son independientes, entonces tambin lo son la familia {B }I , donde para
c
cada I , se tiene que, o bien B = A , o bien B = A .
Teorema 2.17.
y la sucesin
1. Si
Lema de Borel Cantelli.
{An }nN A,
+
n=1
Dados
(, A, P )
espacio de probabilidad
entonces
P (An ) < +
entonces
P (limsup An ) = 0.
2. Si
+
n=1
P (An ) = +
y adems
{An }nN
son independientes, entonces
P (limsup An ) = 1.
Demostracin.
1. P (limsup An ) =lim P
convergente.X
( +
k=n
)
Ak
+
k=n
P (An ) 0 puesto que la serie es
18

2. Como P (limsup An ) =lim P
( +
)
Ak , basta probar que lim P
( +
k=n
)
Ack
0.
k=n
Para cada m > n tenemos que

( + )
(m
)
m
m
c
c
c
P
Ak P
Ak =
P (Ak ) =
[1 P (Ak )] .
k=n
k=n
k=n
k=n
Ahora, usando que 1 x ex para todo x 0, se deduce que

m
k=n
[1 P (Ak )]
k=n
eP (Ak ) = e
Pm
k=n
P (Ak )
m+
0.X
Ejemplo 2.18.
Supongamos que se elije al azar un nmero en el intervalo (0, 1)

Cul es la probabilidad de que aparezcan innitos 4 en su expansin decimal? Y la
probabilidad de que el 44 aprezca innitas veces?
Para responder a la primer pregunta, denimos los sucesos An =el 4 aparece en el
n-simo lugar en su expansin decimal, entonces la sucesin {An }nN est formada
por sucesos independientes, adems, P (An ) = 1/10 cualquiera sea n, entonces
+
n=1 P (An ) = + y por lo tanto la probabilidad de que aparezca el 4 innitas
veces es 1. Para responder la otra pregunta, procedemos de forma similar, denimos
Bn =el 4 aparece en el n-simo lugar y en el siguiente en su expansin decimal,
en este caso P (Bn ) = 1/100 para todo n, pero los Bn no son independientes. De
todas formas si consideramos la subsucesin de sucesos
+ {B2n }nN , ahora si, tenemos
una sucesin de sucesos independientes y como n=1 P (B2n ) = +, tenemos que
la probabilidad de que aparezca el 44 inintas veces en un lugar par seguido de uno
impar es 1, pero ste ltimo suceso est incluido en el suceso de que el 44 aparece
inntas veces, se entonces la probabilidad de que el 44 aparezca innitas veces es 1
tambin.
2.3. Notas histricas.

El ejemplo anterior es conocido como el teorema de los innitos monos. Emil Borel en
su trabajo Mcanique Statistique et Irrversibilit en 1913 armaba que si se pone
a un milln de monos durante 10 horas a teclear una mquina de escribir (como una
manera de decir que se eligen al azar letras del alfabeto, tantas como pueda teclear
durante 10 horas un mono), es extremadamente improbable que sea posible encontrar
una secuencia de letras tecleadas que sean el desarrollo de un libro por ms pequeo
que sea. Ahora, de acuerdo al ejemplo que acabamos de desarrollar, hemos probado
que si a un solo mono se le da tiempo innito, entonces hay probabilidad 1 de que
en algn momento escriba la obra completa de Shakespeare, por ejemplo. Slo basta
cambiar el conjunto de los 10 dgitos por los smbolos del alfabeto, y la tirada 44 por
la de la obra completa de Shakespeare que es nita.
Thomas Bayes naci en Inglaterra en 1702 y muri en 1761. Se sabe muy poco de su
vida, ya que no se dedic activamente a la matemtica, no se vincul mayormente con
19

otros matemticos de su poca, y por lo tanto no se destac tanto mientras estuvo
con vida. Sus aportes a la teora de la probabilidad fueron enormes, ya que fue el
primero que deni y trabaj el concepto de probabilidad condicional, en tiempos
en que todos los clculos probabilsticos estaban restringidos a juegos de azar y los
clculos eran realizados segn el modelo de equiprobabilidad.
Tambin es esencial su aporte a la denicin que utiliza de probabilidad, que fue
olvidada hasta el siglo XX, y que fue retomada recin en 1937 por Bruno De Finetti,
uno de los primeros precursores de la teora subjetiva de la probabilidad.
Todos estos aportes fueron publicados en un trabajo titulado An Essay Towards
Solving a Problem in Doctrine of Chances publicado en 1763 (2 aos despus de su
muerte), y el hoy llamado teorema de Bayes, fue publicado en 1764 en las Philosophical Transactions Vol 53, que es la base de la hoy llamada inferencia bayesiana. Es
curioso que Bayes no haya intentado publicar sus trabajos, tanto su teorema como su
trabajo publicado en 1763, fueron encontrados por amigos suyos luego de su muerte.
20
Captulo 3
Variable Aleatoria.
(
)
Dado un espacio de probabilidad , A, P . Diremos que X :
Rk es una variable aleatoria en Rk si y slo si, se cumple que para cada A boreliano
se cumple que
X 1 (A) A.
Denicin 3.1.
Cuando k > 1, tambin es llamado vector aleatorio.
Observacin 3.2.
Dado que la -lgebra de Borel est engendrada por los conjuntos

1
abiertos, basta vericar que X
(A) A, para todo A abierto (o para todo A en
algn generador de la
-lgebra
de Borel).
Observacin 3.3. Si es nito o innito numerable, cualquier funcin X : Rk
-lgebra a 2 .
(
)
Observacin 3.4. Toda constante, es vector aleatorio, cualquiera sea , A, P es1
pacio de probabilidad, ya que el conjunto X
(A) es si la constante est en A o
1
vaco si no, en ambos casos X
(A) A.
es vector aleatorio, ya que en estos casos, consideramos como
En varias ocasiones, es conveniente trabajar con funciones a valores en R = R

{+, }. Para dichos casos ser conveniente extender la -lgebra de Borel a BR .
Por suerte es posible hacerlo de una forma sencilla.
Si le llamamos B a la -lgebra de Borel en R, denimos BR =
B {A {+, } : A B} {A {+} : A B} {A {} : A B} .
Se deja como ejercicio probar que BR es una -lgebra de Borel sobre R.
Frecuentemente para simplicar la notacin, se suele escribir el conjunto X 1 (A) =
{w : X(w) A} mediante la simple escritura de {X A} . As, por ejemplo al
conjunto X 1 ((, a]) lo denotaremos por {X a} .
3.1. Propiedades.
Teorema 3.5. Dado X = (X1 , X2 , ..., Xk ) : Rk . Entonces, X es vector aleatorio
si y slo si
X1 , X2 , ..., Xk
son variables aleatorias en
21
R.
Captulo 3. Variable Aleatoria.

Demostracin.
Comenzamos observando que cualesquiera sean los conjuntos A1 , A2 , ..., Ak , se tiene

que
k
1
X (A1 A2 ... Ak ) =
Xi1 (Ai ) .
i=1
) Si A es un boreliano en R, entonces
Xi1 (A) = X 1 R R... R |{z}

A R... R A.
lugar
Entonces Xi es variable aleatoria.X

) Cualesquiera sean a1 , a2 , ..., ak R se tiene que
((, a1 ) (, a2 ) ... (, ak )) =
Xi1 ((, ai )) A
i=1
ya que cada conjunto que intersectamos pertenece a A, entonces X es vector aleatorio

en Rk .X
Teorema 3.6. Si X : Rk es vector aleatorio y g : Rk Rn es continua, entonces

Y = g(X)
es vector aleatorio en
Rn .
Demostracin.
Dado un abierto A en Rn , entonces g 1 (A) es abierto por la continuidad de g , por lo

que
[
]
Y 1 (A) = (goX)1 (A) = X 1 g 1 (A) A.X
Teorema 3.7.
X, X + Y
Si
X, Y : R
son variables aleatorias, entonces tambin lo son
XY.
Demostracin.
Es consecuencia inmediata de la propiedad anterior, ya que (X, Y ) es vector aleatorio

en R2 , y lo componemos con las funciones continuas g : R2 R denidas como
g(x, y) = x, g(x, y) = x + y y g(x, y) = xy respectivamente. X
Teorema 3.8.
Xn : R es variable aleatoria para todo n N, entonces

tambin lo son las variables Y : R {+} tal que Y =sup{X1 , X2 , ..., Xn , ...} y
Z : R {} tal que Z =inf{X1 , X2 , ..., Xn , ...} .
Si
Demostracin.
Basta observar que si tenemos una sucesin de nmeros reales {xn }nN , entonces,
cualesquiera sea a R {+} se tiene que
sup {x1 , x2 , ..., xn , ...} a xn a para todo n.

22

Entonces
((, a]) =
Xn1 ((, a]) A.
n=1
Entonces Y es variable aleatoria. Por otro lado, como Z = sup{X1 , X2 , ..., Xn , ...},
se deduce de lo recin probado que Z tambin es variable aleatoria. X
Teorema 3.9. Si Xn : R es variable aleatoria para todo n N, entonces tambin

lo son las variables limsupXn
: R {+}
y liminfXn
: R {}.
Demostracin.
Es consecuencia inmediata de la propiedad anterior ya que

limsup Xn = inf supXk , y liminf Xn = sup inf Xk .X
n kn
kn
3.2. Funcin de distribucin de una variable aleatoria.

Denicin 3.10. Funcin de distribucin
(
) de una variable aleatoria.
Dados un espacio de probabilidad , A, P y X : R una variable aleatoria,

denimos la funcin FX : R R como FX (x) = P (X x) para cada x R.
Observacin 3.11.
por ser
Para todo
xR
se tiene que
{X x} = X 1 ((, x]) A,
variable aleatoria.
En todas las (propiedades

que siguen se sobreentiende que tenemos un espacio de
)
probabilidad , A, P y X : R una variable aleatoria.
Teorema 3.12.
FX
es montona creciente.
Demostracin.
Si a < b entonces {X a} {X b}, entonces P (X a) P (X b) , por lo que

FX (a) FX (b).X
Teorema 3.13.
lim
FX (x) = 1.
x+
Demostracin.
Como FX es montona creciente, basta restringirse a una sucesin particular que

tienda a +, por ejemplo lim FX (n).
n+
Observamos que An = {X n} es una sucesin creciente de sucesos, tal que
An =
n=1
, entonces por la propiedad de continuidad de las probabilidades se tiene que

( + )
lim FX (n) = lim P (An ) = P

An = P () = 1.X
n+
n+
n=1
23
Teorema 3.14.
lim
FX (x) = 0.
Demostracin.
Razonamos anlogamente al caso anterior, por lo que basta considerar lim FX (n).
n+
Consideramos ahora An = {X n} decrece a

An = , por lo que se deduce que
n=1
(+ )
lim FX (n) = lim P (An ) = P
n=1 An = P () = 0.X
n+
n+
Teorema 3.15.
FX
es continua por derecha.
Demostracin.
Nuevamente, basta ver que lim FX (a+1/n) = FX (a). La sucesin An = {X a + 1/n}

decrece a
n+
An = {X a}, de donde se obtiene el resultado.
n=1
Teorema 3.16.
Si denimos FX (x
se tiene que FX (a ) = lim FX (x).

xa
) = P (X < x),
entonces para cualquier
xR
Demostracin.
Similar a la anterior, se deja como ejercicio.
Observacin 3.17.
FX (x ),
Del teorema anterior se deduce que
por lo que la probabilidad de que
P (X = x) = FX (x)
tome un valor determinado, viene dado
por el salto de la funcin de distribucin en dicho
x.
Notas.
1. Dado un espacio de probabilidad sobre un conjunto , (, A, P ) y tenemos una
variable aleatoria en l X : R, la misma nos permite denir naturalmente
un espacio de probabilidad donde el espacio muestral sea R. El mismo sera
(R, B, FX ). Aqu hay un detalle tcnico y es el hecho de que FX debe estar
denido en cualquier boreliano de R, pero un teorema de teora de la medida
nos asegura que al ser FX creciente y positiva, y estar denida en los conjuntos
de la forma (, x] para todo x R que generan la -lgebra de Borel, existe
una nica extensin de FX a dicha -lgebra.
2. Recprocamente, si tenemos una funcin F : R R, que cumple las siguientes
condiciones: i) F es montona creciente, ii) lim F (x) = 1, iii) lim F (x) = 0,
iv) F
x+
es continua por derecha entonces, un( teorema) de teora de la medida nos

dice que existe un espacio de probabilidad , A, P y una variable aleatoria X
denida sobre este espacio tal que FX = F.
24
3.3. Variables Aleatorias Discretas.

Denicin 3.18. Variables aleatorias
(
)discretas.
Dado un espacio de probabilidad , A, P . Diremos que X : R es una variable

aleatoria discreta si y slo si existe un subconjunto AX de R numerable, tal que
P (X AX ) = 1.
Denicin 3.19.
Si X es discreta y se considera AX tal que P (X = x) > 0 para

todo x AX , al conjunto AX le llamaremos Rec(X) .
Observacin
3.20.
AX =
{X AX } es un sucesoya que al ser AX numerable, entonces

{X AX } = +
n=1 {X = xn } A ya que los puntos
+
n=1 {xn } por lo que
aislados son borelianos.
Denicin 3.21. Funcin de probabilidad.
Si X es discreta, denimos pX :
R R tal que pX (x) = P (X = x) para cada x R.
Observacin 3.22.
de
son tales que
X es discreta, slo una cantidad numerable de valores

P (X = x) > 0 por lo que alcanza denir pX (x) para los x
Cuando
Rec(X).
Observacin 3.23.
Cuando
es discreta, se tiene que
Observacin 3.24.
Cuando
es discreta, entonces
FX (x) =
tRec(X) : t[x]
xRec(X)
pX (x) = 1.
pX (t).
3.4. Ejemplos de Variables discretas.

Ejemplo 3.25. Variable Bernoulli de parmetro p. Notacin:
X Ber(p) .
(
)
Si consideramos , A, P espacio de probabilidad cualquiera,
A A tal que P (A) =
{
1 si w A
p (0, 1) y denimos X : R tal que X(w) =
diremos que
0 si w
/A
en este caso
{ X distribuye Ber(p) . La funcin de probabilidad queda en este caso
p
si x = 1
pX (x) =
. Se suele decir que si ocurre A es xito y si no fracaso,
1 p si x = 0
entonces p se interpreta como la probabilidad de xito.
Ejemplo 3.26. Variable Binomial de parmetros n y p. Notacin: X Bin(n, p) .

Si repetimos de manera independiente experimentos de Bernoulli con probabilidad
de xito p en cada prueba y denimos para cada i = 1, 2, 3, , ..., n
{
1 si hay xito en la i-sima prueba
Xi =
.
0
si no
25

Entonces diremos que X = X1 + X2 + ... + Xn (cantidad de xitos en las n pruebas),
distribuye Bin(n, p). En este caso es claro que Rec(X) = {0, 1, 2, ..., n} y para obtener
la funcin de probabilidad, observamos que si x {0, 1, 2, ..., n}, entonces P (X = x)
signica la probabilidad de obtener x xitos (y por lo tanto nx fracasos). En primer
lugar calculamos la probabilidad de que salga xito las primeras x veces y fracaso las
siguientes n x veces. Este suceso es A1 A2 ... Ax Acx+1 ... Acn donde Ai =
sale xito la vez i-sima. Como las pruebas son independientes, la probabilidad de
esta interseccin es igual al producto de las mismas. Siendo p la probabilidad de cada
xito, se deduce que la probabilidad de obtener xito las primeras x veces y fracaso las
restantes es igual a px (1 p)nx . Ahora, si consideramos los x xitos y n x fracasos
en cualquier otro orden, la probabilidad ser tambin px (1 p)nx , por lo tanto la
probabilidad de obtener x xitos y n x fracasos, ser px (1 p)nx multiplicado por
la cantidad de maneras en que se pueden combinar los x xitos y n x fracasos, de
todas las maneras posibles. Para obtener dicho nmero, debemos elegir x lugares de
entre los n para ubicar los xitos (en los restantes lugares van los fracasos), por lo
que el total de formas posibles es Cxn . Entonces se obtuvo que
pX (x) = Cxn px (1 p)nx para todo x {0, 1, 2, ..., n} .
Ejemplo 3.27. Variable Geomtrica de parmetro p. Notacin: X Geo(p) .

En este caso se realizan de manera independiente pruebas de Bernoulli hasta obtener
el primer xito. Aqu se dene la variable X = cantidad de fracasos. En este caso,
se tiene que Rec(X) = {0, 1, 2, ...} . Adems, si x {0, 1, 2, ...}, el suceso {X = x}
signica que las primeras x veces hubo fracaso y luego hubo xito. La probabilidad
en este caso es (nuevamente usando que las pruebas son independientes) (1 p)x p,
por lo que
pX (x) = (1 p)x p para todo x {0, 1, 2, ...} .
Observacin 3.28.
Para el mismo experimento, se puede denir la variable
X =
cantidad de pruebas, tambin llamada con distribucin geomtrica y para la que se

obtiene con el mismo argumento su funcin de probabilidad como
pX (x) = (1 p)x1 p
para todo
x {1, 2, 3, ...} .
Ejemplo 3.29. Variable Binomial Negativa de parmetros

X Bin Neg(r, p) .
r, p.
Notacin:
En este caso se realizan de manera independiente pruebas de Bernoulli hasta obtener

el r-simo xito. Aqu se dene la variable X = cantidad de fracasos. En este caso,
se tiene que Rec(X) = {0, 1, 2, ...} . Adems, si x {0, 1, 2, ...}, el suceso {X = x}
signica que las primeras x + r 1 veces, hubo r 1 xitos y x fracasos, y adems
en la prueba x + r hubo xito. Entonces la probabilidad del suceso {X = x} es la
probabilidad de que las primeras x + r 1 veces, hubo r 1 xitos y x fracasos, que
x+r1 r1
es (razonando como en la binomial) Cr1
p (1 p)x multiplicado por p. Entonces
x+r1 r
pX (x) = Cr1
p (1 p)x para todo x {0, 1, 2, ...} .
26
Observacin 3.30.
X =
Al igual que lo visto para la geomtrica, si denimos la variable
cantidad de pruebas, tambin se llama binomial negativa, y su funcin de
probabilidad queda
x1 r
pX (x) = Cr1
p (1 p)xr
para todo
x {r, r + 1, r + 2, ...} .
Ejemplo 3.31. Variable Hipergeomtrica de parmetros N1 , N2 , n. Notacin:

X Hiper(N1 , N2 , n) .
En este caso se considera una poblacin de N elementos, dividida en dos grupos,
cuyos totales son N1 y N2 . N1 + N2 = N. Se realizan n extracciones sin reposicin
de objetos de esta poblacin. Le llamaremos xito cda vez que una extraccin sea
de entre entre el grupo de los N1 y fracaso en caso contrario. Denimos en este
caso X = cantidad de xitos entre las n extracciones. Observamos que Rec(X) =
{x N : max {0, N2 n} x min {n, N1 }} . El total de las formas posibles que
hay de extraer n objetos de un total de N , sin reposicin y sin importar el orden, es
CnN . Anlogamente, tenemos CxN1 formas de elegir entre los N1 elementos x, y por cada
N2
una de estas c ombinaciones tenemos Cnx
formas de elegir entre los N2 elementos,
N2
los restantes n x, por lo tanto, tendremos CxN1 Cnx
casos favorables,entonces
N2
CxN1 Cnx
para todo x Rec(X).
pX (x) =
CnN
Ejemplo 3.32. Variable Poisson de parmetro . Notacin: X Poisson() .

Esta variable suele ser til para modelar diversos fenmenos, por ejemplo aquellos
en los cuales se mide la cantidad de sucesos que ocurren en un intervalo de tiempo.
Rec(X) = {0, 1, 2, ...} . Ejempos de estos fenmenos pueden ser dados por la cantidad
de autos que pasan por un determinado puente en un intervalo de tiempo, rompimiento de cromosomas, desintegracin de partculas, etc. Bajo ciertas hiptesis sobre el
x
experimento es posible demostrar que existe un valor de > 0 tal que pX (x) = e x! .
Veremos en lo que sigue la deduccin de la frmula que nos da la funcin de probabilidad, de una variable aleatoria Poisson con parmetro > 0. Para realizar la
deduccin de la frmula, ser conveniente utilizar la siguiente denicin.
Denicin 3.33.
Dado > 0, si f : (, ) R es tal que lim fh(h)

= 0 diremos que
f es o(h ).
Observacin 3.34.
mayor que
o(h ) es
h cuando h 0.
h0
una funcin que representa un innitsimo de orden
Se deja como ejercicio, vericar las siguientes propiedades concernientes al lgebra de

funciones o(h ).
o(h ) o(h ) = o(h ).

Si f es una funcin acotada, entonces f (h)o(h ) = o(h ).
27
o(h ) = o(h ) para cualquier .

Consideramos una familia de variables aleatorias discretas {Xt }t>0 que toman valores
en {0, 1, 2, 3, ...} . Le llamaremos pn (t) = P (Xt = n) . Supondremos las siguientes
hiptesis sobre las variables Xt .
1. H1: Las funciones pn son derivables en todo punto 0 < p0 (1) < 1 p0 (0) =
P (X0 = 0) = 0 (el proceso arranca en 0).
2. H2: La distribucin de Xt+h Xt es igual a la de Xh para todos t, h > 0 (el
proceso tiene incrementos estacionarios).
3. H3: Las variables Xt2 Xt1 y Xt4 Xt3 son independientes cualesquiera sean
0 < t1 < t2 < t3 < t4 (el proceso tiene incrementos independientes).
4. H4: P (Xt 2) = o(t).
H2 signica que la distribucin de Xt+h Xt , slo depende de h (no de t). Si Xt+h Xt
cuenta la cantidad de sucesos que se observan en el intervalo [t, t + h], la distribucin
de esta variable es igual a la de Xh que es la cantidad de sucesos que se observan en
el intervalo [0, h] .
H3 signica que la cantidad de sucesos que se observan en el intervalo [t1 , t2 ] es independiente de la cantidad de sucesos que se observan en [t3 , t4 ] siendo estos intervalos
disjuntos entre si.
H4 signica que para valores pequeos de t, la probabilidad de observar 2 o ms sucesos en un intervalo de longitud t es un innitsimo de mayor orden que la probabilidad
de observar un slo suceso en el mismo intervalo.
Lema 3.35.
tal que
Si se cumplen las condiciones H1, H2, H3 y H4 entonces existe

t
p0 (t) = e
>0
Demostracin.
(
]
it
t,
(i = 1, 2, 3, ..., n)
Para cada t > 0, partimos el intervalo [0, t] en n subintervalos i1
n
n
t
t], no]se obde longitud constante e igual a n . Entonces, decir que en el intervalo [0,
( i1
servaron sucesos, es equivalente a decir que en todos los subintervalos n t, itn no se
observaron sucesos.
(
) H3
p0 (t) = P (Xt = 0) = P Xt/n = 0; X2t/n Xt/n = 0; ...; Xt X(n1)t/n = 0 =
(
)
P Xt/n = 0)P (X2t/n Xt/n = 0)...P (Xt X(n1)t/n = 0 =
[
]n
P Xt/n = 0) = [p0 (t/n)]n .
H2
Entonces obtuvimos que p0 (t) = [p0 (t/n)]n para todo t > 0. Entonces, para todo
m natural tenemos que p0 (mt) = [p0 (mt/n)]n , pero por otro lado como el intervalo
[0, mt] lo podemos partir en m intervalos de igual longitud t, tambin se cumple que
p0 (mt) = [p0 (t)]m . Entonces [p0 (t)]m = [p0 (mt/n)]n , por lo que [p0 (t)]m/n = p0 (mt/n)
28

para todos t > 0, m y n naturales. Hacemos t = 1 y obtenemos [p0 (1)]m/n = p0 (m/n)
para todos m y n naturales. Tomando lmites, se deduce que [p0 (1)]t = p0 (t) para
todo t > 0. Asumiendo que 0 < p0 (1) < 1, existe > 0, tal que p0 (1) = e y
entonces p0 (t) = et para todo t > 0.X
Teorema 3.36.
Bajo las hiptesis H1, H2, H3 y H4, se cumple que
et (t)n
pn (t) =
n!
para todo
t>0
n = 0, 1, 2, 3, ...
Demostracin.
Sabemos que p0 (t) = et = 1 t + o(t). Como adems por H4 P (Xt 2) = o(t),

se deduce que
p1 (t) = P (Xt = 1) = 1 p0 (t) P (Xt 2) = t + o(t).

Entonces para cada h > 0 tenemos que
pn (t + h) = P (Xt+h = n) =
P (Xt = n; Xt+h Xt = 0) + P (Xt = n 1; Xt+h Xt = 1) +
n
P (Xt = n i; Xt+h Xt = i) .
i=2
Ahora, observamos que

n
P (Xt = n i; Xt+h Xt = i) P (Xt+h Xt 2) = 1 p0 (h) p1 (h) = o(h).
i=2
Entonces
pn (t + h) = P (Xt = n; Xt+h Xt = 0) + P (Xt = n 1; Xt+h Xt = 1) + o(h) =
H3
P (Xt = n)P (Xt+h Xt = 0) + P (Xt = n 1)P (Xt+h Xt = 1) + o(h) =
H2
pn (t)ph (0) + pn1 (t) p1 (t) + o(h) =

pn (t) (1 h + o(h)) + pn1 (t) (h + o(h)) + o(h).
Y como pn1 (t) y pn (t) son probabilidades, son acotadas, por lo que multiplicadas
por o(h) dan o(h) y por lo tanto podemos asegurar que
pn (t + h) = pn (t) (1 h) + pn1 (t) h + o(h).

Si restamos a ambos trminos pn (t) y dividimos entre h obtenemos
pn (t + h) pn (t)
o(h)
= pn1 (t) pn (t) +
h
h
29

si ahora tomamos lmite cuando h 0 obtenemos la relacin
p0n (t) = pn1 (t) pn (t) .

Observemos que conociendo la funcin pn1 (t), tenemos una ecuacin diferencial
lineal de primer orden con condicin inicial pn (0) = 0. Como conocemos p0 (t) = et ,
podemos hallar p1 (t), luego p2 (t) y as sucesivamente. Se deja como ejercicio vericar
n
t
por induccin que la solucin es pn (t) = e n!(t) .X
Observacin 3.37.
p0n (t) = pn1 (t) pn (t) en el caso n = 0 queda

p00 (t) = p0 (t) que junto con la condicin inicial p0 (0) = 0 da por solucin p0 (t) =
et . Por lo tanto si en H1 no pedimos que 0 < p0 (1) < 1 y a cambio pedimos que
p1 (t) = t + o(t), obtenemos una demostracin del resultado, sin necesidad del lema
La ecuacin
previo.
3.5. Variables aleatorias absolutamente continuas.

Denicin 3.38. Variables aleatorias
(
)absolutamente continuas.
Dado un espacio de probabilidad , A, P . Diremos que X : R es una variable

aleatoria absolutamente continua si y slo
x si existe una funcin fX : R R tal que
fX (x) 0 para todo x R y FX (x) = fX (t)dt. A la funcin fX se le denomina
densidad de X.
Teorema 3.39.
Si
es absolutamente continua y
es un boreliano cualquiera,
entonces
P (X A) =
fX .
A
La demostracin del teorema surge de la teora de la medida, pero es evidente si

consideramos como conjunto A a un intervalo (a, b] cualquiera, ya que sabemos que
P (X (a, b]) = FX (b) FX (a) =
fX
fX =
fX .
a
Como los conjuntos de la forma (a, b] generan la -lgebra de Borel, por un argumento
de teora de medida se extiende la igualdad para todo A boreliano.
Observacin 3.40. Cuando decimos A fX , nos estamos reriendo a la integral de

Lebesgue, ya que la integral de Riemann est denida nicamente sobre intervalos,
de todas formas la integral de Lebesgue coincide con la de Riemann sobre intervalos.
Observacin 3.41.
Si
es absolutamente continua, entonces
fX = 1.
30
Observacin 3.42.
Si
es absolutamente continua entonces
P (X = a) = 0
cualquiera sea
a.
Observacin 3.43. Si X es absolutamente continua entonces FX

FX (x ) = FX (x) P (X = x) = FX (x).
Observacin 3.44.
en
Observacin 3.45.
x es punto
= fX (x).
Si
0
y adems FX (x)
de continuidad de
fX ,
es continua ya que
entonces
FX
es derivable
Dada una funcin de densidad, si cambiamos la denicin de la
misma en un conjunto de puntos de medida nula, no cambia la funcin de distribucin,

ya que la integral sobre este conjunto valdr cero.
3.46. Si f : R R es tal que f (x) 0 para( todo x ) R y cumple

Observacin
+
f (x)dx = 1, entonces existe un espacio de probabilidad , A, P y una varia
ble aleatoria X absolutamente continua tal que fX = f . Lo anterior se debe a que
x
deniendo F : R R tal que F (x) = f (t)dt, entonces, F es montona creciente, continua en todo punto, con lmites 1 y 0 a + y respectivamente. Luego
aplicamos el teorema de existencia de un espacio de probabilidad para estos casos.
3.6. Ejemplos de variables absolutamente continuas.

Ejemplo 3.47. Variable uniforme en el intervalo [a, b] . Notacin: X U [a, b] .
{
si x (a, b)
se dice que X tiene distribucin
0 si x
/ (a, b)
xa
0 si
xa
si a x b y se
uniforme en el intervalo [a, b] . En este caso FX (x) =
ba
1 si
xb
observa que si elegimos c, d, e, f tales que a < c < d < b, a < e < f < b, con
d c = f e, entonces
Cuando X es tal que fX (x) =
1
ba
P (c < X < d) = FX (d) FX (c) =
dc
f e
=
= P (e < X < f )
ba
ba
por lo que intervalos incluidos en [a, b] de igual longitud tienen igual probabilidad.
Ejemplo 3.48. Variable Exponencial de parmetro > 0. Notacin: X Exp() .

{
0
si x < 0
se dice que X tiene distribucin
x
e
si x 0
{
0
si x < 0
exponencial de parmetro . En este caso FX (x) =
.
1 ex si x 0
Cuando X es tal que fX (x) =
Ejemplo 3.49. Variable Normal de parmetros

N (, 2 ) .
2 > 0.
Notacin:
X
31

2
1 x
1
Cuando X es tal que fX (x) = 2
e 22 ( ) se dice que X tiene distribucin
2
normal con media y varianza 2 . Veremos que sta funcin es una densidad. Dado que es positiva, basta ver que integra uno. Observamos que haciendo el cam + 1 (x)2
+ 1 2
1
, obtenemos que 2
e 22
dx = 12 e 2 t dt,
bio de variable t = x
2
+ 1 2
por lo que bastar con probar que es equivalente a probar que 12 e 2 t dt =
1 (x2 +y2 )
1. Calculemos
e2
dxdy. Dado que la integral es convergente, es igual a
lim
n+ D
1
2
R2
2 +y 2
x
(
)
dxdy siendo Dn = {(x, y) R2 : x2 + y 2 n2 } .
Pasando a coordenadas polares, obtenemos que

n
2
(
)
1
2 +y 2
2
2
x
(
)
er /2 rdr = 2 1 en /2 2.
d
e2
dxdy =
0
Dn
Por lo tanto, tenemos que
2 =
1
2
2
2
e (x +y ) dxdy =
x2 /2
R2
entonces,
dx
y 2 /2
2 /2
dx =
dy =
x2 /2
)2
dx
ex
2.
3.7. Variables aleatorias mixtas.

Existen variables aleatorias que no son discretas ni absolutamente continuas. A este
tipo de variables se les suele llamar mixtas. Para construir un ejemplo de una variable
de este tipo, basta considerar una funcin de R en R, con lmites 0 y 1 a menos y
ms innito respectivamente, creciente y continua por derecha, tal que tenga un slo
punto de discontinuidad, con un salto menor estricto que 1. Un ejemplo concreto de
esta situacin se puede obtener en el siguiente ejemplo.
Ejemplo 3.50.
Dada X U (0, 1), denimos Y =max{X, 1/2} .
FY (y) = P (Y y) = P (max {X, 1/2} y) = P (X y, 1/2 y) =
{
{
y < 1/2
0 si
P (X y) si 1/2 y
FX (y) si 1/2 y
y si 1/2 y 1
=
=
P ()
si 1/2 > y
0
si 1/2 > y
1 si
y>1
Por lo tanto, observando que P (Y = 1/2) = FY (1/2) FY (1/2 ) = 1/2 (lo cual nos
asegura que Y no es absolutamente continua) y que P (Y = y) = 0 para todo y 6= 1/2
se deduce que Y tampoco puede ser discreta.
32
Captulo 4
Distribucin conjunta.
Denicin 4.1. Dadas X1 , X2 , ..., Xk variables aleatorias sobre un espacio de probabilidad (, A, P ) , se dene la distribucin del vector aleatorio (X1 , X2 , ..., Xk ) (o
tambin la distribucin conjunta de las variables X1 , X2 , ..., Xk ) como la funcin
FX1 ,X2 ,...,Xk : Rk R tal que
FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) := P (X1 x1 , X2 x2 , ..., Xk xk ) .
Como siempre, el suceso {X1 x1 , X2 x2 , ..., Xk xk } es la abreviacin de
{w : X1 (w) x1 ; X2 (w) x2 ; ....; Xk (w) xk } =
Xi1 ((, xi ]) .
i=1
Veremos en lo que sigue diversas propiedades de las distribuciones conjuntas.
4.1. Propiedades.
Teorema 4.2.
la variable
xi
FX1 ,X2 ,...,Xk : R R como funcin nicamente de

jas), entonces FX1 ,X2 ,...,Xk es continua por derecha
Fijado i, mirando
(dejando las dems
y montona creciente.
Teorema 4.3.
lim
Teorema 4.4.
Teorema 4.5.
(x , x , ..., xk ) = 0.
lim
F
algn xi X1 ,X2 ,...,Xk 1 2
lim
FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FX2 ,...,Xk (x2 , ..., xk ).
x1 +
Observacin 4.6.
cada variable
FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = 1.
x1 ,x2 ,...,xk +
Xi
Usando esta propiedad,
k1
veces, obtenemos la distribucin de
haciendo tender todas las dems a
+.
Teorema 4.7.
lim
FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FXi (xi )
x1 ,x2 ,...,xi1 ,xi+1 ,...,xk +
33
para todo
i = 1, 2, 3, ..., k.
Captulo 4. Distribucin conjunta.

Las demostraciones de estas propiedades se realizan de manera similar al caso univariado, haremos como ejemplo el teorema 1.3.
Dado que FX1 ,X2 ,...,Xk es montona creciente como funcin de cada variable, basta
hallar el lmite sobre alguna sucesin en particular en cada variable. Por ello, denik
mos los conjuntos An =

Xi1 ((, n]) . Observamos que la sucesin de conjuntos
i=1
{An }nN crece a , luego por la propiedad de continuidad de las probabilidades se

deduce que
( + )
lim FX1 ,X2 ,...,Xk (n, n, ..., n) = lim P (An ) = P

An = P () = 1.X
n+
n+
Teorema 4.8.
n=1
p Rk , i = 1, 2, 3, ..., k y h1 , h2 , ..., hk R+ denimos el

(i)
operador FX (p) = FX (p + hi ei ) FX (p), (donde e1 , e2 , ..., ek son los vectores de
hi
k
la base cannica de R ) entonces
Si para cada
(k)
(1)
hk (k1)
...h1 FX (p) 0.
h
k1
Observamos que en el caso bivariado, tenemos que
P (a < X b; c < Y d) = FX,Y (b, d) FX,Y (b, c) FX,Y (a, d) + FX,Y (a, c) .
Demostracin.
Se deja como ejercicio. Sugerencia, probar por induccin que

(1)
(k)
...h1 FX (p) =
hk (k1)
h
k1
(1)k
Pk
i=1 i
FX (p1 + 1 h1 , p2 + 2 h2 , ..., pk + k hk ) =
1 ,2 ,...,k {0,1}
P (p1 < X1 p1 + h1 , p1 < X2 p2 + h2 , ..., pk < Xk pk + hk ) 0.X

Como en el caso univariado, podramos preguntarnos cundo una funcin F : Rk
R es la funcin de distribucin de un vector (X
( 1 , X2 , ..., )Xk ) en cierto espacio de
probabilidad. Nuevamente, deniramos la terna Rk , B, P deniendo P (A) de tal
modo que
P ((, x1 ] (, x2 ] ... (, xk ]) = F (x1 , x2 , ..., xk ). Para ello necesitamos
nuevamente del teorema de extensin de medidas. Esto es posible cuando F cumple
las siguientes propiedades: i) F es continua por derecha y montona creciente como
funcin de cada una de sus variables, ii)
lim
F (x1 , x2 , ..., xk ) = 1, iii)
lim
algn
F (x1 , x2 , ..., xk ) = 0,
xi
iv)
x1 ,x2 ,...,xk +
(k) (k1)
(1)
hk h
...h1 F (p)
k1
0 para todo p Rk y
h1 , h2 , ..., hk R+ .
Observacin 4.9.
automticamente ya que queda

ser
k = 1, se tiene que la condicin iv) se cumple

F (b) F (a) para a < b condicin que se satisface al
En el caso en que
montona creciente.
34
Teorema 4.10.
F : Rk R cumple
existe un espacio de probabilidad (, A, P )
que FX1 ,X2 ,...,Xk = F.
Si
las propiedades i) ii) iii) y iv) entonces,

y un vector aleatorio
(X1 , X2 , ..., Xk )
tales
4.2. Vectores aleatorios discretos.

Denicin 4.11. Vectores aleatorios discretos.
Dado un espacio de probabilidad (, A, P ), se dice que el vector aleatorio (X1 , X2 , ..., Xk ) :

Rk es discreto si y slo si existe A Rk numerable tal que P ((X1 , X2 , ..., Xk ) A) =
1.
Veremos ahora que un vector aleatorio es discreto si y slo si todas sus variables
componentes son discretas.
Teorema 4.12.
torio
Dado un espacio de probabilidad
(X1 , X2 , ..., Xk )
es discreto si y slo si
Xi
(, A, P ),
entonces el vector alea-
es discreta para todo
i = 1, 2, 3, ..., k.
Demostracin.
) Existe A Rk numerable tal que P ((X1 , X2 , ..., Xk ) A) = 1. Entonces denimos A1 := 1 (A) , A2 := 2 (A) , ..., Ak := k (A) como las proyecciones sobre cada
una de las componentes, es decir i : Rk R tal que i (x1 , x2 , ..., xk ) = xi para cada
i = 1, 2, 3, ..., k.
Observando que, para todo i = 1, 2, 3, ..., k, se tiene que {(X1 , X2 , ..., Xk ) A}
{Xi Ai }, entonces
1 = P ((X1 , X2 , ..., Xk ) A) P (Xi Ai ) ,
entonces Xi es discreta.
) Como todas las Xi son discretas, entonces existen conjuntos A1 , A2 , ..., Ak R
numerables tales que P (Xi Ai ) = 1 para todo i = 1, 2, 3, ..., k . Entonces denimos
A = A1 A2 ... Ak es numerable (por ser producto cartesiano nito de conjuntos
numerables) y adems, como interseccin nita de conjuntos de probabilidad 1 tiene
probabilidad 1, nos queda
(k
)
P ((X1 , X2 , ...Xk ) A) = P
{Xi Ai } = 1.
i=1
Entonces (X1 , X2 , ...Xk ) es discreto.X

De manera anloga a las variables discretas, y dado que un vector discreto toma
valores en un conjunto numerable con probabilidad 1, tiene sentido denir a funcin
de probabilidad conjunta, como la probabilidad de tomar cada uno de los valores de
su recorrido.
Denicin 4.13.
Si X = (X1 , X2 , ..., Xk ) es discreto, entonces le llamamos recorrido

de X al conjunto Rec(X) = {x = (x1 , x2 , ..., xk ) Rk tales que P (X = x) > 0}.
35
Denicin 4.14. Funcin de probabilidad conjunta. Si X = (X1 , X2 , ..., Xk ) es
discreto, denimos para cada x Rk ,
pX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = P (X1 = x1 , X2 = x2 , ..., Xk = xk ).

a la que le llamaremos funcin de probabilidad conjunta de las variables X1 , X2 , ..., Xk .
Observacin 4.15.
Si
es boreliano en
P (X A) =
Observacin 4.16.
xRec(X)
xARec(X)
Rk ,
entonces
pX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ).
pX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = 1.
Ejemplo 4.17. Vector multinomial.
Supongamos un experimento donde se repiten de forma independiente n pruebas, donde en cada una de ellas hay k resultados posibles, digamos E1 , E2 , ..., Ek . La probabilidad en cada prueba de que se observe el resultado Ei es pi , para i = 1, 2, 3, ..., k , donde
p1 + p2 + ... + pk = 1. Se denen para este experimento las variables X1 , X2 , ..., Xk ,
como Xi = cantidad de pruebas entre las n en que se obtuvo el resultado Ei para
i = 1, 2, 3, ..., k. Se dice en estos casos que el vector (X1 , X2 , ..., Xk ) tiene distribucin
multinomial con parmetros n, p1 , p2 , ..., pk .
Notacin. (X1 , X2 , ..., Xk ) Mult(n, p1 , p2 , ..., pk ) .
Vamos a deducir su funcin de probabilidad puntual.
Fijemos x1 , x2 , ..., xk {0, 1, 2, ..., n} tales que x1 + x2 + ... + xk = n. El suceso
{X1 = x1 , X2 = x2 , ..., Xk = xk } signica que de entre las n pruebas, x1 veces se obtuvo E1 como resultado, x2 veces se obtuvo E2 ,..., xk veces se obtuvo Ek . La probabilidad de que las primeras x1 veces se obtenga E1 , las siguientes x2 veces se obtenga
E2 , y as sucesivamente hasta que las ltimas xk veces se obtenga Ek , es, debido a
la independencia de cada prueba, igual a px1 1 px2 2 ...pxk k . Si intercambiamos de lugar el
orden donde salen las x1 veces E1 , x2 veces E2 , .... xk veces Ek , la probabilidad ser
tambin px1 1 px2 2 ...pxk k ya que x1 veces aparecer el factor p1 , x2 veces p2 , ..., xk veces
pk . Por lo tanto la probabilidad de {X1 = x1 , X2 = x2 , ..., Xk = xk } ser px1 1 px2 2 ...pxk k
multiplicado por la cantidad de formas de elegir x1 lugares para ubicar las veces en
que sale E1 , x2 lugares para ubicar las veces en que sale E2 ,..., xk lugares para ubicar
las veces en que sale Ek . Para obtener este nmero, debemos primero elegir x1 lugares
entre los n para ubicar los E1 , esto se puede realizar de Cxn1 formas, luego nos quedan
n x1 lugares, disponibles, de los cuales debemos elegir x2 para ubicar los E2 , lo cual
1
se puede realizar de Cxnx
formas, luego quedan n x1 x2 lugares disponibles, de
2
1 x2
los cuales debemos elegir x3 para ubicar los E3 , lo que se puede realizar de Cxnx
3
formas, y as seguimos sucesivamente.
1
1 x2
Al nal, el nmero de todas las combinaciones posibles es Cxn1 Cxnx
Cxnx
....Cxxkk =
2
3
n!
. As obtuvimos que para todos x1 , x2 , ..., xk {0, 1, 2, ..., n} tales que x1 +
x1 !x2 !...xk !
36
x2 + ... + xk = n,
P (X1 = x1 , X2 = x2 , ..., Xk = xk ) =
n!
px1 px2 ...pxkk .
x1 !x2 !...xk ! 1 2
Observacin 4.18. Si (X1 , X2 , ..., Xk ) Mult(n, p1 , p2 , ..., pk ), entonces Xi Bin(n, pi )

para
i = 1, 2, 3, ..., k.
4.3. Vectores aleatorios absolutamente continuos.

Denicin 4.19. Vectores aleatorios absolutamente continuos.
Dado un espacio de probabilidad (, A, P ), se dice que el vector aleatorio (X1 , X2 , ..., Xk ) :

Rk es absolutamente continuo, si y slo si existe fX1 ,X2 ,...,Xk : Rk R tal que:
k
i) fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) 0 paratodo (x
x1k, x2 , ..., xk ) R ,
x1
x2
ii) FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = ... fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...duk .
A la funcin fX1 ,X2 ,...,Xk se la denomina densidad del vector (X1 , X2 , ..., Xk ), o tambin
densidad conjunta de las variables X1 , X2 , ..., Xk .
En R2 , se tiene que para todo (x, y) R2 (por aplicacin del teorema de Fubini),
)
)
x ( y
y ( x
FX,Y (x, y) =
fX,Y (u, v)dv du =
fX,Y (u, v)du dv.
4.3.1.
Propiedades.
Teorema 4.20.
Dado un espacio de probabilidad
(X1 , X2 , ..., Xk ) : Rk
(, A, P ).
Si el vector aleatorio
es absolutamente continuo con densidad

k
tonces, para todo boreliano A R se cumple que
P ((X1 , X2 , ..., Xk ) A) =
fX1 ,X2 ,...,Xk ,
en-
fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk )dx1 dx2 ...dxk .

A
Demostracin.
Nuevamente el resultado se sigue del teorema de existencia y unicidad de extensin

de medidas, ya que la propiedad es vlida para todo boreliano de la forma
A = (, x1 ] (, x2 ] ... (, xk ]
y dado que los mismos generan la -lgebra de Borel en Rk se concluye la demostracin.X
Observacin 4.21. El signicado de . . . f es el de la integral de Lebesgue, que

en el caso en que el boreliano
A
es un producto cartesiano de intervalos o una unin
disjunta de productos cartesianos de intervalos, entonces dicha integral coincide con

la de Riemann.
37
Observacin 4.22.
Si el boreliano
tiene medida de Lebesgue nula, entonces
P (X A) = 0.
Teorema 4.23.
(X1 , X2 , ..., Xk ) :
Dado un espacio de probabilidad (, A, P ). Si el vector aleatorio

Rk es absolutamente continuo con densidad fX1 ,X2 ,...,Xk , en-
tonces,
k FX1 ,X2 ,...,Xk

(x1 , x2 , ..., xk ) = fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk )
x1 x2 ...xk
igualdad vlida para todos los
(x1 , x2 , ..., xk ) Rk
salvo en un conjunto de medida
nula.
Demostracin.
Basta derivar sucesivamente a la funcin

x1 x2
FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) =
...
xk
fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...duk
respecto a x1 , x2 , ..., xk en todo punto de continuidad de fX1 ,X2 ,...,Xk , el conjunto de

puntos donde se puede realizar esta operacin es el de puntos de continuidad de
fX1 ,X2 ,...,Xk que son todos salvo un conjunto de medida nula.X
En lo que sigue, responderemos a la siguiente pregunta: (X1 , X2 , ..., Xk ) es absolutamente continuo, es equivalente a decir que cada Xi es absolutamente continua para
i = 1, 2, 3, ..., k ?
Teorema 4.24.
Dado el vector aleatorio
(X1 , X2 , ..., Xk ) : Rk
denido sobre un
(, A, P ).
Si el vector aleatorio (X1 , X2 , ..., Xk ) es absolutamente continuo, entonces Xi
solutamente continua para todo i = 1, 2, 3, ..., k .
Adems la densidad de Xi es
fXi (ui ) =
fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...dui1 dui+1 ...duk .
espacio de probabilidad
es ab-
Rk1
Demostracin.
Sabemos que
FX1 ,X2 ,...Xk (x1 , x2 , ..., xk ) = FXi (xi ) para todo i =
lim
x1 ,x2 ,...,xi1 ,xi+1 ,...,xk +
1, 2, 3, ..., k , entonces
lim
FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) =
x1 ,x2 ,...,xi1 ,xi+1 ,...,xk +
lim
x1 ,x2 ,...,xi1 ,xi+1 ,...,xk +
(aplicando Fubini)
xi
x1
x2
xk
...
fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ..duk =
...
fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...dui1 dui+1 ...duk dui
Rk1
38

Entonces
FXi (xi ) =
xi
...
fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...dui1 dui+1 ...duk dui
Rk1
de donde se deduce el resultado.X
Observacin 4.25.
dice que si
(X, Y )
En el caso particular en dimensin 2, el teorema anterior nos
es absolutamente continuo con densidad
absolutamente continuas con densidades
fX (x) =
fX,Y (x, y)dy ,
fY (y) =
fX,Y ,
entonces
son
fX,Y (x, y)dx.
El recproco del teorema anterior no tiene por qu cumplirse, para ello consideremos
el siguiente ejemplo.
Denimos (X, Y ) vector en R2 , tal que (X, Y ) toma valores en la diagonal del cuadrado{[0, 1] [0, 1] con distribucin
uniforme. Es decir, si denimos el conjunto
}
D = (x, y) [0, 1]2 : y = x , entonces para todo I D intervalo, se cumple que
P ((X, Y ) A) = long(I)/ 2. Observamos en este caso que el vector (X, Y ) no es

absolutamente continuo, ya que toma valores en un segmento con probabilidad uno.
Como un segmento tiene medida nula, toda integral doble sobre dicho conjunto vale0. Entonces, si (X, Y ) admitiera densidad, se tendra que 1 = P ((X, Y ) A) =
fX,Y (x, y) = 0. Se deja como ejercicio, hallar la distribucin conjunta de (X, Y )
A
y deducir que tanto X como Y tienen distribucin uniforme en [0, 1] y por lo tanto
X e Y son absolutamente continuas.
Nuevamente, para que una funcin f : Rk R sea la funcin de densidad de un
vector (X1 , X2 , ..., Xk ) en algn espacio de probabilidad, se debe cumplir que:
i) f (x) 0 para todo x Rk (alcanza que sea para todo x salvo en un conjunto de
medida
+ nula)
+ y +
ii) ... fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk )dx1 dx2 ...dxk = 1,
ya que a partir de estas dos condiciones, deniendo
x1 x2 xk
...
fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...duk
F (x1 , x2 , ..., xk ) =
se deducen de manera inmediata las 4 condiciones que requiere la funcin F para ser
la distribucin de cierto vector aleatorio en cierto espacio de probabilidad.
Ejemplo 4.26. Vector normal multivariado.
Dados un vector (1 , 2 , ..., k ) Rk y una matriz

de dimensiones k k, simtrica
y denida positiva, se dice que el
vector (X1 , X2 , ..., Xk ) tiene distribucin normal
multivariada con parmetros (, ) si su densidad viene dada por la frmula
fX (x) = fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = (
1
)k
e
det ( )
P
1
(x) 1 (x)T
2
39
Observacin 4.27.
de parmetros
En el caso particular en que
k=1
queda la distribucin normal
(, 2 ) .
Para vericar que sta funcin integra 1, basta realizar enla misma el cambio de
variable t = (x )A1 siendo A una matriz tal que A2 =
(una raz cuadrada de
) y luego observar que

1 T
1
tt
...
( )k e 2 dt1 dt2 ...dtk =
Rk
2

1 2
1
2
2
...
e 2 (t1 +t2 +...+tk ) dt1 dt2 ...dtk =
( )k
Rk
2
+
+
+
1 2
1 2
1 2
1
t
t
e 2 1 dt1
e 2 2 dt2 ...
e 2 tk dtk = 1
( )k
2
ya que qued un producto de k integrales donde cada funcin integrando es la
densidad normal (0, 1) que integra 1.
Se puede probar que cuando X = (X1 , X2 , ..., Xk ) es normal multivariado, entonces
la distribucin de cada Xi es N (i , i2 ) para i = 1, 2, 3..., k .
El caso particular en(que k = 2, se
) llama tambin normal bivariada, y en este caso si
12 1,2
= (1 , 2 ) y
=
, obtenemos la frmula
1,2 22
1
2 2 2
2 1
2
1,2
fX,Y (x, y) =
e (
(x2 22 +y2 12 +12 22 +22 21 2xy1,2 +2x2 1,2 +2y1 1,2 2x22 1 2y12 2 21 2 1,2 )
2
2
12 22 1,2
4.4. Independencia de variables aleatorias.
(
)
Dado , A, P espacio de probabilidad, se dice que las variables aleatorias X1 , X2 , ..., Xk son independientes si y slo si para todos A1 , A2 , ..., Ak
borelianos, se cumple que
Denicin 4.28.
P (X1 A1 , X2 A2 , ..., Xk Ak ) = P (X1 A1 ) P (X2 A2 ) ...P (Xk Ak ) .
Observacin 4.29.
Se observa que slo sta igualdad ya implica que las variables
tomadas de a dos o de a tres, etc son indpendientes, ya que por ejemplo para ver que
X1
A3 = A4 = ... = Ak = con lo que

obtenemos P (X1 A1 , X2 A2 ) = P (X1 A1 ) P (X2 A2 ) .
(
)
Teorema 4.30. Dado , A, P espacio de probabilidad, entonces las variables aleatorias X1 , X2 , ..., Xk son independientes si y slo si se cumple que
y
X2
son independientes, basta considerar
FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FX1 (x1 ) FX2 (x2 ) ...FXk (xk )
para todo
(x1 , x2 , ..., xk ) Rk .
40

Demostracin.
) Basta considerar los borelianos A1 = (, x1 ] , A2 = (, x2 ] , ..., Ak = (, xk ],

entonces
P (X1 A1 , X2 A2 , ..., Xk Ak ) = FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk )
mientras que
P (X1 A1 ) P (X2 A2 ) ...P (Xk Ak ) = FX1 (x1 ) FX2 (x2 ) ...FXk (xk )
y como las variables son independientes, se obtiene la igualdad buscada.
) La igualdad FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FX1 (x1 ) FX2 (x2 ) ...FXk (xk ) para todo
(x1 , x2 , ..., xk ) Rk implica que se cumple que P (X1 A1 , X2 A2 , ..., Xk Ak ) =
P (X1 A1 ) P (X2 A2 ) ...P (Xk Ak ) para los borelianos en Rk de la forma A1
A2 ... Ak = (, x1 ] (, x2 ] ... (, xk ] . Luego, como esta familia de
borelianos (al variar x1 , x2 , ..., xk ) generan la -lgebra de Borel en Rk , por extensin,
se deduce que la propiedad es vlida para todos A1 , A2 , ..., Ak borelianos. X
Dado que en el caso discreto determinar la distribucin conjunta es equivalente a
determinar la funcin de probabilidad conjunta, y en el caso absolutamente continuo,
determinar la funcin de distribucin es equivalente a determinar la densidad conjunta
(salvo conjuntos de medida nula), se tienen los siguientes corolarios.
Corolario 4.31. En el caso discreto, se tiene que las variables aleatorias X1 , X2 , ..., Xk
son independientes si y slo si se cumple que
pX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = pX1 (x1 ) pX2 (x2 ) ...pXk (xk )
para todo
(x1 , x2 , ..., xk ) Rk .
Demostracin.
) Cualesquiera sean los reales x1 , x2 , ..., xk basta considerar los borelianos A1 =

{x1 }, A2 = {x2 }, ..., Ak = {xk } y usar la denicin de independencia.
) Dados los reales x1 , x2 , ..., xk , se tiene que FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) =
pX1 ,X2 ,...,Xk (t1 , t2 , ..., tk ) =

...
t1 Rec(X1 ) : t1 x1
...
t1 Rec(X1 ) : t1 x1
t1 Rec(X1 ) : t1 x1
tk Rec(Xk ) : tk xk
pX1 (x1 )
pX1 (x1 ) pX2 (x2 ) ...pXk (xk ) =
tk Rec(Xk ) : tk xk
t2 Rec(X2 ) : t2 x2
pX2 (x2 ) ...
pXk (xk ) =
tk Rec(Xk ) : tk xk
FX1 (x1 )FX2 (x2 )...FXk (xk ).X
41
Corolario 4.32.
En el caso absolutamente continuo, Si
(X1 , X2 , ..., Xk )
X1 , X2 , ..., Xk
absolutamente continuo, se tiene que las variables aleatorias
es vector
son inde-
pendientes si y slo si se cumple que
fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = fX1 (x1 ) fX2 (x2 ) ...fXk (xk )
para todo
(x1 , x2 , ..., xk ) Rk punto
de continuidad defX1 ,X2 ,...,Xk .
Demostracin.
) FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FX1 (x1 )FX2 (x2 )...FXk (xk ), para todo (x1 , x2 , ..., xk )
Rk punto de continuidad de fX1 ,X2 ,...,Xk , si derivamos sucesivamente de ambos lados de la igualdad, primero respecto de x1 luego respecto de x2 ... y por ltimo respecto de xk , del lado izquierdo queda fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) y del derecho queda
fX1 (x1 )fX2 (x2 )...fXk (xk ), por lo tanto la igualdad se obtiene en todo punto de Rk ,
salvo en un conjunto de medida nula.
)
x1 x2 xk
FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) =
...
fX1 (u1 )fX2 (u2 )...fXk (uk )du1 du2 ...duk =
x1
fX1 (u1 )du1
x2
fX2 (u2 )du2 ...
xk
fXk (uk )duk =
FX1 (x1 )FX2 (x2 )...FXk (xk ).X

(
)
Denicin 4.33. Dado , A, P espacio de probabilidad, se dice que la familia de
variables aleatorias {Xt }tI donde I es una familia arbitraria de ndices si y slo si
para todo F I nito, se cumple que {Xt }tF son independientes.
Ejemplo 4.34.
Si el vector X =(X1 , X2 , ..., Xk ) es normal multivariado, con parmetros (, ), donde la matriz

es diagonal, es decir cuando i,j = 0 para todos
i 6= j , observamos que
)2
1
k (
xi i
T
(x )
(x ) =
i
i=1
por lo que la densidad conjunta queda
Pk
1
fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) =
e i=1
212 22 ...k2
k
i=1
1
1
2
e
2i2
xi i
i
xi i
i
por lo que se deduce que X1 , X2 , ..., Xk son independientes cuyas distribuciones son
) para i = 1, 2, 3, ..., k . Ms adelante se ver el signicado de los
Xi N (i , i2
parmetros (, ) .
42
Teorema 4.35.
Convolucin de dos variables aleatorias.
X, Y : R denidas
la variable Z = X + Y.
Dadas dos variables aleatorias independientes

cio de probabilidad
(, A, P ) .
Consideremos
sobre un espa-
Entonces:
(i)
Si
pZ (z) =
(ii)
Si
(X, Y )
Z es
son discretas, entonces
discreta y adems
xRec(X) zxRec(Y )
pX (x)pY (z x).
es absolutamente continuo, entonces
adems
fZ (z) =
es absolutamente continua y
fX (x)fY (z x)dx.
Demostracin.
(i)
pZ (z) = P (Z = z) = P (X + Y = z) =
P (X + Y = z; X = x) =
xRec(X)
P (Y = z x; X = x) =
xRec(X)
P (Y = z x) P (X = x) =
xRec(X), zxRec(Y )
pX (x)pY (z x).
xRec(X) zxRec(Y )
(ii)
Si le llamamos A = {(x, y) R2 : x + y z}, entonces
FZ (z) = P (Z z) = P (X + Y z) =
fX,Y (x, y)dxdy =
A
fX (x)fY (y)dxdy =
zx
zx
fX (x)fY (y)dy dx =
)
fY (y)dy fX (x)dx
ahora realizando en la integral en y el cambio de variable t = y + x y nos queda

)
)
+ ( z
z ( +
fY (t x)dt fX (x)dx =
fX (x)fY (t x)dx dt.
Por lo tanto Z es absolutamente continua con densidad

+
fZ (z) =
fX (x)fY (z x)dx.X
43
Ejemplo 4.36.
Si X N (1 , a2 ) , Y N (2 , b2 ) son independientes, entonces

Z = X + Y N (1 + 2 , a2 + b2 ) .
Basta probarlo para el caso 1 = 2 = 0, ya que si X N (, 2 ) ,entonces X = +T
donde T N (0, 2 ) .
Aplicamos entonces la frmula de la convolucin y obtenemos que
+
+
2
x2 (zx)
1
fZ (z) =
fX (x)fY (z x)dx = fZ (z) =
e 2a2 e 2b2 dx =
2ab
2
1 2(az
e 2 +b2 )
2ab
1
2a2 b2
2
x a2 +b2 za
2
a +b2
dx.
(
)
2
1
Luego de hacer el cambio de variable t = ab
x a2 + b2 aza2 +b2 , obtenemos que la
ltima integral es igual a
+ 2
z 2
z 2
t
1
1
2 +b2 )
2(a
e 2 dx =
e 2(a2 +b2 )
e
2 a2 + b2
2 (a2 + b2 )
que es la funcin de densidad correspondiente a una variable con distribucin N (0, a2 + b2 ) .

Observamos que de esta propiedad, se deduce que toda combinacin lineal de variables
normales independientes es normal.
Ejemplo 4.37.
Si X Bin(n, p), Y Bin(m, p) son independientes, entonces Z =

X + Y Bin(n + m, p) .
En este caso,
pZ (z) = P (Z = z) = P (X + Y = z) =
n+m
P (Y = z x) P (X = x) =
x=0
m
Czx
pzx (1 p)mz+x Cxn px (1 p)nx =
xn, zxm
m
Czx
Cxn pz (1 p)n+mz = pz (1 p)n+mz
xn, zxm
m
Czx
Cxn
xn, zxm
Ahora, teniendo en cuenta el coeciente que multiplica al trmino tz cuando desarrollamos (1 + t)n (1 + t)m = (1 + t)n+m , obtenemos la igualdad
m
Czx
Cxn = Cxn+m
x
Por lo tanto
xn, zxm
pZ (z) = Cxn+m pz (1 p)n+mz .
44
4.5. Mtodo del Jacobiano.

Frecuentemente, conocemos la distribucin de un vector aleatorio X y debemos trabajar con una funcin del mismo, digamos Y = g(X). Si el vector X es absolutamente
continuo y la funcin g es diferenciable deseamos saber si Y es tambin absolutamente continuo, y si lo es, obtener una frmula que nos permita hallar la densidad de Y .
El siguiente teorema apunta en esa direccin.
(
)
Teorema 4.38. Dados , A, P espacio de probabilidad, X = (X1 , X2 , ..., Xk ) :
Rk vector aleatorio y g : U V donde U, V son abiertos de Rk tales que
P (X U ) = 1, g es biyectiva y diferenciable con detJg (x) 6= 0 para todo x U.
Si X es absolutamente continuo entonces Y = g(X) es absolutamente continuo con
densidad conjunta dada por
(
)
fY (y) = fX g 1 (y)
1
1V (y).
|detJg (g 1 (y))|
Demostracin.
Basta ver que para todo boreliano B en Rk , se puede expresar P (Y B) como una
integral sobre el conjunto B de cierta funcin, la cual ser necesariamente (salvo
conjuntos de medida nula) la densidad del vector Y.
P (Y B) = P (g(X) B) = P X g
(B) =
fX (x)dx1 dx2 ...dxk .
g 1 (B)U
Ahora, realizando el cambio de variable y = g(x) en la integral nos queda
1
fX (g 1 (y))
dy1 dy2 ...dyk =
|detJg (g 1 (y))|
BV
(
)
fX g 1 (y)
1
1V (y)dy1 dy2 ...dyk .X
|detJg (g 1 (y))|
En el caso particular en que k = 1 tenemos el siguiente corolario.

(
)
Corolario 4.39. Dados , A, P espacio de probabilidad, X : R variable
aleatoria y g : U V donde U, V son abiertos de R tales que P (X U ) = 1, g es
0
biyectiva y derivable, con g (x) 6= 0 para todo x U.
Si X es absolutamente continua entonces Y = g(X) es absolutamente continua con
densidad dada por
(
)
fY (y) = fX g 1 (y)
1
|g 0 (g 1 (y))|
1V (y).
Ejemplo 4.40.
Como aplicacin veremos que si X, Z N (0, 1) independientes, y

denimos Y = |Z| entonces probaremos que X 2 + Y 2 Exp( = 1/2) .
45

En primer lugar observamos que, para y > 0, se tiene que FY (y) = P (|Z| y) =
P (y Z y) = FZ (y)FZ (y) = 2FZ (y)1, por lo tanto fY (y) = 2fZ (y)1{y>0} =
(
)
y 2
2 e 2 1{y>0} . Tambin vemos que P (X, Y ) R R+ = 1.
2
Consideramos la funcin g : R R+ V siendo V = {(u, v) R2 : v > u2 } tal
2
2
1
que
( g(x, y) )= (x, x + y ) . Esta funcin es invertible y su inversa es g (w, t) =
w, t w2 . detJg (x, y) = 2y.
Dado que X e Y son independientes, se tiene que su densidad conjunta es fX,Y (x, y) =
1
2
2
f (x)f (y) = 1 e 2 (x +y ) 1
.
X
{y>0}
La densidad conjunta de (W, T ) = g (X, Y ) = (X, X 2 + Y 2 ) ser entonces
fW,T (w, t) = fX,Y (g 1 (w, t))
1
1 t
1
1V (w, t) = e 2
1V (w, t).
1
|detJg (g (w, t))|
2 t w2
Hallamos la densidad de T = X 2 + Y 2 a partir de la densidad conjunta como
fT (t) =
+
si
t>0
fW,T (w, t)du =
1 v
1
e2
dw
2 t w2
luego, realizando el cambio de variable u = tsen obtenemos fT (t) = 12 et/2 y, dado

que para t < 0, se tiene fT (t) = 0, se deduce que
1
fT (t) = et/2 1{t>0}
2
por lo que V = X 2 + Y 2 Exp( = 1/2) .
Ejercicio.
Si X e Y son independientes con distribucin exponencial de parmetro = 1. Hallar
la densidad conjunta del vector (X + Y, X Y ) .
46
Captulo 5
Integral de Riemann-Stieltjes.
Dadas funciones g, F : [a, b] R que cumplan ciertos requisitos, deniremos la
b
expresin a g(x)dF (x) de tal manera que cuando consideremos el caso particular
en que F (x) = x nos quede la denicin clsica de integral de Riemann. Denimos
una particin del intervalo [a, b] como el conjunto nito P = {a = x0 , x1 , ...., xn = b}
donde xi1 < xi para todo i = 1, 2, ..., n. Junto con la particin, elegimos para cada
i = 1, 2, ..., n, puntos intermedios ci [xi1 , xi ] . Es decir que dar la particin P
equivale a dar los puntos de subdivisin xi y los puntos intermedios ci .
Denicin 5.1.
Dadas g, F : [a, b] R y P particin (con sus correspondientes

puntos intermedios ci ), denimos la suma parcial de Riemann-Stieltjes como
S (P, g, F ) =
g (ci ) (F (xi ) F (xi1 )) .
i=1
Observamos que cuando F (x) = x, si le pedimos a g que sea integrable Riemann,

b
dichas sumas se acercarn indenidamente al valor a g(x)dx conforme anemos
sucientemente la particin, en esa direccin apuntaremos.
Denicin 5.2. Dada P particin en [a, b] denimos kP k =mx{xi xi1 ,
i = 1, 2, ..., n}
y le llamaremos norma de la particin.
Denicin 5.3.
Dadas g, F : [a, b] R , diremos que lim S (P, g, F ) = I si y slo

kP k0
si dado > 0, existe > 0 tal que para toda P particin de [a, b] (con sus correspondientes puntos intermedios ci ) con kP k < , se cumple que |S (P, g, F ) I| < .
Denicin 5.4. Integral de Riemann-Stieltjes.
Dadas g, F : [a, b] R , si existe y es nito lim S (P, g, F ) = I , diremos que la

kP k0
integral de Riemann-Stieltjes de g respecto de F en el intervalo [a, b] existe y vale I.
Notacin:
gdF =
a
g(x)dF (x).
a
47
Captulo 5. Integral de Riemann-Stieltjes.
Observacin 5.5.
F (x) = x,
[a, b] .
En el caso particular en que
la denicin de funcin integrable Riemann en
la denicin coincide con
Se deja como ejercicio vericar el enunciado de los ejemplos que siguen.
Ejemplo
5.6.
Si F (x) = k constante, entonces cualquiera sea g : [a, b] R existe

b
gdF y adems a gdF = 0.
{
Ejemplo 5.7. Si g : [a, b] R es continua, F (x) = 1[c,b] = 10 si xsino[c, b] con
b
b
c (a, b) existe a gdF y adems a gdF = g(c).
{
Ejemplo 5.8. Si g(x) = F (x) = 1[a,c] = 01 si xsino[a, c] con c (a, b) entonces
b
no existe a gdF .
Ejemplo 5.9. Si g(x) = k constante, entonces existe ab gdF para cualquier F y vale
b
kdF (x) = k (F (b) F (a)) .
a
b
Veremos en lo que sigue un par de caracterizaciones para la existencia de a gdF.
b
a
Teorema 5.10.
(a) Existe
lim
Los siguientes enunciados son equivalentes.
kP k0
S (P, g, F )
y vale
(nito).
(b) Condicin de Cauchy.
> 0, existe > 0 tal que si P y Q son dos particiones de [a, b]

kP k < y kQk < , se cumple que |S (P, g, F ) S (Q, g, F )| < .
Dado
(c) Para toda sucesin{Pn } de particiones en

que
lim
[a, b]
tales que
kPn k 0
tales que
se cumple
S (Pn , g, F ) = I.
n+
Demostracin.
(a) (b) Dado > 0, existe > 0 tal que para toda P particin de [a, b] (con sus correspondientes puntos intermedios ci ) tal que kP k < , se cumple que |S (P, g, F ) I| <
/2. Entonces si tomamos P y Q dos particiones de [a, b] tales que kP k < y kQk < ,
se cumplir que
|S (P, g, F ) S (Q, g, F )| |S (P, g, F ) I| + |S (Q, g, F ) I| < /2 + /2 = .
(b) (c) Fijamos {Pn } sucesin de particiones en [a, b] tales que kPn k 0. Dado
> 0, tomamos el > 0 de la condicin de Cauchy, y por lo tanto existir un n0 tal que
kPn k < para todo n n0 . Entonces si consideramos n, m n0 , obtendremos que
| S (Pn , g, F ) S (Pm , g, F )| < por lo que la sucesin {S (Pn , g, F )} es de Cauchy,
entonces existir I R tal que lim S (Pn , g, F ) = I.
n+
Observamos que el valor de I depende de la eleccin de la sucesin de particiones,

faltara probar que el lmite es el mismo cualquiera sea la sucesin de particiones.
48

Consideremos entonces {Pn0 } otra sucesin de particiones en [a, b] tales que kPn0 k 0
y sea I 0 tal que lim S (Pn0 , g, F ) = I 0 . Consideramos entonces la siguiente sucen+
sin de particiones: P1 , P10 , P2 , P20 , ..., Pn , Pn0 , .... entonces es claro que esta nueva sucesin, llammosle {Qn } , cumple que kQn k 0 y por lo tanto existe I 00 tal que
lim S (Qn , g, F ) = I 00 . Pero {S (Pn , g, F )} y {S (Pn0 , g, F )}son subsucesiones de
n+
{S (Qn , g, F )} y por lo tanto I = I 0 = I 00 .

(c) (a) Supongamos por absurdo que (a) no es cierto, entonces existe > 0
tal que para todo > 0, existe una particin P , tal que |S (P , g, F ) I| .
Tomando = 1/n, encontramos una sucesin de particiones {Pn } tal que para todo
n, |S (Pn , g, F ) I| entonces lim S (Pn , g, F ) 6= I . X
n+
Teorema
5.11.
b
a
existe
Si
g : [a, b] R
es continua y
F : [a, b] R es montona, entonces
gdF.
Demostracin.
Probaremos que se cumple la condicin de Cauchy. Fijamos > 0. Como g es uniformemente continua en [a, b] existe > 0 tal que si |x y| < entonces |g(x) g(y)| <
.Tomamos una particin P = {a, x1 , x2 , ..., xn1 , b} con puntos intermedios

F (b)F (a)
ci [xi1 , xi ] i = 1, 2, ..., n y una particin Q = {a, y

1 , y2 , ..., ym1 , b} con puntos
intermedios di [yi1 , yi ] i = 1, 2, ..., m. S (P, g, F ) = ni=1 g(ci ) (F (xi ) F (xi1 )),
S (Q, g, F ) = m
i=1 g(di ) (F (yi ) F (yi1 )) .
Unimos los puntos que forman la particin P con la de Q, a la que le llamamos
{a, z1 , z2 , ..., zk1 , b} (k n + m 1 pues algunos puntos de P pueden coincidir con
algunos de Q). Podemos escribir entonces
S (P, g, F ) =
g(c0i ) (F (zi ) F (zi1 )) y S (Q, g, F ) =
i=1
g(d0i ) (F (zi ) F (zi1 ))
i=1
c0i
donde los
son los mismos que los ci (ms explcitamente, cuando [zj1 , zj ]
[ci1 , ci ] entonces c0j = ci ). Anlogamente, d0i son los mismos que los di . Observamos que|c0i d0i | < si le pedimos a las particiones P y Q, kP k < /2 y kQk < /2 .
Entonces

k

0
0
(g(ci ) g(di )) (F (zi ) F (zi1 ))
|S (P, g, F ) S (Q, g, F )| =

i=1
|g(c0i ) g(d0i )| |F (zi ) F (zi1 )| =
i=1
k
i=1
|g(c0i )
Nota.
g(d0i )| (F (zi )
F (zi1 ))
i=1
(F (zi ) F (zi1 )) = .X
F (b) F (a)
Con la misma idea, se puede probar que si F es montona creciente y g

es acotada y tiene una cantidad nita de discontinuidades,
pero F y g no tienen
b
discontinuidades en comn, entonces existe a gdF.
49
Teorema 5.12.
derivable tal que
[a, b] ,
Si g : [a, b] R
F 0 (x) = f (x) para
entonces
es continua y
todo
x [a, b],
g(x)dF (x) =
a
F : [a, b] R es
f integrable
siendo
montona y
Riemann en
g(x)f (x)dx.
a
Demostracin.
Dada una particin P de [a, b] , existen di [xi1 , xi ] i = 1, 2, ..., n tales que

F (xi ) F (xi1 ) = f (di ) (xi xi1 ), ahora si elegimos como puntos intermedios
de la particin a los di , obtenemos
S (P, g, F ) =
g(di ) (F (xi ) F (xi1 )) =
i=1
g(di )f (di ) (xi xi1 ) .
i=1
Tomando lmite cuando kP k 0 se obtiene el resultado ya que la ltima sumatoria tiende a la integral de Riemann de g(x)f (x) en [a, b] (producto de funciones
integrables Riemann es integrable Riemann). X
5.1. Propiedades.
b
g, h, F : [a, b] R son tales que existen las integrales a gdF
b
tambin existe a (g + h) dF cualesquiera sean , R y ade b
b
b
(g + h) dF =
gdF +
hdF.
Proposicin 5.13.
y
b
a
hdF
entonces
ms
Si
Demostracin.
Cualquiera sea P particin de [a, b] , se tiene que
S (P, g + h, F ) =
(g(ci ) + h(ci )) (F (xi ) F (xi1 )) =
i=1
g(ci ) (F (xi ) F (xi1 ))+
i=1
h(ci ) (F (xi ) F (xi1 )) = S (P, g, F )+S (P, h, F )
i=1
por lo que tomando lmite cuando kP k 0 se obtiene el resultado. X
Proposicin 5.14. Si h, F, G : [a, b] R

y
b
a
hdG
adems
hd (F + G) cualesquiera
b
b
b
hd (F + G) =
hdF +
hdG.
entonces tambin existe
sean
hdF
, R y
son tales que existen las integrales
50

Demostracin.
S (P, h, F + G) =
h(ci ) [ (F (xi ) F (xi1 )) + (G (xi ) G (xi1 ))] =
i=1
h(ci ) [(F (xi ) F (xi1 ))]+
i=1
h(ci ) [(G (xi ) G (xi1 ))] = S (P, h, F )+S (P, h, G)
i=1
por lo que tomando lmite cuando kP k 0 se obtiene el resultado. X
Proposicin 5.15. Si g, F : [a, b] R son tales que existe ab gdF entonces

c
b
quiera sea c (a, b), se cumple que existen a gdF y c gdF y adems
gdF =
gdF +
cual-
gdF.
Demostracin.
c
b
Primero probaremos que existe a gdF usando la condicin de Cauchy. Como a gdF
existe, jado > 0, existe > 0 tal que si P y Q son dos particiones de [a, b], donde
kP k < y kQk < se cumple que |S (P, g, F )
S (Q, g,
F )| < . Consideremos

e dos particiones de [a, c] tales que Pe < y
e
entonces Pe y Q
Q
< . Completamos Pe
e a P y Q particiones de [a, b] , agregando los mismos puntos de modo que kP k <
yQ
(
)
(
)

e g, F = |S (P, g, F ) S (Q, g, F )| < .
y kQk < . Entonces S Pe, g, F S Q,
c
b
Por lo tanto existe a gdF. Anlogamente se prueba que existe c gdF. Sabemos ahora
que las tres integrales existen. Consideramos entonces la sucesin de particiones {Pn }
tales que kPn k 0 y tales que c Pn para todo n. Podemos
escribir entonces

(1)
(1)
(2)
(2)
(1)
Pn = Pn Pn , donde Pn es particin de [a, c] con Pn 0 y Pn es particin

(2)
de [a, c] con Pn 0. Entonces, se tiene que
)
(
)
(
S (Pn , g, F ) = S Pn(1) , g, F + S Pn(2) , g, F
y tomando lmite cuando n + se obtiene
gdF =
gdF +
Proposicin
5.16. Si g, F
y existe
b
a
g(x)dF (x),
gdF.X
c
: [a, b] R son tales que g 0, F
es montona creciente
entonces
gdF 0.
a
51

Demostracin.
S (P, g, F ) =
g(ci ) (F (xi ) F (xi1 )) 0
i=1
puesto que cada sumando es no negativo, entonces
Proposicin 5.17.
creciente y existen
gdF 0. X
g, h, F : [a, b] R son tales

b
gdF, a hdF , entonces
b
b
gdF
hdF.
que
g h, F
g h 0, entonces por la propiedad anterior 0

b
b
por lo que se deduce que a gdF a hdF. X
(g h)dF =
a
son tales que

b
es montona creciente y existe a gdF entonces
Si
es montona
Demostracin.
x [a, b] , F
Si
b
a
Proposicin 5.18.
g, F : [a, b] R
(F (b) F (a))
b
a
gdF
g(x)
b
a
hdF
para todo
gdF (F (b) F (a)) .

a
Demostracin.
Es un corolario inmediato de la propiedad anterior. X
Proposicin 5.19.
creciente, entonces
Si
g : [a, b] R
es continua y
F : [a, b] R
es montona
b
b

g(x)dF (x)
|g(x)| dF (x).

a
Demostracin.

n
n

|S (P, g, F )| =
g(ci ) (F (xi ) F (xi1 ))
|g(ci )| (F (xi ) F (xi1 )) = S (P, |g| , F ) .

i=1
i=1
Tomando lmite cuando kP k 0 se obtiene el resultado. X
Proposicin 5.20.
Teorema del valor medio.
g, F : [a, b] R son tales que g es continua, F es

b
existe c [a, b] tal que a gdF = g(c) (F (b) F (a)) .
Si
montona creciente, entonces
Demostracin.
La existencia de la integral se debe a que g es continua y F es montona. Como g es

continua, por el toerema de Weierstrass tiene mnimo y mximo que les llamamos
my
R
M respectivamente. Entonces por la propiedad anterior, se tiene que m

M y como g es continua, resulta que existe c [a, b] tal que
Rb
a gdF
F (b)F (a)
b
a
gdF
F (b)F (a)
= g(c). X
52
5.2. Mtodos de integracin.

Teorema 5.21.
Si
Frmula de integracin
por partes.
g, F : [a, b] R
b
a
gdF , entonces
b
b
b
F dg = gF a
gdF.
son tales que existe
adems
tambin existe
b
a
F dg
Demostracin.
Recordamos la frmula de Abel:

n
ai bi =
i=1
n1
Ai (bi bi+1 ) + An bn siendo An =
i=1
ai .
i=1
Tomamos una particin cualquiera P = {a, x1 , x2 , ..., xn1 , b} con correspondientes

puntos intermedios
n c1 , c2 , ..., cn . Si aplicamos dicha frmula para
S (P, F, g) = i=1 F (ci ) (g (xi ) g (xi1 )) tomando ai = g (xi )g (xi1 ) y bi = F (ci ),
obtenemos
S (P, F, g) =
n1
(g(xi ) g(a)) (F (ci ) F (ci+1 )) + F (cn ) (g(b) g(a)) =
i=1
n1
g(xi ) (F (ci ) F (ci+1 )) (F (c1 ) F (cn )) g(a) + F (cn ) (g(b) g(a)) =
i=1
n1
g(xi ) (F (ci ) F (ci+1 )) F (c1 )g(a) + F (cn )g(b) =
i=1
n1
g(xi ) (F (ci ) F (ci+1 ))+(F (a) F (c1 )) g(a)+(F (cn ) F (b)) g(b)+F (b)g(b)F (a)g(a) =
i=1
S(Pe, g, F ) + g(b)F (b) g(a)F (a)

siendo Pe la particin formada por los puntos a, c1 , c2 ,
..., cn , b y los puntos intermedios
e
son a, x1 , x2 , ..., xn1 , b. Observamos adems que P 2 kP k por lo que tomando
lmite cuando kP k 0 en la igualdad
S(P, F, g) = S(Pe, g, F ) + g(b)F (b) g(a)F (a)

b
obtenemos que existe a F dg y la frmula de partes. X
Proposicin 5.22.
Cambio de variable.
g, F : [a, b] R son tales que a gdF existe, h : [c, d] [a, b]

d
biyectiva, entonces c g ohd (F oh) y adems
d
b
g(h(t))dF (h(t)) =
g(x)dF (x).
Si
es continua y
53

Demostracin.
Supondremos que h es creciente, el caso decreciente es anlogo. Si P = {c, t1 , t2 , ..., tn1 , d}

es una particin de [c, d] con puntos intermedios ci [ti1 , ti ] i = 1, 2, ..., n entonces
S (P, g oh, F oh) =
(
)
g (h (ci )) [F (h (xi )) F (h (xi1 ))] = S Pe, g, F
i=1
siendo Pe = {a, h(t1 ), h(t2 ), ..., h(tn1 ), b} con puntos intermedios h(ci ) (esto se puede
hacer ya que h es creciente
y biyectiva). Adems como h es continua, si kP k 0

e
entonces kh (P )k = P 0, lo cual se deduce ya que h es uniformemente continua
(dado > 0 existe > 0 tal que si |x y| < entonces |h(x) h(y)| < ). Por
d
lo tanto tomando lmite cuando kP k 0 se deduce que c g ohd (F oh) existe y la
frmula buscada. X
5.3. Extensin a funciones complejas e integrales impropias.

Denicin 5.23. Integrales con integrando complejo.
b
a
Dadas g : [a, b] C,
b
gdF si y slo si existen a g1 dF e
g = g1 + ig2 y F : [a, b] R, diremos que existe

b
g dF y en ese caso,
a 2
b
b
b
gdF =
g1 dF +
g2 dF.
a
Denicin 5.24. Integrales impropias.
Si g, F : R R son tales que a gdF existe cualesquiera sean a y b, denimos

+
b
gdF =
lm
gdF.
a b+
en caso de que exista el lmite.
Denicin
5.25.
Dadas g :R C (g =
g1 + g2 ) F : R R, diremos que existe
+
+
gdF si y slo si existen g1 dF y g2 dF y adems
+
+
+
gdF =
g1 dF + i
g2 dF.
5.4. Aplicaciones a la teora de la probabilidad.

Proposicin 5.26.
entonces
Si
FX
es funcin de distribucin de una variable aleatoria
X,
dFX (x) = P (a < X b) .

a
54

Demostracin.
b
Basta observar que a dFX (x)
= FX (a) FX (b) de donde se deduce el resultado. X
Nota. Se puede probar que A dFX (x) = P (X A) cualquiera sea A boreliano en R
(donde nuevamente el signicado de esta integral es el de Lebesgue).
Proposicin 5.27.
R
Si
es discreta cuyo recorrido es
A = {x1 , x2 , ...}
g : [a, b]
es continua, entonces
g(x)dFX (x) =
a
g(x)pX (x).
x(a,b]A
Demostracin.
FX (x) =
i : xi x pX (xi )=
i pX (xi )1[xi ,+) (x). Denimos para cada n, An =
n
{x1 , x2 , ..., xn } y Fn (x) = i=1 pX (xi )1[xi ,+) (x). Dado > 0, existe n0 tal que para
cada n n0 se cumple que P (X An ) 1 /n. Por lo tanto para cada x R
se tiene que 0 FX (x) Fn (x) /n (para n n0 ) . Como g es continua, entonces
|g(x)| k para todo x [a, b] y por lo tanto
b
b

g(x)d (FX (x) Fn (x))
|g(x)| d (FX (x) Fn (x)) 2k/n 0

a
n+
g(x)dFn (x) =
a
g(x)d
( n
i=1
pX (xi )1[xi ,+) (x)
pX (xi )
g(x)d1[xi ,+) (x) =
g(xi )pX (xi ).
g(x)d (FX (x) Fn (x)) =
g(x)dFn (x) +
a
i=1
i : xi (a,b]An
g(x)dFX (x) =
a
g(x)d (FX (x) Fn (x))
g(xi )pX (xi ) +

a
i : xi (a,b]An
Tomando lmite cuando n + se obtiene el resultado. X
Proposicin 5.28. Si
es absolutamente continua con densidad
fX
g : [a, b] R
g(x)dFX (x) =
a
g(x)fX (x)dx.
a
Demostracin.
Es corolario inmediato del teorema 1.11. X
55
5.5. Integrales de Riemann-Stieltjes mltiples.

Si (X, Y ) es un vector aleatorio y FX,Y : R2 R su
funcin de distribucin. Supongamos que g : [a, b] [c, d] R, deniremos [a,b][c,d] g(x, y)dFX,Y (x, y). Si
FX,Y : R2 R es una funcin de distribucin conjunta y g : [a, b] [c, d] R.
Dada PX = {a = x0 , x1 , x2 , ..., xn1 , xn = b} es una particin de [a, b] con puntos intermedios ci [xi1 , xi ] i = 1, 2, , ..., n, PY = {c = y0 , y1 , y2 , ..., ym1 , ym = d} es una
particin de [c, d] con puntos intermedios c0i [yi1 , yi ] i = 1, 2, , ..., m, denimos las
sumas
de Riemann-Stieltjes, sobre PX PY como S (PX PY , g, FX,Y ) =
n parciales
m
0
i=1
j=1 g(ci , cj )pij siendo
pij = P ((X, Y ) (xi1 , xi ] (yj1 , yj ]) =

FX,Y (xi , yj ) FX,Y (xi1 , yj ) FX,Y (xi , yj1 ) + FX,Y (xi1 , yj1 ).
Denimos la norma de la particin como kP k =mx{kPX k , kPY k} . Como en el caso
univariado diremos que lim S (P, g, FX,Y ) = I si y slo si dado > 0, existe > 0 tal
kP k0
que para toda P particin de [a, b][c, d] (con sus correspondientes puntos intermedios
ci y c0i ) con kP k < , se cumple que |S (P, g, FX,Y ) I| < .
Denicin 5.29. Integral doble de Riemann-Stieltjes.
Dadas g : [a, b] [c, d] R , FX,Y : R2 R funcin de distribucin de un vector

aleatorio (X, Y )si existe lim S (P, g, F ) = I , diremos que la integral de RiemannkP k0
Stieltjes de g respecto de FX,Y en [a, b] [c, d] existe y vale I.

Notacin:
gdF =
a
g(x, y)dFX,Y (x, y)

[a,b][c,d]
Es vlido el mismo teorema de las tres equivalencias para la existencia de la integral,

probadas en el caso univariado, con demostraciones anlogas. De manera anloga se
prueban tambin el siguiente teorema y las propiedades que siguen.
Teorema.
Si F es distribucin, y g : [a, b][c, d] R es continua, entonces existe
Propiedades.
[a,b][c,d]
gdF.
Las siguientes propiedades, pueden ser demostradas de manera similar al caso univariado.
1. Si
[c, d] R F = FX,Y son tales queexisten las integrales
g, h : [a, b]
gdF y [a,b][c,d] hdF entonces tambin existe [a,b][c,d] (g + h) dF
[a,b][c,d]
cualesquiera sean , R y adems
(g + h) dF =
gdF +
hdF.
[a,b][c,d]
[a,b][c,d]
[a,b][c,d]
56

2. Si F,
h : [a, b][c, d] R, son tales que
G son distribuciones,
existen las integrales [a,b][c,d] hdF y [a,b][c,d] hdG entonces tambin existe [a,b][c,d] hd (F + G)
cualesquiera sean , R y adems
hd (F + G) =
hdF +
hdG.
[a,b][c,d]
[a,b][c,d]
[a,b][c,d]
3. Si
: [a, b] [c, d] R son tales que g 0, y existe
F es distribucin, g
gdF
,
entonces
gdF 0.
[a,b][c,d]
[a,b][c,d]
4. Si
R son tales que
F es distribucin,
g, h : [a, b] [c, d]
g h, y existen
gdF
y
hdF
entonces
gdF
hdF.
[a,b][c,d]
[a,b][c,d]
[a,b][c,d]
[a,b][c,d]
5.5.1.
Aplicaciones a la teora de la probabilidad.
1. Si FX,Y es la funcin de distribucin de una vector aleatorio (X, Y ), entonces
dFX,Y (x, y) = P (a < X b, c < Y d) ..

[a,b][c,d]
2. Si (X, Y ) es discreto cuyo recorrido es A = {(xi , yj )}i,j y g : [a, b] [c, d] R

g(x, y)pX,Y (x, y)

g(x, y)dFX,Y (x, y) =
[a,b][c,d]
(x,y)(a,b](c,d]A
3. Si (X, Y ) es absolutamente continuo con funcin de densidad fX,Y y g : [a, b]

[c, d] R es continua, entonces
g(x, y)dFX,Y (x, y) =

g(x, y)fX,Y (x, y)dxdy
[a,b][c,d]
5.5.2.
[a,b][c,d]
Integrales mltiples impropias.
Denicin 5.30.
Dadas g : Rn R y FX1 ,X2 ,...,Xn distribucin conjunta del

vector (X1 , X2 , ..., Xn )
g(x1 , x2 , ..., xn )dFX1 ,X2 ,...,Xn (x1 , x2 , ..., xn ) =

Rn
lm
ai
bi +
para todo i
g(x1 , x2 , ..., xn )dFX1 ,X2 ,...,Xn (x1 , x2 , ..., xn )

[a1 ,b1 ][a2 ,b2 ]...[an ,bn ]
57
Captulo 6
Valor esperado.
6.1. Denicin.
Un concepto esencial en teora de la probabilidad y estadstica es el concepto de
esperanza o valor esperado de una variable aleatoria, el mismo ser denido de tal
modo que quede un promedio ponderado de los valores que puede tomar la variable.
Tambin se ver ms adelante, mediante la llamada ley de los grandes nmeros que el
valor esperado puede verse tambin como un valor al cual converge (en cierto sentido)
el promedio de una muestra de observaciones tomadas al azar, cuando el tamao de la
muestra (cantidad de observaciones) tiende a innito. Todo esto va dicho de manera
muy informal, pero ser precisado ms adelante.
Supongamos que tenemos un conjunto formado por 100 personas de las cuales 90
tienen una altura de 170 cms, 5 miden 167 cms y los restantes 5 miden 172 cms. La
altura promedio de este conjunto de personas, la calculamos, sumando la altura de
las 100 personas, y lo dividimos entre 100 que es el total de personas, as obtenemos
que la altura promedio es 90170+5167+5172
= 169. 95. Si sorteamos un individuo
100
a
al azar y denimos X = . ltura del individuo sorteado", tendramos que Rec(X) =
5
{167, 170, 172} y su fncin de probabilidad sera pX (167) = 100
= 0, 05; pX (167) =
5
90
=
0,
9
y
p
(172)
=
=
0,
05
por
lo
tanto,
la
altura
promedio
la podemos
X
100
100
escribir como 167 0, 05 + 170 0, 9 + 172 0, 05 = 167 pX (167) + 170 pX (170) +
172 pX (172) . A este valor le llamaremos esperanza (o valor esperado de X ) y
lo simbolizaremos como E (X) . Razonando como en este ejemplo, dada
una variable
xpX (x), y de
aleatoria X discreta, su valor esperado debera ser denido como
xRec(X)
+
ah, parece natural denirlo para el caso absolutamente continuo como xfX (x)dx.
An nos quedara por denir el valor esperado para una variable aleatoria mixta.
Denicin 6.1. Dado (, A, P ) un espacio de probabilidad y X

aleatoria tal que
|x| dFX (x) < +. Denimos

+
E (X) :=
xdFX (x)
y le llamaremos esperanza de X o valor esperado de X.

58
: R variable
Captulo 6. Valor esperado.
+
Diremos tambin que existe E (X) cuando se cumple que |x| dFX (x) < +.
(
)
Denicin 6.2. Dado un , A, P espacio de probabilidad, si A A es tal que
P (A) = 1, diremos que el suceso A ocurre casi seguramente (c.s.).
Observacin 6.3.
ocurre c.s.) y existe
A R es un boreliano tal que P (X A) = 1 (es

E(X), entonces E(X) = A xdFX (x), ya que sobre Ac
Si
decir si
la integral
vale 0.
Observacin 6.4.
X es discreta, observando que para

cada x R se cumple que
pX (x) = FX (x)FX (x ), entonces existe E(X) si y slo si xRec(X) |x|pX (x) < +
Si
y adems
E (X) =
Observacin 6.5.
xRec(X)
xpX (x).
FX0 (x) = fX (x) en todo

+
punto x de continuidad de fX , entonces entonces existe E(X) si y slo si |x|fX (x)dx <
+ y adems
Si
es absolutamente continua, como
E (X) =
Observacin 6.6.
xfX (x)dx.
La convergencia absoluta de la integral que dene el valor espe-
rado, se realiza para evitar problemas de convergencia debido a la reordenacin de

trminos en el caso de la serie, o reordenacin en los intervalos en el caso absolutamente continuo.
Cuando
X 0 casi
+
+seguramente, resulta FX (x) = 0 para todo x < 0, por lo tanto
xdFX (x) = 0 xdFX (x) 0 lo cual motiva la siguiente denicin.
Denicin 6.7.
E(X) = +.
Si X 0 casi seguramente, y
|x|dFX (x) = +, diremos que
6.2. Ejemplos.
Ejemplo 6.8.
Si X Ber(p) entonces E (X) = p ya que E(X) = 0.P (X = 0) +

1.P (X = 1) = p.
n
Ejemplo
6.9.
Si
X
Bin
(n,
p)
entonces
E
(X)
=
np.
E(X)
=
x=0 xP (X = x) =
n
nx
n x
= np. Se deja como ejercicio, vericar la anterior igualdad.
x=0 xCx p (1 p)
+
1
(x)2
1
2 2
Ejemplo 6.10. Si X N (, 2 ) entonces E (X) =
x 2
e
dx = . Se
2
deja como ejercicio, vericar la anterior igualdad.
59
y < 1/2
0 si
Ejemplo 6.11. Como habamos observado anteriormente, FY (y) = y si 1/2 y 1 ,
1 si
y>1
0
FY tiene un nico salto en 1/2, y adems es derivable en [1/2, 1] con FY (y) = 1, por
lo tanto, obtenemos
+
1
)
1(
5
ydFY (y) =
E (Y ) =
ydy = .
FY (1/2) FY (1/2 ) +
2
8
1/2
6.3. Propiedades.
En las siguientes propiedades se considera dado un espacio de probabilidad (, A, P ) .
Teorema 6.12.
P (X 0) = 1)
X : R es variable aleatoria
existe E (X), entonces E (X) 0.
Si
tal que
X0
c.s. (es decir que
Demostracin.
Como X 0, entonces se tiene que FX (x) = 0 para todo x < 0. Entonces, se cumple
que
+
+
0 = E (X) =
xdFX (x) =
xdFX (x) 0.X
Teorema 6.13.
Si
X :R
es tal que
(X es constante), entonces existe
E (X)
X =a
y adems
c.s. (es decir que
E (X) = a.
P (X = a) = 1)
E (a) = a.
Es decir,
Demostracin.
Observando que X = a es una variable discreta donde P (X = a) = 1, entonces
E (a) = aP (X = a) = a.
Teorema 6.14.
entonces
X = 0.
Si
X:R
es variable aleatoria tal que
X0
c.s. y
E (X) = 0,
c.s.
Demostracin.
Como X 0, se deduce se tiene que FX (x) = 0 para todo x < 0. Entonces, cualesquiera sean 0 < < , se cumple que
+
+

0 = E (X) =
xdFX (x) =
xdFX (x)
xdFX (x)
(FX () FX ()) .
Entonces (FX () FX ()) = 0, por lo que se deduce que FX () = FX () para
todos , > 0. Entonces, FX (x) es constante para x > 0, lo cual sumado al hecho de
que debe tener lmite 1 cuando x tiende a +, entonces se obtuvo que FX (x) = 1
para todo x > 0, lo cual sumado al hecho de que FX (x) = 0 para todo x < 0, y
como FX es continua por derecha en 0, entonces FX (0) = 1, y entonces se obtiene
que P (X = 0) = 1. X
60
Corolario 6.15. Si X, Y
y
E(Y ),
y adems
son variables aleatorias tales que
E(X) = E(Y )
entonces
X=Y
XY
c.s., existen
E(X)
c.s.
Demostracin.
Basta observar que X Y 0 c.s. y que E(X Y ) = E(X) E(Y ) = 0, luego por
el teorema anterior se tiene que X Y = 0 c.s. X
Teorema 6.16.
boreliana
X : R es variable aleatoria, g : R R es una

(g (A) B para todo A B ) tal que existe E (g(X)), entonces
+
E (g(X)) =
g(x)dFX (x).
Si
funcin
Demostracin.
Haremos la demostracin suponiendo que g es montona y biyectiva. El caso general

se prueba a partir de teora de la medida.
Supongamos que g es creciente y biyectiva, el caso decreciente es anlogo.
(
)
Fg(X) (y) = P (g(X) y) = P X g 1 (y) = FX (g 1 (y)).
E [g (X)] =
ydFg(X) (y) =
ydFX (g 1 (y))
si ahora hacemos el cambio de variable y = g(x), entonces la ltima integral nos

queda
+
g(x)dFX (x).X
Observacin 6.17.
si
A partir de esta propiedad, se deduce que existe
E (|X|) < +.
Ejemplo 6.18.
E (Y ) =
max {x, 1/2} fX (x)dx =
Si X : R
R,
existe
1/2
max {x, 1/2} dx =

0
Corolario 6.19.
cualquiera sea
si y slo
Si Y =max{X, 1/2} donde X U (0, 1), entonces
E (X)
1/2dx+
es variable aleatoria tal que existe
E (X)
y adems
xdx = 5/8.
1/2
E (X) ,
entonces
E (X) = E (X) .
Demostracin.
La existencia
+ de E (X) se deduce
+de la linealidad de la integral de Riemann Stieltjes
ya que |x| dFX (x) = || |x| dFX (x).
Ahora consideramos g : R R tal que g(x) = x, entonces g es boreliana y por lo
tanto
+
+
E (X) =
xdFX (x) =
xdFX (x) = E (X) .X
61
Teorema 6.20.
E (|X|) < +,
Si
entonces
|E(X)| E (|X|) .
Demostracin.

|E(X)| =
Teorema 6.21.
tal que existe

xdFX (x)
|x|dFX (x) = E (|X|) X
X, Y : R son variables aleatorias y g : R2 R

E [g (X, Y )] entonces
+ +
E (g (X, Y )) =
g (x, y) dFX,Y (x, y).
Si
es boreliana
Demostracin.
Se prueba utilizando teora de la medida.
Teorema 6.22.
E (Y ),
X, Y : R son variables
E (X + Y ) y adems
Si
aleatorias tales que existen
E (X)
entonces existe
E (X + Y ) = E (X) + E (Y ) .
Demostracin.
E (|X + Y |) =
|x + y| dFX,Y (x, y)
|x| dFX,Y (x, y) +
|y| dFX,Y (x, y) =
E (|X|) + E (|Y |) < +

lo cual prueba que existe E (X + Y ) .
Deniendo ahora las funciones g, g1 , g2 : R2 R tales que g(x, y) = x + y, g1 (x, y) =
x, g2 (x, y) = y , entonces g = g1 + g2 , y por lo tanto usando la linealidad de la integral
de Riemann Stieltjes, obtenemos
+ +
E (X + Y ) =
(x + y) dFX,Y (x, y) =
xdFX,Y (x, y) +
ydFX,Y (x, y) =
E (X) + E (Y ) .X
Ejemplo 6.23.
Si X Bin(n, p) entonces E (X) = np. Esto se debe a que denimos

para cada {
i = 1, 2, 3, ..., n las variables
1 si hay xito la vez i-sima
Xi =
entonces cada Xi distribuye como una
0
si no
Ber(p) y adems se cumple que X = X1 + X2 + ... + Xn , luego, aplicando la aditividad
de la esperanza nos queda que
E (X) = E (X1 + X2 + ... + Xn ) = E (X1 ) + E (X2 ) + ... + E (Xn ) = np.

62
Teorema 6.24.
existen
E (X)
Si X, Y : R son variables
E (Y ), entonces E (X) E (Y ) .
aleatorias tales que
X Y
c.s. y
Demostracin.
Como Y X 0, entonces
0 E (Y X) = E (Y ) E (X) .X
Teorema 6.25.
existe
E (X)
X, Y : R son variables aleatorias independientes, tales

E (Y ), entonces existe E (XY ) y adems E (XY ) = E (X) E (Y ) .
Si
que
Demostracin.
Debido a la independencia de las variables, FX,Y (x, y) = FX (x)FY (y) para todos x, y.
Entonces
+ +
+ +
E (|XY |) =
|xy| dFX,Y (x, y) =
|x| |y| dFX (x)dFY (y) =
|x|dFX (x)
E (XY ) =
|y|dFY (y) = E (|X|) E (|Y |) < +.
xydFX,Y (x, y) =
Observacin 6.26.
xdFX (x)
xydFX (x)dFY (y) =
ydFY (y) = E (X) E (Y ) .X
El corolario 6.18 junto al teorema 6.21, nos indican que si de-
nimos el conjunto
V = {X : R
entonces
variable aleatoria, tal que existe
tiene estructura de espacio vectorial, ya que es un subespacio del conjunto
de variables aleatorias denidas en
T (X) = E(X),
entonces
Teorema (6.27.
Dados un
E (X)}
Adems, si denimos
tal que
es una transformacin lineal.
Desigualdad
de Jensen.
)
, A, P
T : V R
espacio de probabilidad,
:RR
(X) . Entonces
variable aleatoria y
funcin convexa tales que existen el valor esperado de
y de
una
(E (X)) E [ (X)] .
Adems, si
es estrictamente convexa y
no es constante, entonces la desigualdad
es estricta.
63

Demostracin.
Dado que es convexa, se cumple que existe una recta que pasa por el punto
(E (X) , (E (X))) tal que el grco de est por encima de la misma. Entonces, se
tiene que (X) (E (X)) + a (X E (X)) y por lo tanto, tomando esperanzas de
ambos lados de la desigualdad obtenemos que (E (X)) E [ (X)] .
Por otro lado, deniendo g(t) = (E (X)) + a (t E (X)), al ser estrictamente
convexa, se cumple que (t) g(t) para todo t, y adems, si (t) = g(t) entonces
t = E(X). Si se diera (E (X)) = E [ (X)] entonces se tendra que E ((X)) =
E (g(X)), siendo (X) g(X) por lo que se deduce que (X) = g(X) con probabilidad 1, de donde se deduce que debe ser X = E(X), o sea que X sera constante, lo
cual concluye la prueba. X
Ejemplo
6.28.
( )
x
Dado que ((x)
) = e es convexa, se tiene que si existen E (X) y
E(X)
X
E e
entonces e
E e . Ademas, si X no es constante, la desigualdad es
estricta.
X
6.4. Teoremas de convergencia.

Supongamos que tenemos una sucesin de variables aleatorias {Xn }nN y una variable
aleatoria X denidas en cierto espacio de probabilidad, tales que lim Xn (w) = X(w)
n+
para todo w . Dado que tenemos convergencia de las Xn a la X en todo punto, es

natural preguntarse si ser cierto que lim E (Xn ) = E (X) . Veremos en el siguiente
n+
ejemplo que con la sola convergencia en todo punto w de Xn (w) a X(w), no es

suciente para asegurar que lim E (Xn ) = E (X) .
n+
Ejemplo 6.29. Supongamos que X U (0, 1), denimos la sucesin Xn = n1(0,1/n) (X).
Vemos que lim Xn (w) = 0 para todo w , sin embargo, E (Xn ) = nP (0 < X < 1/n) =
n+
1 para todo n y por lo tanto, en este caso X = 0 y no se cumple que lim E (Xn ) =
n+
E (X) .
En lo que sigue veremos dos teoremas de vital importancia en teora de probabilidad y

medida, que bajo cierto conjunto de hiptesis nos permiten aseguran la convergencia
de las esperanzas de las Xn a la esperanza de X .
6.4.1.
Teorema de convergencia montona.
Teorema
( 6.30.)
Dados
, A, P
Teorema de convergencia montona.

un espacio de probabilidad, una sucesin de variables aleatorias
{Xn }nN
y una variable aleatoria
para todo
entonces existe
w ,
X tales que existe E(X), Xn (w) 0, Xn (w) X(w)

E(Xn ) para todo n y adems
lim
E (Xn ) = E (X) .
n+
64

Demostracin.
En primer lugar observamos que como 0 < Xn X , entonces existe E(Xn ) para
todo n. Adems, dado que Xn Xn+1 para todo n entonces, E (Xn ) E (Xn+1 )
por lo que la sucesin {E (Xn )}nN es creciente y por lo tanto tiene lmite. Por otro
lado, como Xn X para todo n, entonces E (Xn ) E (X) para todo n, por lo que
lim E (Xn ) E (X) .
n+
Entonces ser suciente probar que lim E (Xn ) E (X). Para lograrlo, veremos que
n+
dado > 0, se cumplir que lim E (Xn ) E (X) . Fijado > 0, aproximaremos
n+
X por una variable discreta Y tal que |X Y | .

Denimos los sucesos
{ Bn = {n < X (n + 1)} para n = 0, 1, 2, ... y denimos
n si n < X(w) (n + 1)
la variable Y (w) =
. Vemos que X Y X
0
si X(w) = 0
por lo que E (X) E (Y ) E (X) . Para obtener el resultado, probaremos que
lim E (Xn ) E (Y ) .
n+
Denimos los sucesos Ak = {Xk Y }. Si w Ak entonces Xk (w) Y (w) pero

Xk+1 (w) Xk (w) por lo que Xk+1 (w) Y (w), luego w Ak+1 por lo que los
Ak son una sucesin creciente de sucesos. Adems, para todo w , se cumple
que w Bn para algn n, y como Xk (w) X(w) entonces existe un k0 tal que
Xk0 (w) n = Y (w), entonces +
k=1 Ak = .
Por lo tanto, dejando n jo, los sucesos Ak Bn variando k , crecen a Bn . Por otro lado,
observamos que las variables Y 1Ak son discretas, tomando los valores 0, , 2, 3, ...
por lo que para cualquier m se tiene que
+
E (Y 1Ak ) =
nP (Y 1Ak = n) =
n=0
lim E (Y 1Ak ) lim
k+
n=0
tonces lim E (Y 1Ak )

k+
n=0
nP (Ak Bn )
n=0
k+
nP (Ak Bn ) =
m
n=0
nP (Ak Bn ).
n=0
nP (Bn ) para todo m, en-
nP (Bn ) = E (Y ) . Adems Y 1Ak Xk entonces
E (Y 1Ak ) E (Xk ) por lo que lim E (Xk ) E (Y ) lo cual concluye la demostracin.

k+
Observacin 6.31.
Xn+1
para todo
n,
Xn
E(X) = +,
queda
El teorema sigue siendo vlido si las hiptesis
Xn > 0
se cumplen casi seguramente.
Observacin 6.32.
El teorema sigue valiendo en el caso en que
como ejercicio realizar la vericacin de la demostracin para este caso.
6.4.2.
Teorema de convergencia dominada.
Teorema
( 6.33.) Teorema
, A, P
{Xn }nN y dos
Dados
|Xn (w)| Y (w)
de convergencia dominada.
un espacio de probabilidad, una sucesin de variables aleatorias
variables aleatorias
para todos
w.
tales que que
Adems existe
E (Y ).
lim
Xn (w) = X(w)
n+
65
Xn
Entonces existen las esperanzas de

lim
para todo
y la de
y adems
E (Xn ) = E (X) .
n+
Demostracin.
En primer lugar vemos que como |Xn | Y para todo n, entonces existe la esperanza
de las Xn , adems tomando lmites en la desigualdad, obtenemos que |X| Y, por
lo que tambin existe la esperanza de X.
Denimos la sucesin Yn = inf Xk entonces Yn X (ya que las Yn tienden a supYn =
kn
sup inf Xk que es el lmite inferior de la sucesin Xn ). Adems observamos que 0

n kn
Yn +Y X+Y , por lo que aplicando el teorema de convergencia montona, obtenemos

que
lim E (Yn + Y ) = E (X + Y ) = E (X) + E (Y ) .
n+
Luego, lim E (Yn ) = E (X) . Anlogamente, deniendo Zn = supXk , vemos que

n+
kn
Zn X y como adems 0 Y Zn Y X , aplicando nuevamente el teorema de

convergencia montona y utilizando la linealidad del valor esperado, obtenemos que
lim E (Zn ) = E (X) .
n+
Para concluir la demostracin, basta observar ahora que para todo n y todo w, se
cumple que Yn (w) Xn (w) Zn (w) por lo que E (Yn ) E (Xn ) E (Zn ) y como
lim E (Yn ) = E (X) y lim E (Zn ) = E (X) se obtiene que lim E (Xn ) = E (X) . X
n+
n+
Observacin 6.34.
n+
Como en el teorema de convergencia montona, se tiene que
basta tomar como hiptesis que
lim
Xn = X
n+
|Xn | Y
se cumplan casi segura-
mente.
Corolario 6.35.
Si
lim
Xn (w) = X(w)
n+
entonces vale el teorema ya que
6.4.3.
|Xn (w)| k (cte)
para todos
w,
tiene esperanza nita.
Aplicaciones.
Teorema 6.36.
todo
fn : [a, b] R son funciones integrables Riemann en [a, b] para

n N, g : [a, b] R es integrable Riemann y f : [a, b] R lim fn (x) = f (x) y
|fn (x)| g(x)
Si
para todo
x [a, b] . Entonces
b
b
fn (x)dx =
f (x)dx.
lim
n+
n+
Demostracin.
Consideramos X U (0, 1). Denimos entonces las variables Yn = fn (X) e Y =

b
c.s.
1
f (X). Entonces Yn Y, |Yn | g (X), existe E (g (X)) = ba
g(x)dx < +, luego
a
por el teorema de convergencia dominada, se tiene que lim E (Yn ) = E (Y ) , ahora
n+
b
b
1
1
f (x)dx
vemos que E (Yn ) = E (fn (X)) = ba a fn (x)dx y E (Y ) = E (f (X)) = ba
a
b
b
1
1
entonces lim ba a fn (x)dx = ba a f (x)dx, de donde se deduce el resultado.X
n+
66
Teorema 6.37. Dada la sucesin doblemente indizada (sucesin de sucesiones)

R.
+
Supongamos que existe una sucesin

(k)
(k)
b
=
L
<
+
an b(k)
k=1
para todos
lim
n+
a(k)
n
b(k)
kN
tal que
Si
lim
n, k.
k=1
b(k) > 0,
(k)
an = a(k) ,
n+
{ }
(k)
an
n,kN
para todo
k,
entonces
a(k) .
k=1
Demostracin.
(
)
Denimos el espacio de probabilidad N, 2N , P donde P ({k}) =
b(k)
.
L
(k)
n
Denimos la sucesin de variables aleatorias Xn : N R tales que Xn (k) = ab(k)
y
(k)
c.s.
a
X : N R tal que X(k) = b(k) . Entonces Xn X (ya que Xn (k) X(k) para
todo k N). Adems
(
)
(k)
an
b(k)
P Xn = (k) = P ({k}) =
.
b
L
Anlogamente,
(
P
a(k)
X = (k)
b
b(k)
.
L
= P ({k}) =
Adems |Xn (k)| 1 para todo k. Entonces, aplicando el teorema de convergencia

dominada, se deduce que lim E (Xn ) = E (X) .
n+
(
) +
+
+
(k)
(k)
a(k)
a(k)
an
1 (k)
n
n b
an
E (Xn ) =
P Xn = (k) =
=
b(k)
b
b(k) L
L
k=1
k=1
k=1
y anlogamente,
E (X) =
+ (k)
a
k=1
b(k)
(
P
Entonces obtuvimos que lim

sultado. X
1
n+ L
a(k)
X = (k)
b
+
k=1
(k)
an =
+ (k) (k)
a b
k=1
1
L
b(k)
+
k=1
1 (k)
=
a .
L
L k=1
+
a(k) de donde se deduce el re-
+
)n
n(
1
Como aplicacin, se deja como ejercicio hallar lim
1 + nx e2x dx
2 k 2 ; lim
n
0
n+ k=1
n+
)
n(
x n x/2
y lim 0 1 n e dx.
n+
67
Captulo 7
Espacios Lp.
7.1. Denicin y propiedades.
Denicin 7.1. Espacios
Lp .
Dado un espacio de probabilidad (, A, P ), y p > 0, se dene el conjunto
Lp = {X : R variable aleatoria tal que E (|X|p ) < +)} .
Teorema 7.2.
Si
0<p<q
entonces
Lq Lp .
Demostracin.
Si X Lq , entonces
(
)
(
)
(
)
E (|X|p ) = E |X|p 1{|X|<1} + E |X|p 1{|X|1} 1 + E |X|q 1{|X|1}
1 + E (|X|q ) < +.X

Diremos que X admite momentos de orden p si y slo si E (|X|p ) < + o sea, si y
slo si X Lp .
Del teorema anterior deducimos que si X admite momentos de orden p, entonces
admite momentos de cualquier orden menor que p. Por ejemplo, decir que X admite
momentos de orden 3, implica que admite momentos de cualquier orden menor que
3.
Teorema 7.3.
que
Si
X, Y Lp
entonces
X + Y Lp
para todos
, R.
Es decir
es un espacio vectorial (ya que es subespacio del conjunto de todas las variables
aleatorias, que forman un espacio vectorial).
Demostracin.
Si X Lp entonces cualquiera sea R, se tiene que E (|X|p ) = ||p E (|X|p ) < +

por lo que X Lp .
Ahora, si X, Y Lp observamos que |X + Y | |X|+|Y | 2max{|X| , |Y |} entonces
|X + Y |p 2p max{|X|p , |Y |p }, por lo tanto se tiene que
E (|X + Y |p ) 2p max{E |X|p , E (|Y |p ) < +} .X
68
Captulo 7. Espacios Lp .
Observacin
7.4.
[
XY =
1
2
2
1
X, Y L
] , entonces XY L , ya que
2
2
(X + Y ) X Y , es combinacin lineal de variables
Teorema 7.5.
Si
Si
que
L2 .
Desigualdad de Cauchy-Schwartz.
X, Y L2 ,
( ) ( )
[E (XY )]2 E X 2 E Y 2 .
Adems se da el igual si y slo si existe
0 R
tal que
P (X = 0 Y ) = 1 (o P (Y = 0 X) = 1) .
Demostracin.
( )
( )
0 E (X Y )2 = 2 E Y 2 2E (XY ) + E X 2 para todo R.
Entonces, si Y no es la funcin nula casi seguramente, podemos asegurar que nos
qued un polinomio de segundo grado. Como dicho polinomio es 0 para todo valor
de , no puede tener dos races reales y distintas, por lo que su discriminante debe ser
0. Entonces 4 [E (XY )]2 4E (X 2 ) E (Y 2 ) 0, de donde se deduce la desigualdad.
Adems, si fuera [E (XY )]2 = E (X 2 ) E (Y 2 ), entonces existe un valor de donde se
)
anula el polinomio, dicho valor es 0 = E(XY
, y por lo tanto para dicho valor 0 , se
E(Y 2 )
tiene que 0 = E (X 0 Y )2 , por lo que se tiene que X = 0 Y casi seguramente.

Si fuera Y = 0 casi seguramente, entonces tambin se cumple la igualdad, y adems
Y = 0X , lo cual concluye la prueba. X
La desigualdad de Cauchy Schwartz recin probada, responde a la conocida desigualdad respecto a espacios vectoriales con producto interno. Para ello denimos la funcin h , i : L2 L2 R tal que hX, Y i = E (XY ) , entonces, h , i es un seudo producto
interno, es decir que es una funcin bilineal simtrica, tal que hX, Xi = E (X 2 ) 0
pero no cumple la condicin hX, Xi = 0 si y slo si X = 0, ya que en este caso si hX, Xi = E (X 2 ) = 0, entonces X = 0 c.s. por lo que puede haber innitas
(dependiendo del espacio de probabilidad) funciones que cumplan hX, Xi = 0. Este
problema se puede solucionar si identicamos todas las variables aleatorias que son 0
casi seguramente. Para ello se dene la relacin tal que X Y si y slo si X = Y
c.s.
Se deja como ejercicio chequear que es una relacin de equivalencia, y que si denimos h , i : L2 / L2 / R tal que h[X] , [Y ]i = E (XY ) donde X e Y
son representantes de [X] y [Y ] respectivamente, entonces la funcin h , i est bien
denida y dene un producto interno en L2 / .
7.2. Varianza de una variable aleatoria.

Junto con el valor esperado de una variable aleatoria, en la mayora de las aplicaciones
es necesario tener algn tipo de medida sobre la dispersin que hay entre los valores
que puede tomar la variable, y su valor esperado. La denicin de varianza apunta
en esa direccin.
69
Denicin 7.6. Varianza de una variable aleatoria.
Si X L2 , entonces se dene la varianza de X , como el valor

[
]
V (X) = E (X E (X))2 .
Observacin 7.7.
Como se ve, si le llamamos = E(X), entonces la varianza es

(X )2 que mide la diferencia entre los valores que
el valor esperado de la variable

puede tomar
y su valor esperado, elevado al cuadrado.
X y su valor esperado sean

(X E (X)) es 0. Por ejemplo, si
X es una variable aleatoria discreta tal que Rec(X) = {x1 , x2 , ..., xn }con probabilidades pX (xi ) = 1/n para todo i = 1, 2, 3, ..., n, entonces E (X) =
xpX (x) =
xRec(X)
[
]
x1 +x2 +...+xn
= . Luego, V (X) = E (X )2 =
n
La presencia del cuadrado es para que las diferencias entre

positivas, ya que sin el cuadrado, la esperanza de
xRec(X)
(x )2 pX (x) =
(x1 )2 + (x2 )2 + ... + (xn )2

n
que representa el promedio de las diferencias al cuadrado que existen entre los valores
que toma la variable
y su valor esperado.
En las aplicaciones, al calcular la esperanza de (X E (X))2 , se pierde la unidad

de medida de la variable X , la cual queda expresada en unidades al cuadrado. Para
salvar este problema se suele considerar la raz cuadrada de la varianza a la que se le
llama desviacin tpica o estandar de la variable.
Denicin 7.8. Desviacin tpica. Si X

se dene como
X =
L2 entonces la desviacin tpica de X
V(X).
Propiedades.
Teorema 7.9. Si X L2 , entonces V (X) = E (X 2 ) E2 (X) . Aqu se sobreentiende
que
E2 (X) = [E (X)]2 .
Demostracin.
Llammosle = E (X) . Entonces

[
]
(
)
V (X) = E (X )2 = E X 2 2X + 2 =
( )
( )
( )
E X 2 2E (X) + 2 = E X 2 22 + 2 = E X 2 2 .X
Teorema 7.10.
Demostracin.
Si
X L2 ,
entonces
V (aX + b) = a2 V (X) .
[
]
V (aX + b) = E (aX + b)2 [E (aX + b)]2
desarrollando ambos cuadrados y simplicando nos queda igual a

( ( )
)
a2 E X 2 E2 (X) = a2 V (X) .X
70
Teorema 7.11.
Si
X L2 ,
entonces
V (X) = 0
si y slo si
X = E (X)
casi segura-
mente.
Demostracin.
2
) Si X = E (X) = , entonces[V (X) = E (
) E2 () = 2 2 = 0.
2]
) Si V (X) = 0, entonces E X E (X) = 0 y como (X E (X))2 0 casi
seguramente y tiene esperanza 0, entonces debe ser (X E (X))2 0 c.s., por lo que
debe ser X = E (X) casi seguramente. X
Ejemplo 7.12. Si X Ber(p), entonces ya vimos que E(X) = p. Adems E(X 2 ) = p

con lo cual obtenemos V(X) = p p2 = p(1 p).
Ejemplo 7.13.
Si X N(, 2 ) , entonces ya vimos que E(X) = . Ahora, si

integramos por partes
+
+
1
2
1
2
2
E(X ) =
x fX (x)dx =
x2 e 22 (x) dx
2
2
nos da 2 + 2 , por lo tanto V(X) = 2 .

Veremos en lo que sigue, algunas desigualdades que son muy tiles en la teora y en
la prctica, conocidas como desigualdades de Markov y de Chebyshev.
Teorema 7.14.
X
aR
Dadas
g (X) L , g 0
1
variable aleatoria,
tal que
g(a) > 0,
P (X > a)
g:RR
montona creciente, tal que
entonces
1
E (g (X)) .
g(a)
Demostracin.
Consideramos el conjunto A = {X > a} , entonces, dado que g 0, obtenemos que
E (g (X)) = E (g (X) 1A ) + E (g (X) 1Ac ) E (g (X) 1A ) .

Puesto que g (X) 1A g (a) 1A , ya que g es montona creciente y por denicin del
conjunto A, vemos que
E (g (X) 1A ) E (g (a) 1A ) = g(a)E (1A ) = g(a)P (A) = g(a)P (X > a) .X
Observacin 7.15.
Surge de la demostracin, que vale la misma acotacin si la
probabilidad que se considera es
Corolario 7.16.
P (X a).
Desigualdad de Markov.
P (|X| > a)
Si
X Lp (p > 0)
a > 0,
entonces
1
E (|X|p ) .
p
a
Demostracin.
Basta tomar g(x) = xp para x > 0 y g(x) = 0 para x 0 y aplicar la desigualdad

anterior a la variable Y = |X| .
71
Corolario 7.17.
Desigualdad de Chebyshev.
P (|X E (X)| > a)
Si
X L2
a > 0,
entonces
1
V (X) .
a2
Demostracin.
Basta usar la desigualdad del corolario anterior, para el caso en que p = 2 y para la
variable Y = X E (X) .X
Observacin 7.18.
Como se ve, la desigualdad de Markov nos proporciona una cota
para la funcin de distribucin de una variable aleatoria, si se conoce nicamente el

momento de algn orden de la variable, por ejemplo, el momento de orden uno.
Observacin 7.19.
La desigualdad de Chebyshev es equivalente a
P (|X E (X)| a) 1
1
V (X) .
a2
y por lo tanto, nos proporciona una cota inferior para la probabilidad de que la variable
tome valores en un entorno de su valor esperado, conociendo nicamente el valor
esperado y la varianza de la variable.
Observacin 7.20.
Las desigualdades de Markov y de Chebyshev, son cotas uni-
versales, es decir se cumplen para cualquier tipo de variable aleatoria (con la sla
hiptesis de que admitan momentos de algn orden), por lo que suelen dar cotas groseras de las probabilidades. En cada situacin particular, conociendo ms informacin
sobre la variable aleatoria
X,
se suelen conseguir cotas ms nas.
7.3. Covarianza y coeciente de correlacin.

La covarianza y el coeciente de correlacin que deniremos en lo que sigue, sirven
como medidas del grado de asociacin que hay entre dos variables aleatorias X e
Y , ambos conceptos estn relacionados como veremos con la independencia entre las
variables.
Denicin 7.21. Covarianza entre dos variables aleatorias.
Si X, Y L2 , entonces denimos COV (X, Y ) = E [(X E (X)) (Y E (Y ))] .
Propiedades.
1. Si X, Y L2 , entonces COV (X, Y ) = E (XY ) E (X) E (Y ) .
2. Si X, Y L2 , entonces COV (X, Y ) = COV (Y, X) .
3. Si X L2 , entonces COV (X, X) = V (X) .
4. Si X, Y L2 , entonces COV (aX + b, Y ) = aCOV (X, Y ) para todos a, b R.
72
5. Si X, Y, Z L2 , entonces COV (X + Y, Z) = COV (X, Y ) + COV (Y, Z) .
6. Si X, Y L2 y son independientes, entonces COV (X, Y ) = 0.
7. Si X1 , X2 , ..., Xn L2 , entonces
( n
)
n
COV (Xi , Xj ) .
V
Xi =
V (Xi ) + 2
i=1
Observacin 7.22.
i<j
i=1
COV(X, Y ) = 0
no implica necesariamente que
sean
independientes. Se deja como ejercicio construir un contraejemplo.
Observacin 7.23.
Si
X1 , X2 , ..., Xn L2 son independientes,

( n
)
n
V
Xi =
V (Xi ) .
i=1
Observacin 7.24.
Si
X, Y L2 ,
entonces
i=1
entonces
V (X + Y ) = V (X) + V (Y ) + 2COV (X, Y ) .

Las demostraciones son simplemente operativas y se dejan como ejercicio. Haremos
igualmente la demostracin de la propiedad 7.
( n
)
( n
)
n
n
n
V
Xi = COV
Xi ,
Xj =
COV (Xi , Xj )
i=1
i=1
j=1
i=1 j=1
y usando que COV (Xi , Xj ) = COV (Xj , Xi ) y que COV (Xi , Xi ) = V (Xi ) , obtenemos
n
COV (Xi , Xi ) +
i=1
i=1 j6=i
COV (Xi , Xj ) =
i=1
V (Xi ) + 2
COV (Xi , Xj ) .X
j<i
Ejemplo 7.25.
Si X Bin(n, p) entonces vimos que X = X1 + X2 + ... + Xn donde

las Xi son Ber(p) e independientes, por lo tanto
V(X) = V(X1 + X2 + ... + Xn ) = V(X1 ) + V(X2 ) + ... + V(Xn ) = np(1 p).
Denicin 7.26. Coeciente de correlacin entre dos variables aleatorias.

Si X, Y L2 son no constantes, entonces denimos (X, Y ) = COV(X,Y ) .
V(X)V(Y )
Propiedades.
En las propiedades que siguen se consideran X, Y L2 no constantes.

1. 1 (X, Y ) 1.
2. (X, Y ) = 1 si y slo si existen a, b R, a > 0, tales que Y = aX + b.
73
3. (X, Y ) = 1 si y slo si existen a, b R, a < 0, tales que Y = aX + b.
4. Si X, Y son independientes, entonces (X, Y ) = 0.
Demostracin.
Aplicando la desigualdad de Cauchy Schwartz, tenemos que
|COV (X, Y )| = |E [(X E (X)) (Y E (Y ))]|
E (X E (X))2 E (Y E (Y ))2 = V (X) V (Y ).

lo cual es equivalente a decir que | (X, Y )| 1. Adems sabemos que | (X, Y )| = 1
si y slo si existe R tal que X E (X) = (Y E (Y )) donde 6= 0 ya que X
no es constante. Por lo tanto | (X, Y )| = 1 si y slo si existen a 6= 0 y b tales que
Y = aX + b. Ahora, aplicando las propiedades de varianza y covarianza, obtenemos
a
que (X, Y ) = (X, aX + b) = |a|
de donde se deduce que (X, Y ) es 1 si y slo si
a > 0, y 1 si y slo si a < 0. Quedan probadas as las primeras 3 propiedades. La
ltima propiedad es evidente ya que (X, Y ) = 0 si y slo si COV (X, Y ) = 0. X
7.4. Variables i.i.d.

Denicin 7.27.
Se dice que la sucesin de variables aleatorias X1 , X2 , ..., Xn , ....

son v.a.i.i.d, cuando dichas variables son independientes y todas tienen igual funcin
de distribucin, es decir cuando son independientes y adems FX1 = FX2 = ... = FXn
para todo n.
Cuando n es jo, se dice tambin que X1 , X2 , ..., Xn son una M.A.S.c/rep de X
de tamao n (muestra aleatoria simple con reposicin). Lo cual signica que las
variables son i.i.d con distribucin como la de cierta variable X que se toma como
representativa.
Supongamos que tenemos X1 , X2 , ..., Xn v.a.i.i.d cuya distribucin es como la de
cierta X L2 . Llammosle en este caso y 2 a la esperanza y la varianza de X
respectivamente. Es decir que E (X) = y V (X) = 2 .
Se dene la media muestral como la siguiente variable aleatoria: X n := X1 +X2n+...+Xn .
La misma es fundamental desde el punto de vista estadstico, ya que si X1 , X2 , ..., Xn
representan n observaciones obtenidas de forma independiente de una cierta variable
aleatoria, lo que se llama tambin una muestra aleatoria simple de tamao n, entonces
X n nos da el promedio de las observaciones
de(la muestra.
)
)
( obtenidas
2
Veremos ahora que si X L , entonces E X n = y V X n = 2 /n.
Efectivamente, usando la linealidad de la esperanza obtenemos que
(
)
( )
n
X1 + X2 + ... + Xn
E (X1 ) + E (X2 ) + ... + E (Xn )
=
= .
E Xn = E
=
n
n
n
Ahora, aplicando propiedades de varianza, obtenemos que
(
)
( )
X1 + X2 + ... + Xn
1
V Xn = V
= 2 V (X1 + X2 + ... + Xn ) =
n
n
74
V (X1 ) + V (X2 ) + ... + V (Xn )

n 2
2
=
=
.
n2
n2
n
Una aplicacin estadstica.
Supongamos que deseamos estimar el porcentaje de fumadores en una poblacin.

Para obtener el resultado, se encuestarn de manera independiente, n individuos
de la poblacin y se calcular el porcentaje de fumadores en la muestra. Podemos
pensar{entonces que tenemos n variables aleatorias X1 , X2 , ..., Xn , denidas como
1 si la i-sima persona encuestada fuma
. Entonces las variables son inXi =
0
si no
dependientes con distribucin Ber(p), donde p es el porcentaje de fumadores en la
poblacin. p es desconocido, que estimaremos mediante el porcentaje de fumadores
en la muestra, el cual es X n = X1 +,X2n+...+Xn ya que el numerador cuenta el total de
fumadores (xitos).
Supongamos que queremos respondernos a la siguiente pregunta: a cuntos individuos hay que encuestar si deseamos que el porcentaje de la muestra no diera del
real en ms de un 1 % con una probabilidad
( mayor al 95 %?)
Por lo tanto queremos hallar n tal que P X n p 0, 01 0, 95.
Observamos que las variables, al ser Bernoulli estn en L2 y ya vimos que tienen valor
esperado p y varianza p(1 p).
Por otro lado, ya vimos que el valor esperado de X n coincide con el de cada Xi , y la
varianza de X n(es )2 /n = p(1( p)/n.
) O sea que en el caso de las variables Bernoulli,
tenemos que E X n = p y V X n = p(1 p)/n.
Aplicando el corolario 7.16 (desigualdad de Chebyshev) a la variable X n , llegamos a
que

(
)
( )
1
p(1 p)
P X n p 0, 01 1
V Xn = 1
.
2
0, 01
n0, 012
Puesto que p(1 p) 1/4 para todo valor de p, obtenemos que

(
)
p(1 p)
1
P X n p 0, 01 1
1
.
2
n0, 01
4n0, 012
1
Entonces eligiendo n tal que 1 4n0,01
2 0, 95, el mismo nos asegurar que

(
)
P X n p 0, 01 0, 95. En este caso el menor valor de n que nos asegura esta
desigualdad es 50.000.
75
Captulo 8
Convergencia en probabilidad, casi
segura y en distribucin.
Consideremos una sucesin de variables aleatorias {Xn }nN y una variable aleatoria
X denidas sobre un mismo espacio de probabilidad. Dado que las Xn y la X son
funciones de en R, hay varias nociones de convergencia de una sucesin de funciones
a una funcin, como la convergencia puntual, la uniforme, la convergencia cuadrtica
o en el espacio Lp por ejemplo. En teora de probabilidad, dado que las funciones
son aleatorias, es decir que toman valores reales de manera aleatoria, es necesario
denir nuevos conceptos de convergencia que involucren el clculo de la probabilidad
de que las Xn esten prximas a X en algn sentido. Deniremos tres conceptos de
convergencia que son vitales en teora de la probabilidad y en estadstica matemtica,
que son la convergencia en probabilidad, la convergencia casi segura y la convergencia
en distribucin.
8.1. Convergencia en probabilidad y casi segura.

Denicin 8.1. Convergencia en probabilidad.
Dadas una sucesin

aleatorias {Xn }nN y una variable aleatoria X de( de variables
)
nidas sobre cierto , A, P espacio de probabilidad, se dice que la sucesin {Xn }nN
converge en probabilidad a X si y slo si, para todo > 0 se cumple que
lim P (|Xn X| < ) = 1.
n+
P
Notacin: Xn X.
Observacin 8.2.
>0
Equivalentemente, tenemos que
Xn X
si y slo si para todo
se cumple que
lim
P (|Xn X| ) = 0.
n+
Informalmente, la convergencia en probabilidad nos dice que una vez que jamos el
valor de > 0 arbitrariamente pequeo, pero jo, la probabilidad de que Xn tome
76
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.

un valor perteneciente al intervalo (X , X + ) se acerca a uno en la medida de
que n se tome sucientemente grande.
Denicin 8.3. Convergencia casi segura.
Dadas una sucesin

aleatorias {Xn }nN y una variable aleatoria X de( de variables
)
nidas sobre cierto , A, P espacio de probabilidad se dice que la sucesin {Xn }nN
converge casi seguramente a X (o en casi todo punto) si y slo si se cumple que
(
)
P
lim Xn = X = 1.
n+
c.s.
Notacin: Xn X.
Observacin 8.4.
verica que
Dado que el lmite de variables aleatorias es variable aleatoria, se
{limXn = X}
Teorema 8.5.
c.s.
Xn X
es un suceso.
si y slo si
lim P
k+
(+
n=k
)
{|Xn X| < } = 1
para todo
> 0.
Demostracin.
Si w es tal que lim Xn (w) = X(w) entonces, para todo > 0, existe un k tal que
n+
para todo n k se cumple que |Xk (w) X(w)| < . Observando(que es suciente
) en
la denicin de lmite considerar Q+ entonces tenemos que P
1 si y solo si
lim Xn = X
n+
+
+
{|Xn X| < } = 1.
Q+ k=1 n=k
Como la interseccin en el conjunto de Q+ es numerable, y tiene probabilidad 1,

entonces la ltima condicin es equivalente a
(+ +
)
{|Xn X| < } = 1 para todo Q+ .

P
k=1 n=k
Por otro lado, los conjuntos Bk = +

n=k {|Xn X| < } forman una sucesin creciente
de(sucesos,
+ )entonces, la propiedad de continuidad de las probabilidades nos dice que
P
k=1 Bk = lim P (Bk ) , por lo que
k+
(+ +
)
{|Xn X| < }
k=1 n=k
Llegamos as a que
c.s.
Xn X si y slo si lim P
k+
( +
= lim P
k+
( +
)
{|Xn X| < } .
n=k
)
{|Xn X| < }
= 1 para todo Q+ .
n=k
77

Finalmente, dado que en la dencin de lmite es equivalente a trabajar con > 0 y
c.s.
observando
la demostracin, se) deduce que Xn X si y slo si
(+
lim P
n=k {|Xn X| < } = 1 para todo > 0. X
k+
Observacin 8.6.
La interseccin sobre los
Q+
se realiza para que podamos
asegurar que los conjuntos con los que trabajamos pertenezcan a la

modo si trabajamos con los
> 0,
Teorema 8.7. Dados un

aleatorias
{Xn }nN
, A, P
-lgebra.
espacio de probabilidad, una sucesin de variables
y una variable aleatoria

Si
de otro
la interseccin es no numerable y no podemos
asegurar que la misma pertenezca a la
-lgebra,
X.
c.s.
Xn X entonces Xn X.
Demostracin.
c.s.
Como Xn X, entonces jado > 0, entonces para todo k N se cumple que

+
{|Xn X| < } {|Xk X| < }
n=k
entonces
( +
)
{|Xn X| < }
P (|Xk X| < )
n=k
por lo que tomando lmite cuando k tiende a + se deduce el resultado. X

Veremos en el siguiente ejemplo que la nocin de convergencia casi segura es estrictamente ms fuerte que la de convergencia en probabilidad.
Ejemplo 8.8.
Tomemos un espacio de probabilidad en el cual denimos

una
(
) variable Y U (0, 1) . Consideramos la sucesin de intervalos Im,k = 2km , k+1
para
2m
m
m = 1, 2, 3, ... y k = 0, 1, 2, 3, ..., 2 1. Denimos In ordenando los Im,k dando
primero el valor de m y luego, para dicho m, variamos en los distintos valores de
k = 0, 1, 2, 3,( ..., 2)m 1. Es decir,
( 1 para
) m = 1, tenemos k = 0, 1 por lo que denimos
1
I1 = I1,0 = 0, 2 ; I2 = I1,1 = 2 , 1 . Luego, para m = 2,( tenemos
k = 0, 1, 2,( 3 con
)
)
1
1 1
lo que denimos
I
,
I
,
I
e
I
como
sigue:
I
=
I
=
0,
;
I
=
I
=
,
;
3
4
5
6
3
2,0
4
2,1
4
4 2
(
)
( )
I5 = I2,2 = 12 , 34 e I6 = I2,3 = 34 , 1 . As continuamos sucesivamente.
Denimos ahora la sucesin Xn = 1In (Y ). Las longitudes de los intervalos In
tienden a cero por lo que se podra esperar que exista algn
{ tipo de convergencia de
P (Y In ) si < 1
las Xn a cero. Dado > 0, se tiene que P (|Xn | ) =
y
0
si 1
P
como P (Y In ) =longitud de In 0, entonces tenemos que Xn 0.

Por otro lado, vemos que cualquier nmero (0, 1) pertenece a innitos de los intervalos In y tambin no pertenece a innitos de los intervalos In . Entonces dado
cualquier w , se tendr que Y (w) (0, 1) y por lo tanto no existe lim Xn (w).
n+
{
}
Entonces
lim Xn = 0 = lo cual prueba que Xn no converge casi seguramente
n+
a cero.
78
Algebra de lmites en las convergencias en probabilidad y casi segura.
En las siguientes propiedades se consideran dadas las sucesiones de variables aleatorias

(
)
{Xn }nN , {Yn }nN y las variables aleatorias X e Y denidas sobre cierto , A, P
espacio de probabilidad. Se deja como ejercicio su demostracin.
P
c.s.
c.s.
1. Unicidad. Si Xn X , Xn Y entonces X = Y c.s.

2. Unicidad. Si Xn X , Xn Y entonces X = Y c.s.
P
c.s.
c.s.
c.s.
3. Si Xn X , Yn Y entonces Xn + Yn X + Y para todos , R.

4. Si Xn X , Yn Y entonces Xn + Yn X + Y para todos , R.
P
c.s.
c.s.
5. Si Xn X y g : R R es continua, entonces g (Xn ) g (X) .

6. Si Xn X y g : R R es continua, entonces g (Xn ) g (X) .
P
c.s.
c.s.
c.s.
c.s.
c.s.
7. Si Xn X , Yn Y entonces Xn Yn XY.
8. Si Xn X , Yn Y y P (Y 6= 0) = 1, entonces Xn Yn XY.
9. Si Xn X , Yn Y y P (Y 6= 0) = 1, entonces Xn Yn XY.
c.s.
10. Si Xn X , Yn Y entonces Xn Yn XY.

P
11. Si Xn 0, existe k R tal que P (|Yn | > k) = 0 para todo n, entonces

P
Xn Yn 0.
c.s.
12. Si Xn 0, existe k R tal que P (|Yn | > k) = 0 para todo n, entonces

c.s.
Xn Yn 0.
8.2. Leyes de los grandes nmeros.

Teorema(8.9.
Dado un
Ley
) dbil de los grandes nmeros.
, A, P
espacio de probabilidad. Si las variables aleatorias {Xn }nN son

X L2 y le llamamos = E (X) y 2 =
i.i.d con distribucin como la de cierta
V (X) .
Entonces
X n .
Demostracin.
Ya( vimos
sobre el
)
( nal
) del captulo anterior cuando las varaibles son i.i.d. que
E X n = y V X n = 2 /n para todo n. Entonces aplicando la desigualdad de
Chebyshev, obtenemos que, para todo > 0,
( )

(
) V Xn
2
P X n
=
0
2
n2 n+
P
por lo que X n .X
79
Observacin 8.10.
Como se ve repasando la denicin, la misma demostracin
funciona cambiando las hiptesis de i.i.d por las de que todas las variables, tengan
iguales esperanza y varianza, y adems sean no correlacionadas.
Teorema(8.11.
Dado un
Ley
) fuerte de los grandes nmeros.
, A, P
espacio de probabilidad. Si las variables aleatorias {Xn }nN son

X L4 y le llamamos = E (X) .
i.i.d con distribucin como la de cierta

Entonces
c.s.
X n .
Demostracin.
Basta probar el teorema para el caso en que = 0, ya que una vez que lo tenemos
probado en este caso, para deducir el caso general, denimos para cada n, Yn = Xn ,
entonces la sucesin {Yn }nN es i.i.d con distribucin como la de Y = X , entonces,
c.s.
c.s.
Y n E(Y ) = 0, pero Y n = X n , por lo tanto X n .
Suponemos entonces que = 0.
c.s.
, segn
8.4 debemos probar que, dado > 0,
Para probar que X n
(0+
{ el teorema
})
X n < = 1, lo cual es equivalente a probar que
se cumple que lim P
n=k
k+

(+ {
})
X n > = 0.
lim P
n=k
k+
})
(
)
(+ {
X n > + P X n > se deduce que para obtener el
Dado que P
n=k
n=k
)
+ (
X n > < +.
P
resultado es suciente con probar que
)n=1
(
La idea ser entonces acotar P X n > superiormente por una sucesin cuya serie
sea convergente.
Como X L4 , usaremos la desigualdad de Markov con p = 4, por lo que
(
)
1 ( 4)

P Xn > 4 E Xn .
( 4)
E
Por lo tanto ser suciente probar que +
X n < +.
n=1
( 4)
E Xn =
1
E [(X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn )] .
n4
Desarrolando esta suma, y aplicando linealidad del valor esperado, obtenemos que
E [(X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn )] =

n
)
)
(
( )
(
E Xi2 Xj2
E Xi4 +
E Xi3 Xj +
i=1
+
i,j,k
i6=j6=k, i6=k
i,j
i,j
i6=j
i6=j
)
(
E Xi2 Xj Xk +
i,j,k,l
E (Xi Xj Xk Xl ) .
i6=j6=k6=l, j6=l, i6=k, i6=l
80

Como las variables son i.i.d, tenemos que dentro de cada una de las sumatorias
anteriores, los sumandos son todos iguales entre s, entonces nos queda igual a
( )
(
)
(
)
(
)
nE X14 +8C2n E X13 X2 +C24 C2n E X12 X22 +6C24 C3n E X12 X2 X3 +4!C4n E (X1 X2 X3 X4 ) .
Ahora usando que las variables son i.i.d y recordando que en estos casos, la esperanza de un producto se factoriza como el producto de esperanzas, observamos
que E (X13 X2 ) = E (X13 ) E (X2 ) = 0, E (X12 X2 X3 ) = E (X12 ) E (X2 ) E (X3 ) = 0 y
E (X1 X2 X3 X4 ) = E (X1 ) E (X2 ) E (X3 ) E (X4 ) = 0.
Entonces
( 4)
( ) ( ))
1 ( ( )
E X n = 4 nE X14 + 3n(n 1)E X12 E X22
n
por lo que
+
( 4)
1
E Xn
< +.X
2
n
n=1
n=1
Trabajando con desigualdades ms nas, lo cual lleva ms trabajo, es posible demostrar que vale el mismo teorema slo pidiendo que X L1 . Por lo tanto cuando sea
necesaria aplicar la ley, lo haremos simplemente vericando que X L1 .
Si las variables {Xn }nN son i.i.d con distribucin como la de cierta X
/ L1 , entonces,
tambin tenemos una versin de la ley fuerte.
(
)
Teorema 8.12. Dado un , A, P espacio de probabilidad. Si las variables aleatorias {Xn }nN son i.i.d con distribucin como la de cierta X tal que E (|X|) = +,
entonces
limsup

X n = +
c.s.
Demostracin.
( )
Como E (|X|) = +, entonces E |X|
= + para todo k = 1, 2, 3, ... Entonces
k
)
+ ( |X|
n = +, para todo k = 1, 2, 3, ...
n=1 P
k
Como las variables son idnticamente distribuidas, tenemos que
+
n=1
(
P
)
(
)
(
)
+
+
|Xn |
|Xn |
|X|
n =
P
n =
P
k = + para todo k = 1, 2, 3, ...
k
k
n
n=1
n=1
{
}
(k)
Fijado k , se tiene que los sucesos An = |Xnn | k son independientes, luego, por
el lema de Borel-Cantelli se tiene que
(
)
P ocurren innitos A(k)
= 1 para todo k = 1, 2, 3, ...
n
(k)
Entonces, si denimos Bk = ocurren innitos An , tenemos que P (Bk ) = 1 para

todo k = 1, 2, 3, ... y como interseccin
de sucesos de probabilidad 1, tiene
)
(+numerable
B
=
1.
probabilidad 1, obtenemos que P
k=1 k
81
+
(k)
Observamos
adems
que
B
=
para innitos
valores de n,
k = ocurre An ({
k=1 B}
{{
}
}
) para
|Xn |
|Xn |
todo k "=
es no acotada . Entonces P
es no acotada = 1.
n
n
nN
} nN
{
Ya que existe probabilidad 1 de que la sucesin |Xnn |
sea no acotada, para
nN
terminar
+ X + ... + Xn , y bastar con probar que si
{
} la prueba, denimos Sn ={X
1 2 |Sn | }
|Xn |

es no acotada, entonces X n = n
es no acotada.
n
nN
nN
{
{ }
}
|Sn1 |
|Sn |
acotada, entonces tambin lo sera
ya
Efectivamente, si fuera
n
n
|
que |Sn1
=
n
tanto
{
}
|Xn |
n
8.2.1.
|Sn1 | n1
,
n1
n
nN
nN
|Xn |
n
entonces,
|Sn Sn1 |
n
|Sn |
n
|Sn1 |
,
n
nN
sera acotada, por lo
es acotada lo cual es absurdo. X
Aplicaciones.
La cantidad de aplicaciones de la ley fuerte es enorme, veremos en lo que sigue, a

modo de ejemplo, algunos corolarios de la ley a modo de aplicacin de la misma.
Corolario 8.13. Si las variables aleatorias {Xn }nN son i.i.d con distribucin Ber(p),
entonces
c.s.
X n p.
Demostracin.
Es obvia ya que las variables Ber(p) estn en L1 y son tales que E (X) = p. X
Frecuentemente, en estadstica, se tiene un muestreo de alguna variable aleatoria cuya
funcin de distribucin es desconocida. Se desea estimar a la funcin FX dada una
muestra aleatoria simple X1 , X2 , ..., Xn .
Supongamos entonces que tenemos X1 , X2 , ..., Xn , variables aleatorias i.i.d con distribucin como la de X. Se dene a la distribucin
emprica asociada a la muestra, a
n
1
la funcin Fn : R R tal que Fn (x) = n i=1 1(,x] (Xi ) .

Observamos que 1(,x] (X1 ) , 1(,x] (X2 ) , ..., 1(,x] (Xn ) son independientes (porque las Xi lo son) con distribucin Ber(p = FX (x)) .
Observamos que Fn : R R es una funcin de distribucin escalonada, con saltos
en los Xi y donde cada salto es de longitud 1/n (en el caso en que las Xi sean todas
distintas).
Corolario 8.14.
Aplicacin estadstica: estimacin de una funcin de distribucin desconocida.
Fn
converge puntualmente a
FX .
Demostracin.
Aplicamos la ley fuerte de los grandes nmeros, se cumple que jado
(
)
c.s.
Fn (x) E 1(,x] (X) = FX (x).X
x R,
entonces
82
Corolario 8.15.
Dadas
Clculo de integrales mediante nmeros aleatorios.
f : [a, b] R
continua, y
{Xn }nN
i.i.d con distribucin
ba
c.s.
f (Xi )
n i=1
n
U (a, b) .
Entonces
f (x)dx.
a
Demostracin.
Si denimos para cada n las variables Yn = (b a)f (Xn ) , entonces, tendremos que
{Yn }nN son i.i.d en L1 ya que f es continua. Entonces, por la ley fuerte de los grandes
nmeros tendremos que
c.s.
Y n E (Y ) = E [(b a)f (Xn )] = (b a)

a
Corolario 8.16.
1
f (x)
dx =
ba
f (x)dx.X
a
Nmeros normales.
Dado un nmero x (0, 1) podemos escribirlo en su expresin binaria como x =

+
xn
donde xi {0, 1} para todo i = 1, 2, 3, ... Si truncamos el nmero x a sus
2n
n=1
primeras n cifras en su expansin binaria (sumamos hasta n), observamos que xn =
x1 +x2 +...+xn
es el porcentaje de veces que aparece el 1, entre los primeros n trminos.
n
El nmero x se dice normal respecto a la base 2, si xn 1/2.
(0, 1) es normal respecto a la base 2 (es decir que si

(0, 1) con distribucin uniforme, entonces el conjunto
probabilidad 1).
Probaremos que casi todo punto

se elige un nmero aleatorio en
de nmeros normales tiene
Demostracin.
Dado x (0, 1), escribimos x =
n=1
xn
2n
donde xi {0, 1} para todo i = 1, 2, 3, ...
Observamos que xn = 0 en una unin de 2n1 intervalos de longitud (1/2)n y xn =

1 en la unin de los restantes 2n1 intervalos de longitud (1/2)n . Consideramos el
siguiente espacio de probabilidad. = (0, 1), sigma = B(0,1) y P denida mediante
la distribucin uniforme.
Denimos la sucesin de variables aleatorias Xn : (0, 1) R tales que Xn (x) = xn .
Entonces, la probabilidad de que Xn tome el valor 1 es la suma de las longitudes de
los 2n1 intervalos disjuntos de longitud (1/2)n lo que es igual a 1/2. Esto prueba que
Xn Ber(p = 1/2) para todo n. Adems las variables son independientes ya que
P (Xn1 = 1 , Xn2 = 2 , ..., Xnk = k ) =
1
= P (Xn1 = 1 ) P (Xn2 = 2 ) ...P (Xnk = k )
2k
cualesquiera sean k , 1 , 2 , ..., k {0, 1} y n1 < n2 < ... < nk .

Hemos probado entonces que la sucesin {Xn }nN son variables i.i.d con distribucin
Ber(p = 1/2) por lo tanto, la ley fuerte de los grandes nmeros nos asegura que
c.s.
X n p = 1/2 lo cual signica que casi todo nmero real perteneciente al intervalo
(0, 1) es normal respecto a la base 2.X
De similar forma, se prueba que si se dene nmero normal respecto a la la base
83
k , cuando el porcentaje de apariciones de cualquier j {0, 1, 2, ..., k 1} converge a

1/k , entonces casi todo nmero (0, 1) es normal respecto a la base k. Por ejemplo, en
el caso en que k = 10, tenemos que casi todo punto es normal respecto a su expansin
decimal lo cual signica que el promedio de apariciones de los dgitos 0, 1, 2, ..., 9 en
su expansin decimal tiende a 1/10.
8.3. Convergencia en distribucin.

Apuntamos en lo que sigue a otro concepto de convergencia, de gran utilidad que es la
convergencia en distribucin. La idea, de la misma es que cuando n tienda a innito, la
funcin de distribucin de las Xn converja a la funcin de distribucin puntualmente
en algn conjunto. En el siguiente ejemplo, veremos que la convergencia puntual de
Fn (x) a F (x) es muy restrictiva si la pedimos para todo x.
Ejemplo 8.17. Si {cn }nN R es una sucesin decreciente tal que cn c y denimos
para cada n las variables Xn = cn y X = c, desearamos tener una denicin de
convergencia en distribucin tal que Xn converja a X. Las funciones de distribucin
de estas variables son
{
{
0 si x < cn
0 si x < c
.
FXn (x) =
y FX (x) =
1 si x c
1 si x cn
Como se ve, FXn (c) = 0 no tiende a FX (c) = 1, mientras que FXn (x) FX (x) para
todo x 6= c.
Como se observa, c es el nico punto de discontinuidad de FX .
Cuntos puntos de discontinuidad puede tener una cierta funcin de distribucin?
Si F : R R es una funcin de distribucin, veremos que admite a lo sumo una
cantidad numerable de discontinuidades.
Para demostrarlo, observamos que
{x R : F es discontinua en x} =
x R : F (x) F (x ) 1/n
n=1
adems, para cada n, el conjunto {x R : F (x) F (x ) 1/n} tiene a lo sumo n

elementos, puesto que dado que F es creciente y acotada entre 0 y 1, la suma de los
saltos de distintos puntos de discontinuidad no puede exceder a 1. Por lo tanto el
conjunto de puntos de discontinuidad de F es numerable por ser unin numerable de
conjuntos nitos.
Se deja como ejercicio vericar que si F : R R es montona entonces el conjunto
de sus puntos de discontinuidad es a lo sumo numerable.
Denicin 8.18. Convergencia en distribucin.

(
)
Dadas {Xn }nN variables aleatorias denidas en
,
A
,
P
espacios de probabilin
n
n
(
)
dad, y X variable aleatoria denida en cierto , A, P espacio de probabilidad. Se
dice que la sucesin {Xn }nN converge en distribucin a X si y slo si
lim FXn (x) = FX (x) para todo x punto de continuidad de FX .
n+
84

d
Notacin: Xn X.
Tambin se dice que la sucesin {Xn }nN converge dbilmente a X, o tambin que
FXn converge dbilmente a FX .
Observacin 8.19. Como se ve en la denicin, no es necesario que las variables Xn

y
esten todas denidas en el mismo espacio de probabilidad, ya que lo que importa,
es que la convergencia se de entre sus funciones de distribucin que son funciones de
en
R.
Veremos en el siguiente teorema que cuando trabajamos sobre un mismo espacio de

probabilidad, la nocin de convergencia en distribucin es an ms dbil que la nocin
de convergencia en probabilidad.
Teorema 8.20.
aleatoria
Dadas una sucesin de variables aleatorias
denidas sobre cierto

Si
, A, P
Xn X
{Xn }nN
y una variable
espacio de probabilidad.
entonces
Xn X.
Demostracin.
Dado x punto de continuidad de FX . Fijamos > 0 y le llamamos An, = {X < Xn < X + } .

Entonces
(
)
FXn (x) = P (Xn x) = P ({Xn x} An, ) + P {Xn x} Acn, .
Con respecto al primer sumando, tenemos que
P ({Xn x} An, ) P ({X x} An, ) P (X x) = FX (x + ).

Entonces tenemos que
(
)
FXn (x) FX (x + ) + P {Xn x} Acn, .
(
)
Tomando lmite en n, el segundo sumando tiende a cero (ya que P Acn, tiende a
cero), por lo que obtenemos la desigualdad FXn (x) FX (x + ) vlida para todo
> 0. Luego, tomamos lmite cuando 0+ y usando que FX es continua por
derecha, nos queda
limsupFXn (x) FX (x).
n+
Para obtener una desigualdad en el otro sentido razonaremos en forma similar.
P ({Xn x} An, ) P ({X x } An, ) .

Entonces
)
(
FXn (x) P ({X x } An, ) + P {Xn x} Acn, .
85

Si ahora tomamos lmite en n, obtenemos que para todo > 0,
liminf FXn (x) FX (x ).
n+
Ahora usando que x es punto de continuidad de FX ,tomamos lmite cuando 0+

y obtenemos que liminf FXn (x) FX (x). Hemos probado entonces que
n+
lim FXn (x) = FX (x).X
n+
Ahora veremos en el siguiente ejemplo que la convergencia en probabilidad es estrictamente ms fuerte que la convergencia en distribucin.
Ejemplo 8.21.
Denimos una sucesin de variables X, X1 , X2 , ..., Xn , ... i.i.d con

d
distribucin N (0, 1). Entonces Xn X ya que FXn = FX para todo n. Sin embargo
la sucesin {Xn }nN no converge en probabilidad a X ya que Xn X tiene distribucin
N (0, 2) para todo n (ya que es combinacin lineal de normales independientes), y
por lo tanto
)
(
)
(

P (|Xn X| ) = P ( Xn X ) =
2
2
esta probabilidad, no depende de n y es menor estricto que 1 por lo que no hay

convergencia en probabilidad.
86
Captulo 9
Funciones caractersticas.
En este captulo deniremos un concepto que nos permitir seguir desarrollando el
concepto de convergencia en distribucin, de hecho veremos ms caracterizaciones
para esta nocin de convergencia, y nalizaremos con un teorema esencial en la teora
y prctica: el teorema central del lmite.
(
)
Denicin 9.1. Funcin caracterstica. Dado un , A, P espacio de probabilidad y X : R variable aleatoria,
( itX ) se dene la funcin caracterstica de X como
X : R C tal que X (t) = E e
.
Observacin 9.2.
eitX = cos(tX) + isen(tX), se tiene que

+
+
( itX )
itx
E e
=
e dFX (x) =
(cos(tx) + isen(tx)) dFX (x) =
Dado que
cos(tx)dFX (x) + i
Observacin 9.3.
para todo
= E (cos(tX)) + iE (sen(tX)) .
sen(tx)dFX (x)
La funcin caracterstica de
siempre existe ya que
itX
e = 1
t.
Ejemplo 9.4.
Si X Poisson(), entonces
X (t) = E e
itX
+
itx
e dFX (x) =
itx
e pX (x) =
x=0
+
x
(eit )
x=0
x!
x=0
it 1
= e ee = e(e
it
eitx
e x
=
x!
).
Como se ver ms adelante, la funcin caracterstica, juega un papel esencial en la

teora de la convergencia en distribucin, convergencia clave en estadstica.
87
Captulo 9. Funciones caractersticas.
9.1. Propiedades.
En
( todas) las siguientes propiedades, se supone dado un espacio de probabilidad
, A, P y en l, una variable aleatoria X : R.
Proposicin 9.5.
|X (t)| 1
para todo
t R.
Demostracin.
(
)
)
(
|X (t)| = E eitX E eitX = E (1) = 1.X
Proposicin 9.6.
X (0) = 1.
Demostracin.
Obvia.X
Proposicin 9.7.
aX+b (t) = eitb X (at)
para todo
t R.X
Demostracin.
(
)
(
)
(
)
aX+b (t) = E eit(aX+b) = E eitaX eitb = eitb E eiatX = eitb X (at).
Proposicin 9.8.
Si
son independientes, entonces
X+Y (t) = X (t)Y (t)
para todo
t R.
Demostracin.
(
)
(
)
(
) (
)
X+Y (t) = E eit(X+Y ) = E eitX eitY = E eitX E eitY = X (t)Y (t) .X
indep
Proposicin 9.9.
es uniformemente continua.
Demostracin.
(
))
)
(
)
(
)
(
(
X (t) X (s) = E eitX E eisX = E eitX eisX = E eisX ei(ts)X 1 .
)
(
Si denimos g(h) = E eihX 1 , entonces
(
(
))
(
))
(
|X (t) X (s)| = E eisX ei(ts)X 1 E eisX ei(ts)X 1 =
)
(
E ei(ts)X 1 = g(t s).
Por lo tanto, bastar con ver que g es continua en cero, es decir que g(h) tiende a
cero cuando h 0.

Observamos que eihx 1 2 L1 , y como eihX 1 0 c.s, entonces por el
( h0 )
teorema de convergencia dominada, se tiene que lim E eihX 1 = 0.X
h0
88
Proposicin 9.10.
Si
adems
X Lk
para cierto
(
)
(k)
X (t) = ik E X k eitX
k N, k 1.
para todo
Entonces
X C k
t R.
Demostracin.
La prueba se realiza por induccin. Probmoslo para k = 1.

(
)
(
)
E ei(t+h)X E eitX
X (t + h) X (t)
=
=
h
h
(
(
)
(
))
E ei(t+h)X eitX
eitX eihX 1
.
=E
h
h
Ahora, observamos que lim e
h0
h 0.
ihx 1
= ix, por lo tanto
eitX (eihX 1) c.s.
iXeitX cuando

eitx (eihx 1) eihx 1 x ihs x ihs
=

Adems,
= 0 e ds 0 e ds = |x| para todos x, h
h
h

eitX (eihX 1)
|X| L1 , por lo tanto, usando el teorema de convergencia
R. Entonces
h

dominada se deduce que
(
(
))
(
)
eitX eihX 1
X (t + h) X (t)
lim
= lim E
= iE XeitX .
h0
h0
h
h
Se deja como ejercicio demostrar el paso inductivo y as completar la demostracin.
X
Observacin 9.11.
Si Si
X Lk
asegura que podemos derivar respecto a la
k N, la
variable t debajo
para cierto
proposicin anterior nos

del signo de la esperanza
veces.
j
j
Observacin 9.12. Si X Lk para cierto k N, k 1, entonces (j)
X (0) = i E (X )
k
para todo j = 1, 2, 3, ..., k. En particular si X L para todo k N, entonces
X C y adems quedan determinados todos los momentos de la variable X a
partir de
X .
Observacin 9.13.
cierto
k,
entonces
Ejemplo 9.14.
Se deduce de la demostracin que en el caso en que
X Lk
para
es uniformemente continua.
Si X N (, 2 ), entonces
2 2 /2
X (t) = eitt
Para demostrarlo, en primer lugar probaremos que si X N (0, 1), probaremos que
2
X (t) = et /2 . Para lograrlo, demostraremos que si denimos la funcin h como
2
h(t) := et /2 X (t), entonces h(t) = 1 para todo t.
Como h(0) = 1, bastar probar que h0 (t) = 0 para todo t. En efecto, dado que
89

podemos derivar
del signo
de esperanza
en la funcin caracterstica,
obtenemos
( debajo
)
(
)
(
)
2
2
h0 (t) = tet /2 E eitX +et /2 E iXeitX . Entonces, resta probar que E (t + iX) eitX =
0.
E (t + iX) e
itX
1
=
2
itx x2 /2
(t + ix)e e
ieitxx
2 /2
1
dx =
2
2 /2
(t + ix)eitxx
dx =
|+
= 0.
Ahora, para demostrar el caso en que X N (, 2 ), escribimos X = Z + donde

Z N (0, 1) . Entonces,
2 2 /2
X (t) = Z+ (t) = eit Z (t) = eitt
9.2. Frmula de inversin.

En esta seccin probaremos una frmula que nos pemite obtener FX si conocemos
X , de aqu se deducir que la funcin caracterstica de una variable aleatoria, caracteriza a la funcin de distribucin, es decir que FX = FY si y slo si X = Y .
Teorema 9.15.
Frmula de inversin.
(
)
Dado un , A, P espacio de probabilidad y X : R variable aleatoria, entonces
1
FX (x) = lim lim lim
zx yh+ 2
h
h
eity eitz
X (t)dt para todo x,
it
donde los lmites en y y en z se realizan sobre puntos de continuidad de FX .
Demostracin.
En primer lugar jamos y < z puntos de continuidad de FX .

Denimos
)
h ( + ity
h ity
e
eitz itx
e
eitz
X (t)dt =
e dFX (x) dt.
I(h) :=
it
it
h
h
Dado que la funcin integrando f (t, z) =
eity eitz itx

e
it
ity eitz
es continua, ya que lim e

t0
it
y (
z , por lo tanto |f (t, x)|
) c para todo (t, x) [h, h] R y entonces
h +
|f (t, x)| dFX (x) dt 2hc, por lo que podemos intercambiar el orden de
h
+ ( h eit(xy) eit(xz) )
integracin (Fubini), obteniendo que I(h) =
dt dFX (x).
it
h
Ahora, observando que cos(at)
es impar y sen(at)
es par para todo a R, nos queda
t
t
que
)
+ ( h
h
sent(x y)
sent(x z)
I(h) =
2
dt 2
dt dFX (x) = E (gh (X))
t
t
0
0
90
h sent(xz)
h
dt
2
dt.
siendo gh (x) = 2 0 sent(xy)
t
t
0
Tomaremos lmite cuando h + y veremos que podemos aplicar el
convergencia dominada.
/2
+ sen(at)
0
Utilizando el valor de la integral de Dirichlet 0
dt =
t
/2
entonces el lmite puntual de gh es
teorema de
si a > 0
si a = 0 ,
si a < 0
lim gh (x) = 21{y<x<z} + 1{x=y} + 1{x=z} .
h+

h
Observando que 0
sen(at)
dt
t

|gh (x)| = 2

h
sup 0
h>0
sent
dt
t
sent(x y)
dt 2
t
def
:= M , entonces

sent(x z)
dt 4M
t
entonces por el teorema de convergencia dominada se obtiene que

(
)
lim I(h) = lim E (gh (X)) = E 21{y<X<z} + 1{X=y} + 1{X=z}
h+
h+
y como y, z son puntos de continuidad de FX entonces

lim I(h) = 2P (y < X < z) = 2 (FX (z) FX (y)) .
h+
Entonces
1
1
FX (z) FX (y) =
lim I(h) =
lim
2 h+
2 h+
eity eitz
X (t)dt.
it
Si tomamos lmite cuando y (siendo y punto de continuidad de FX ) en la

anterior igualdad, obtenemos
h ity
1
e
eitz
FX (z) =
lim lim
X (t)dt para todo z punto de continuidad de FX .
2 yh+ h
it
Para concluir, basta jar cualquier x R y tomar lmite en la anterior igualdad
cuando z x+ tomando z puntos de continuidad de FX (esto es posible debido a
que por ser FX una funcin montona, la cantidad de puntos de discontinuidad es
numerable).
Entonces nos queda
h ity
1
e
eitz
lim+ lim lim
X (t)dt para todo x R,
FX (x) =
2 zx yh+ h
it
donde el lmite en las variables y, z se hacen sobre puntos de continuidad de FX .X
(
)
Corolario 9.16. Dado un , A, P espacio de probabilidad y X, Y : R variables
aleatorias. Entonces
FX = FY
si y slo si
X = Y .
Demostracin.
Es consecuencia inmediata de la frmula de inversin.X

91
9.3. Caracterizacin de la convergencia en distribucin.

En el siguiente teorema, probaremos que la convergencia en distribucin es equivalente
a la convergencia puntual de las funciones caractersticas.
Teorema 9.17.
y
n, Xn : R es variable aleatoria sobre (n , An , Pn )

aleatoria sobre (, A, P ). Entonces son equivalentes:
Si para cada
X : R es variable
d
(a) Xn X.
(b) E (g (Xn )) E (g (X))
(c) Xn (t)
n+
X (t)
n+
para toda
para todo
g:RR
continua y acotada.
t R.
Demostracin.
(a) (b)
Para simplicar la escritura, le llamamos Fn a la funcin de distribucin de las Xn

y F a la funcin de distribucin de X . Tomemos g : R R continua y acotada, tal
que |g(x)| c para todo x R, entonces para cualesquiera a < b, tenemos
+

+

|E (g (Xn )) E (g (X))| =
gdFn
gdF
b
b
b
b
+

gdFn
gdFn +
gdFn
gdF +
gdF
Fijemos un > 0 arbitrario.

a

+

I3 =
gdF +
gdF

gdF

gdF := I1 +I2 +I3 .
|g| dF +
|g| dF
b
cdF = c (F (a) + 1 F (b)) .
cdF +

gdF +
Dado que c (F (a) + 1 F (b)) 0 cuando a y b +, elegimos a sucientemente pequeo y b sucientemente grande tal que c (F (a) + 1 F (b)) < .
Por conveniencia tomaremos a, b puntos de continuidad, ya que lo necesitaremos para
acotar I1 e I2 .
Acotamos de manera similar I1 y obtenemos

+
b

gdFn
gdFn c (Fn (a) + 1 Fn (b)) .
I1 =
Para los a y b obtenidos, dado que son puntos de continuidad de F , se deduce que
c (Fn (a) + 1 Fn (b)) c (F (a) + 1 F (b)) < , por lo tanto existe k N tal
n+
que c (Fn (a) + 1 Fn (b)) < 2 para todo n k. Por ahora obtenemos I1 + I3 < 3
para todo n k.
92

Para culminar la demostracin, probaremos que I2 < 3 para todo n sucientemente
grande.
Como g es continua en [a, b], entonces es absolutamente continua, por lo que podemos
elegir una particin de [a, b] , a = x0 < x1 < x2 < ... < xN = b tal que x1 , x2 , ..., xN 1
sean puntos de continuidad de FX y |g(x) g(xi )| < para todo x [xi , xi+1 ] para
todo i = 0, 1, 2, ..., N 1.
b
N 1 (
b

I2 =
gdFn
gdF =

a
i=0
xi+1
g(x)dFn (x)
xi
xi+1
xi
xi+1
mni = (g(xi ) ) (Fn (xi+1 ) Fn (xi ))

def
)

g(x)dF (x) .

g(x)dFn (x)
xi
(g(xi ) + ) (Fn (xi+1 ) Fn (xi )) = Mni

xi+1
mi = (g(xi ) ) (F (xi+1 ) F (xi ))
g(x)dF (x)
def
def
xi
(g(xi ) + ) (F (xi+1 ) F (xi )) = Mi .

def
Entonces
xi+1
mni Mi
xi+1
g(x)dFn (x)
xi
g(x)dF (x) Mni mi
xi
y sumando en todos los intervalos, obtenemos que

N
1
(mni Mi )
g(x)dFn (x)
a
i=0
g(x)dF (x)
a
N
1
(Mni mi ) .
i=0
Ahora, observamos que como los xi son puntos de continuidad de FX , se obtiene que
mni mi y Mni Mi para todo i = 0, 1, 2, ..., N 1, por lo que
n+
n+
N
1
i=0
N
1
(mni Mi )
n+
N
1
(mi Mi ) =
i=0
(F (xi+1 ) F (xi )) = 2 (F (b) F (a)) 2
i=0
N
1
i=0
N
1
(Mni mi )
n+
N
1
(Mi mi ) =
i=0
(F (xi+1 ) F (xi )) = 2 (F (b) F (a)) 2.
i=0
93

Entonces a partir de cierto n sucientemente grande, se tiene que
b
b
3
g(x)dFn (x)
g(x)dF (x) 3
a
lo que prueba que I2 3 concluyendo as la prueba.

(b) (c)
Fijado t R, consideramos las funciones g1 (x) = sen (tx) y g2 (x) = cos(tx) ambas
son continuas y acotadas, por lo que E (g1 (Xn )) = E (sen(tXn )) E (g1 (X)) =
n+
E (sen(tX)) , y E (g2 (Xn )) = E (cos(tXn )) E (g2 (X)) = E (cos(tX)) . Entonces

n+
( itX )
( itX )
n
E e
E e
y como t es arbitrario, entonces Xn (t) X (t) para
n+
n+
todo t R.
(c) (a)
Nuevamente, por simplicidad, le llamamos Fn a la funcin de distribucin de Xn
d
y F a la funcin de distribucin de X. Para demostrar que Fn F , bastar con
d
probar que existe una subsucesin tal que Fnj F. Esto se debe a que una vez
d
probado que Fnj F, si {Fn }nN no convergiera dbilmente a F , entonces, existira

x0 punto de continuidad de F tal que Fn (x0 ) 9 F (x0 ), entonces como {Fn (x0 )}nN es
una sucesin acotada, existe una subsucesin {Fnk }kN tal que Fnk (x0 ) a para
k+
cierto a 6= F (x0 ). Entonces extraemos una subsucesin de {Fnk }kN , que converge
d
dbilmente a F , Fnkj F. Entonces, dado que x0 es punto de continuidad de F , se

{
}
tendra que Fnkj (x0 ) F (x0 ), pero Fnkj (x0 )
es subsucesin de {Fnk (x0 )}kN
j+
jN
y por lo tanto Fnkj (x0 ) a 6= F (x0 ), lo cual es absurdo.

j+
{ }
d
En lo que sigue, construiremos una subsucesin Fnj jN de {Fn }nN tal que Fnj F.
Consideramos una numeracin de los racionales, Q = {qk }kN . Para cada k , existe
una subsucesin de {Fn (qk )}nN que es convergente, llammosle gk a dicho lmite.
Mediante el procedimiento de la diagonal, podemos asegurar que existe una sucesin
de naturales n1 < n2 < ... < nj < ... tal que Fnj (qk ) g(qk ) para todo k.
j+
{
g(qk )
si x = qk
Denimos la funcin G : R R tal que G(x) =
lim g(q) si x
/ Q . En
qx qQ
primer lugar debemos ver que G est bien denida, es decir que existe el lmite
para el caso en que x es irracional. Para ello, observamos que G restringida a Q, es
montona creciente, esto se debe a que si q < q 0 entonces Fnj (q) Fnj (q 0 ) para todo
j , luego, se toma lmite en j . De aqu se deduce que G es montona creciente. Podra
no ser continua por derecha, pero veamos en lo que sigue, que Fnj (x) G(x) en
j+
todo punto de continuidad de G.

En efecto, si x es punto de continuidad de G, entonces, dado > 0, existen dos
racionales q y q 0 tales que q < x < q 0 con G(q 0 ) < G(x) < G(q) + , entonces
G(x) < G(q) = lim Fnj (q) liminf Fnj (x)

j+
94

limsup Fnj (x) lim Fnj (q 0 ) = G(q 0 ) < G(x) +
j+
de donde se deduce que lim Fnj (x) = G(x). En los puntos donde G no sea continua,
j+
la podemos redenir de modo que quede continua por derecha (esto es posible porque
G es creciente).
Probaremos que sta funcin G redenida de modo que quede continua por derecha,
es una funcin de distribucin, para lo cual bastar ver que tiene lmites 0 y 1 a
y + respectivamente.
Como Xnj X en todo punto, entonces, por el teorema de convergencia dominada

dado que Xnj (s) 1 para todo s, obtenemos
Xnj (s)ds
X (s)ds para todo t.
j+
Por otro lado, observamos que

)
t
t ( +
Fubini
isu
X (s)ds =
e dF (u) ds =
0
eiut 1
iu
isu
)
ds dF (u) =
dF (u).
Adems, observando que la demostracin de que (a) (b) sigue valiendo si la convergencia dbil, es denida sobre funciones acotadas, si denimos gt : R R tal que
eiut 1
gt (u)
( = iu) , entonces, dado que para todo t, gt es continua y acotada, se tiene que
E gt (Xnj ) E (gt (X)), es decir
j+
eiut 1
iu
dFnj (u)
j+
Entonces obtuvimos
t
t (
X (s)ds =
0
+
isu
)
dG(u) para todo t.
)
t (
dF (u) ds =
eiut 1
iu
isu
)
dG (u) ds
para todo t. Luego
1
t
1
X (s)ds =
t
eiut 1
iu
)
dG(u)
+
y tomando lmite cuando t 0 se obtiene que 1 = (0) = dG(u) = G (+)
G () y como adems G es creciente y acotada entre 0 y 1, entonces necesariamente G (+) = 1 y G () = 0. Se concluye entonces que G es una funcin de
distribucin.
d
Ahora, como tenemos que Fnj G, sabemos que existe un espacio de probabilidad
y en l una variable aleatoria Y tal que G = FY . Como (a) implica (c), se deduce que
95
Xn (t)
n+
Y (t) para todo t, pero por hiptesis Xn (t)
n+
X (t) para todo t,
por lo tanto X = Y , lo cual implica que FX = FY , es decir F = G.

d
Queda probado hasta ahora que existe una subsucesin de {Fn }nN tal que Fnj F.
d
Para concluir la prueba debemos ver que Fn F. Ahora, si {Fn }nN no convergiera
en distribucin
{ } a F , entonces existira a R punto de continuidad de{ F y una
} subsucesin Fnj jN tal que Fnj (a) 9 F (a). Podemos suponer que Fnj (a) jN es
j+
convergente ya que de lo contrario como es una sucesin acotada en R, admiitira una

subsucesin convergente y trabajaramos con dicha subsucesin si fuera necesario.
Suponemos entonces que lim Fnj (a) = b 6= F (a). Por lo recin probado, existe una
j+
{ }
subsucesin de Fnj jN que converge en distribucin a cierta funcin de distribucin G. Observamos adems que debe ser G = F ya que por hiptesis, las funciones
caractersticas asociadas a esta subsucesin convergen a la funcin caracterstica asociada a F .
Entonces como a es punto de continuidad de F, esta{ subsucesin
evaluada en a,
}
debera converger a F (a), pero por ser subsucesin de Fnj (a) jN converge a b. X
9.4. Teorema Central del Lmite.

El teorema central del lmite es un equivalente en importancia a la ley de los grandes
nmeros en lo que respecta al lmite en distribucin de la sucesin X n .
Teorema 9.18. Si {Xn }n1 es una sucesin de v.a.i.i.d con distribucin FX , X L2 ,

E (X) = , V (X) = 2 .
Demostracin.
Entonces
)
(
n Xn d
N (0, 1) .
Suponemos en un primer caso que = 0 y = 1.

2
Recordando que la funcin caracterstica de N (0, 1) es (t) = et /2 para todo
t R, y usando el teorema que caracteriza la convergencia en distribucin mediante
la convergencia de las funciones caractersticas para todo t, bastar probar que
nX n (t) et
2 /2
n+
t R.
Usando que aX (t) = X (at) y luego que las Xi son independientes e idnticamente
distribudas, se obtiene
nX n
(t) = X1 +X2+...+Xn
n
n
( ) [ ( )]n
( )
Xi t/ n = X t/ n
.
(t) = X1 +X2 +...+Xn t/ n =
i=1
Ahora si tenemos en cuenta que admite dos derivadas continuas (ya que X L2 )
desarrollamos por Taylor alrededor de cero y obtenemos
X (t) = X (0) +
0X
00X (ct ) t2
(0) t +
donde |ct | |t|
2
96

Pero X (0) = 1, 0X (0) = iE (X) = 0, 00X (0) = E (X 2 ) = 1, entonces queda
[ (
)]n [
]n
00
00
X (ct,n ) t2
n
ln
1+
t
(c
)
t,n 2
2n
nXn (t) = X
= 1+ X
t
=e
.
2n
n
Ahora, teniendo en cuenta que 00X es continua y que |ct,n | |t| / n, se deduce que
00X (ct,n ) 00X (0) = 1.
n+
Entonces
lim nXn (t) = lim e
n+
00 (c
)
n ln 1+ X 2nt,n t2
n+
= lim en
00
X (ct,n ) t2
2n
n+
= et
2 /2
lo que concluye la prueba en el caso = 0 y = 1.

El caso general se deduce deniendo las variables Yn := Xn . Entonces {Yn }n1 es
una sucesin de v.a.i.i.d con distribucin FY , Y L2 , E (Y ) = 0, V (Y ) = 1. Entonces
d
se tiene que nYn = n X n N (0, 1) lo que concluye la prueba. X
Observacin 9.19. Si X1 , X2 , ... son variables i.i.d en L2 con esperanza y varianza

2,
el teorema central del lmite nos dice que
lim
n+
Entonces, si
)
n(
Xn x
)
= (x) .
es sucientemente grande, podemos realizar la siguiente aproximacin
)
aprox
P
= P X n + x ' (x)
n
(
)
n
luego, si le llamamos t = + x, entonces FX n (t) '

(t
)
que es la funcin
n
)
n(
Xn x
de distribucin de una variable
N (, 2 /n) ,
grande, entonces podemos aproximar la distribucin de
Observacin 9.20.
n es sucientemente
X n por N (, 2 /n) .
por lo tanto si
n es suX1 + X2 + ... + Xn por
A partir de la observacin anterior deducimos que, si
cientemente grande, podemos aproximar la distribucin de

2
N (n, n ) .
Ejemplo 9.21. Si X Bin(n, p) y n es sucientemente grande, entonces X es aproximadamente N (np, np(1 p)) ya que podemos escribir X como X = X1 +X2 +...+Xn
donde X1 , X2 , ..., Xn son i.i.d Ber(p) .
Ejemplo 9.22.
Si tiramos 100 veces una moneda, calcularemos de manera aproximada mediante le empleo del teormea central del lmite la probabilidad de obtener
entre 40 y 60 caras.
Para el clculo, denimos X = antidad de caras en los 100 lanzamientos", entonces
X Bin(n = 100, p = 1/2). Deseamos hallar P (40 X 60) . Dado que np = 50 y
np(1 p) = 25, tenemos que la distribucin
X es) aproximadamente N (50; 25) y
( 6050 ) de( 4050
= 0, 954 50. El valor exacto en

por lo tanto P (40 X 60) =
5
5
este caso es 0,9648.
97

Como
podemos
volver a calcular n, de forma aproximada, tal que

( aplicacin,
)
P X n p 0, 01 0, 95 para el caso en que X1 , X2 , ..., Xn son i.i.d Ber(p). Esto
ya fue resuelto como aplicacin de la desigualdad de Chebyshev, ahora podremos
dar otra solucin, aproximada, mediante el empleo del teorema central del lmite.
Aproximando la distribucin de X n por N (p, p(1 p)/n) obtenemos

(
)
(
)
P X n p 0, 01 = P p 0, 01 X n p + 0, 01
=
(
(
)
)
)
0, 01 n
0, 01 n
0, 01 n

= 2
1
p(1 p)
p(1 p)
p(1 p)
y usando que p(1 p) 1/4 obtenemos

(
)
(
)
0, 01 n
1 2 0, 02 n 1
2
p(1 p)
por lo que bastar con hallar n tal que 2 (0, 02 n) 1 0, 95 lo cual se cumple si
( )2
1,96
y slo si 0, 02 n 1 (0, 975) = 1, 96, es decir que basta con tomar n 0,02
=
9604.
Observacin 9.23.
un valor de
El hecho de que aplicando el teorema central del lmite, resulte
(aunque aproximado) notoriamente ms pequeo que el obtenido por
aplicacin de la desigualdad de Chebyshev, se debe a que como ya fue dicho en su

momento, la desigualdad de Chebysehv es una desigualdad universal, aplicable a toda
2
variable aleatoria en L y por lo tanto es natural esperar que en ciertas situaciones
nos de acotaciones groseras de la probabilidad buscada.
98
Captulo 10
Estimacin puntual.
10.1. Estadsticos y estimadores.
Cuando X1 , X2 , ..., Xn son variables i.i.d con distribucin como la de cierta X , se dice
que X1 , X2 , ..., Xn es una M.A.S (muestra aleatoria simple) de tamao n de X .
En estadstica aplicada, es frecuente encontrarse con nmeros x1 , x2 , ..., xn producto
de un muestreo sobre alguna caracterstica de cierta poblacin, por ejemplo, ingreso
de los hogares de cierta ciudad, dimetro de las clulas de cierta poblacin observada
al microscopio, altura o peso de ciertos animales, etc. En todas estas situaciones,
la variable a estudiar, no se conoce su distribucin, por lo que interesa manipular
la informacin que nos brinda la muestra x1 , x2 , ..., xn para poder estimar diversos
parmetros de inters.
Denicin 10.1.
Si X1 , X2 , ..., Xn es una M.A.S de cierta X para un determinado

n, se le llama estadstico a la funcin T (X1 , X2 , ..., Xn ) : Rk para cierto k, donde T : Rn Rk es una funcin boreliana que no depende de parmetros desconocidos.
Se pide que la funcin T sea boreliana para que T (X1 , X2 , ..., Xn ) sea variable aleatoria, y se pide que no dependa de parmetros desconocidos porque dada una muestra
realizada (u observada) x1 , x2 , ..., xn , el valor T (x1 , x2 , ..., xn ) pueda ser utilizado para
estimar parmetros desconocidos por ejemplo.
Denicin 10.2. Si X1 , X2 , ..., Xn es una M.A.S de cierta X con distribucin FX (x, )

con Rk . Al conjunto se le denomina espacio paramtrico.
Cuando tenemos X1 , X2 , ..., Xn una M.A.S de cierta X con distribucin FX (x, ) con
Rk , es decir que la distribucin de la variable de estudio (X ) es completamente conocida salvo por un parmetro , se dice que estamos en estadstica paramtrica,
mientras que si la distribucin de X es totalmente desconocida, estamos en presencia
de estadstica no paramtrica.
99
Captulo 10.
Estimacin puntual.
Denicin 10.3. Estimador.
Si X1 , X2 , ..., Xn es una M.A.S de cierta X con distribucin FX (x, ) con Rk ,

se dice que b : es un estimador de si y slo si b (X1 , X2 , ..., Xn ) es un
estadstico que es usado para estimar el verdadero valor de .
En general para abreviar, le llamaremos b a b (X1 , X2 , ..., Xn ) .
Observamos que b depende de n y es importante tener un estimador que cumpla
propiedades de convergencia al verdadero valor de cuando el tamao de muestra
n +.
Denicin 10.4. Estimador consistente.
Si X1 , X2 , ..., Xn es una M.A.S de cierta X con distribucin FX (x, ) con Rk ,

se dice que b = b (X1 , X2 , ..., Xn ) es un estimador dbilmente consistente si y slo si
P
c.s.
b y se dice que es fuertemente consistente si y slo si b .
Denicin 10.5. Estimador insesgado.
k
Si X1 , X2 , ..., Xn es una M.A.S de cierta X con distribucin FX (x, ) con
(
)R ,
se dice que b = b (X1 , X2 , ..., Xn ) es un estimador insesgado si y slo si E b = y
( )
asintticamente insesgado si y slo si lim E b = .
n+
Si X1 , X2 , ..., Xn es una M.A.S de cierta X L1 , por la ley fuerte de los grandes

c.s.
b = X n es un estimador
nmeros, sabemos que X n = E (X) lo cual nos dice
( que
)
fuertemente consistente de , adems, sabemos que E X n = lo que prueba que el
estimador es adems insesgado.
Por otro lado, si X L2 , el estimador natural de 2 es la varianza muestral, es decir
n (
)2
c.s.
Sn2 = n1
Xi X n , se deja como ejercicio vericar que Sn2 2 , lo cual prueba
i=1
que b2 = Sn2 es un estimador fuertemente consistente de 2 , adems se deja como

ejercicio tambin vericar que E (Sn2 ) = n1
2 lo que prueba que es asintticamente
n
insesgado.
n (
)2
n
1
Xi X n es un estimador fuertemente consistente
Se observa que n1
Sn2 = n1
y adems insesgado de 2 .
i=1
10.2. Mtodos de estimacin.

Ya vimos que podemos estimar de manera fuertemente consistente e insesgada, a la
esperanza y la varianza de una variable aletoria. Ahora cmo se estima otro tipo de
parmetros? Sera importante tener mtodos que nos permitan obtener estimadores,
por lo que veremos los dos ms populares, el mtodo de los momentos y el de mxima
verosimilitud.
100
Captulo 10.
10.2.1.
Estimacin puntual.
Mtodo de los momentos.
Si X1 , X2 , ..., Xn es una M.A.S de cierta X Lk con distribucin FX (x, ) con

Rk entonces se plantean las siguientes k ecuaciones
E (X) = X n
1
2
Xi2
E (X ) = n
i=1
Observamos que las k igualdades se pueden ver como un
..
n
( )
E X k = n1
Xik
i=1
sistema de k ecuaciones con k incgnitas, donde las incgnitas son 1 , 2 , ..., k que
aparecen del lado izquierdo en las igualdades, ya que al depender la distribucin
( de)
X de los parmetros 1 , 2 , ..., k , entonces sus momentos E (X) , E (X 2 ) , ..., E X k
quedan en funcin de 1 , 2 , ..., k .
Si estas k ecuaciones con k incgnitas, admitieran una solucin, b1 , b2 , ..., bk , esta
n
n
Xi2 , ..., n1
Xik quedando as los llamados
solucin quedar en funcin de X n , n1
i=1
i=1
estimadores por momentos de 1 , 2 , ..., k .

Se observa que ste mtodo est basado en la ley de los grandes nmeros ya que la
n
misma nos arma que X n converge casi seguramente a E (X) , n1

Xi2 converge casi
seguramente a E (X
) ... n1
i=1
Xik
)
converge casi seguramente a E X k por lo que pa-
i=1
rece natural pensar que si este sistema admite solucin, la misma se debera esperar
que sea fuertemente consistente.
Ejemplo 10.6.
Si X1 , X2 , ..., Xn es una M.A.S de cierta X U (0, b) entonces para

hallar el estimador por el mtodo de los momentos, dado que hay un slo parmetro
a estimar, planteamos una ecuacin con una incgnita: E (X) = X n , la misma nos
queda 2b = X n por lo que el estimador por momentos de b nos queda bb = 2X n .
Como se observa en este caso, el estimador queda fuertemente consistente ya que
c.s.
X n E (X) =
b
c.s. b
por lo que 2X n 2 = b.
2
2
Adems es insegado ya que

( )
(
)
( )
b
E bb = E 2X n = 2E X n = 2 = b.
2
Bajo ciertas hiptesis de regularidad, se puede probar que el estimador de un parmetro = (1 , 2 , ..., k ) por momentos, en caso de existir es fuertemente consistente
y asintticamente insesgado.
10.2.2.
Mtodo de mxima verosimilitud.
Si X1 , X2 , ..., Xn es una M.A.S de cierta X discreta con funcin de probabilidad

pX (x, ) ( o absolutamente continua con funcin de densidad fX (x, )) se dene la
101
Captulo 10.
Estimacin puntual.
funcin de verosimilitud de la muestra a la funcin L (x1 , x2 , ..., xn , ) =

o L (x1 , x2 , ..., xn , ) =
pX (xi , )
i=1
fX (xi , ) segn el caso.
i=1
El mtodo de mxima verosimilitud, consiste en resolver el siguiente problema de

optimizacin:
dada X1 , X2 , ..., Xn M.A.S de cierta X con distribucin FX (x, ) con Rk el
estimador mximo verosmil de es la solucin al problema (si existe)
b = arg max L (X1 , X2 , ..., Xn , ) .
Es decir que para hallar el estimador mximo verosmil de , se debe maximizar la

funcin L (X1 , X2 , ..., Xn , ) como funcin de (generalmente se la llama L () para
recordar que miramos la funcin de veosimilitud como funcin de ) y luego el valor
de donde se obtiene dicho mximo (que depende de la muestra) es el estimador
buscado.
Dado que la funcin logaritmo es creciente, el valor de donde se maximiza L ()
es el mismo que el valor de donde se maximiza h () =log L () (el logaritmo es
neperiano) muchas veces es ms sencillo maximizar h.
Supongamos que luego de realizado el muestreo, obtuvimos la muestra (x1 , x2 , ..., xn )
es decir que (x1 , x2 , ..., xn ) es la realizacin de una M.A.S (X1 , X2 , ..., Xn ) . Supongamos adems que X es discreta con funcin de probabilidad pX (x, ), entonces
L (x1 , x2 , ..., xn , ) =
pX (xi , ) =
i=1
i.d.
P (X = xi , ) =
i=1
indep
P (Xi = xi , ) =
i=1
P (X1 = x1 , X2 = x2 , ..., Xn = xn , ) = P ((X1 , X2 , ..., Xn ) = (x1 , x2 , ..., xn )) .

Es decir que la funcin de verosimilitud es la probabilidad (en funcin de ) de que
la muestra (X1 , X2 , ..., Xn ) sea (x1 , x2 , ..., xn ), que es la muestra realmente observada.
Entonces, dado que es intuitivo, aunque no necesariamente cierto, pensar de que si
se observ la muestra (x1 , x2 , ..., xn ) , entonces la misma, debera tener una probabilidad alta de ocurrir, por lo tanto como mtodo se busca aquel valor de donde se
maximice esta probabilidad.
Podra no existir el estimador mximo verosmil en algunas situaciones, pero vale la
pena observar que si bien la funcin L podra no tener mximo, al menos en el caso
discreto es acotada superiormente, por lo que admite supremo.
Ejemplo 10.7.
Si X1 , X2 , ..., Xn M.A.S de X Ber(p), hallaremos el estimador mximo verosmil de p.
h(p) =
i=1
log pX (xi , p) =
i=1
log p (1 p)
xi
1xi
[xi logp + (1 xi ) log (1 p)] =
i=1
102
Captulo 10.
n
(
n
xi log p +
i=1
Luego,
0
h (p) =
Estimacin puntual.
)
xi log (1 p) .
i=1
n
i=1
1
xi
p
Entonces h0 (p) = 0 si y slo si p =
1
n
(
n
i=1
)
xi
1
.
1p
xi = x. Dado que para cada i se tiene que
i=1
xi {0, 1}, entonces X n {0, 1} para todo n, entonces analizando el signo de h0

vemos que h se maximiza para pb = X n .
Ejemplo 10.8.
Si X1 , X2 , ..., Xn M.A.S de X U (0, b), hallaremos el estimador

mximo verosmil de b.
L (b) =
i=1
{
n {
1/bn si 0 < x1 , x2 , ..., xn < b

1/b si 0 < xi < b
.
=
fX (xi , ) =
0
si
no
0 si
no
i=1
Dado que L es una funcin decreciente cuando b > x1 , x2 , ..., xn (es decir cuando
b >max{x1 , x2 , ..., xn }) y 0 cuando no, se deduce que la funcin L se optimiza para
bb =max {X1 , X2 , ..., Xn } .
Bajo ciertas condiciones de regularidad, es posible demostrar que existe el estimador mximo verosmil y es fuertemente consistente, tambin es posible demostrar la
convergencia en distribucin a una variable normal.
103
Captulo 11
Intervalos de conanza.
11.1. Denicin.
Dada una X1 , X2 , ..., Xn muestra aleatoria simple de X cuya funcin de distribucin
es FX (x, ) siendo R, en lugar de estimar el parmetro dando un valor
numrico a partir de los datos de la muestra, daremos una regin (en general un
intervalo) con probabilidad tan alta como se desee de que el verdadero parmetro
pertenezca a dicha regin (intervalo).
Denicin 11.1.
Si X1 , X2 , ..., Xn es una muestra aleatoria simple de X cuya funcin de distribucin es FX (x, ) siendo R.
Dado (0, 1), supongamos que a (X1 , X2 , ..., Xn ) y b (X1 , X2 , ..., Xn ) son dos estadsticos tales que P ( [a (X1 , X2 , ..., Xn ) ; b (X1 , X2 , ..., Xn )]) = 1 , diremos
entonces que I = [a (X1 , X2 , ..., Xn ) ; b (X1 , X2 , ..., Xn )] es un intervalo de conanza
de nivel 1 para el parmetro .
Observacin 11.2. Observamos que en la prctica el valor de (o equivalentemente

el nivel de conanza
1 )
est determinado por el investigador, por lo que es un
valor jo.
Observacin 11.3.
X1 , X2 , ..., Xn
es realizada en los nmeros x1 , x2 , ..., xn , el intervalo I = [a(x1 , x2 , ..., xn ); b(x1 , x2 , ..., xn )]
no es aleatorio y por lo tanto, la probabilidad de que I es 0 o 1 segn el parmetro
I o
/ I , entonces vale observar que el intervalo
I = [a(X1 , X2 , ..., Xn ); b(X1 , X2 , ..., Xn )] es aleatorio, mientras que el intervalo I =
[a(x1 , x2 , ..., xn ); b(x1 , x2 , ..., xn )] es jo, para distinguir una situacin de otra, se le
Observemos tambin que una vez que la muestra
suele llamar a ste ltimo, intervalo de conanza mientras que al otro se le suele
denominar intervalo aleatorio. En lo que sigue, seremos informales en la escritura y
les llamaremos a ambos intervalos de conanza, a pesar de que debemos tener clara
su diferencia.
104
Captulo 11.
11.2. Construccin de intervalos de conanza en algunos casos particulares.

En esta seccin, construiremos intervalos de conanza en algunos casos particulares.
Si X1 , X2 , ..., Xn es una muestra de X N (, 2 ). Supongamos que conocemos 2 .
Construiremos un intervalo de conanza para el parmetro desconocido .
c.s.
Sabemos por la ley fuerte de los grandes
nmeros que
] X n , por lo que es razonable
[
formar un intervalo de la forma X n k; X n + k siempre y cuando podamos hallar
(
[
])
k de modo que P X n k; X n + k = 1 cumpliendo adems que k no
dependa de parmetros desconocidos.
Recordamos que X n N (, 2 /n) por ser combinacin lineal de normales. Entonces
(
[
])
(
)
P X n k; X n + k = P k X n + k =
(
)
(
)
+k
k
=
/ n
/ n
( )
( )
( )
k n
k n
k n
= 2
1 = 1 ,
( )
luego k n = 1 /2 por lo que k n = 1 (1 /2) de donde obtenemos

1
k = (1/2)
. Dado que en este caso el valor de 2 se supone conocido, tenemos
n
que k no depende de parmetros desconocidos.
Si adems para cada p (0, 1) le llamamos zp = 1 (p) tendremos entonces el
intervalo de conanza para este caso como sigue
[
]
z1/2
z1/2
Xn
; Xn +
.
n
n
En el caso en que X1 , X2 , ..., Xn es una muestra aleatoria simple de X N (, 2 )

donde 2 es desconocido, si bien la igualdad calculada es vlida, carece de valor ya
z
que en este caso a (X1 , X2 , ..., Xn ) = X n 1/2

no es un estadstico (tampoco lo
n
es b) por lo que no es vlido como intevalo de conanza. Para obtener un intervalo
en estos caso introducimos dos nuevas familias de variables aleatorias.
Denicin 11.4.
Se dice que X tiene una distribucin tstudent con n grados de

libertad cuando tiene la siguiente densidad:
(
)
n+1
1
2( )
fX (x) =
n+1
n (
n 2 1 + x2 ) 2
n
Notacin: X tn .
Se observa que si X tn entonces E (X) = 0 para n > 1 (si n 1, entonces no existe
n
la esperanza) y se puede vericar que V (X) = n2
para n > 2 (si n 2, no admite
momentos de orden 2).
105
Captulo 11.
Denicin 11.5.
Se dice que X tiene una distribucin 2 con n grados de libertad

cuando tiene la siguiente densidad:
fX (x) =
1
2n/2 (n/2)
xn/21 ex/2 1{x>0}
Notacin: X 2n .
Se puede vericar que si X 2n , entonces E (X) = n y V (X) = 2n.
Para obtener un intervalo de conanza para en estos casos, nos serviremos del
siguiente teorema (que no demostraremos).
Teorema 11.6. Si X1 , X2 , ..., Xn es una muestra de X N (, 2 ) entonces

T (n 1) (tstudent
con
n1
grados de libertad) siendo
Sn2 =
1
n
n (
Xi
n1(X n )
Sn
)2
X n la
i=1
varianza muestral.
Entonces, veamos que en este caso podemos determinar k , no dependiendo de parmetros desconocidos, de modo que el intervalo de conanza de nivel 1 sea de la
]
[
n1(X n )
forma X n kSn ; X n + kSn . Para abreviar, le llamamos T a la variable
.
Sn
Entonces

(
[
])
(
)
P X n kSn ; X n + kSn = P X n kSn =
)
(

n 1 X n
P
n 1k =
Sn
(
)
P (|T | k) = P k T n 1k =
FT ( n 1k) FT ( n 1k) = 2FT ( n 1k) 1

ya que por simetra
de la distribucin de Student, se tiene que FT (t) = 1 FT (t).
Entonces 2FT ( n 1k) 1 = 1 de donde obtenemos k = FT1 (1 /2) que no

depende de parmetros desconocidos. Nuevamente si le llamamos tp (n) = F 1 (p)
para p (0, 1) y F funcin de distribucin
a una variable tStudent
correspondiente
1
con n grados de libertad, tenemos que n 1k = FT (1 /2) = t1/2 (n 1) por
lo que tenemos el intervalo de conanza en la forma
]
[
Sn t1/2 (n 1)
Sn t1/2 (n 1)
Xn
; Xn +
.
n1
n1
Para completar el caso de la variable normal, construiremos en lo que sigue un intervalo de conanza para 2 . Para ello nos serviremos del siguiente teorema (que no
demostraremos).
Teorema 11.7.
2 (n 1) (2
Si
con
X1 , X2 , ..., Xn
n1
X N (, 2 ) entonces nS
2
n
(
)
2
Sn2 = n1
Xi X n la varianza
es una muestra de
grados de libertad) siendo
i=1
muestral.
106
Captulo 11.
c.s.
Dado que Sn2 2 podramos nuevamente intentar buscar un intervalo en la forma

[Sn2 k; Sn2 + k] pero la idea no funciona, por lo tanto veremos si podemos encontrar
valores a y b tales que el intervalo quede en la forma [aSn2 ; bSn2 ] . Planteamos entonces la
ecuacin 1 = P ( 2 [aSn2 ; bSn2 ]) y hallaremos a y b tales que P ( 2 < aSn2 ) = /2
2
n
.
y P ( 2 > bSn2 ) = /2. Para simplicar le llamaremos 2 a la distribucin de nS
2
Entonces
(
)
( 2
)
(n)
( 2
)
2
nSn
n
2
2
P < aSn = P Sn >
=P
>
= 1 F2
= /2
a
2
a
a
por lo que
n
a
= F1
2 (/2) de donde obtenemos a =
n
F 1
2 (/2)
y nuevamente, llamndole
2p (n) = F 1 (p) siendo la funcin de distribucin asociada a una variable 2 (n) y

observando que en este caso la variable con la cual estamos distribuye 2 (n 1)
obtenemos a = 2 n(n1) . Trabajando anlogamente con la otra igualdad se obtiene
que b =
queda
/2
n
21/2 (n1)
y por lo tanto el intervalo de conanza para 2 de nivel 1 nos
]
nSn2
nSn2
;
.
2/2 (n 1) 21/2 (n 1)
En numerosas situaciones, se tiene una muestra X1 , X2 , ..., Xn de cierta X desconocida. Si el tamao de muestra es grande, y suponemos que X L2 y deseamos estimar
= E (X) mediante un intervalo de conanza, entonces podemos aplicar el teorema
central del lmite y realizar algunos clculos similares a los realizados, obtenindose
as intervalos de conanza de nivel aproximadamente iguales a 1 .
Efectivamente, debido al teorema central del lmite podemos armar que (en el caso n
sucientemente
grande)
la distribucin
de X n es aproximadamente N (, 2 /n). Por
(
[
])
lo tanto, P X n k; X n + k =
(
)
(
)
(
) TCL
+
k
=
P k Xn + k
=
/ n
/ n
( )
( )
( )
k n
k n
k n
= 2
1 = 1 ,
]
[
z
z1/2
;
X
+
es tal que
por lo que obtendramos que el intervalo I = X n 1/2
n
n
n
P ( I) = 1 . Ahora, como el intervalo depende de un parmetro desconocido

( ), no nos sirve como intervalo de conanza, pero recordando que n es grande,
podemos sustituir por un estimador consistente del mismo, por ejemplo Sn = Sn2
obtenindose de esa forma el intervalo
[
]
Sn z1/2
Sn z1/2
; Xn +
Xn
n
n
que es, ahora si, un intervalo de conanza de un nivel aproximadamente igual a 1 .

Como caso particular podemos obtener un intervalo de conanza aproximado para p
107
Captulo 11.
cuando X Ber(p) en el caso en que n es grande. Efectivamente, cuando X Ber(p)
2
entonces = E (X) = p, adems, como Xi = Xi2 , entonces Sn2 = n1 ni=1 Xi2 X n =
(
)
2
X n X n = X n 1 X n , obtenindose as un intervalo de conanza para p
(
)
(
)
X n 1 X n z1/2
X n 1 X n z1/2
X n
; Xn +
n
n
cuyo nivel es aproximadamente 1 .
11.3. Resumen.
Recordemos que dado p (0, 1) usamos las siguientes notaciones para F 1 (p) : zp si
F es la funcin de distribucin de una variable N (0, 1); tp (n) si F es la distribcuin
de una variable tn (tstudent con n grados de libertad) y 2p cuando F es la fucnin
de distribucin de una variable 2n dada X1 , X2 , ..., Xn muestra de X , hemos obtenido
intervalos de conanza para los siguientes casos.
1. Intervalo de conanza para = E (X) al nivel 1 .
a)
Si X N (, 2 ) con 2 conocido,
]
[
z1/2
z1/2
; Xn +
.
Xn
n
n
b)
Si X N (, 2 ) con 2 desconocido,
[
]
Sn t1/2 (n 1)
Sn t1/2 (n 1)
Xn
; Xn +
.
n1
n1
c)
Si X L2 y n es sucientemente grande, un intervalo aproximado es

[
]
Sn z1/2
Sn z1/2
Xn
; Xn +
.
n
n
2. Intervalo de conanza para p al nivel 1 cuando X Ber(p) y n es sucientemente grande, un intervalo aproximado es
(
)
(
)
X n 1 X n z1/2
X n 1 X n z1/2
X n
.
; Xn +
n
n
3. Intervalo de conanza para 2 en el caso en que X N (, 2 ) .
]
nSn2
nSn2
;
.
2/2 (n 1) 21/2 (n 1)
108

Notas de Probabilidad - Kalemkerian

Cargado por

Copyright:

Formatos disponibles

Notas de Probabilidad - Kalemkerian

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Notas de Probabilidad - Kalemkerian

Cargado por

Copyright:

Formatos disponibles

Las siguientes son notas del curso de Introduccin a la Probabilidad y Estadstica

que he dictado en 2010, para licenciatura en matemtica. Por correccin de erratas y

2. Probabilidad condicional e independencia.

Integrales mltiples impropias.

8. Convergencia en probabilidad, casi segura y en distribucin.

Como A entonces por ii) = c A.X

Como An A cualquiera sea n, entonces por

Captulo 1. Espacio de probabilidad.

Basta observar que A B = A B c A ya que A, B c A, e interseccin nita de

una familia cualquiera de ndices, entonces

para todo I , siendo I

{, } es -lgebra de conjuntos sobre , cualquiera sea el conjunto

2 es -lgebra de conjuntos sobre , cualquiera sea el conjunto .

-lgebra generada por una familia de subconjuntos de . Dada

La -lgebra generada por una familia de subconjuntos de , siempre existe y adems

Denicin 1.11. -lgebra de Borel en R. Consideramos F = {A R : A es abierto} .

I1 = {(a, b) R : a < b} ; I2 = {[a, b) R : a < b} ;

(I) = (I1 ) = (I2 ) = (I3 ) = (I4 ) = (I5 ) = (I6 ) = (I7 ) .

Captulo 1. Espacio de probabilidad.

1.2. Espacio de probabilidad.

Dado 6= , diremos que la terna (, A, P ) es un espacio de probabilidad sobre

Consideramos la familia de sucesos disjuntos A1 = , A2 = A3 = ... = , luego

Escribimos la unin disjunta (B A) (A B) = B . Luego, aplicando el axioma ii)

Captulo 1. Espacio de probabilidad.

son tales que

1. Es inmediato a partir de la propiedad anterior, si se observa que A B = A.X

Escribimos A B = (A B) (B A) (A B), unin disjunta, entonces

P (Ai1 Ai2 ... Aik ) .

1i1 <i2 <...<ik n

Se deja como ejercicio.

Se deja como ejercicio.

Propiedad de continuidad de las probabilidades.

{An }nN A es tal que: A1 A2 A3 ...

{An }nN A es tal que: A1 A2 A3 ...

Captulo 1. Espacio de probabilidad.

Denicin 1.23. Lmites superior e inferior de una sucesin de conjuntos.

Captulo 1. Espacio de probabilidad.

Ak es creciente, entonces P (liminf An ) =lim P

6. Si {An }nN es una sucesin creciente de sucesos, entonces liminf An = limsup

7. Si {An }nN es una sucesin decreciente de sucesos, entonces liminf An = limsup

La denicin de lmite superior e inferior de una familia de

conjuntos se dene de igual modo aunque no estemos en un espacio de probabilidad.

espacio de probabilidad y una sucesin

entonces se cumple que

Para la desigualdad (3), vemos que para todo n se tiene que

Un razonamiento anlogo prueba la desigualdad (1).

Ejemplo 1.26. Si es un conjunto innito numerable, es decir = {w1 , w2 , ..., wn , ...}

Ejemplo 1.27. Modelo de equiprobabilidad. Si es nito, denimos P

Captulo 1. Espacio de probabilidad.

Se tiran 3 dados y se desea calcular la probabilidad de que salga al

Si se tiran 24 veces dos dados, es ms ventajoso apostar por la

doble 6 en las 24 tiradas", tenemos que n (A) = |35 35 {z

tanto P (A) = (35/36) = 0,508 por lo que es ms conveniente apostar a que no

1.3. Apndice y notas histricas.

Dado un conjunto 6= , se dice que A es un lgebra de subconjuntos de si y slo

Captulo 1. Espacio de probabilidad.

Este resultado adems de demostrar que existen conjuntos no

borelianos, nos permite demostrar tambin que cuando

Por lo tanto si queremos trabajar con un espacio de probabilidad donde se elije un

Basta observar que A B = A B c A ya que A, B c A, e interseccin nita de

Denicin 1.11. -lgebra de Borel en R. Consideramos F = {A R : A es abierto} .

Denicin 1.23. Lmites superior e inferior de una sucesin de conjuntos.

La denicin de lmite superior e inferior de una familia de

conjuntos se dene de igual modo aunque no estemos en un espacio de probabilidad.

Ejemplo 1.26. Si es un conjunto innito numerable, es decir = {w1 , w2 , ..., wn , ...}

Ejemplo 1.27. Modelo de equiprobabilidad. Si es nito, denimos P

sea la longitud del mismo, no nos quedar ms remedio que de-

Este clculo (y otros) motivan la siguiente denicin.

Evidente a partir de la denicin.X

P (B) > 0. Denimos AB = {A B : A A } y

juntos sobre B y que PB dene una probabilidad sobre B .

Si la familia de sucesos se reduce a dos, entonces la denicin

pero la ventaja que tiene la denicin dada es que no requiere

B C . Se puede chequear sin dicultad que las 4 condiciones

Observacin 3.3. Si es nito o innito numerable, cualquier funcin X : Rk