Onésimo - Probabilidad y Procesos Estocásticos I

Septiembre 2009.
Notas de clase
PROBABILIDAD Y PROCESOS
ESTOCASTICOS
Onesimo HernandezLerma
Parte I. Probabilidad
1. Espacios de medida
2. Espacios discretos y continuos
3. Probabilidad condicional e independencia
4. Variables aleatorias
5. Vectores aleatorios
6. Esperanza de vv.aa. discretas y continuas
7. La integral de Lebesgue
8. Esperanza e independencia
9. Convergencia de vv.aa.
10. Funciones caractersticas y el Teorema Lmite Central
11. Esperanza condicional
12. Martingalas
Parte II. Procesos estocasticos
13. Cadenas de Markov: conceptos basicos
de estados de una CM
14. Clasificacion
lmite de una CM
15. Distribucion
16. Procesos a tiempo continuo: introduccion

17. Proceso markoviano de saltos
18. La matriz generadora de un PMS
19. Comportamiento asintotico

de un PMS
20. Procesos de segundo orden
21. Calculo en L2
22. Ecuaciones diferenciales en L2
23. La integral de Ito
24. La regla diferencial de Ito
25. Ecuaciones diferenciales estocasticas
26. Apendice: propiedades de las soluciones de EDEs
Bibliografa de Probabilidad
R.B. Ash (1970). Basic Probability Theory. Wiley.
R.B. Ash (1972). Real Analysis and Probability, Academic Press. Se (2000): Probability and Measure Theory.
gunda edicion
L. Breiman (1968). Probability, AddisonWesley. (Second edition,
SIAM, 1992.)
R.M. Dudley (2003). Real Analysis and Probability, Second Edition,
Cambridge University Press.
P.G. Hoel, S.C. Port, C.J. Stone (1972). Introduction to Stochastic Processes, Houghton Mifflin.
O. Kallenberg (2002). Foundations of Modern Probability, Second Edition, SpringerVerlag.
J. Jacod, P. Protter (2003).
Springer.
Probability Essentials, Second Edition.
D. Khoshnevisan (2007). Probability. American Math. Soc.

R.G. Laha, V.K. Rohatgi (1979). Probability Theory, Wiley.
I.K. Rana (2002). An Introduction to Measure Theory and Integration.
Second Edition. American Math. Soc.
J.S. Rosenthal (2000). A First Look at Rigorous Probability Theory. World
Scientific.
S.M. Ross, E.A. Pekoz (2007). A Second Course in Probability, Probability Bookstore.com.
H.G. Tucker (1967). A Graduate Course in Probability, Academic Press.
Espacios de medida
Contenido: Espacios medibles, conjuntos de Borel, medidas, el teorema

de Caratheodory.
de extension
Un espacio de medida es una terna (, F, ) cuyas componentes defi
nimos en esta seccion.
1.1 Definicion.
Sea un conjunto no vaco y F una familia de subconjuntos de . Decimos que F es una algebra si:
(a) F,
(b) si A F, entonces Ac F,
de conjuntos en F, entonces An F.
(c) si {A1 , A2 , . . .} es una sucesion
(a) se puede obtener de (b) y (c). Sin embargo,

Notese
que la condicion
(a) se incluye explcitamente
a pesar de ser una redundancia, la condicion
1.1 para enfatizar el hecho de que el espacio total
en la Definicion
pertenece a la familia F.
1.2 Proposicion.
Si F es una algebra de , entonces
(a) F,
en F, entonces An F.
(b) si {An } es una sucesion
1.3 Definicion.
Si F es una algebra de , se dice que el par (, F) es un
espacio medible. Si A es un conjunto en F, decimos que A es Fmedible
(o medible con respecto a F).
Terminologa de probabilidad. Si (, F) es un espacio medible, en probabilidad se dice que es el espacio muestral o evento seguro, y que F es
Probabilidad
una familia de eventos. A un conjunto A F se le llama evento. Al

conjunto vaco F se le llama evento imposible.
1.4 Ejemplos
(a) A la familia {, } se le llama la algebra trivial, y es la mnima
algebra de .
(b) La algebra que consiste de todos los subconjuntos de se llama
el conjunto potencia de y se denota por 2 . Esta es la maxima
a lgebra de . (El nombre conjunto potencia se debe a que si consiste de n
elementos, digamos = {1 , 2 , . . . , n }, entonces tiene 2n subconjuntos.
Vea el Ejemplo 2.8.)
(c) Si {Fi , i I} es una familia de algebras de , entonces la inter Fi tambien es una algebra. (Nota. En general, la union
Fi no
seccion
(c) en 1.1 no se cumple.)
es una algebra porque la condicion
(d) Sea A una familia arbitraria de subconjuntos de , y sea {A} la
de todas las algebras de que contienen a A. Entonces,
interseccion
por (c), {A} es una algebra y, de hecho, es la mnima algebra que
contiene a A; es decir, si F es cualquier algebra de que contiene a A,
entonces {A} F. A {A} se le llama la algebra generada por A. Por
ejemplo, supongase
que A consiste de un unico
conjunto B , es decir,
A = {B}. Entonces {A} = {B, B c , , }. 2
Un caso especial muy importante del Ejemplo 1.4(d) es el siguiente.
1.5 Definicion.
Sea = IR y sea A la familia de todos los intervalos abiertos (a, b) IR. Entonces la algebra {A} generada por A se llama la
algebra de Borel de IR y se denota por B(IR). Si B B(IR) se dice que
B es un conjunto de Borel de IR.
numerUn conjunto abierto en IR se puede expresar como una union
able de intervalos abiertos. Por lo tanto, por las Definiciones 1.5 y 1.1(c),
cualquier conjunto abierto en IR es un conjunto de Borel. Luego, por
1.1(b), tambien cualquier conjunto cerrado en IR es un conjunto de Borel.
Asimismo, los intervalos de la forma (a, b] o [a, b) son conjuntos de Borel.
Por ejemplo,
(a, b] = (, b] (a, ) B(IR).
1.5 se puede extender al caso vectorial = IRn como

La Definicion
sigue. Si a = (a1 , . . . , an ) y b = (b1 , . . . , bn ) son vectores en IRn , decimos que
a < b si ai < bi para i = 1, . . . , n. En este caso definimos el rectangulo
abierto (a, b) en IRn como el producto cartesiano
(a, b) := (a1 , b1 ) (an , bn )
= {x IRn |ai < xi < bi para i = 1, . . . , n}.
1.6 Definicion.
Sea = IRn y sea A la familia de todos rectangulos abiertos
(a, b) en IRn . La algebra generada por A se llama la algebra de Borel
de IRn y se denota por B(IRn ). Si B esta en B(IRn ) se dice que B es un
conjunto de Borel en IRn .
Al igual que en el caso escalar (n = 1) se puede ver que cualquier
conjunto abierto y por tanto cualquier conjunto cerrado en IRn es un
conjunto de Borel.
Medidas
1.7 Definicion.
Sea (, F) un espacio medible y IR := IR {+, }
el conjunto extendido de los numeros

reales. Se dice que una funcion
: F IR es una medida sobre F (o sobre (, F)) si
(a) () = 0,
(b) (A) 0 para cada A F,
de conjun(c) es aditiva en el sentido de que si {An } es una sucesion
tos ajenos en F (es decir, An Am = para n 6= m), entonces
(
n=1
An ) =
(An ).
(1)
n=1
En este caso se dice que (, F, ) es un espacio de medida. A (A) se le

llama la medida del conjunto A F (con respecto a ). Si () < , se
dice que es una medida finita. En particular, si () = 1, se dice que
es una medida de probabilidad (en forma abreviada: m.p.).
Si es una m.p. se acostumbra escribir P y decimos que (, F, P)
Probabilidad
es un espacio de probabilidad. Asimismo, se dice que P(A) es la probabilidad del evento A F.

Por otra parte, para ver que P es una m.p. basta verificar las condiciones 1.7(b), 1.7(c) y que P() = 1, porque de aqu se deduce trivialmente
1.9(a).)
1.7(a), es decir P() = 0. (Vea la Proposicion
1.8 Ejemplos de medidas. Sea (, F) un espacio medible.
(a) La medida trivial: (A) = 0 para todo A F.
(b) Sea #(A) la cardinalidad (o numero

de elementos) de A F. La
medida de conteo es (A) := #(A). Es decir,

(A) =
n
si #(A) = n < ,
+ en c.c. (caso contrario).
(c) Para cada punto definimos la medida de Dirac en

como

1 si A,
(A) :=
0 en c.c.
A tambien se le llama la m.p. (o medida unitaria) concentrada en
.
(d) Medida de Lebesgue. Sea (, F) = (IR, B(IR)). Si I es un intervalo
en IR de la forma (a, b) o [a, b] o (a, b] o [a, b), definimos la longitud de I
como `(I) := b a. Asimismo, si I1 , . . . , Ik son intervalos ajenos, definimos
`(
k
[
Ii ) := `(I1 ) + + `(Ik ).
(2)
i=1
Un resultado de Analisis Real (vea el Teorema 1.19) asegura que la longi

tud ` se puede extender a una medida unica
sobre (IR, B(IR)) tal que
(I) = `(I) intervalo I,
y a se llama la medida de Lebesgue sobre IR. Algunas propiedades de
, para B B(IRn ), son las siguientes.

Si B es abierto, entonces (B) > 0.
Si B es un conjunto acotado, entonces (B) < .
Si B = {x} consiste de un unico

punto x, entonces (B) = 0. (Compare
con la medida de Dirac x .)
Si B = {x1 , x2 , . . .} es un conjunto numerable, entonces (B) = 0.
Cabra preguntarse si se cumple el recproco de esta ultima

propiedad,
es decir, si (B) = 0 implica que B es a lo mas numerable, o sea finito o
infinito numerable. La respuesta es no; vea el Ejercicio 1.15.
La medida de Lebesgue sobre IRn (n 2) se define de manera similar.
Si I = (a, b) = (a1 , b1 ) (an , bn ) es un rectangulo en IRn definimos su
volumen como
v(I) := (b1 a1 ) (b2 a2 ) (bn an ).
Tambien se define una propiedad analoga a (2) con v en lugar de `. En una medida sobre
tonces se puede demostrar que existe una y solo
IRn tal que
(I) = v(I) rectangulo I IRn .
En este caso decimos que es la medida de Lebesgue sobre IRn .
1.9 Proposicion.
(Propiedades de P) Sea (, F, P) un espacio de probabilidad, y A, B eventos en F.
(a) P(Ac ) = 1 P(A)
(b) P(B A) = P(B) P(B A). En particular, P(B A) = P(B) P(A)
si A B.
(c) Propiedad de monotona: P(A) P(B) si A B.
(d) P(A B) = P(A) + P(B) P(A B).
Probabilidad
(e) Si A1 , . . . , An estan en F,
P(
n
[
i=1
Ai )
n
X
P(Ai ).
i=1
1.10 Definicion.
(Sucesiones monotonas
de eventos) Sea {An } una suce de subconjuntos de .

sion
(a) Si An An+1 para todo n = 1, 2, . . . , decimos que {An } es una
creciente (o nodecreciente) y que converge al lmite A+ :=
sucesion
S
An . (En forma abreviada escribimos An A+ .)
n=1
(b) Si An An+1 para todo n = 1, 2, . . . , decimos que {An } es una

decreciente (o nocreciente) y que converge al lmite A :=
sucesion
T
An . (En forma abreviada: An A .)
n=1
Ejemplo. (a) Sea An := [0, n] para n = 1, 2, . . . . Entonces An A+ := [0, ).

(b) Si An := [0, 1 1/n], entonces An A+ := [0, 1).
(c) Si An := [0, 1/n], entonces An {0}. Pero los intervalos abiertos
An := (0, 1/n) . 2
1.11 Proposicion.
(Continuidad de P con respecto a sucesiones monoto
nas)
(a) Si An A+ , entonces lim P(An ) = P(A+ ); de hecho, P(An ) P(A+ ).
(b) Si An A , entonces lim P(An ) = P(A ); de hecho, P(An ) P(A ).
de even1.12 Corolario. (Desigualdad de Boole) Si {An } es una sucesion
tos, entonces
[
X
P(
An )
P(An ).
n=1
n=1
1.13 Observacion:
terminologa de conjuntos vs. enunciados probabilsticos. Sean A y B dos eventos
Conjuntos
Enunciado probabilstico
AB
A y B ocurren ( ambos ocurren)
AB
A o B ocurren ( al menos uno de los dos

eventos ocurre)
Ac
A no ocurre
AB =
A y B son mutuamente excluyentes
A B = A Bc
A ocurre y B no ocurre
AB
A implica B ( si A ocurre, entonces

tambien B ocurre)
AB = (A B) (B A) Ocurren A o B pero no ambos

(A B)c = Ac B c
No ocurren A ni B
1.14 Ejemplo. Considere tres eventos A, B y C. Encuentre una expresion

y represente en un diagrama de Venn los eventos siguientes:
(a) Ocurre exactamente uno de los tres eventos A, B, C.
(b) Ocurren a lo mas dos de los tres eventos.
(c) Ocurren los tres eventos (simultaneamente).
(d) Ocurren exactamente dos de los tres eventos.
(e) Ocurren A o B pero no C.
(f) Ocurre A unicamente.

de numeros
1.15 Observacion.
Si {xn } es una sucesion
reales, definimos
lim sup xn := inf sup xk ,
n1 kn
lim inf xn := sup inf xk .

n1 kn
supkn xk (n = 1, 2, . . .) es decreciente (o no-creObserve que la sucesion

ciente) y, por lo tanto, su lmite existe y coincide con lim sup xn , i.e.
lim sup xn = lim sup xk .
n kn
Probabilidad
Analogamente, inf kn xk es creciente (o nodecreciente) y

lim inf xn = lim inf xk .
n kn
En general, lim inf xn lim sup xn . Si se cumple la igualdad, es decir,

lim inf xn = lim sup xn =: x,
{xn } converge a x y escribimos lim xn = x o xn
se dice que la sucesion
x. 2
Construccion
de medidas
1.16 Definicion.
Sea A una familia de subconjuntos de un conjunto .

Decimos que es A es una a lgebra si
(a) A;
(b) si A esta en A, su complemento Ac tambien esta en A;
Sn
(c) si A1 , . . . , An esta en A, entonces su union

en esta en A.
i=1 Ai tambi
1.1 vemos que la diferencia entre
Comparando 1.16 con la Definicion
una a lgebra y una algebra es que la primera es cerrada bajo uniones
finitas, mientras que la segunda es cerrada bajo uniones numerables.
Por otra parte, en 1.7 definimos una medida sobre una algebra. A
definiremos el concepto de medida sobre una a lgebra.
continuacion
1.17 Definicion.
Sea A una a lgebra de subconjuntos de un conjunto .

: A IR tal que
Una medida sobre A es una funcion
(a) () = 0,
(b) (A) 0 para todo A A, y
de conjuntos ajenos en A y cuya union
esta en
(c) Si {An } es una sucesion
A, entonces
[
X
(
An ) =
(An ).
n=1
n=1
1.18 Ejemplo. Volviendo al Ejemplo 1.8(d), sea A la familia de todas las

uniones finitas de intervalos de la forma
(a, b], (, b], (a, +), (, +).
(3)
Ademas, si I1 , . . . , In son conjuntos ajenos de la forma (3), definimos la

como en (2), es decir
longitud de su union
[
[
`(I1 In ) := `(I1 ) + + `(In ).
Entonces A es una a lgebra y la longitud ` es una medida sobre A. (Una de de este hecho se puede ver, por ejemplo, en el Lema 9.3 del
mostracion,
libro: R.G. Bartle, The Elements of Integration and Lebesgue Measure, Wiley,
1996.) 2
En vista de este ejemplo, la pregunta es como

extender la longitud ` a
la medida de Lebesgue sobre B(IR). Esto es consecuencia del siguiente
resultado.
1.19 Teorema de extension
de Caratheodory. Una medida sobre una a l
gebra A se puede extender de manera unica
a una medida sobre la
a lgebra generada por A.
En particular, si A es la a lgebra en el Ejemplo 1.18, la algebra {A}
generada por A es precisamente la algebra de Borel B(IR), y la extension

de la longitud ` es la medida de Lebesgue .
Una pregunta obvia es si la medida de longitud se puede extender a
todos los subconjuntos de IR. La respuesta es no, de acuerdo con el sigu
iente resultado de S. Ulam (en el cual se supone la validez de la hipotesis
del continuo).
1.20 Teorema de Ulam. Sea una medida definida sobre todos los subconjuntos de IR tal que ((n, n + 1]) < para todo entero n, y ({x}) = 0
para todo x IR. Entonces (A) = 0 para todo A IR.
10
Probabilidad
de 1.20 se puede ver en la seccion

3.4 del libro: I.K.
Una demostracion
Rana, An Introduction to Measure and Integration, Second Edition, American
Mathematical Society, 2002.
1.21 Observacion.
(a) Se dice que un espacio de medida (, F, ) es completo (o que la algebra F es completa con respecto a ) si F contiene a
todos los subconjuntos de conjuntos de medida cero; es decir, si A F es
tal que (A) = 0 y N A, entonces N esta en F.
(b) La completacion de una algebra F con respecto a una medida se
que contiene a F y tal que si A F
define como la mnima algebra F
Equivalentemente, la
tiene medida cero y N A entonces N F.
de F es
completacion
:= {A N | A F
F
y N B
para algun
B F con (B) = 0}.
En este caso, la medida se extiende de manera unica

a una medida
sobre F definida como

(A N ) := (A). A
se le llama la completacion de
.
es la
(c) La algebra de Borel, B(IR), no es completa. Su completacion
llamada algebra de Lebesgue.
Ejercicios 1
1.1 Demuestre las leyes (o formulas)

de De Morgan: si {Ai , i I} es
arbitraria de subconjuntos de , entonces
una coleccion
S
T
(a) ( Ai )c = Aci ,
i
T
S
(b) ( Ai )c = Aci
i
1.2 Sea (, F) un espacio medible. Demuestre que si A y B estan en

F, entonces la diferencia A B := A B c y la diferencia simetrica AB :=
(A B) (A B) tambien estan en F.
1.3 Sea (, F) un espacio medible y B un conjunto Fmedible. La
11
algebra F restringida a B se define como la familia

F(B) := {A B|A F}.
Demuestre que, efectivamente, F(B) es una algebra y, por lo tanto,
(B, F(B)) es un espacio medible. (Notese

que un conjunto C esta en F(B)
si existe A F tal que C = A B.) Algunas veces F(B) se escribe
si y solo
como F B.
Como ejemplo, sea (, F) = (IR, B(IR)) y sea B el intervalo [a, b]. Entonces la pareja
([a, b], B([a, b])),
con B([a, b]) = B(IR) [a, b],
es un espacio medible.
1.4 Sean y 0 dos conjuntos arbitrarios y f : 0 una funcion

0
dada. Si B es un subconjunto de , definimos la imagen inversa de B con
respecto a f como
f 1 (B) := { |f () B}.
Si C es una familia de subconjuntos de 0 , definimos la imagen inversa de C
con respecto a f como la familia de subconjuntos de dada por
f 1 (C) := {f 1 (B)|B C}.
Demuestre:
(a) f 1 (0 ) =
(b) Si B y C son subconjuntos de 0 , entonces f 1 (C B) = f 1 (C)
f 1 (B). En particular, f 1 (B c ) = [f 1 (B)]c y f 1 () = .
(c) Si {Bi , i I} es una familia arbitraria de subconjuntos de 0 , entonces
[
\
\
[
f 1 ( Bi ) =
f 1 (Bi ) y f 1 ( Bi ) =
f 1 (Bi )
i
(d) Si F0 es una algebra de 0 , entonces la familia

f 1 (F0 ) := {f 1 (B)|B F0 }
es una algebra de .
12
Probabilidad
1.15.) Si {An } es una sucesion

de
1.5 (Compare con la Observacion
subconjuntos de , definimos
lim sup An :=
Ak
n=1 k=n
y
lim inf An :=
Ak .
n=1 k=n
Si lim inf An = lim sup An =: A, decimos que {An } converge a A y, en este

caso, escribimos lim An = A o An A. Demuestre:
(a) lim inf An lim sup An . De un ejemplo en el que lim inf An 6= lim sup An .
1.10), entonces
(b) Si {An } es creciente o decreciente (vea la Definicion
+
An A o An A , respectivamente, en donde A+ := An y
A := An .
En los incisos siguientes suponga que (, F) es un espacio medible.
en F, entonces lim inf An y lim sup An estan en
(c) Si {An } es una sucesion
F. Ademas,
P(lim inf An ) lim inf P(An ) lim sup P(An ) P(lim sup An ). ()
(Sugerencia: para demostrar la primera desigualdad en (*) primero note
Ak , para n = 1, 2, . . . , es creciente; despues use la

que la sucesion
k=n
de lim inf An y la Proposicion

1.11(a). La demostracion
de la
definicion
tercera desigualdad en (*) es similar. Por ultimo,

observe que la segunda
desigualdad se sigue de 1.15.)
(d) Continuidad de P: Deduzca de (*) que si An A, entonces P(An )
P(A).
1.6 Sea (, F, ) un espacio de medida y B un conjunto Fmedible.
Para cada A F definimos B (A) := (A B). Demuestre:
13
(a) B es una medida sobre F, llamada la restriccion

de a B;
(b) si 0 < (B) < , entonces
PB (A) := B (A)/(B) = (A B)/(B) A F
es una m.p. sobre F.
1.7 Sea p > 0 una constante y (, F, P) un espacio de probabilidad en el
que F es el conjunto potencia 2 , y P(A) = p para cada conjunto A = {}
con un solo punto . Demuestre:
un numero
(a) tiene solo

finito de puntos; de hecho #() 1/p.
(b) Si #() = n, entonces p = 1/n.
1.8 Sean P1 , . . . , Pn m.p.s sobre (, F), y 1 , . . . , n numeros

no nega convexa
tivos con 1 + + n = 1. Demuestre que la combinacion
n
P
P :=
i Pi es una m.p.
i=1
1.9 Demuestre que |P(A) P(B)| P(AB) para cualesquiera dos

eventos A y B. (AB es la diferencia simetrica definida en el Ejercicio 2.)
Observacion.
Dadas dos medidas 1 , 2 sobre un espacio medible (, F),
se dice que 1 2 si 1 (A) 2 (A) para todo A F. La igualdad 1 = 2
se define analogamente.
1.10 Demuestre que si P1 , P2 son dos medidas de probabilidad sobre
(, F) y P1 P2 , entonces P1 = P2 .
1.11 Sea {n } una sucesion creciente de medidas sobre F, es decir, n
n+1 para todo n. Defina, para cada A F,
(A) := lim n (A)
n
Demuestre que es una medida sobre F y que (A) = supn1 n (A) para
todo A F.
1.12 Demuestre que para cualquiera n eventos A1 , . . . , An , con n 2,
P(A1 . . . An ) P(A1 ) + + P(An ) n + 1.
14
Probabilidad
de eventos tales que P(An ) = 1

1.13 Demuestre: si {An } es una sucesion
T
An ) = 1.
para todo n, entonces P(
n=1
1.14 (a) Demuestre el Lema de BorelCantelli queP

dice lo siguiente:
de eventos tales que
si {An , n 1} es una sucesion
n=1 P(An ) < ,
entonces P(lim sup An ) = 0.
(b) Sea (, F, P) el espacio unitario = [0, 1], F = B[0, 1] y P =
de eventos
la medida de Lebesgue. Considere la sucesion
P An := [0, 1/n]
para n = 1, 2, . . .. Calcule lim sup An , P(lim sup An ), y n=1 P(An ). Diga si
se cumple el recproco del Lema de BorelCantelli.
1.15 Sea C [0,1] el conjunto de Cantor que se define como sigue. Tomese el intervalo [0,1] y elimine el intervalo abierto que consiste del tercio
medio (1/3, 2/3). De cada una de las dos partes restantes [0,1/3] y [2/3,1]
se elimina el tercio medio abierto, o sea, (1/9,2/9) y (7/9,8/9). De cada
una de las cuatro partes restantes se eliminan los tercios medios abiertos
(1/27,2/27), (7/27,8/27), (19/27,20/27), y (25/27,26/27). Procediendo de
manera inductiva, de los subintervalos que quedan en la nesima etapa se
eliminan los 2n1 tercios medios abiertos, cada uno de longitud 1/3n . El
conjunto de Cantor es lo que resulta del procedimiento anterior cuando
n . Demuestre que C es un conjunto nonumerable que tiene medida
de Lebesgue cero.
15
Espacios discretos y continuos
de densidad discreta, permutaciones, combinaContenido: Funcion

de densidad continua.
ciones, funcion
como ejemplos de espacios de probabilidad introduciEn esta seccion,
en
mos los espacios discretos y continuos, que son de uso muy comun
probabilidad.
2.1 Definicion.
Decimos que un espacio medible (, F) es discreto si es
un conjunto finito o infinito numerable, en cuyo caso la algebra F es el
conjunto potencia de , es decir, F = 2 .
tal que
Sea (, F) un espacio medible discreto y f : IR una funcion
X
f (x) = 1.
(1)
(i) f (x) 0 x , y (ii)
x
En este caso decimos que f es una funcion

de densidad discreta y definimos la m.p. asociada a f como
X
f (x) A .
(2)
Pf (A) :=
xA
Podemos escribir (2) en varias formas equivalentes. Por ejemplo, usando

las medidas de Dirac x introducidas en el Ejemplo 1.8(c), podemos expresar (2) como
X
Pf (A) =
f (x)x (A).
x
Asimismo, si IA := IR es la funcion
indicadora del evento A, que se
define como

1 si x A,
IA (x) :=
(3)
0 si x 6 A,
vemos que (2) resulta
Pf (A) =
X
x
f (x)IA (x).
16
Probabilidad
Algunas funciones de densidad discretas muy comunes son las siguientes.
2.2 Ejemplo. (a) La densidad uniforme. Supongase

que es un conjunto
finito, digamos = {x1 , . . . , xn }, y sea f (xi ) := 1/n para todo i = 1, . . . , n.
Entonces (2) resulta
Pf (A) = #(A)/n
A .
Por ejemplo, en el lanzamiento de una moneda, = {a, s} y f (x) = 1/2.

En el lanzamiento de un dado, = {1, 2, 3, 4, 5, 6} y f (x) = 1/6. En este
ultimo
caso, Pf (A) = 1/2 si A es cualquier subconjunto con tres elementos.
(b) La densidad binomial. Supongase

que = {0, 1, . . . , n}. Si k es un
entero no negativo, el factorial de k es k! := 1 2 k (con 0! := 1) y el
coeficiente binomial

n!
n
:=
para k = 0, 1, . . . , n.
k
k!(n k)!
Entonces, dado un numero

0 < p < 1, definimos la densidad binomial
f : IR como

n
f (k) :=
pk (1 p)nk para k = 0, . . . , n.
(4)
k
Usando el Teorema del Binomio

n
X
n
(a + b) =
ak bnk
k
n
(5)
k=0
de densidad disse puede verificar que, efectivamente, f es una funcion

creta.
Caso especial: si n = 1, entonces = {0, 1} y a f se le llama densidad
toma los valores f (1) = p y f (0) = 1 f (1) = 1 p.
Bernoulli, que solo
(c) La densidad geometrica. Supongase

que = {0, 1, . . .} y sea p
(0, 1) un numero
dado. Entonces
f (k) := p (1 p)k
para k = 0, 1, . . .
17
es la funcion
de densidad geometrica. Para verificar que f satisface (1)
use la serie geometrica
X
k=0
rk =
1
1r
si |r| < 1.
(d) La densidad de Poisson. Sea = {0, 1, . . .} y > 0 un numero
dado. La funcion
f (k) := e k /k! para k = 0, 1, . . . ,
se llama la densidad de Poisson con parametro . Para verificar (1) use la
serie exponencial
X
r
e =
rk /k! r IR.
k=0
Los siguientes conceptos son utiles

para calcular probabilidades sobre
conjuntos finitos.
2.3 Definicion.
Sea un conjunto que consiste de n elementos y sea k un
entero entre 0 y n.
(a) Una permutacion

de orden k (de los elementos de ) es una seleccion
ordenada, sin repeticiones, de k elementos de .
(b) Una combinacion
de orden k (de los elementos de ) es un subconjunto de con k elementos.
Por ejemplo, sea = {a, b, c} y k = 2. Entonces las permutaciones de
orden 2 son
(a, b), (a, c), (b, a), (b, c), (c, a) y (c, b),
mientras que las combinaciones de orden 2 son
{a, b}, {a, c} y {b, c}.
Denotaremos por p(n, k) el numero

de permutaciones de orden k de un
conjunto con n elementos, y por c(n, k) el numero

de combinaciones. Para
calcular p(n, k) usaremos el siguiente principio.
2.4 Principio de la multiplicacion.
Considerense k tareas, digamos

A1 , . . . , Ak , tales que A1 se puede realizar en n1 formas y, para i 2, Ai
18
Probabilidad
se puede realizar en ni formas una vez que A1 , . . . , Ai1 se han realizado.

se puede realizar en
Entonces la tarea total (A1 , A2 , . . . , Ak ) en sucesion
n1 n2 nk formas.
Usando 2.4 vemos que el numero

de permutaciones de orden k es
p(n, k) = n (n 1) (n k + 1) =
n!
(n k)!
para k = 1, . . . , n.
(6)
de orden k tenemos k! permutaPor otra parte, para cada combinacion

ciones de orden k, o sea
p(n, k) = c(n, k) k!
Por lo tanto, el numero

de combinaciones de orden k es
c(n, k) =
p(n, k)
n!
=
k!
k!(n k)!
es decir,

c(n, k) =
n
k
[por (6)],

.
(7)
2.5 Ejemplo. En un lote de 100 artculos hay 6 defectuosos. Si se toman

del lote 5 artculos al azar, cual la
probabilidad
3 de ellos

de exactamente

6
94
100
sean defectuosos? Respuesta:
/
.
3
2
5
2.6 Ejemplo. Se desea formar un comite de 4 profesores de un grupo que
consiste de 10 profesores adjuntos y 6 titulares.

16
(a) Cuantos comites se pueden formar en total? Respuesta:
.
4
(b) Cual es la probabilidad de que todos
los
miembros

del comite sean
10
16
profesores adjuntos? Respuesta:
/
.
4
4
2.7 Ejemplo. Considerese un codigo

binario de sucesiones de 00 s y 10 s.
Cuantas palabras se pueden codificar usando exactamente n smbolos?
19
Respuesta: 2n .
2.8 Ejemplo. Demuestre que si un conjunto A consiste de n elementos,
entonces A tiene 2n subconjuntos.
Solucion. El numero
de subconjuntos de A
=
n
X
(numero
de subconjuntos con k elementos)
k=0

n
X
n
=
k
(por (7))
= (1 + 1)n = 2n
(por (5)). 2
k=0
2.9 Definicion.
Sea (, F) = (IR, B(IR)). Se dice que f : IR IR es una

funcion
de densidad continua si f (x) 0 para todo x IR y
Z
f (x)dx = 1.
En este caso, la m.p. asociada a f es la m.p. Pf sobre B(IR) definida por

Z
Pf (A) :=
f (x)dx A B(IR).
(8)
A
Nota. La m.p. Pf en (8) es continua en un sentido que especificaremos

de densidad f no necesariamente es conposteriormente, pero la funcion
tinua; vea el Ejemplo 2.10(a) o (b). 2
Equivalentemente, (8) se puede expresar como
Z
Pf (A) =
f (x) IA (x)dx,
(9)
indicadora de A definida en (3). La condicion

de
en donde IA es la funcion
1.7(c) significa que si {An } es una sucesion
aditividad en la Definicion
de conjuntos ajenos en B(IR) y A = An , entonces
X
XZ
f (x)dx.
Pf (A) =
Pf (An ) =
n
An
20
Probabilidad
indicadora de
Esta igualdad se puede demostrar escribiendo la funcion
A = An como
X
IA =
IAn (pues los An son ajenos)
n
y (9) resulta
Z
"
Pf (A) =
f (x)
#
X
"
XZ
n
#
X
=
=
IAn (x) dx
f (x)IAn (x) dx
f (x)IAn (x)(dx) (explique)
Pf (An ).
2.10 Ejemplo. (a) La densidad uniforme sobre un intervalo [a, b] es la
funcion
f (x) := 1/(b a) si x [a, b],
:= 0 en c.c.
2.10.
Es facil ver que f satisface la Definicion
(b) La densidad exponencial con parametro ( > 0) se define como
f (x) := ex si x 0,
:= 0 en c.c.
Notese
que f () 0 y
Z
Z
f (x)dx =
f (x)dx
Z y
lim
ex dx
0
=
=
lim (1 ey ) = 1.
21
(c) La densidad de Cauchy se define para todo x IR como

f (x) :=
Entonces f () 0 y
Z
1
.
(1 + x2 )
Z
1 dx
f (x)dx =
1 + x2
1
=
arc tan x|x=+
x=
=
[ ( )] = 1.
2
2
(d) La densidad normal (o gaussiana) con parametros m IR y 2 > 0
es la funcion
f (x) := (2 2 )1/2 e(xm)
2 /2 2
x IR.
(10)
En particular, si m = 0 y 2 = 1 se obtiene la densidad normal estandar

(x) := (2)1/2 ex
Sea
:=
ex
2 /2
2 /2
dx.
Entonces, usando coordenadas polares (r, )

Z
Z
2
2
x2 /2
=
e
dx
ey /2 dy
Z
Z
2
2
=
e(x +y )/2 dx dy
Z
Z
2
er /2 r d dr
=
0
Z
2
= 2
er /2 r dr
0
r=
r2 /2
= 2 e

r=0
= 2.
22
Probabilidad
R
Luego = 2 y de aqu se sigue que (x)dx = 1. El resultado
f en (10) se obtiene usando el hecho de que
analogo para la funcion
f (x) = 1 ((x m)/).
Para concluir, observe que = 2 se puede escribir explcitamente

como
Z
2
ex /2 dx = 2.
(11)
2.11 Nota. Hay medidas de probabilidad que no necesariamente estan

definidas por una densidad discreta o continua como en (2) o (9). Por
ejemplo, sea 0 la medida de Dirac concentrada en x = 0, y sea f la densidad normal estandar. Entonces

Z
1
(A) :=
0 (A) +
f (x)dx
2
A
es una mezcla de una densidad discreta y una continua. Posteriormente
veremos que una medida de probabilidad es una mezcla de varios tipos
de distribuciones. 2
Ejercicios 2
de densidad discreta. Si
2.1 Sea f () una funcion
X
|x|f (x) < ,
(12)
entonces el valor medio (o centro de gravedad) f de f se define como

f :=
x f (x).
(12) (es decir,

Si no se cumple la condicion
|x|f (x) = ), se dice que el
valor medio de f no existe.

(a) Calcule el valor medio de las densidades en el Ejemplo 2.2(b), (c) y (d).
23
(b) Sea r > 1, y f (n) :=

c/nr para n = 1, 2, . . . , en donde c > 0 es una
P
constante tal que n=1 f (n) = 1. DemuestreP
que la densidad de f
k
tiene valor medio ssi r > 2. (Nota. La serie
converge ssi
n=1 n
k > 1.)
de densidad continua tal que

2.2 Si f () es una funcion
Z
|x|f (x)dx < ,
(13)
entonces el valor medio (o centro de gravedad) f de f se define como

Z
f :=
x f (x)dx.
(a) Calcule el valor medio de las densidades en el Ejemplo 2.10(a), (b) y

(d).
(b) Demuestre que el valor medio de la densidad de Cauchy en el Ejemplo
(13) no se satisface.
2.10(c) no existe, es decir, la condicion
2.3 Suponga que de un conjunto de n objetos se eligen k al azar (k <

Calcule la probabilidad de que ningun
n), uno tras otro, con sustitucion.

objeto sea elegido mas de una vez.
2.4 De un conjunto que consiste de n > 1 numeros

positivos y m > 1
negativos se selecciona al azar un subconjunto de dos numeros

y se multiplican. Cual es la probabilidad de que el producto sea positivo?
2.5 Sea f la densidad normal con parametros m y 2 , definida en (10),
y sea
g(x) := 0 si x 0,
1
:=
f (log x) si x > 0.
x
24
Probabilidad
Demuestre que g es una densidad de probabilidad se le llama la densidad

lognormal con parametros m y 2 . (Vea el Ejercicio 6.15.)
2.6 (a) Demuestre que la funcion gama, definida como
Z
(p) :=
xp1 ex dx para p > 0,
0
satisface que (p + 1) = p (p).
(b) Sean p y numeros

positivos y defina
p p1 x
f (x) :=
x e
(p)
para x > 0,
y f (x) := 0 para x 0.
de densidad de probabilidad. A f se le
Demuestre que f es una funcion
llama la densidad gama con parametros p y . En particular, si p = 1 la funcion

f es la densidad exponencial con parametro en el Ejemplo 2.10(b).
25
Probabilidad condicional e independencia
ley de
Contenido: Probabilidad condicional, regla de la multiplicacion,
la probabilidad total, formula de Bayes, independencia de eventos y de

algebras, el lema de BorelCantelli, la ley 01 de Kolmogorov.
Sea (, F, P) un espacio de probabilidad y sean A y B dos eventos en F,
con P(B) > 0. Definimos la probabilidad condicional de A dado B como
P(A|B) :=
P(A B)
.
P(B)
(1)
En este caso se dice que B es el evento condicionante. En expresiones

como (1) siempre supondremos que el evento condicionante tiene probabilidad positiva.
En el Ejercicio 1 se pide demostrar la siguiente proposicion.

A 7 P(A|B) definida
3.1 Proposicion.
Sea B tal que P(B) > 0. La funcion
como en (1), para todo A F, es una m.p.
Por ejemplo, en el lanzamiento de tres monedas honestas el espacio
muestral es
= {aaa, aas, asa, saa, ass, sas, ssa, sss}.
Calcule la probabilidad de que a lo mas una moneda cae a guila dado
que en la primera moneda cae a guila. Tomamos
A = {sss, ass, sas, ssa},
B = {aaa, aas, asa, ass}.
Entonces P(A|B) = 1/4.

De (1) tenemos P(A B) = P(B)P(A|B) si P(B) > 0. Este es un caso
particular (para dos eventos) de la siguiente regla de la multiplicacion.

3.2 Proposicion.
(Regla de la multiplicacion)
Sean A1 , A2 , . . . , An eventos
26
Probabilidad
tales que
P(A1 . . . An1 ) > 0.
(2)
Entonces
P(A1 A2 . . .An ) = P(A1 )P(A2 |A1 )P(A3 |A1 A2 ) P(An |A1 . . .An1 ).
Observese que las probabilidades condicionales en esta ultima

expre estan bien definidas porque
sion
P(A1 ) P(A1 A2 ) P(A1 . . . An1 ) > 0
(por (2)).
hay 14 computadoras de
3.3 Ejemplo. En un laboratorio de computacion
las cuales 8 son de la marca x. Se seleccionan tres computadoras al azar,
una tras otra. Cual es la probabilidad de que las tres sean de la marca x?
Solucion.
Sea Ai (i = 1, 2, 3) el evento la iesima computadora seleccionada es de la marca x. Entonces

P(A1 A2 A3 ) = P(A1 )P(A2 |A1 )P(A3 |A1 A2 ) =
8 7 6
. 2
14 13 12
3.4 Definicion.
Una familia {Ai , i I} de eventos es una particion
de si
(a) los eventos son ajenos (es decir, Ai Aj = para i 6= j), y
(b) i Ai = .
es {A, Ac }. En este caso es
El ejemplo mas simple de una particion
evidente que para cualquier evento B se tiene
P(B) = P(A)P(B|A) + P(Ac )P(B|Ac ) (explique).
Este es un caso particular de la ley de la probabilidad total en el siguiente teorema.
de tal que P(Ai ) > 0 para
3.5 Teorema. Sea {A1 , . . . , An } una particion
i = 1, . . . , n. Entonces
27
(a) ley de la probabilidad total: para cualquier evento B

P(B) =
n
X
P(Ai )P(B|Ai ).
(3)
i=1
(b) Formula
de Bayes: si P(B) > 0, entonces

P(Ai |B) =
P(Ai )P(B|Ai )
P(Ai B)
=P
P(B)
P(Aj )P(B|Aj )
(4)
para i = 1, . . . , n.
En el teorema anterior las probabilidades P(Ai ) y P(Ai |B) se llaman
probabilidades a priori y a posteriori, respectivamente.
3.6 Ejemplo. En una fabrica, tres maquinas M1 , M2 y M3 elaboran, respec total. Los porcentajes
tivamente, el 30%, el 50% y el 20% de la produccion
de artculos defectuosos producidos por estas maquinas son 1%, 3% y 2%,
respectivamente. Si se selecciona un artculo al azar, calcule la probabilidad de que el artculo
(a) sea defectuoso,
(b) no sea defectuoso,
(c) haya sido producido en la maquina Mi (i = 1, 2, 3) dado que resulto
ser defectuoso.
3.7 Definicion.
(Independencia)
(a) Dos eventos A y B son independientes si
P(A B) = P(A) P(B).
Dos algebras F1 y F2 de son independientes si cualquiera dos
eventos A1 F1 y A2 F2 son independientes.
28
Probabilidad
{Ai , i I} de eventos es independiente si para cada

(b) Una coleccion
de ndices distintos i1 , . . . , ik en I
entero positivo k y cada seleccion
se cumple que
P(Ai1 Ai2 . . . Aik ) = P(Ai1 ) P(Ai2 ) . . . P(Aik ).
(5)
{Ai , i I} de familias de eventos en particular,

Una coleccion
algebras es independiente (o las familias Ai , i I, son inde de ndices
pendientes) si para cada entero positivo k, cada seleccion
distintos i1 , . . . , ik en I, y todo A1 Ai1 , . . . , Ak Aik , se cumple la
(5).
condicion
Notese
que si P(B) > 0, entonces A y B son independientes ssi
P(A|B) = P(A).
3.8 Observacion.
Para n 3 eventos, independencia por parejas no implica independencia. Por ejemplo, sea = {a, b, c, d} un espacio muestral
equiprobable, y sean A1 = {a, b}, A2 = {b, c} y A3 = {a, c}. Entonces
A1 , A2 , A3 son independientes por parejas porque
P(Ai Aj ) = P(Ai ) P(Aj ) para i 6= j.
Sin embargo, los eventos no son independientes (en el sentido de la Defini 3.7(b)) porque
cion
1
0 = P(A1 A2 A3 ) 6= P(A1 )P(A2 )P(A3 ) = .
8
Tambien puede haber eventos A1 , . . . , An que no son independientes pero
P(A1 . . . An ) = P(A1 ) P(An ); vea el Ejercicio 2. 2
3.9 Ejemplo. Considerese un experimento de Bernoulli, es decir, un ex dos resultados posibles, e xito (1) o fracaso (0),
perimento que tiene solo
con probabilidades p y q := 1p, respectivamente, con 0 < p < 1. Suponga
que se realizan n repeticiones independientes del experimento y calcule la
probabilidad de que ocurran exactamente k e xitos (0 k n).
Solucion.
El espacio muestral consiste de todos los vectores
(x1 , x2 , . . . , xn ) con xi = 1 o xi = 0 para i = 1, . . . , n.
29
del experimento tiene e xito. Por

Sea Ai el evento la iesima repeticion
ejemplo, el evento en las primeras k repeticiones ocurren e xitos y en las
restantes n k fracasos es
A1 . . . Ak Ack+1 . . . Acn
y consiste del vector (1, . . . , 1 (k veces), 0 . . . , 0 (n k veces)). Por independencia, la probabilidad de dicho evento es igual a
P(A1 ) P(Ak ) P(Ack+1 ) P(Acn ) = pk q nk .
Por otra parte, notese

que el numero
total de vectores (x1 , . . . , xn ) en los
que exactamente k componentes toman el valor 1 es el numero

de combinaciones

n
c(n, k) =
.
k
Por lo tanto,

P(ocurren exactamente k e xitos) =
n
k
pk q nk
(6)
para cualquier k = 0, 1, . . . , n, que coincide con la densidad binomial del

Ejemplo 2.2(b). 2
3.10 Ejemplo. (Caso especial del Ejemplo 3.9) Por experiencia, la admin de un restaurante sabe que el 20% de las personas que hacen
istracion
no se presentan. Si el restaurante tiene 50 mesas y toma 52
reservacion
reservaciones, cual es la probabilidad de que haya lugar para todos los
clientes que se presentan?
Solucion.
El ejemplo se puede expresar como n = 52 repeticiones independientes de un experimento de Bernoulli con probabilidad de exito
(no se presenta un cliente) p = 0.20. Por lo tanto, usando (6) la probabilidad que se desea calcular resulta

52
X
n
P(No. de e xitos 2) =
pk q nk
k
k=2
30
Probabilidad
con q = 1 p = 0.80. De hecho, es mas facil calcular

P(No. de e xitos 2) = 1 P(No. de e xitos 1)
= 1 q 52 52 p q 51 . 2
En el
1.14(a) vimos el Lema de BorelCantelli, de acuerdo con
PEjercicio
el cual n=1 P(An ) < implica que P(lim sup An ) = 0. En la parte (b) del
mismo ejercicio se ve que el recproco de este resultado no se cumple. La
completa de dicho lema es como sigue.
version
de eventos.
3.11 Lema de BorelCantelli. Sea {An } una sucesion
P
(a) Si
n=1 P(An ) < , entonces P(lim sup An ) = 0.
P
(b) Si
n=1 P(An ) = y los eventos An son independientes, entonces
P(lim sup An ) = 1.
de evenEl Lema de BorelCantelli afirma que si {An } es una sucesion
tos independientes, entonces P(lim sup An ) es cero o uno. Este es un caso es
pecial de una clase de resultados llamados leyes cerouno. A continuacion
veremos el resultado mas prominente dentro de esta clase, la ley cerouno
de Kolmogorov. Esto requiere introducir el siguiente concepto.
de eventos {An }, para cada n = 1, 2, . . . , sea
Dada una sucesion
{An , An+1 , . . .} la algebra generada por {An , An+1 , . . .}. La algebra
C :=
{An , An+1 , . . .}
n=1
se llama la algebra cola asociada a {An }. Los conjuntos en C se llaman

eventos cola. Por ejemplo, lim sup An y lim inf An son eventos cola.
3.12 Teorema. (Ley cerouno de Kolmogorov) Sea C la algebra cola
{An }. Si los eventos An son independientes y
asociada a una sucesion
A C, entonces
P(A) = 0 o 1.
31
Idea de la demostracion.
Para simplificar, supondremos conocido el siguiente hecho:

(*) si A1 , A2 , . . . , B1 , B2 , . . . son eventos independientes, entonces las algebras
{A1 , A2 , . . .} y {B1 , B2 , . . .} son independientes.
Ahora, sea A C un evento cola. En particular, para cada n = 1, 2, . . . ,
A esta en la algebra {An , An+1 , . . .}. Luego, por (*), A es independiente
de {A1 , . . . , An1 }. Como esto se cumple para todo n 1, se sigue que A
es independiente de {A1 , A2 , . . .}. Por otra parte, A C {A1 , A2 , . . .} y
por lo tanto, A es independiente de s mismo. Esto implica que P(A A) =
P(A)P(A), i.e., P(A) = P(A)2 , as que P(A) = 0 o 1. 2
La ley 0-1 de Kolmogorov se usa mucho para variables aleatorias independientes, que veremos mas adelante.
Ejercicios 3
3.1.
3.1 Demuestre la Proposicion
3.2 En el lanzamiento de dos dados honestos el espacio muestral es
= {(i, j) | 1 i, j 6}.
Considere los eventos A1 = {(i, j)|j = 1, 2 o 5}, A2 = {(i, j)|j = 4, 5 o 6} y
A3 = {(i, j)|i + j = 9}. Demuestre que
P(A1 A2 A3 ) = P(A1 )P(A2 )P(A3 ),
pero los eventos no son independientes porque P(Ai Aj ) 6= P(Ai )P(Aj )
para i 6= j.
3.3 Demuestre que si A y B son eventos independientes, entonces
(a) Ac y B c son independientes,
(b) Ac y B son independientes,
(c) P(A B) = P(A) + P(B) P(Ac ).
32
Probabilidad
3.4 Demuestre: si A1 , . . . , An son eventos independientes, entonces
P(
n
[
Ai ) = 1
i=1
n
Y
P(Aci ).
i=1
Si ademas P(Ai ) = pi para i = 1, . . . , n, entonces la probabilidad de que

n
Q
ninguno de tales eventos ocurra es (1 pi ).
i=1
3.5 Demuestre:
(a) Si A es un evento independiente de s mismo, entonces P(A) = 0 o
P(A) = 1.
(b) Si P(A) = 0 o P(A) = 1, entonces A y cualquier otro evento son independientes.
multiple
3.6 Un estudiante toma un examen de opcion

en el que cada
pregunta tiene 5 respuestas posibles. Si el estudiante conoce la respuesta
correcta, la selecciona; en caso contrario selecciona al azar una de las 5
respuestas posibles. Suponga que el estudiante conoce la respuesta del
70% de las preguntas.
(a) Cual es la probabilidad de que de una pregunta dada el estudiante de
la respuesta correcta?
(b) Si el estudiante obtiene la respuesta correcta a una pregunta, cual es
la probabilidad de que efectivamente conozca la respuesta?
3.7 Sean A, B y C tres eventos dados. Demuestre:

(a) Si los eventos son independientes y P(A B) > 0, entonces P(C|A
B) = P(C).
(b) Si P(A B C) > 0 y P(C|A B) = P(C|B), entonces P(A|B C) =
P(A|B).
33
3.7(b), n eventos A1 , . . . , An son independientes si

3.8 Por la Definicion
(5) se cumple para k = 2, 3, . . . , n. Demuestre que el numero
la condicion
total de condiciones de la forma (5) que se deben verificar para que A1 , . . . ,
An sean independientes es 2n n 1.
3.9 Demuestre que si A y B son ajenos, entonces A y B no pueden ser
independientes a menos que P(A) = 0 o P(B) = 0.
3.10 Suponga que hay una prueba para detectar cancer con la propiedad de que 90% de los individuos con cancer reaccionan positivamente,
mientras que 5% de aquellos que no tienen cancer reaccionan positiva tiene
mente. Suponga que el 1% de los individuos en una cierta poblacion
cancer. Calcule la probabilidad de que en verdad tenga cancer un paciente
y que reacciona positivamente a
seleccionado al azar de dicha poblacion
la prueba.
3.11 Demuestre el Lema 3.11(b).
34
Probabilidad
Variables aleatorias
medible, variable aleatoria (v.a.), funcion

de distriContenido: Funcion
medida de LebesgueStieltjes, v.a. discreta, v.a. continua.
bucion,
usaremos con mucha frecuencia los conceptos
A partir de esta seccion
Por tal motivo, se
en el Ejercicio 1.4 sobre la imagen inversa de una funcion.
recomienda que el lector repase dicho ejercicio. En particular, recuerdese
de en 0 ,
que si y 0 son conjuntos arbitrarios y f es una funcion
0
entonces para cualquier conjunto B definimos
f 1 (B) := { | f () B}.
(1)
Si 0 = IR y B es el intervalo (, x], escribimos (1) como

f 1 (, x] = { | f () x} {f x}.
4.1 Definicion.
Sea (, F, ) un espacio de medida. Se dice que X : IR
Fmedible (o medible con respecto a F) si
es una funcion
X1 (, x] = { | X() x} F
x IR.
(2)
(Notese
que si X1 (, x] esta en F, entonces su medida (X1 (, x])
esta bien definida.) Casos especiales:
(a) Si = P es una m.p., decimos que X es una variable aleatoria (abreviado: v.a.)
(b) Si (, F) = (IR, B(IR)) y X = IR IR es B(IR)medible, decimos que X
es una funcion
de Borel o Borelmedible.
Es importante notar lo siguiente: para verificar que X es Fmedible,
en (2) podemos sustituir (, x] por cualquier otro intervalo en IR, es decir, de la forma (, x) o (x, ) o [x, ) o [x, y) o (x, y] o (x, y) o [x, y].
35
Asimismo, podemos sustituir (, x] por cualquier conjunto abierto B
IR o cualquier cerrado B IR. En particular, por razones teoricas

es conveniente enfatizar que
X es Fmedible ssi X1 (B) F abierto B IR.
(3)
4.2 Ejemplo. Demuestre que las siguientes proposiciones son equivalentes:

(a) X es Fmedible (en el sentido de (2)).
(b) X1 (x, ) F
x IR.
(c) X1 (x, y) F para cualquier intervalo abierto (x, y) en IR.

(d) X1 (B) F para cualquier conjunto abierto B IR.
Demostracion.
(a) (b). Como (, x]c = (x, ), por el Ejercicio 1.4(b)
tenemos que
(X1 (, x])c = X1 ((, x]c ) = X1 (x, ).
Por lo tanto, para cualquier x IR, si X1 (, x] esta en F, entonces
tambien X1 (x, ) esta en F. Es decir, (a) (b). En forma analoga se
obtiene el recproco, (b) (a).
(a) (c). Primero observe que (x, y) = (x, ) (, y) y que, por el
Ejercicio 1.4(c),
X1 (x, y) = X1 ((x, ) (, y)) = X1 (x, ) X1 (, y).
(4)
Por el parrafo anterior, (a) implica que X1 (x, ) esta en F. Por lo tanto,
en vista de (4), para demostrar (c) basta ver que X1 (, y) esta en F, lo
cual se obtiene notando que
(, y) =
[
n=1
(, y 1/n]
36
Probabilidad
y que, por (a) y el Ejercicio 1.4(c),

X1 (, y) =
X1 (, y 1/n] F.
n=1
de (c) (a) es similar.

La demostracion
(c) (d). Es evidente que (d) (c) porque (x, y) es un conjunto abierto.
Para probar el recproco, (c) (d), recuerde que si B IR es un conjunto
numerable de intervalos abiertos In
abierto, entonces
S existe una coleccion
tales que B = In . Por lo tanto, si (c) se cumple vemos que X1 (B) =
n
S 1
X (In ) esta en F. 2
n
4.3 Ejemplo. Si (, F) es un espacio discreto, entonces cualquier funcion

X : IR es una v.a. porque el conjunto potencia F = 2 consiste de todos
los posibles subconjuntos de ; luego (2) se cumple trivialmente.
Para ser mas especficos, considerese el lanzamiento de dos dados. En
tal caso el espacio muestral consiste de todas las parejas = (i, j) de
numeros
enteros i, j entre 1 y 6. Algunos ejemplos de vv.aa. son:
X(i, j) := i + j = suma de los resultados de ambos dados;
Y (i, j) := i = resultado del primer dado;
Z(i, j) := min(i, j) = mnimo de los resultados de ambos dados. 2
La probabilidad del evento X1 (, x] en (2), para todo x IR, se
llama la funcion de distribucion de la v.a. X. Para introducir formalmente
este concepto usaremos la siguiente notacion:
{X x} := X1 (, x] = { | X() x}
para x IR.
Asimismo, para cualquier conjunto B IR escribimos

{X B} := X1 (B) = { | X() B}.
(5)
37
4.4 Definicion.
Sea X una v.a. La funcion
de distribucion
(abreviado: f.d.)
FX : IR [0, 1] dada por
de X es la funcion
FX (x) := P{X x}
x IR.
(6)
La m.p. inducida por X es la m.p. sobre (IR, B(IR)) definida como

PX (B) := P{X B}
B B(IR).
(7)
Notese
que PX (B) = P[X1 (B)]. Ademas, la f.d. de X y la m.p. inducida por X estan relacionadas como
FX (x) = PX (, x].
(8)
4.5 Ejemplo. (a) Se dice que X := IR es una v.a. constante si existe

es una
c IR tal que X() = c para todo . Es claro que tal funcion
v.a. porque
{X x} = si x < c,
= si x c.
escalonada
De aqu se sigue que la f.d. de X = c es la funcion
FX (x) = 0 si x < c,
= 1 si x c.
(b) Si X es una v.a. que toma unicamente

dos valores, digamos 0 y 1, se
dice que X es una v.a. Bernoulli. Si P{X = 1} = p, entonces P{X = 0} =
escalonada
1 P{X = 1} = 1 p y la f.d. de X es la funcion
FX (x) = 0 si x < 0,
= 1 p si 0 x < 1,
= 1 si x 1.
38
Probabilidad
Un caso particular de v.a. Bernoulli es la funcion

indicadora IA de un
evento A F, definida en (2.3), i.e.
IA () := 1 si A,
:= 0 si
6 A.
Notese
que
{IA x} = si x < 0,
= Ac si 0 x < 1,
= si x 1.
Ademas, P{IA = 1} = P(A) y P{IA = 0} = 1 P{IA = 1} = P(Ac ). 2
4.6 Proposicion.
(Propiedades de FX ) Si X es una v.a., su f.d. FX satisface
que
(a) FX es nodecreciente, es decir si x < y entonces FX (x) FX (y);
(b) FX (+) := lim FX (x) = 1 y FX () := lim FX (x) = 0;
x
(c) FX es continua por la derecha, es decir, si FX (x+) := limyx FX (y) es el

lmite de FX en el punto x por la derecha, entonces FX (x+) = FX (x)
para todo x X.
Demostracion.
(a) Si x < y, entonces {X x} {X y}. Por lo tanto (a)
se sigue de la propiedad de monotona 1.9(c).
(b) Puesto que {X n} cuando n , la propiedad de continuidad 1.11(a) da que FX (n) = P{X n} 1. Analogamente, por
1.11(b), FX (n) = P{X n} 0 pues {X n} .
(c) Como {x < X x + y} cuando y 0,
FX (x + y) FX (x) = P{x < X x + y} 0. 2
F : IR [0, 1] que satisface las propie4.8 Definicion.

Cualquier funcion
4.6 se dice que es una funcion
dades (a), (b) y (c) de la Proposicion
de
39
distribucion
de probabilidad (abreviado: f.d.p.)
4.6 la f.d. de una v.a. X es una
4.9 Observaciones. (a) Por la Proposicion
f.d.p. El recproco tambien es cierto, en el siguiente sentido: Si F : IR
[0, 1] es una f.d.p., entonces existe un espacio de probabilidad (, F, P) y
una v.a. X sobre cuya f.d. es F , es decir, FX = F . (Vea la Proposicion

4.11.)
(b) Si X y Y son vv.aa. y X = Y , entonces es claro que FX = FY . Sin
embargo, el recproco es falso, i.e.
FX = FY 6 X = Y.
De hecho, puede ocurrir que FX = FY aunque las vv.aa. X, Y ni siquiera
esten definidas en el mismo espacio de probabilidad. (Explique.) 2
4.10 Definicion.
Sea una medida sobre (IR, B(IR)). Decimos que es una
medida de LebesgueStieltjes (abreviado: medida de LS) si (I) <
para cualquier intervalo I IR acotado.
Por ejemplo, la medida de Lebesgue y una m.p. sobre IR son medidas de LS. En particular, la m.p. PX inducida por una v.a. X es de LS (ver
(7)).
F : IR IR definida como
Si es una m.p. sobre IR, entonces la funcion
F (x) := (, x] x IR
(9)
es una f.d.p. (Compare (9) con (8).) Recprocamente, si F es una f.d.p.,

entonces existe una unica
medida de LS F , de hecho una m.p., caracterizada

por el hecho de que
F (a, b] = F (b) F (a) intervalo (a, b] IR.
(10)
de este resultado es muy parecida a la construccion

de la
(La demostracion
de Caratheomedida de Lebesgue, basandose en el Teorema de extension
dory 1.19 y en el Ejemplo 1.18 con la formula

(10) en lugar de la `(a, b] :=
40
Probabilidad
b a. Para mas detalles vea, por ejemplo, el libro de Ash (1972), Teorema
1.4.4.) A F se le llama la m.p. inducida por F .
4.11 Proposicion.
Si F es una f.d.p., entonces existe un espacio de probabilidad (, F, P) y una v.a. X sobre cuya f.d. FX coincide con F , es decir,
FX (x) = F (x) para todo x X.
Demostracion.
Sea (, F) := (IR, B(IR)) y sea P la medida de LS definida
(o inducida) por F sobre B(IR), es decir, como en (10). Finalmente, sea X
la v.a. sobre = IR definida como X() := para todo IR. Entonces
FX (x) := P{X x} = F (x) para todo x IR. 2
4.12 Definicion.
Se dice que una v.a. X es discreta si existe un conjunto
finito o infinito numerable S IR tal que X toma valores en S unicamente.

Las vv.aa. en el Ejemplo 4.5 son discretas.
del Ejemplo 3.9, suponga que se rea4.13 Ejemplo. (a) Como continuacion
lizan n repeticiones independientes de un experimento que tiene proba
bilidad p (0 < p < 1) de exito y q := 1 p de fracaso. Sea X := numero
de e xitos. Entonces X es una v.a. discreta con valores en el conjunto S =
{0, 1, . . . , n} y, ademas,

n
P{X = k} =
pk q nk k = 0, 1, . . . , n.
k
En este caso se dice que X tiene distribucion
binomial con parametros n
y p, y en smbolos escribimos X Bin(n, p).
(b) (Recuerdese la densidad geometrica en el Ejemplo 2.2(c).) Supongase que el experimento en el inciso (a) se repite hasta que ocurre el primer
e xito. Sea Y la v.a. que cuenta el numero

de repeticiones que ocurren
antes del primer e xito. En particular, Y = 0 ssi ocurre e xito en la primera
del experimento. En general, Y toma valores en el conjunto
realizacion
S = {0, 1, . . .} y, por independencia,
P{Y = k} = q k p
k = 0, 1, . . . .
41
En este caso se dice que Y tiene distribucion

geometrica con parametro p,
y escribimos Y Geo(p).
4.14 Definicion.
Se dice que una v.a. X es absolutamente continua si

de Borel f : IR IR, nonegativa, y tal que
existe una funcion
Z x
FX (x) =
f (y)dy x IR.
(11)
En este caso se dice que f es la densidad de probabilidad (o simplemente

la densidad) de X.
En el Ejemplo 2.11 vimos algunos ejemplos de densidades continuas.
En algunos de tales casos se utiliza una nomenclatura especial. Por ejem
plo, si X tiene la densidad uniforme en [a, b], simbolicamente
escribimos
X Uni[a, b]. Asimismo, para el caso de la densidad exponencial con
parametro escribimos X Exp(), y para la densidad normal con parametros m y 2 escribimos X N (m, 2 ). En particular, X N (0, 1) significa que X tiene densidad normal estandar.
4.15 Observacion.
Sea (, F, ) un espacio de medida. Decimos que una
cierta propiedad P se cumple casi donde quiera (abreviado: c.d.q.) si
P se cumple en todo excepto en un conjunto de medida igual a cero.
En otras palabras, existe un conjunto A F tal que
(a) (A) = 0, y
(b) P se cumple para todo x 6 A.
Por ejemplo, sea (, F, ) = (IR, B(IR), ) y supongase

que FX satisface
(11). Entonces se puede demostrar que la derivada FX0 existe y coincide con
la densidad f c.d.q. Para ser mas concretos, supongase,

por ejemplo,
que X Uni[a, b] de modo que X tiene la densidad
f (x) :=
1
ba
si x [a, b]
y f (x) := 0 para x 6 [a, b]. Entonces, calculando la integral en (11) vemos
42
Probabilidad
que
Z
f (y)dy = 0 si x < a,
FX (x) =
xa
ba
si a x < b,
(12)
= 1 si x b.
Entonces se tiene que FX0 (x) = f (x) para todo x IR excepto en el conjunto
A = {a, b}, el cual tiene medida de Lebesgue (A) = 0. (Del Ejemplo
1.8(d), recuerde que (B) = 0 si B es un conjunto numerable.)
Otro ejemplo: si X Exp(), entonces
FX (x) = 1 ex si x 0,
= 0 si x < 0,
de modo que la derivada FX0 (x) = f (x) = la densidad exponencial para
todo x IR, excepto en x = 0. Es decir, FX0 = f c.d.q.
Definion.
Sea F una f.d.p. y F la medida de LS inducida por F . Se dice
que F es continua singular si
(a) F es continua y
(b) existe un conjunto de Borel S IR que tiene medida de Lebesgue
(S) = 0, pero F (S) = 1.
(b) dice que F esta concentrada en un
En otras palabras, la condicion
conjunto nulo con respecto a .
Ejemplo. (La distribucion
de Cantor.) Sea C1 := [0, 1/3] [2/3, 1]. Sea f1
de densidad uniforme sobre C1 y F1 su f.d., es decir,
la funcion

f1 (x) =
c1 si x C1 ,
0 en c.c.,
43
con c1 = 3/2, y
Z x
(3/2)x
1/2
F1 (x) :=
f1 (y)dy =
(3/2)x 1/2
si
si
si
si
si
x < 0,
0 x < 1/3,
1/3 x < 2/3,
2/3 x < 1,
x 1.
Analogamente, sean C2 := [0, 1/9] [2/9, 1/3] [2/3, 7/9] [8/9, 1], f1 la
densidad uniforme sobre C2 , y F2 su correspondiente f.d.p.
de los 2n intervalos ajenos de
En general, para n 2, sea Cn la union
longitud (1/3)n que se obtienen al eliminar los tercios medios de los 2n1
intervalos ajenos de longitud (1/3)n1 en Cn1 .
Sea

fn (x) :=
cn si x Cn ,
0 en c.c.,
con cn = (3/2)n , y
Z
Fn (x) :=
fn (y)dy.
Las f.d.p. Fn son continuas y convergen uniformemente porque, si m < n,

m
1
|Fm (x) Fn (x)|
x
2
Por lo tanto, existe una f.d.p.
T F continua, tal que Fn (x) F (x) para todo
x IR. Ademas, si C :=
n=1 Cn es el conjunto Cantor, es claro que la
medida F del complemento de C es cero, de modo que F (C) = 1. Por lo
tanto, F es continua singular porque (C) = 0. 2
con varias proposiciones elementales. Vea
Concluimos esta seccion
tambien el Ejercicio 4.8.
4.16 Proposicion.
Si X y Y son vv.aa. y a IR, entonces aX, X2 , X +

Y, XY, max(X, Y ), min(X, Y ) y |X| son vv.aa.
4.17 Observacion.
Sea V la familia de todas las vv.aa. definidas sobre

un espacio de probabilidad dado. Entonces de 4.16 vemos que V es un
44
Probabilidad
espacio vectorial, es decir aX y X + Y estan en V para todo a IR y X, Y

en V .
{x1 , x2 , . . .}
4.18 Proposicion.
X es una v.a. discreta ssi existe una sucesion
{A1 , A2 , . . .} de eventos que forman una particion
de
en IR y una sucesion
tales que
X
(13)
X=
xk IAk .
k
En particular, X es una v.a. discreta con un numero

finito de valores ssi
lineal (finita) de funciones
X se puede expresar como una combinacion
indicadoras de conjuntos ajenos.
medible que toma solo
4.19 Observacion.
En Analisis Real, una funcion
un numero
finito de valores (como la v.a. discreta en la segunda parte de
simple.
4.18) se dice que es una funcion
4.20 Proposicion.
Si X es una v.a. no negativa, entonces existe una suce {Xn } de vv.aa. discretas con un numero
sion
finito de valores tales que
Xn X.
{Xn } en 4.20 se puede construir explcitamente. Vease, por
La sucesion
ejemplo, el libro de Ash (1972), Teorema 1.5.5, o el libro de R.G. Bartle
(1995), The Elements of Integration and Lebesgue Measure, Lema 2.11.
Funciones medibles: caso general
Sean (, F) y (0 , F0 ) dos espacios medibles. Se dice que una funcion

X : 0 es medible con respecto a F y F0 si
X1 (B) F
B F0 .
(14)
introducida en el Ejercicio 1.4, la

Equivalentemente, usando la notacion
X es medible ssi
funcion
X1 (F0 ) F.
da un criterio muy util
para verificar medibiliLa siguiente proposicion
dad.
4.21 Proposicion.
Sea C una familia de subconjuntos de 0 que genera a
45
F0 , es decir, {C} = F0 . Entonces X : 0 es medible con respecto a F y

F0 ssi X1 (C} F.
Demostracion.
La necesidad es obvia. Para demostrar la suficiencia, su
pongase
que
X1 (C) F C C.
(15)
Deseamos demostrar (14). Con este fin considere D := {B F0 |X1 (B)
F}. Entonces C D y como D es una algebra
{C} D F0 .
Finalmente, como {C} = F0 , concluimos que F0 = D y por lo tanto
X1 (F0 ) {X1 (C)} F. 2
Tomando (0 , F0 ) = (IR, B(IR)) y recordando que la familia C de todos
los intervalos (, x], con x IR, genera la algebra de Borel B(IR),
(2) es un caso especial de (15).
vemos que la condicion
Ejercicios 4
4.1 (Compare con el Ejemplo 4.2.) Sea (, F, ) un espacio de medida
dada. Demuestre que las siguientes proposiy X := IR una funcion
ciones son equivalentes:
(a) X es Fmedible.
(b) X1 [x, y] F para cualquier intervalo cerrado [x, y] en IR.
(c) X1 (C) F para cualquier conjunto cerrado C en IR.
PX definida
4.2 Sea X una v.a. sobre (, F, P). Demuestre que la funcion
en (7) es efectivamente una m.p. sobre IR. Notese

que, mas explcitamente,
podemos escribir (7) como
PX (B) := P[X1 (B)] B B(IR).
4.3 Sea FX la f.d. de una v.a. X y sea FX (x) el lmite de FX en el punto
x por la izquierda, i.e.
FX (x) := lim FX (y)
yx
46
Probabilidad
Demuestre que FX satisface:

(a) P{X > x} = 1 FX (x),
(b) P{X < x} = FX (x),
(c) P{y < X x} = FX (x) FX (y),
(d) P{y X x} = FX (x) FX (y),
(e) P{y < X < x} = FX (x) FX (y),
(f) P{y X < x} = FX (x) FX (y),
(g) P{X = x} = FX (x) FX (x); por lo tanto, FX es continua en x ssi
P{X = x} = 0.
Nota. Observe que si FX es continua en x, entonces FX (x) = FX (x+) =
FX (x) con FX (x+) como en 4.6(c). Por lo tanto, si FX es continua en x, en
(b) se tiene P{X < x} = FX (x). Asimismo, si FX es continua en x y y,
entonces las probabilidades en (d)(f) son iguales a la probabilidad en (c).
4.4 Sea X una v.a. y sean a, b numeros

reales con a > 0. Considere la v.a.
Y := aX + b. Demuestre que FY (x) = FX ( xb
) para todo x X. Calcule FY
a
cuando a < 0.
de Borel.
4.5 Sea X : IR una v.a. y h : IR IR una funcion
Demuestre que la composicion
h X : IR es una v.a. (Recuerde que
h X() := h(X()).)
h X se escribe como h(X). (b)
Nota. (a) Frecuentemente la composicion
continua h : IR IR es de Borel.
Es facil ver que, por ejemplo, una funcion
De hecho, practicamente todas las funciones usuales (e.g. las funciones
que se estudian en cursos de calculo) son de Borel. En este curso solo

estudiaremos funciones h(X) que son vv.aa.
4.6 Sea X una v.a. sobre un espacio de probabilidad (, F, P). Del Ejercicio 1.4(d) deduzca que, con B B(IR),
X1 (B) := {X1 (B) | B B}
47
es una algebra de . Ademas, demuestre que X1 (B) es una sub

a lgebra de F, es decir, X1 (B) F.
Nota. En probabilidad, a X1 (B) usualmente se le denota por {X} y
se le llama la algebra generada (o inducida) por X. Es claro que si
G es cualquier algebra de con respecto a la cual X es medible (i.e.
X1 (B) G para todo B B(IR)), entonces G contiene a X1 (B) {X}.
Por tal motivo tambien se dice que {X} es la mnima algebra de con
respecto a la cual X es medible.
de Borel. Demuestre
4.7 Sean X y Y vv.aa. y h : IR IR una funcion
que si Y = h(X), entonces {Y } {X}.
de funciones Fmedibles (Definicion
4.1).
4.8 Sea {Xn } una sucesion
Demuestre:
(a) sup Xn , inf Xn , lim sup Xn y lim inf Xn son funciones Fmedibles.
(b) Si Xn converge puntualmente a X, entonces X es Fmedible.
4.9 Demuestre que una combinacion
convexa de f.d.p.s es una f.d.p.
Es decir, si F1 , . . . , Fn son f.d.p.s y 1 , . . . , n son numeros

no negativos
tales que 1 + + n = 1, entonces 1 F1 + + n Fn es una f.d.p.
4.10 Sea X Uni[0, 1]. (La f.d. de X esta dada por (12) con a = 0 y b = 1.)
Sea G una f.d.p. que es continua y estrictamente creciente, y considere la
v.a. Y := G1 (X). Demuestre que la f.d. de Y es FY = G.
4.11 Sea X una v.a. continua con densidad
f (x) :=
1 |x|
e
2
x IR.
Calcule P(X 0) y P(|X| 2).
4.12 Supongase
que X Exp() y sea c > 0 una constante dada. Calcule
48
Probabilidad
la densidad de Y := cX.
4.13 Sea X una v.a. con f.d.
FX (x) =
=
=
=
0
x/3
x/2
1
si
si
si
si
x < 0,
0 x < 1,
1 x < 2,
x 2.
Calcule P(1/2 X 3/2), P(1/2 X 1), P(X > 1), P(X 1) y

P(1 X 3/2). (Sugerencia: use el Ejercicio 3.)
4.14 Considere la funcion
gama (definida en el Ejercicio 2.6)
Z
(p) :=
xp1 ex dx para p > 0.
()
Demuestre que: (a) (1/2) = . (Sugerencia: en (*) haga el cambio de

(2.11).)
variable x = y 2 /2; despues use la expresion
(b) (p + 1) = p (p) p > 0.
(c) (n + 1) = n! si n es un entero positivo.
(d) (n/2) = (n/2 1) (n/2 1) para cualquier entero n 3. En particular, del inciso (a),
1
3
(3/2) =
, (5/2) =
, . . .
2
4
normal estandar N (0, 1),
4.15 Demuestre que si X tiene distribucion
2
entonces X tiene densidad gama con parametros p = = 1/2. (Sugerencia:
Use los Ejercicios 4.14(a) y 2.6(b).)
4.16 Sean y numeros

positivos. Demuestre que
f (x) := 0
si x < 0,
1 (x)
si x 0
:= x e
de densidad de probabilidad. A f se le llama la densies una funcion
dad Weibull con parametros , . (Observe que si = 1 se obtiene una
densidad exponencial.)
49
Vectores aleatorios
conjunta, densidad conjunta,

Contenido: Vector aleatorio, distribucion
marginal, densidad marginal, independencia de vv.aa.
distribucion
Si X1 , . . . , Xn son vv.aa. sobre (, F, P) decimos que
X = (X1 , . . . , Xn ) : IRn
n). La funcion
de distribucion
(f.d.)
es un vector aleatorio (de dimension
n
de X se define, para cada vector x = (x1 , . . . , xn ) en IR , como
FX (x) := P(X x) = P{X1 x1 , . . . , Xn xn },
en donde
{X1 x1 , . . . , Xn xn } :=
n
\
(1)
{Xi xi }.
i=1
FX tambien se le llama la distribucion

conjunta de las vv.aa.
A la funcion
X1 , . . . , Xn . Por otra parte, si Fi FXi es la f.d. de Xi (i = 1, . . . , n), se dice
que Fi es la iesima f.d. marginal del vector X.
conjunta en (1) tiene esencialmente las mismas propieLa distribucion
4.6. En particular,
dades que una f.d. unidimensional; vea la Proposicion
en lugar de 4.6(b) y 4.6(c) tenemos, respectivamente,
FX (x1 , . . . , xn ) 1 si xi para todo i = 1, . . . , n, y
FX (x1 , . . . , xn ) 0 si xi para alguna i;
FX (x1 , . . . , xn ) es continua por arriba en cada argumento xi (i =
1, . . . , n).
de que FX sea no decreciente (ver 4.6(a)) es
Sin embargo, la condicion
en el caso n = 2.
un poco mas elaborada y la explicaremos solo
Si a = (a1 , a2 ) y b = (b1 , b2 ) son dos vectores en IR2 con a < b (es decir
ai < bi ) definimos el intervalo (a, b] := {x = (x1 , x2 ) IR2 | ai < xi bi
50
Probabilidad
para i = 1, 2} y, escribiendo F (x1 , x2 ) := FX (x1 , x2 ),

F (a, b] := F (b1 , b2 ) F (a1 , b2 ) F (b1 , a2 ) + F (a1 , a2 ).
con (4.10).) Entonces F es no decreciente en el
(Compare esta expresion
sentido de que
F (a, b] 0 a < b.
Por otra parte, se sabe que F se puede extender a una unica

medida
2
2
de LS sobre (IR , B(IR )), es decir una medida F tal que F (I) < para
cualquier intervalo acotado I IR2 . (De hecho, F es una m.p.)
conjunta FX , para calcular la iesima f.d. marginal
Dada la distribucion
Fi en un punto arbitrario xi se toma el lmite en (1) cuando xj para
todo j 6= i, es decir
Fi (xi ) = lim FX (x) 1 j n, con j 6= i.
xj
Por ejemplo, consideremos el caso n = 2, de modo que X = (X1 , X2 ) y (1)

se reduce a
FX (x1 , x2 ) = P{X1 x1 , X2 x2 }.
Si x2 , entonces {X2 x2 } , y se sigue que
{X1 x1 , X2 x2 } {X1 x1 } = {X1 x1 }.
1.11(a)),
Por lo tanto, por la continuidad de P (vea la Proposicion
lim FX (x1 , x2 ) = P{X1 x1 } = F1 (x1 ).
(2)
lim FX (x1 , x2 ) = P{X2 x2 } = F2 (x2 ).
(3)
x2
Analogamente,
x1
Se dice que el vector aleatorio X = (X1 , . . . , Xn ) es discreto si las vv.aa.
X1 , . . . , Xn son discretas. En este caso la funcion

f (x1 , . . . , xn ) := P{X1 = x1 , . . . , Xn = xn }
(4)
se llama la funcion
de densidad del vector X, o tambien se dice que f es
la densidad conjunta de las vv.aa. X1 , . . . , Xn . Algunas veces escribimos
51
fX en lugar de f . Por otra parte, a la densidad fi (x) := P{Xi = x} de

Xi se le llama la iesima densidad marginal. La densidad marginal fi se
en (4) sobre todos los valores xj con j 6= i. Por
obtiene sumando la funcion
ejemplo, si n = 2, podemos escribir (4) como f (x, y) = P{X1 = x, X2 = y}
y entonces
X
f1 (x) =
f (x, y) x X,
(5)
y
f2 (y) =
f (x, y) y Y.
(6)
4.14 se extiende en forma natural a vectores aleatorios:

La Definicion
decimos que el vector X = (X1 , . . . , Xn ) es absolutamente continuo si exis de Borel f : IRn IR no negativa y tal que
te una funcion
Z xn
Z x1
FX (x1 , . . . , xn ) =
...
f (y1 , . . . , yn )dy1 , . . . , dyn
(7)
para todo vector (x1 , . . . , xn ) en IR . Al igual que en el caso discreto, a f

se le llama la funcion
de densidad de X o la densidad conjunta de las
vv.aa. X1 , . . . , Xn . La densidad fi de la v.a. Xi (i = 1, . . . , n) se llama la
iesima densidad marginal de X y se calcula como en (5) y (6) cambiando
las sumas por integrales. Es decir, para n = 2, las densidades marginales
de X = (X1 , X2 ) estan dadas por
Z
f1 (x) =
f (x, y)dy x IR,
(8)
Z
f2 (y) =
f (x, y)dx
y IR.
(9)
Por ultimo,
una f.d.p. F : IR IR se dice que es continua singular si
es continua y, ademas, existe un conjunto de Borel S IRn tal que F (S) =
1, pero (S) = 0, donde es la medida de Lebesgue.
Independencia
En 3.7 definimos el concepto de independencia de eventos y de algebras. En particular, podemos recordar lo siguiente.
Sea (, F) un espacio medible e I un conjunto arbitrario de ndices. Para
cada i I, sea Fi una subalgebra de F. Decimos que las algebras
52
Probabilidad
en la familia {Fi , i I} son independientes si para cualquier subconjunto

finito J de I, y cualesquiera conjuntos Ai Fi , se cumple que
P (iJ Ai ) = iJ P(Ai ).
de independencia de algebras se extiende a vv.aa. de la
Esta definicion
siguiente manera.
5.1 Definicion.
Para cada i I, sea (i , Fi ) un espacio medible y
Xi : (, F) (i , Fi )
1
una v.a., es decir X1
i (B) F para cada B Fi . Sea {Xi } Xi (Fi ) la
subalgebra de F generada por Xi (vea el Ejercicio 4.6). Se dice que las
vv.aa. {Xi , i I} son independientes si la algebras {X1
i (Fi ), i I} son
independientes.
5.1 es importante notar que las vv.aa. Xi pueden tomar

En la Definicion
valores en conjuntos distintos (i , Fi ). En el caso especial en el que (i , Fi )
(IR, B(IR)) y, ademas, I es un conjunto finito, obtenemos trivialmente el
siguiente hecho.
con5.2 Teorema. Sea X= (X1 , . . . , Xn ) un vector aleatorio con distribucion
marginal
junta F (x1 , . . . , xn ) y, para cada i = 1, . . . , n, sea Fi la distribucion
de Xi . Entonces las siguientes proposiciones son equivalentes.
(a) Las vv.aa. X1 , . . . , Xn son independientes.
(b) P{X1 B1 , . . . , Xn Bn } = P{X1 B1 } P{Xn Bn } B1 , . . . , Bn
B(IR).
(c) F (x1 , . . . , xn ) = F1 (x1 ) Fn (xn ) (x1 , . . . , xn ) IRn .
(d) Las vv.aa. h1 (X1 ), . . . , hn (Xn ) son independientes para cualquier conjunto de funciones de Borel
hi : IR IR, i = 1, . . . , n.
Con respecto a la parte (d) en el teorema anterior, vea el Ejercicio 2.
53
Para vv.aa. discretas o continuas el concepto de independencia se puede expresar usando densidades. El resultado preciso es el siguiente, cuya
se puede ver, por ejemplo, en el libro de Ash (Teorema 5.8.4).
demostracion
5.3 Teorema. Sean X1 , . . . , Xn vv.aa. discretas o continuas con densidad
conjunta f (x1 , . . . , xn ) y, para cada i = 1, . . . , n, sea fi la densidad marginal de Xi . Entonces X1 , . . . , Xn son independientes ssi
f (x1 , . . . , xn ) = f1 (x1 ) fn (xn ) (x1 , . . . , xn ) IRn .
(10)
5.4 Ejemplo. Sean X y Y vv.aa. discretas con valores en {1, 2} y {1, 2, 3, 4},
respectivamente. Suponga que la densidad conjunta esta dada como en la
siguiente tabla.
1
1/4
1/8
1/16
1/16
Por (5), la densidad marginal f1 (x) =

cada fila de la tabla lo cual da
1/16 1/16
1/4
P
1/8
f (x, y) de X se obtiene sumando
f1 (1) = f1 (2) = 1/2.

P
Analogamente, la marginal f2 (y) = x f (x, y) de Y se obtiene sumando
cada columna:
f2 (1) = f2 (3) = 5/16,
f2 (2) = f2 (4) = 3/16.
De aqu se sigue que X y Y no son independientes porque no se satisface (10). Por ejemplo, f (1, 1) = 1/4 pero f1 (1) f2 (1) = (1/2)(5/16) 6=
f (1, 1). 2
5.5 Ejemplo. (Distribucion

normal bivariada.) Sea || < 1 un numero
2 1/2
dado y r := (1 ) . Se dice que el vector aleatorio (X, Y ) tiene distribucion normal bivariada estandar si su densidad conjunta f := IR2 IR
54
Probabilidad
esta dada por

f (x, y) =
1 (x2 2xy+y2 )/2r2

e
2r
(x, y) IR2 .
(11)
(a) Demuestre que las densidades marginales de X y de Y son ambas la

densidad normal estandar, i.e. X N (0, 1) y Y N (0, 1).
(b) X y Y son independientes ssi = 0.
Solucion.
(a) Primero observe que completando cuadrados el numerador del exponente en (11) se puede escribir como
x2 2xy + y 2 = (x y)2 + y 2 (1 2 ) = (x y)2 + y 2 r2 .
(12)
Por lo tanto, podemos expresar (11) en la forma

f (x, y) =
1 (xy)2 /2r2 y2 /2
e
e
.
2r
(13)
Notese
tambien que por el Ejemplo 2.10(c), la densidad normal N (y, r2 )
tiene densidad
2
2
g(x) = (2r2 )1/2 e(xy) /2r
(14)
R
de modo que, como g(x)dx = 1, tenemos
Z
e(xy)
2 /2r 2
dx = (2r2 )1/2 .
Luego, por (9), integrando ambos lados de (13) con respecto a x obtenemos
la densidad marginal de Y :
Z
2
f (x, y)dx = (2)1/2 ey /2 y IR,
f2 (y) =
es decir, Y N (0, 1). Analogamente, intercambiando el papel de x, y en

las ecuaciones (12)(14) se obtiene que X N (0, 1), i.e.
Z
2
f1 (x) =
f (x, y)dy = (2)1/2 ex /2 x IR.
55
(b) Por el inciso (a),

f1 (x) f2 (y) =
1 (x2 +y2 )/2

e
2
(x, y) IR2 .
con (11) se obtiene (b), es decir, f (x, y) =

Comparando esta expresion
f1 (x) f2 (y) ssi = 0. 2
normal o gaus5.6 Convencion.
Hasta ahora, al hablar de la distribucion
2
2
siana N (m, ) hemos supuesto que es un numero

positivo. Sin embargo, por razones tecnicas es conveniente considerar tambien 2 = 0. En
de la v.a. constante m y
este caso, N (m, 0) se interpreta como la distribucion
normal degenerada.
algunas veces decimos que N (m, 0) es una distribucion
N (m, 2 ) tiene la densidad
Por supuesto, la distribucion
f (x) = (2 2 )1/2 e(xm)
2 /2 2
se le llama distribucion
normal (o gausssi 2 > 0. A esta distribucion
normal multivariada
siana) univariada para distinguirla de la distribucion
(En particular, vea el caso bivariado en
que consideramos a continuacion.
el ejemplo anterior.)
5.7 Definicion.
Un vector aleatorio (X1 , . . . , Xn ) se dice que es gaussiano,
o que tiene distribucion

normal multivariada, si cualquier combinacion
normal (posiblemente degenelineal a1 X1 + + an Xn tiene distribucion
rada, por ejemplo N (0, 0) si todos los coeficientes a1 , . . . , an son cero).
10 veremos una caracterizacion
de la distribucion
normal
En la Seccion
multivariada usando funciones caractersticas.
5.7 se sigue de manera obvia que si (X1 , . . . , Xn ) es
De la Definicion
un vector gaussiano, entonces las distribuciones marginales tambien son
gaussianas. Sin embargo, el recproco es falso. Es decir, existen vectores
aleatorios que no son gaussianos pero cuyas marginales s son gaussianas,
como en el siguiente ejemplo.
5.8 Ejemplo. Considerese la densidad normal bivariada en (11) con = 0,
56
Probabilidad
i.e.
1 (x2 +y2 )/2

e
(x, y) IR2 .
2
Ahora sea (X1 , X2 ) el vector con densidad conjunta

2f (x, y) si xy 0,
g(x, y) :=
0
en c.c.
f (x, y) =
Entonces se puede demostrar (Ejercicio 5.7) que las densidades marginales

de X1 y X2 son ambas N (0, 1). Sin embargo, la densidad bivariada g no es
gaussiana porque su soporte no es todo el plano ni tampoco es un sub 1. 2
espacio de dimension
5.7, si el vector (X1 , . . . , Xn ) es gaussiano,
Volviendo a la Definicion
lineal a1 X1 + + an Xn es una v.a. gausentonces cualquier combinacion
lineal de vv.aa. gaussianas no necesiana. Sin embargo, una combinacion
normal
sariamente es gaussiana si las variables no tienen una distribucion
multivariada (es decir, cada una de las vv.aa. X1 , . . . , Xn es gaussiana, pero
el vector (X1 , . . . , Xn ) no es gaussiano). Vea el Ejercicio 5.8.
Ejercicios 5
5.1 Demuestre que si X1 , . . . , Xn son vv.aa. independientes, entonces
tambien lo son X1 , . . . , Xk para k < n. (De hecho, se puede ver que cual Xi1 , . . . , Xik de X1 , . . . , Xn son independientes.)
quier subcoleccion
5.2 Sean h1 , . . . , hn : IR IR funciones de Borel. Demuestre que si
X1 , . . . , Xn son vv.aa. independientes, entonces tambien lo son las vv.aa.
h1 (X1 ), . . . , hn (Xn ).
5.3 Sea (X, Y ) un vector aleatorio que tiene densidad uniforme sobre
el disco unitario D := {(x, y) IR2 |x2 + y 2 1}, es decir, la densidad
conjunta de X y Y es
f (x, y) = 1/
si (x, y) D,
y f (x, y) = 0 si (x, y) 6 D.
(a) Encuentre las densidades marginales de X y Y .

(b) Demuestre que X y Y no son independientes.
57
5.4 Sea (X, Y ) un vector aleatorio con densidad conjunta

1
f (x, y) = [1 + xy(x2 y 2 )] para |x| < 1, |y| < 1
4
de
y f (x, y) = 0 en c.c. Demuestre que, efectivamente, f es una funcion
densidad. Calcule las densidades marginales de X y Y .
F y G, respecti5.5 Sean X y Y vv.aa. con funciones de distribucion
vamente, y sea H(x, y) := P{X x, Y y} la f.d. conjunta. Para cada
(x, y) IR2 , sean
M (x, y) := min(F (x), G(y)) y W (x, y) := max(F (x) + G(y) 1, 0).
Demuestre que:
(a) W (x, y) H(x, y) M (x, y) para todo (x, y) IR2 . A las funciones
M y W se les llama las cotas de FrechetHoeffding de la distribucion

conjunta H.
conjunta.
(b) M y W son funciones de distribucion
5.6 Sean X1 , . . . , Xn vv.aa. independientes con funciones de distribu F1 , . . . , Fn , respectivamente. Sean Y := max{X1 , . . . , Xn } y Z := min
cion
{X1 , . . . , Xn }. Demuestre que Y y Z tienen distribucion

P{Y x} = F1 (x) Fn (x),
P{Z x} = 1 F1 (x) Fn (x),
para todo x IR, donde Fk (x) := 1 Fk (x) para k = 1, . . . , n.
5.7 Sea g(x, y) la densidad conjunta en el Ejemplo 5.8. Demuestre que
las densidades marginales de g son ambas N (0, 1).
5.8 Sea X una v.a. N (0, 1), y B una v.a. Bernoulli con P(B = i) =
1/2 para i = 0, 1. Supongase

que X y B son independientes. Sea Y :=
B
N (0, 1), pero X + Y no tiene
(1) X. Demuestre que Y tiene distribucion
normal. (Observe que P(X + Y = 0) = P(B = 1) = 1/2,
distribucion
mientras que X + Y = 2X cuando B = 0.)
58
Probabilidad
Esperanza de vv.aa. discretas y continuas
Contenido: Momentos de una v.a., varianza, desigualdad de Chebyshev.
Sea X una v.a. discreta con valores en el conjunto {x1 , x2 , . . .} y funcion

de densidad fX (xi ) := P(X = xi ). Si se cumple que
X
|xi | fX (xi ) < ,
(1)
i
definimos la esperanza de X como

X
EX :=
xi fX (xi ).
(2)
En forma analoga, sea X una v.a. absolutamente continua con densidad

fX : IR IR. Si
Z
|x| fX (x) dx < ,
(3)
entonces la esperanza de X se define como

Z
EX :=
x fX (x) dx.
(4)
A la esperanza de X se le conoce con varios nombres, por ejemplo,

valor esperado o valor medio o media de X.
6.1 Definicion.
Denotaremos por L1 L1 (, F, P) la familia de vv.aa.

sobre (, F, P) que tienen esperanza finita (es decir, vv.aa. X que satisfacen
(1) en el caso discreto, o (3) en el caso absolutamente continuo).
6.2 Ejemplo. Sea X una v.a. continua con densidad de Cauchy
fX (x) =
1
(1 + x2 )
x IR.

En este caso la integral en (3) resulta
Z
Z
1 2xdx
|x| fX (x) dx =
0 1 + x2
59
(explique).
Por lo tanto, haciendo el cambio de variable u := 1 + x2 vemos que

u=
Z
Z

1
1 du
= .
= ln u
|x| fX (x)dx =
1 u
u=1
Es decir, (3) no se cumple de modo que la v.a. X no esta en L1 . 2
de Borel tal que h(X) esta en
Sea X una v.a. y h : IR IR una funcion
L1 ; es decir
Z
X
|h(xi )| fX (xi ) < o
|h(x)| fX (x)dx <
(5)
si X es discreta o continua, respectivamente. En tal caso la esperanza de

h(X) se define como en (2) o (4) sustituyendo x por h(x), i.e.
X
Eh(X) :=
h(xi )fX (xi ) si X es discreta
i
Eh(X) :=
h(x)fX (x)dx
si X
es continua.
k > 0, a la esperanza
6.3 Casos especiales. (a) Si h(x) = xk para algun
k
Eh(X) = E(X ) se le llama el momento de orden k de X. Ademas, en
lugar de decir que Xk esta en L1 frecuentemente diremos que X esta en
Lk Lk (, F, P). Para k = 1, el momento de orden 1 de X coincide con la
esperanza de X.
(b) Sea mX := EX y sea h(x) := (x mX )k . Entonces, suponiendo que
(5) se cumple,
Eh(X) := E(X mX )k
se llama el momento central de orden k de la v.a. X. En particular, para
k = 2 el momento central de orden 2 se llama la varianza de X y se denota
por Var(X) o X2 , es decir
Var(X) X2 = E(X mX )2 .
(6)
60
Probabilidad
Notese
que (X mX )2 = X2 + m2X 2mX X de modo que
Var(X) X2 = E(X2 ) m2X
(7)
porque para cualquier constante c y cualquier v.a. Y L1 se cumple que

E(c) = c
y E(cY ) = c EY.
(Explique.)
La raz cuadrada positiva de la varianza se llama la desviacion

estandar y
se denota por X , i.e.
p
2
X := + Var(X).
Interpretacion
fsica de EX y Var(X). Sea X una v.a. discreta con valores x1 , x2 , . . . y densidad fX (x1 ), fX (x2 ), . . . Entonces EX es el centro de
gravedad o punto de equilibrio del sistema de masasfX (xi ) en los puntos
con coordenadas xi (i = 1, 2, . . .), y Var(X) es el momento de inercia de dicho
sistema con respecto a su centro de gravedad EX. Para una v.a. continua
fsica similar para la densidad de
EX y Var(X) tienen una interpretacion
masa fX (x).
2
Interpretacion
probabilstica (o frecuencial) de EX. Sea X una v.a.
(discreta o continua) en L1 , y sean X1 , X2 , . . . vv.aa. con la misma dis que X y que, ademas, son independientes. Para cada n = 1, 2, . . . ,
tribucion
sea
1
Pn := (X1 + + Xn )
n
el promedio (o frecuencia) de X1 , . . . , Xn . Entonces de acuerdo con la
posterior)
Ley de los Grandes Numeros
(que veremos en una seccion

Pn EX
casi seguramente.
6.4 Ejemplo. Sea X una v.a. discreta. Demuestre:

(a) Si fX (k) = 1/n k = 1, . . . , n, entonces
1
EX = (n + 1)
2
Var(X) =
1 2
(n 1).
12

(b) Si fX (k) =
1
k(k+1)
61
k = 1, 2, . . ., entonces EX no existe (i.e. X 6 L1 ).
Solucion.
(a) Usando la formula
n
X
1
k = n(n + 1)
2
k=1
vemos que (2) resulta
n
n
X
1
1X
k = (n + 1).
EX =
kfX (k) =
n k=1
2
k=1
Para calcular la varianza de X, primero calcularemos el segundo momento
E(X2 ) de X y despues usaremos (7) con mX := EX. Para calcular E(X2 )
recuerdese que
n
X
1
k 2 = n(n + 1)(2n + 1).
6
k=1
Por lo tanto,
n
X
1X 2 1
k fX (k) =
k = (n + 1)(2n + 1).
E(X ) =
n k=1
6
k=1
2
As pues, de (7),
1
1
1
Var(X) = (n + 1)(2n + 1) (n + 1)2 = (n2 1).
6
4
12
(b) Esto se sigue del hecho de que la serie
EX =
kfX (k) =
k=1
no converge. (Nota. La serie

2
X
k=1
X1
1
=
k + 1 k=2 k
1/k p converge si p > 1 y diverge si p 1.)
k=1
6.5 Problema. En cada uno de los siguientes casos verifique que se cumple
el valor dado de EX y Var(X).

(a) Distribucion
binomial: X Bin(n, p), f (k) :=
n
k
pk q nk para
62
Probabilidad
k = 0, 1, . . . , n, con q := 1 p.
EX = np
Var(X) = npq.
(b) Distribucion
geometrica: X Geo(p), f (k) := pq k para k = 0, 1, . . . ,
con q := 1 p.
EX = q/p y Var(X) = q/p2 .
(c) Distribucion
de Poisson: X Poi(), f (k) := e k /k! para k =
0, 1, . . ..
EX = Var(X) = .
6.6 Problema. Repita el problema anterior para cada una de las siguientes
distribuciones continuas.
(a) Distribucion
uniforme: X Uni[a, b], f (x) := 1/(ba) para a x b.
EX =
a+b
2
Var(X) =
(b a)2
.
12
(b) Distribucion
exponencial: X Exp(), f (x) := ex para x 0.
EX = 1/ y
Var(X) = 1/2 .
(c) Distribucion
normal: X N (m, 2 ), f (x) := (2 2 )1/2 e(xm)
para todo x IR.
EX = m y Var(X) = 2 .
2 /2 2
(d) Distribucion
gama: X (p, ), f (x) := p xp1 ex /(p) para x > 0 y
f (x) := 0 para x 0 (p y son parametros positivos; vea el Ejercicio 2.6).
EX = p/
Var(X) = p/2 .
6.7 Teorema. La familia Lk Lk (, F, P) de las vv.aa. con momento de

orden k finito (k 1) es un espacio vectorial; es decir, si a IR y X, Y Lk
entonces aX y X + Y estan en Lk . Mas generalmente, si a1 , . . . , an son
numeros
reales y X1 , . . . , Xn estan en Lk , entonces
a1 X1 + + an Xn Lk .
63
Demostracion.
La v.a. aX esta en Lk porque E|aX|k = |a|k E|X|k < .

k
Ademas, E(aX) = ak E(Xk ).
Para ver que X + Y esta en Lk notese

primero que
|x + y|k 2k (|x|k + |y|k ) x, y IR, k > 0.
(8)
En efecto, como |x + y| |x| + |y| 2 max{|x|, |y|}, se sigue que

|x + y|k 2k (max{|x|, |y|})k 2k (|x|k + |y|k ).
Por lo tanto, usando el hecho de que
E(X1 + X2 ) = EX1 + EX2
si X1 , X2 L1
(explique),
vemos de (8) que

E|X + Y |k 2k (E|X|k + E|Y |k ) < .
6.8 Teorema. (Desigualdad de Chebyshev.) Sea X L1 una v.a. no ne no decreciente, con g(x) > 0 si
gativa, y g : [0, ) [0, ) una funcion
x > 0, y tal que g(X) L1 . Entonces para cada > 0
P{X } Eg(X)/g().
(9)
Casos especiales: (a) Con X Lk y g(x) = xk (k 1)

P{|X| } E|X|k /k .
(b) En (a) tomese

k = 2, X L2 , g(x) = x2 ; ademas tomese
X mX en
lugar de X. Entonces
P{|X mX | } E(X mX )2 /2 ,
i.e.
P{|X mX | } X2 /2
(10)
64
Probabilidad
o equivalentemente
P{|X mX | < } 1 X2 /2 .
(11)
Demostracion.
Considere la v.a. discreta
Y
:= 0
si X < ,
:= g() si X .
Entonces (como X g(X) g())

Eg(X) EY = g() P{Y = g()} = g()P{X }. 2
6.9 Ejemplo. (a) Sea X una v.a. discreta con densidad
f (x) := 1/18 si x = 1, 3,
:= 16/18 si x = 2.
Entonces mX = 2 y X2 = 1/9. Luego, de (10),
P{|X 2| } 1/92
> 0.
(12)
En particular, si = 1 se tiene igualdad en (12), porque

P{|X 2| 1} = P{X = 1 o X = 3} = 1/9,
de modo que, en general, la desigualdad de Chebyshev no se puede mejorar.
en el inciso (a), en algunos casos la es(b) A pesar de la conclusion
que se obtiene de la desigualdad de Chebyshev (10) puede ser
timacion
muy pobre. Por ejemplo, supongase

que X Exp(), con = 1/2. En2
tonces, por 6.6(b), mX = 1/ = 2 y X = 1/2 = 4 de modo que con = 4,
la desigualdad (10) da
P{|X mX | 4} X2 /16 = 0.25.
exponencial FX (x) = 1 ex (para
Sin embargo, si usamos la distribucion
x 0) vemos que
P{|X mX | 4} =
=
=
=
P{X mX + 4 o X mX 4}
P{X 6}
1 FX (6)
e3 = 0.0494 << 0.25.
65
exacta de X se obtiene una proEn otras palabras, usando la distribucion

babilidad mucho menor que la que se obtiene usando (10) como una apro
ximacion.
2
Ejercicios 6
f (a) := E(X a)2
6.1 Demuestre que si X L2 , entonces la funcion
alcanza su mnimo en a = EX, es decir
min E(X a)2 = f (EX) = Var(X).
aIR
6.2 Sea M un entero positivo y X Geo(p). Calcule la media de Y :=

min{X, M }.
6.3 Calcule la esperanza de Y := 1/(1 + X), en donde X Poi().
6.4 Sea N un entero positivo, y sea f (k) := 2k/N (N + 1) para k =
1, . . . , N, y f (k) := 0 en caso contrario. Demuestre que f es una densidad
discreta y calcule su media.
6.5 Sea X N (0, 1). Calcule la media y la varianza de |X|, X2 , y etX
para t IR fijo.
6.6 Sean k r dos enteros positivos. Demuestre que
(a) |x|k |x|r + 1 x IR.
(b) Si X L1 y X 0, entonces EX 0. (Por lo tanto, si X, Y L1 y
X Y , entonces EX EY .)
(c) Si X Lr entonces X Lk ; en otras palabras, si 1 k r entonces
Lr Lk . (Sugerencia: use (a) y (b).)
6.7 Sea X una v.a. y M una constante tal que P{|X| M } = 1. Demuestre que
|EX| E|X| M.
66
Probabilidad
(Sugerencia: para obtener la primera desigualdad use el Ejercicio 6(b).)

6.8 Sea X una v.a. no negativa. Demuestre:
(a) Si X es discreta con valores en {0, 1, . . .}, entonces EX =
P{X n}.
n=1
(b) Si X es absolutamente continua, entonces EX =
R
0
P{X > x}dx.
6.9 Sea X Geo(p), y sea q := 1 p.

(a) Demuestre que P(X n) = q n para todo n = 0, 1, . . ..
(b) Use el Ejercicio 8(a) para demostrar que EX = q/p.
6.10 Sea X Exp().
(a) Demuestre que P(X > x) = ex para todo x > 0.
(b) Use el Ejercicio 8(b) para demostrar que EX = 1/.
6.11 Se dice que una v.a. X es simetrica si X y X tienen la misma f.d.
de densidad f es simetrica si f es par (o
Por otra parte, una funcion
simetrica con respecto al origen), i.e. f (x) = f (x) para todo x IR.
(a) Demuestre que X es simetrica ssi P{X x} = P{X x} para todo
x IR.
(b) Si X es una v.a. continua con densidad fX , demuestre que X es simetrica ssi fX es simetrica.
(c) De al menos dos ejemplos de vv.aa. simetricas.
6.12 Demuestre que si X N (m, 2 ) y b 6= 0, entonces
a + bX N (a + bm, b2 2 ).
67
6.13 Demuestre que X N (m, 2 ) ssi (X m)/ N (0, 1).
6.14 Demuestre que si X N (0, 2 ), entonces X2 tiene distribucion

gama con parametros p = 1/2 y = 1/2 2 . (Vea 6.6(d).)
6.15 Si X N (m, 2 ), calcule la densidad de Y := eX . La densidad de
Y se conoce como densidad lognormal con parametros m y 2 . (Vea el
Ejercicio 2.5)
68
Probabilidad
La integral de Lebesgue
Contenido: La integral de Lebesgue, la integral de LebesgueStieltjes

(LS), la esperanza de una v.a.
definimos las integrales de Lebesgue y de Lebesgue
En esta seccion
con la esperanza de una v.a.
Stieltjes (LS) y vemos su relacion
F
Sea (, F, ) un espacio de medida y X : IR una funcion
indicadora de un conjunto A F definimedible. Si X = IA es la funcion
mos la integral de Lebesgue (o simplemente la integral) de X con respecto
a como
Z
X d := (A).
(1)
simple, es decir, X toma unicamen

Supongase
ahora que X es una funcion
te un numero
finito de valores (distintos) x1 , . . . , xn en IR. Sea
Ai := { | X() = xi } i = 1, . . . , n,
de modo que podemos escribir X en la forma
X=
n
X
xi IAi .
i=1
Entonces definimos la integral de X con respecto a como

Z
X d :=
n
X
xi (Ai ).
(2)
i=1
Si X es no negativa definimos su integral con respecto a como

Z
Z
X d := sup{ h d | h es simple y 0 h X}.
(3)
69
Notese
que este supremo siempre existe pero puede ser +.
medible arbitraria y considerese su parte posAhora sea X una funcion
itiva
X+ () := max{X(), 0}
y su parte negativa
X () := min{X(), 0} = max{X(), 0}
Notese
que X = X+ X y |X| = X+ + X , y que ambas funciones X+ y X
son no negativas. Por lo tanto, por (3), sus integrales
Z
Z
+
X d y
X d
estan bien definidas. Si, ademas, ambas integrales son finitas, entonces
decimos que X es integrable con respecto a y su integral es
Z
Z
Z
+
X d :=
X d X d.
(4)
Denotaremos por L1 (, F, ), o simplemente L1 () o L1 , la familia de fun

ciones integrables con respecto a . Notese
que X L1 ssi |X| L1 , es
decir,
Z
Z
Z
+
|X|d =
X d + X d < .
El espacio L1 es un espacio vectorial (vea el Teorema 6.7), y la integral

es
R un operador lineal y positivo sobre L1 (es decir, X 0 implica que
X d 0).
7.1 Definicion.
Supongase
que P es una m.p. Entonces X es una v.a.
y su integral con respecto a P se llama la esperanza de X y escribimos
Z
EX :=
X dP.
(5)
coincide con la definicion

de esperanza para vv.aa. disEsta definicion
cretas y continuas que vimos en la 6.
de
7.2 Ejemplo. Sea X una v.a. discreta con valores x1 , . . . , xn y funcion
densidad
fX (xi ) = P{X = xi } para i = 1, . . . , n.
70
Probabilidad
Sea Ai := { |X() = xi } para i = 1, . . . , n. Entonces, de (5) y (2),

Z
n
X
xi P(Ai )
EX :=
X dP =
n
X
i=1
xi P{X = xi }
i=1
n
X
xi fX (xi ),
i=1
de EX en (6.2). De hecho, un arguque coincide con nuestra definicion

mento similar muestra que (5) y (6.2) coinciden para cualquier v.a. discreta
X, aunque tenga un numero

infinito numerable
La
on
R +de valores.
R condici
+
(6.1) asegura que ambas esperanzas EX = X dP y EX = X dP son

finitas, porque (6.1) es equivalente a
Z
Z
+
E|X| =
X dP + X dP < .
2
de distribucion
de probabilidad (f.d.p.) y sea F la
Sea F una funcion
de
correspondiente medida de LS; vea (4.10). Si h : IR IR es una funcion
Borel integrable con respecto a F , escribimos
Z
Z
h(x) dF (x) :=
h dF
(6)
IR
IR
y decimos que (6) es la integral de LS de h con respecto a F (o con respecto a F ). En particular, si F FX es la f.d. de una v.a. X, se puede
demostrar que la esperanza de h(X) existe ssi
Z
|h(x)|dFX (x) < ,
IR
en cuyo caso
Z
Eh(X) :=
Z
h(X)dP =
h(x) dFX (x).
(7)
IR
De aqu se puede ver que, por ejemplo, si X es (absolutamente) continua
con densidad fX , entonces la esperanza de h(X) coincide con la definicion

6, i.e.
en la Seccion
Z
h(x)fX (x)dx.
Eh(X) =
71
Mas precisamente, tenemos el siguiente resultado.

de
7.3 Teorema. Sea X una v.a. sobre (, F, P) y h : IR IR una funcion
1
Borel. Sea FX la f.d. de X, y PX (B) := P[X (B)], para B B(IR), la m.p.
inducida por X sobre (IR, B(IR)). Entonces
(a) h(X) L1 (, F, P) ssi h L1 (IR, B(IR), PX ). Ademas,
(b) Si se satisface una de las dos condiciones en (a), entonces
Z
Z
h(X())P(d) =
h(x)PX (dx).
(8)
IR
(Recuerde que el lado izquierdo de (8) coincide con Eh(X); vea (7).)
indicadora de
Demostracion.
Supongase
primero que h = IB , la funcion
un conjunto de Borel B. Entonces, como
IB (X()) = 1 ssi X1 (B),
el lado izquierdo de (8) resulta
Z
Z
1
IB (X())P(d) = P(X (B)) = PX (B) =
IB (x)PX (dx).
(9)
IR
Es decir, (8) se cumple para funciones indicadoras. Luego, por linealidad,
tambien se cumple para funciones simples. Ahora supongase

que h es una
de Borel arbitraria pero no negativa. Entonces existe una sucesion
funcion
nodecreciente de funciones simples hn tal que hn h. Por lo tanto, por el
teorema de convergencia monotona

(Ejercicio 7.8),
Eh(X) = E[lim hn (X)]
n
= lim Ehn (X)

n
Z
= lim hn (x)PX (dx)
n
Z
=
h(x)PX (dx).
72
Probabilidad
De aqu se siguen (a) y (b) para h 0. Para h arbitraria, aplicamos el

argumento anterior a h+ y h . 2
Si X es una v.a. absolutamente continua con densidad fX , entonces
para cualquier intervalo (a, b] tenemos
Z b
PX (a, b] = P{a < X b} = FX (b) FX (a) =
fX (x)dx.
a
En general, para cualquier conjunto de Borel B IR tenemos

Z
Z
PX (B) =
fX (x)dx = fX (x)IB (x)dx.
B
Comparando esta igualdad con (9) vemos que el mismo argumento de la

anterior da lo siguiente.
demostracion
7.4 Corolario. Sea X una v.a. continua con densidad fX , y sea h una
de Borel. Si E|h(X)| < , entonces
funcion
Z
Eh(X) =
h(x)fX (x)dx.
7.5 Observacion.
Si (, F, ) es un espacio de medida arbitraria y k 1, la
familia de funciones Fmedibles X : IR tales que
Z
|X|k d <
IR
se denota por Lk (, F, ). Como en el Teorema 6.7, se puede demostrar

que dicha familia es un espacio vectorial. De aqu se sigue, en particular,
que si X, Y L1 (, F, ) L1 y a, b IR, entonces aX + bY esta en L1 y
Z
Z
Z
(aX + bY )d = a X d + b Y d.
Ejercicios 7
7.1 Sea (, F, ) un espacio de probabilidad en donde x es la medida de Dirac concentrada en el punto x . Demuestre que si X : IR
73
R
es una v.a. no negativa, entonces
X d = X(x).
7.2 Sea = {1, 2, . . .}, F = 2 el conjunto potencia de , y X :

no negativa. Sea laR medida de
IR una funcion
P conteo (definida en el
Ejemplo 1.8) sobre F. Demuestre que X d =
n=1 X(n).
En los ejercicios siguientes (, F, ) es un espacio de medida arbitraria
Fmedible.
y X es una funcion
7.3 Demuestre:
(a) Si X = 0 c.d.q., entonces
X d = 0.
(b) Si X y Y son vv.aa. tales que X = Y c.s., entonces EX = EY .

R
(c) Si X 0 y X d = 0, entonces X = 0 c.d.q.
R
7.4 Si |X|d < , entonces X es finita c.d.q.; es decir, el conjunto
A := { | |X()| = } tiene medida (A) = 0.
7.5 Si X esta en L1 (, F, ) y X 0, demuestre que entonces
Z
X d 0.
Por lo tanto, si X y Y son ambas funciones integrables y X Y , entonces

Z
Z
X d
Y d.
Ademas, definiendo
Z
Z
X d :=
X IA d A F,
vemos que si X 0 y A, B F son tales que A B, entonces

Z
Z
X d
X d.
A
7.6 Demuestre: si X es integrable, entonces |
X d|
|X|d.
74
Probabilidad
7.7 Sea X 0 una v.a. sobre (, F, P) con EX = 1. Defina
Q(A) := E(XIA ) A F.
Demuestre:
(a) Q es una m.p. sobre (, F).
(b) Si P(A) = 0 entonces Q(A) = 0. De un ejemplo mostrando que el
recproco es falso en general, es decir, Q(A) = 0 no implica P(A) = 0.
(c) Si P(X > 0) = 1, entonces la esperanza con respecto a Q, que denotamos por EQ (), satisface que EQ (Y ) = EP (Y X), i.e.
Z
Z
Y dQ = Y X dP.
Ademas, la m.p. R definida como R(A) := EQ (IA /X) para A F
coincide con P, i.e. R() = P().
7.8 Demuestre el Teorema de Convergencia Monotona:
Sea {Xn } una

creciente de funciones de Borel, nonegativas, tales que Xn X.
sucesion
Entonces
Z
Z
Xn d
X d.
mas general de este resultado.)

(En el Teorema 9.2 se da una version
7.9 Sean y dos medidas sobre un espacio medible (, F), y sea f :
de Borel, nonegativa, tal que
IR una funcion
Z
(B) =
f ()(d) B F.
B
(En este caso se dice que f es la densidad (o derivada de RadonNikodym)

de Borel
de con respecto a .) Demuestre que para cualquier funcion
g : IR
Z
Z
g()(d) =
g()f ()(d),
en el sentido de que si una de las dos integrales existe, entonces tambien

existe la otra y, ademas, sus valores coinciden.
de
(Sugerencia: Use el mismo argumento que se uso en la demostracion
(8).)
75
Esperanza e independencia
Contenido: Covarianza, varianza de una suma, leyes debiles de grandes
numeros.
5 estudiamos el concepto de independencia de vv.aa.
En la Seccion
se muestra que la esperanza del producto de
En la siguiente proposicion
vv.aa. independientes tiene una forma particularmente simple.
8.1 Proposicion.
Sean X1 , . . . , Xn vv.aa. independientes.
(a) Si ademas las vv.aa. X1 , . . . , Xn estan en L1 , entonces su producto
X1 Xn tambien esta en L1 y
E(X1 Xn ) = (EX1 ) (EXn ).
(1)
(b) Asimismo, si para cada k = 1, . . . , n, se tiene que hk : IR IR es

de Borel tal que hk (Xk ) esta en L1 , entonces el producto
una funcion
h1 (X1 ) hk (Xn ) esta en L1 y
E[h1 (X1 ) hn (Xn )] = Eh1 (X1 ) Ehn (Xn ).
Demostracion.
Es claro que (a) y (b) son equivalentes. En efecto, (a) es

un caso especial de (b) y, recprocamente, (b) se sigue de (a) y del Teorema
5.2 (d). Por lo tanto, basta demostrar (por ejemplo) (b) en el caso n = 2
para el caso general. (Explique.) Ademas, para
y despues usar induccion
escribiremos h1 (X1 ) f (X), h2 (X2 ) g(Y ).
simplicar la notacion
se obtiene (b) si f y g son funciones indicadoras y
Con esta convencion,
tambien, por linealidad, para funciones simples. Supongamos ahora que
f y g son funciones medibles no negativas. Entonces existen funciones
simples fn 0 y gn 0 tales que fn f y gn g. Por lo tanto, fn (X)gn (Y )
76
Probabilidad
f (X)g(Y ) y se sigue que, por convergencia monotona,

E[f (X)g(Y )] = E[lim fn (X)gn (Y )]
n
= lim E[fn (X)gn (Y )]

n
= lim E[fn (X)]E[gn (Yn )]

n
= E[f (X)]E[g(Y )].

Finalmente, en el caso general tomamos f = f + f y g = g + g y (b)
se obtiene por linealidad. 2
en 8.1(a) no es valida si las vv.aa. X1 ,. . . ,Xn
8.2 Observacion.
La conclusion
no son independientes. En otras palabras, si X y Y estan en L1 , en general
no se cumple que el producto XY esta en L1 . Por ejemplo, sea X = Y una
3
v.a. discreta con densidad
P f (k) := c/k para k = 1, 2, . . . , en donde c es una
constante para la cual f (k) = 1. (Recuerde la Nota al final del Ejemplo
6.4(b).) Entonces X = Y esta en L1 porque
EX =
kf (k) = c
k=1
k 2 < ,
k=1
pero el producto XY = X2 no esta en L1 , pues

E(X2 ) =
X
k=1
k 2 f (k) = c
k 1 6< .
k=1
Si X y Y son vv.aa. en L2 , entonces XY L1 porque |XY | 12 (X2 + Y 2 ).

En este caso, definimos la covarianza de X y Y como
Cov(X, Y ) := E[(X mX )(Y mY )],
(2)
en donde mX := EX y mY := EY . Notese
que Cov(X, X) = Var(X) y, por
otra parte,
Cov(X, Y ) = E(XY ) mX mY .
(3)
77
Si Cov(X, Y ) = 0 se dice que X y Y no estan correlacionadas. De (3) y de

8.1(a) se deduce lo siguiente.
la Proposicion
8.3 Proposicion.
Si X, Y L2 son independientes, entonces no estan correlacionadas.
8.4 Observaciones. (a) El recproco de 8.3 es falso; es decir, hay vv.aa.
que no estan correlacionadas y que, sin embargo, no son independientes.
Como ejemplo de lo anterior vea el Ejercicio 1. Otro ejemplo es el siguiente:
sean X y Y vv.aa. que tienen densidad conjunta f (x, y) uniforme sobre el
disco unitario D := {(x, y) IR2 |x2 + y 2 1}, es decir
f (x, y) := 1/
si (x, y) D,
y f (x, y) := 0 para (x, y)

/ D. Entonces la densidad marginal de X y su
esperanza son
fX (x) =
2
1 x2
si
1 x 1,
EX = 0
y similarmente para Y . En particular, f (x, y) 6= fX (x) fY (y) de modo que

X y Y no son independientes. Sin embargo, un calculo directo demuestra
que X y Y no estan correlacionadas porque E(XY ) = 0 = EX EY .
conjunta de
(b) Una excepcion
al inciso (a) es cuando la distribucion
X y Y es la distribucion
normal bivariada del Ejemplo 5.5. En tal caso se
puede ver que la covariancia de X y Y es el parametro que aparece en
(5.11), es decir Cov(X, Y ) = . Por lo tanto, del inciso (b) de dicho ejercicio
concluimos que X y Y son independientes ssi no estan correlacionadas (i.e.
= 0).
2
de vv.aa. que tienen la misma distribucion,
diSi {Xn } es una coleccion
remos que las vv.aa. son identicamente distribuidas. Asimismo, la abre i.i.d. significa que son independientes e identicamente distribuidas.
viacion
Ademas, diremos que las vv.aa. X1 , . . . , Xn no estan correlacionadas si
78
Probabilidad
Cov(Xi , Xj ) = 0 para i 6= j.
8.5 Proposicion.
Sean X1 , . . . , Xn vv.aa. en L2 . Entonces
Var(X1 + + Xn ) =
n
X
Var(Xk ) + 2
k=1
Cov(Xk , Xj ).
(4)
k<j
Por lo tanto, si las vv.aa. no estan correlacionadas (en particular, si son

independientes)
Var(X1 + + Xn ) =
n
X
Var(Xk ).
(5)
k=1
Si ademas las vv.aa. tienen la misma varianza, digamos Var(Xk ) = 2 ,

entonces
Var(X1 + + Xn ) = n 2 .
(6)
Notese
que (6) se cumple, en particular, si X1 , . . . , Xn son i.i.d. con varianza
2.
comun
Demostracion.
Sea S := X1 + + Xn y mk := EXk la media de Xk (k =
1, . . . , n). Entonces
ES = m1 + + mn
(7)
y
n
X
Var(S) = E(S ES) = E[ (Xk mk )]2 .
2
k=1
De aqu se sigue que (4) es consecuencia de la formula

general
2
(x1 + + xn ) =
n
X
k=1
para numeros
reales x1 , . . . , xn .
x2k + 2
xk xj .
k<j
En el Ejercicio 2 se pide calcular una formula

un poco mas general que
(4).
8.6 Definicion.
Si las vv.aa. X1 , . . . , Xn son i.i.d. decimos que forman una
79
n. En este caso se dice que Sn := X1 + +Xn

muestra aleatoria de tamano
es una suma muestral.
8.7 Ejemplo. Sea X1 , . . . , Xn una muestra aleatoria de vv.aa. en L2 cada
una con media y varianza 2 . Sea S n := Sn /n el promedio muestral, i.e.
1
(X1 + + Xn ).
n
S n :=
Demuestre que cuando n
Var(S n ) 0
(8)
y, ademas, para cualquier > 0

P{|S n | } 0.
(9)
Demostracion.
Por (7) y (6), ESn = n y Var(Sn ) = n 2 . Por lo tanto,
ES n =
1
ESn =
n
Var(S n ) =
1
1
Var(Sn ) = 2 .
2
n
n
implica (8). Por otra parte, de la desigualdad de

Esta ultima
relacion
Chebyshev (6.10) vemos que
P{|S n | } Var(S n )/2 = 2 /n2 ,
de lo cual se sigue (9).
(10)
posterior diremos que, cuando n ,

Debido a (9), en una seccion
Sn
en probabilidad.
(11)
Asimismo, como Var(S n ) = E(S n )2 0, por (8), diremos que

Sn
en L2 (o en la media de orden 2).
(12)
Los resultados en (11) y (12) se conocen como leyes debiles de los grandes
numeros
en probabilidad y en L2 , respectivamente. Notese

que, por (10), la
80
Probabilidad
convergencia en (12) implica (11).
Ejercicios 8
8.1 Sea = {1, 2, 3} un espacio equiprobable, i.e. P() = 1/3 para
= 1, 2, 3. Sean X y Y las vv.aa.
X() = 1
= 0
= 1
Y () = 0 si = 1 o 3,
= 1 si = 2.
si = 1,
si = 2,
si = 3,
Demuestre que X y Y no estan correlacionadas y que no son independientes.
8.2 Sean X1 , . . . , Xn vv.aa. en L2 , y sean b, a1 , . . . , an numeros

reales.
Demuestre que
Var(a1 X1 + + an Xn + b) =
n
X
a2k Var(Xk ) + 2
k=1
ak aj Cov(Xk , Xj ).
k<j
8.3 Sean X y Y vv.aa. en L2 con desviaciones estandar X y Y , respectivamente. Definimos el coeficiente de correlacion
de X y Y como
(X, Y ) :=
Cov(X, Y )
.
X Y
(a) Sea a un numero

real y verifique que
0 E(X + aY )2 = E(X2 ) + a2 E(Y 2 ) + 2aE(XY ).
(b) Tomando a := E(XY )/E(Y 2 ) deduzca la desigualdad de Cauchy
Schwarz:
p
p
|E(XY )| E(X2 ) E(Y 2 ).
()
(c) Sustituyendo X y Y en (*) por X EX y Y EY , respectivamente,
concluya que
1 (X, Y ) 1.
(d) Demuestre que en (*) se cumple la igualdad ssi se satisface alguna de
las siguientes dos condiciones:
81
(d1 ) P{X = 0} = 1 o P{Y = 0} = 1;

(d2 ) X y Y son linealmente dependientes con probabilidad 1, en el sentido de que P{X = cY } = 1 para alguna constante c.
8.4 Calcule Var(X2 Y ), en donde X y Y son vv.aa. independientes con
E(X4 ) = 2, E(X2 ) = 1, E(Y 2 ) = 1 y E(Y ) = 0.
8.5 Sean X1 , . . . , Xn i.i.d. Calcule la media y la varianza de Sn := X1 +
+ Xn en cada uno de los siguientes casos.
(a) X1 Geo(p).
(b) X1 Poi().
(c) X1 Exp().
(d) X1 N (m, 2 ).
8.6 Sea X1 , . . . , Xn una muestra aleatoria de vv.aa. Bernoulli con dis

tribucion
P{X1 = 1} = 1 P{X1 = 0} = 1/2,
y sea S n el correspondiente promedio muestral. Demuestre que si n = 100,
entonces
P{|S n 0.5| 0.1} 0.25.
(Sugerencia: use (10).)
P(X = i) = P(Y = i) = 1/2 para
8.7 Sean X y Y i.i.d. con distribucion
i = 1, 1. Sea Z := XY . Demuestre que X, Y y Z no son independientes,
pero s son independientes de dos en dos.
8.8 Sea X = (X1 , . . . , Xn ) IRn un vector aleatorio. La matriz de covarianza de X es la matriz CX n n que tiene componentes
cij := Cov(Xi , Xj ) i, j {1, . . . , n}.
82
Probabilidad
Demuestre que CX es semidefinida

positiva, es decir, es simetrica (cij = cji
P
para todo i, j) y, ademas, ij ai aj cij 0 para todo (a1 , . . . , an ) IRn .
8.9 Sea X IRn un vector aleatorio con matriz de covarianza C, y sea
A una matriz m n. Demuestre que Y := AX IRm tiene matriz de
covarianza ACA , en donde A es la transpuesta de A.
83
Convergencia de vv.aa.
Contenido: Convergencia puntual, c.d.q., en medida, en Lk , en distribu
cion,
teoremas de convergencia monotona,
convergencia dominada,
leyes de grandes numeros,

convergencia debil de medidas.
Sea (, F, ) un espacio de medida y X, Xn : IR (para n = 1, 2, . . .)
funciones Fmedibles.
{Xn }
9.1 Definicion.
Decimos que la sucesion
(a) converge puntualmente a X si Xn () X() para todo ;
(b) converge casi donde quiera (c.d.q.) si Xn X excepto en un conjunto de medida cero; es decir, si
A := { | Xn () 6 X()},
(1)
entonces (A) = 0. En particular, si P entonces el conjunto

en donde Xn s converge a X tiene probabilidad 1, porque P(Ac ) =
1 P(A) = 1. Por lo tanto, en lugar de Xn X c.d.q. se dice que
Xn X con probabilidad 1 (c.p. 1) o casi seguramente (c.s.).
Es evidente que en 9.1, (a) (b). Por otra parte, los tipos de convergencia en 9.1 estan relacionados,
en particular,
con la siguiente pregunta:
R
R
Cuando se cumple que lim Xn d = (lim Xn )d? Un resultado de este
tipo es el Teorema de Convergencia Monotona

que aparece en el Ejercicio
7.8 y que repetimos aqu:
9.2 Proposicion.
Si Xn 0 para todo n y Xn X, entonces
Z
Z
Xn d X d.
9.3 Teorema de convergencia monotona
extendido.
(2)
84
Probabilidad
(a) Si Xn Y para todo n, en donde

cumple (2).
Y d > , y Xn X, entonces se
R
(b) Si Xn Y para todo n, en donde Y d < , y Xn X, entonces
Z
Z
Xn d X d.
R
R
Demostracion.
(a) Si Y d = +, entonces Xn d = + para Rtodo n y
por lo tanto (2) se cumple trivialmente. Supongamos ahora que Y d <
, en cuyo caso |Y | < c.d.q. Redefinimos Y como Y () := 0 si
Y () = . Entonces
0 Xn Y X Y
R
R
9.2) que (Xn Y ) (X Y ),
y se sigue del Ejercicio 7.8 (=Proposicion
lo cual implica (2).
Xn Y. 2
El inciso (b) se demuestra aplicando (a) a la sucesion
Como aplicaciones de 9.2 y 9.3 tenemos lo siguiente.
9.4 Ejemplo. Demuestre que si Xn 0 para todo n, entonces
Z X !
XZ
Xn d.
Xn d =
n
En particular, si P es una m.p.,

!
X
X
E
Xn =
EXn
n
(3)
si Xn 0 n.
Solucion.
Para cada k = 1, 2, . . . , sea Yk :=
k
P
Xn . Luego, como las fun-
n=1
{Yk } es nodecreciente y Yk Y :=
ciones Xn son nonegativas, la sucesion
P
Xn . Por lo tanto (3) se sigue de (2). (Explique.)
2
n=1
nonegativa y defnase
9.5 Ejemplo. Sea X L1 (, F, ) una funcion
Z
Z
(A) :=
X d =
X IA d A F.
A
(4)
85
Demuestre que es una medida finita. En particular, si P es una

m.p. y 0 < EX < , entonces (A) := E(X IA )/EX define una m.p.
X 0. Entonces la
(Supongase
que X L1 , pero no satisface la condicion
() en (4) es una medida con signo.)
funcion
Solucion.
Es evidente que satisface las condiciones (a) y (b) de la Defi 1.7, i.e. () = 0 y (A) 0 para todo A F. Para demostrar la
nicion
de aditividad en 1.7(c), considere una sucesion
{An } F de
condicion
S
conjuntos ajenos, y sea A :=
An . Deseamos probar que
n=1
(A) =
(5)
(An ).
n=1
indicadora de An (n = 1, 2, . . .) y notese
Para probar (5), sea IAn la funcion

que
X
IA =
IAn (explique).
n=1
Por lo tanto
X IA =
X IAn
n=1
y de (4) y (3) se sigue que

Z
(A) =
X IA d =
Z
X
X IAn d =
n=1
Por ultimo,
notese
que es finita porque () =
(An ).
n=1
X d < . 2
del siguiente resultado usa el Lema de Fatou (EjerciLa demostracion

cio 9.9 ).
R9.6 Teorema de convergencia dominada. Si |Xn | Y para todo n, con
|Y |d < , y ademas Xn X c.d.q., entonces
Z
Z
Z
|X|d < y
Xn d X d.
(6)
86
Probabilidad
Demostracion.
Por el Lema de Fatou,
Z
Z
Z
Z
(lim inf Xn ) lim inf Xn lim sup Xn (lim sup Xn ).
Esto implica (6) porque Xn X, es decir, lim inf Xn = lim sup Xn = X. 2
Caso especial: Teorema de convergencia acotada. Supongase

que P
es una m.p. y que existe una constante M tal que |Xn | M para todo n. Si
ademas Xn X c.s., entonces se cumple (6), i.e. E|X| < y EXn EX.
9.7 Ejemplo. Sea (, F, ) = (IR, B(IR), ) en donde es la medida de
indicadora del intervalo
Lebesgue. Para cada n = 1, 2, . . . sea Xn la funcion
[n, ), y X 0. Demuestre:
(a) Xn X, y
(b) 0 Xn 1 para todo n, pero
R
R
al Teorema 9.3 o al 9.6?
(c) Xn d 6 X d. Es e sto una contradiccion
9.8 Definicion.
Sea (, F, ) un espacio de medida y sean X, Xn :

{Xn }
IR (n = 1, 2, . . .) funciones Fmedibles. Decimos que la sucesion
(a) converge en medida a X si
lim {|Xn X| } = 0 > 0;
(b) converge en Lk a X (1 k < ) si X, Xn estan en Lk (, F, ) y

Z
lim
|Xn X|k d = 0.
n
(7)
(8)
Si P es una m.p. y se cumple (7), i.e.

P{|Xn X| } 0 > 0,
(9)
87
se dice que Xn converge a X en probabilidad. Asimismo, si se cumple (8),

i.e.
E|Xn X|k 0,
(10)
se dice que Xn converge a X en Lk o en la media de orden k.
Para vv.aa. tenemos un tipo mas de convergencia.
de vv.aa. Se dice que Xn X en
9.9 Definicion.
Sea {Xn } una sucesion
distribucion
(o que Xn X debilmente) si
FXn (x) FX (x) x C(FX ),
en donde C(FX ) := {x IR|FX es continua en x}.
Los distintos tipos de convergencia de vv.aa. estan relacionados como
sigue
9.10 Proposicion.
Para vv.aa.:
c.s. Prob.
Distribucion
Lk
de las implicaciones c.s. Prob. Distribucion
se
La demostracion
9.18. La demostracion
de
puede ver en el Corolario 9.17 y la Proposicion
Lk Prob. se sigue de la desigualdad de Chebyshev (6.9) sustituyendo
X y g(x) por |Xn X| y g(x) = xk , lo cual da
P{|Xn X| } E|Xn X|k /k .
De esta desigualdad se ve que (10) (9).
Un hecho importante es que, en general, los recprocos de las implicaciones en 9.10 no se cumplen, como se muestra en el siguiente ejemplo.
9.11 Ejemplo. Sea (, F, P) = ([0, 1], B[0, 1], ), con restringida al inter-
88
Probabilidad
valo [0, 1].

(a) Sea Xn := n I[1/n,2/n] para n = 1, 2, . . . , y X 0. Entonces Xn X en
probabilidad porque, digamos para 0 < 1,
P{|Xn | } = [1/n, 2/n] = 1/n 0.
Sin embargo,
E|Xn |k = nk [1/n, 2/n] = nk1 6 0 k 1
de modo que Xn no converge en Lk . Luego, convergencia en probabilidad
no implica convergencia en Lk .
Notese,
ademas, que Xn X c.s., as que convergencia c.s. no implica
convergencia en Lk .
(b) Sea X 0 y sea Xn = IAn en donde A1 := [0, 1/2] y A2 := (1/2, 1];
A3 := [0, 1/4], A4 := (1/4, 1/2], A5 := (1/2, 3/4], A6 := (3/4, 1]; etc. Entonces
Xn () 6 X() ,
pero Xn X en probabilidad porque P{|Xn | } 0 para cualquier
0 < < 1. Es decir, convergencia en probabilidad no implica convergencia
c.s.
(c) Primero definiremos dos vv.aa. X y Y que no coinciden en ningun
punto pero que tienen la misma distribucion, i.e.

X() 6= Y () ,
pero FX (x) = FY (x) x IR.
(11)
En efecto, tomando (por ejemplo) X := I[0,1/2] y Y := I(1/2,1] , es evidente

que se cumplen las condiciones en (11).
{Yn } con Yn X para todo n. Entonces se
Ahora considere la sucesion
tiene FYn = FX = FY para todo n y, por lo tanto,
Yn Y
en distribucion.
Sin embargo, Yn no converge a Y en probabilidad porque, para cualquier

0 < < 1,
P{|Yn Y | } = P{|X Y | } = 1 6 0.
89
de vv.aa. i.i.d. Para cada n = 1, 2, . . . , sean Sn y

Sea {Xn } una sucesion
S n la suma muestral y el promedio muestral, respectivamente, i.e.
Sn := X1 + + Xn
y S n :=
1
Sn .
n
En (7.11) y (7.12) vimos dos leyes debiles de grandes numeros

para el caso
en el que las Xn estan en L2 , a saber
Sn
en L2
y (por lo tanto) en probabilidad,
donde := E(X1 ). La ley fuerte de los grandes numeros

se refiere a convergencia c.s. y se enuncia como sigue,
9.12 Ley fuerte de los grandes numeros.
Si X1 , X2 , . . . son vv.aa. i.i.d. con

media finita, entonces
lim S n = c.s.
n
Si E|X1 | = , entonces lim sup |Sn /n| = c.s.

se da una demostracion
de 9.12.
Adelante en la seccion
Los dos ejemplos siguientes ilustran el metodo Monte Carlo, que en esen de la ley fuerte de los grandes numeros
cia es una aplicacion

9.12.
S contenida
9.13 Ejemplo. Se desea calcular o estimar el a rea de una region
en el cuadrado unitario C := [0, 1] [0, 1]. Seleccionense

al azar n puntos
en C y sea n0 el numero
de puntos que estan en S. Afirmamos que
n0 /n := a rea de S
(12)
es mejor cuando n crece.

y que la estimacion
En efecto, sea (, F, P) el espacio de probabilidad con := C, F :=
B(C) y P := , la medida de Lebesgue. Sean X1 , X2 , . . . vv.aa. i.i.d. definidas como Xk := IS , i.e.

1 si S,
Xk () :=
0 en c.c.
90
Probabilidad
Notese
que las Xk son vv.aa. Bernoulli con parametro , pues
P{Xk = 1} = P{| S} = (S) = .
Luego, EXk = y 2 :=Var(Xk ) = (1 ); ademas, de 9.12:
1
(X1 + + Xn )
n
c.s.,
se
que es el enunciado preciso de (12). Ademas, el error de la estimacion
puede precisar usando la desigualdad de Chebyshev:

)
( n
1 X

2

P
Xk 2 > 0, n = 1, 2, . . . 2
n

n
k=1
medible. Se desea calcular la

9.14 Ejemplo. Sea g : [a, b] IR una funcion
integral
Z b
I=
g(x)dx.
a
Para tal fin, considerese una v.a. X arbitraria pero con densidad fX () > 0
sobre [a, b] y sea Y := g(X)/fX (X). Luego,
Z b
EY =
a

Z b
g(x)
fX (x)dx =
g(x)dx = I.
fX (x)
a
Por lo tanto, para calcular I consideremos vv.aa. X1 , X2 , . . . i.i.d. con den fX , de modo que las vv.aa. Yk := g(Xk )/fX (Xk ) son i.i.d. con
sidad comun
media finita EY = I. Luego, por 9.12,
n
1X
Yk I
n k=1
c.p.1.
(13)
en (13), usando la desigualdad de

que el error de la estimacion
Notese
Chebyshev,

( n
)
1 X

P
Yk I 2 /n2
n

k=1
91
depende de la variancia 2 =Var(Y ) = E(Y 2 ) I 2 , i.e.

b
=
a
g 2 (x)
dx I 2 ,
fX (x)
(14)
la cual es mnima si fX () es proporcional a |g()|. En efecto, considerese la

desigualdad de CauchyShwartz
2
Z
|u(x)v(x)|dx
b
2
u (x)dx
a
v 2 (x)dx
(15)
p
p
con u(x) := g(x)/ fX (x) y v(x) := fX (x). Entonces (15) resulta
Z
2
|g(x)|dx
a
Z b
g 2 (x)
dx
fX (x)dx
a fX (x)
a
= 2 + I 2 [por (14)],
Z
y por lo tanto
2
Z
2
|g(x)|dx
I 2.
(16)
Finalmente, si tomamos fX (x) := |g(x)|/C, con C :=

que
Z b
2
Z b 2
g (x)
dx =
|g(x)|dx
a fX (x)
a
Rb
a
|g(x)|dx, vemos
y se sigue de (14) que 2 =Var(Y ) coincide con el lado derecho de (16).

2
El siguiente resultado se demuestra usando el hecho de que la funcion

exponencial ex satisface que

x n n
= ex si xn x.
(17)
lim 1 +
n
n
En algunos textos de calculo el lmite (17) aparece en la forma

n
1
x
lim 1 + + o
= ex ,
n
n
n
(18)
92
Probabilidad
tal que n o(1/n) 0 cuando

en donde o(1/n) es cualquier sucesion
n .
de Poisson a la distribu9.15 Teorema lmite de Poisson. (Aproximacion
binomial) Sea b(k; n, p) la densidad binomial con parametros n y p,
cion
i.e.

n
b(k; n, p) :=
pk (1 p)nk k = 0, 1, . . . , n.
(19)
k
de n y que p(n) 0 en forma tal

Supongase
que p = p(n) es una funcion
que
n p(n) cuando n ,
(20)
donde > 0. Entonces, cuando n ,
b(k; n, p(n)) e k /k! k = 0, 1, . . . .
Demostracion.
Primero observe que

n
= n (n 1) (n k + 1)/k!,
k
(21)
pk = nk pk /nk ,
(1 p)nk = (1 p)n /(1 p)k .

Por lo tanto, podemos expresar (19) como
b(k; n, p) = A(n) B(n) C(n),
en donde
A(n) := n (n 1) (n k + 1)/nk 1
B(n) := (np)k /k! k /k!
(por (20))
n
k
C(n) := (1 p) /(1 p) e
porque (1 p)n = (1 np/n)n e (por (20) y (17)) y (1 p)k 1 (pues
p = p(n) 0). Combinando estos resultados se obtiene (21).
2
El lmite en (21) se usa para aproximar b(k; n, p) cuando n es grande
y el parametro p es pequeno,
tomando np, i.e.
b(k; n, p) enp (np)k /k!
(22)
93
Por ejemplo, suponga que la v.a. X Bin(n, p), con n = 103 y p = 104 ,
representa el numero
de accidentes automovilsticos en una cierta inter de calles, durante algun
perodo dado de tiempo (e.g. entre 4 y
seccion
6 p.m.) Se desea calcular la probabilidad de que ocurran dos o mas acci binomial obtenemos
dentes. Usando directamente la distribucion
P{X 2} = 1 P{X < 2}
= 1 [P{X = 0} + P{X = 1}]
= 1 (q n + npq n1 )
con n = 103 , p = 104 y q = 1 p = 0.9999. Por otra parte, si usamos (22)
con = np = 103 104 = 0.1 tenemos
P{X = k} e k /k! = e0.1 (0.1)k /k! k = 0, 1, . . . .
Luego,
P{X 2} = 1 [P{X = 0} + P{X = 1}]
1 e0.1 (1 + 0.1) = 0.0045
para verificar convergencia c.s.; vea,
El siguiente resultado es muy util
por ejemplo el Ejercicio 5.
9.16 Proposicion.
Xn X c.s. ssi para cada > 0
"
#
[
P(lim sup{|Xn X| }) = lim P
{|Xk X| } = 0.
n
k=n
Demostracion.
Sea B() := lim sup Bn (), en donde
Bn () := {|Xn X| } {| |Xn () X()| }.
Notese
que
{|Xn () 6 X()} =
=
B()
>0
[
m=1
B(1/m)
94
Probabilidad
porque B() B(0 ) para > 0 . Por lo tanto,

Xn X
c.s.
ssi P(B()) = 0 > 0. 2
9.16 trivialmente se obtiene lo siguiente.

De la Proposicion
9.17 Corolario. Convergencia c.s. implica convergencia en probabilidad.
usaremos el Ejercicio 1.9:
En la siguiente demostracion
|P(A) P(B)| P(AB).
para cualquiera dos eventos A, B.
9.18 Proposicion.
Convergencia en probabilidad implica convergencia en
distribucion.
Demostracion.
Supongase
que Xn X en probabilidad, es decir, para
cada > 0,
P(|Xn X| ) 0.
Sea An := {Xn x} y B := {X x}. Entonces, usando F y Fn para
de X y de Xn , respectivamente,
denotar la distribucion
|Fn (x) F (x)| = |P(An ) P(B)|
P(An B)
= P(An B c ) + P(B Acn ).
(23)
Supongase
que x esta en C(F ). Deseamos demostrar que cada termino en
(23) converge a cero. Tomese

> 0 arbitrario. Entonces
P(An B c ) =
+
P(Xn x, X > x, |Xn X| < )

P(Xn x, X > x, |Xn X| )
P(x < X x + ) + P(|Xn X| )
F (x + ) F (x) + P(|Xn X| )
F (x + ) F (x) cuando n .
95
Finalmente, tomando 0 se obtiene que el primer termino en (23) tiende

a 0. Analogamente se demuestra que tambien el segundo termino tiende
a 0. 2
Demostracion
de 9.12 bajo la hipotesis
adicional: existe una constante

c < tal que
E(Xi )4 c.
(24)
Para demostrar 9.12, sin perdida de generalidad podemos suponer que
= 0; en caso contrario, simplemente sustituimos Xi por Xi .
Sea Sn := n S n = X1 + Xn . Por la hipotesis

de independencia junto
4
con = 0, todos los terminos de la esperanza
E(S
n ) se anulan, excepto los
n
4
= 3n(n 1) terminos de
n terminos de la forma E(X4i ), y los
2
2
la forma E(X2i X2j ) = E(X2i )E(X2j ) = ( 2 )2 = 4 . Luego, por (24),
E(Sn4 ) nc + 3n(n 1) 4 (c + 3 4 )n2
n,
y por la desigualdad de Chebyshev, para cualquier > 0,

P{|S n | } 4 n4 E(Sn4 )
(c + 3 4 )4 n2 .
9.16 dan que S n 0 c.s.
Esta desigualdad y la Proposicion
Convergencia debil
Sean y n (n = 1, 2, . . .) medidas de probabilidad sobre (IR, B(IR)), y
sea Cb (IR) Cb el conjunto de las funciones continuas y acotadas de IR en
s mismo.
{n } converge debilmente a si
9.19 Definicion.
La sucesion
Z
Z
h dn
IR
h d
IR
h Cb .
96
Probabilidad
Supongase
que y n es la m.p. inducida por X y Xn , respectivamente,
demostraremos, en particular, lo siguiente:
n = 1, 2, . . .. A continuacion
9.20 Teorema. Las siguientes condiciones son equivalentes:
(a) n debilmente.
(b) Xn X en distribucion.
h Cb .
(c) Eh(Xn ) Eh(X) para toda funcion
La equivalencia de (a) y (c) se obtiene observando que
Z
Z
h(Xn )dP =
h(x)n (dx).
Eh(Xn ) =
(25)
IR
Por otra parte, la equivalencia de (a) y (b) se obtendra de los siguientes

4.11.)
dos resultados. (Compare el siguiente lema con la Proposicion
Uni[0, 1] y
9.21 Lema. Sea F una f.d.p. Sea Y una v.a. con distribucion
(y) := inf{x|F (x) y} para 0 < y < 1. Entonces F es
defnase la funcion
la f.d.p. de (Y ), es decir,
P{(Y ) x} = F (x) x IR.
Demostracion.
Puesto que F es continua por la derecha, se tiene que
inf{x|F (x) y} = min{x|F (x) y},
punto. Por lo tanto, F (x) y si y
es decir, el nfimo se alcanza en algun
si (y) x. Luego, como 0 F (x) 1 y Y Uni[0, 1],
solo
P{(Y ) x} = P{Y F (x)} = F (x). 2
Denotaremos por A la frontera de un conjunto A IR, i.e.,
A := {x IR| > 0, A (x , x + ) 6= y Ac (x , x + ) 6= }.
Lema 9.22. Las siguientes proposiciones son equivalentes para una suce de m.p.s n sobre B(IR):
sion
97
(a) n debilmente.
(b) n (A) (A) para todo conjunto de Borel A IR con (A) = 0.
(c) n ((, x]) ((, x]) para todo x IR tal que ({x}) = 0.
espacio de probabili(d) Existen vv.aa. Y, Y1 , Y2 , . . . definidas sobre algun
dad, con Y y Yn n para todo n, y tales que Yn Y c.s.
La equivalencia de los incisos (a) y (d) se conoce como Teorema de Skorokhod.
Demostracion.
(b) (c): Esto es obvio porque la frontera de (, x] es
{x}.
in Cb
(a) (c): Fjese x IR y > 0 arbitrarios, y sea f la funcion
definida como
si t < x,
1
0
si t > x + ,
f (t) :=
1 (t x)/ si x t x + .
Entonces, como I(,x] f I(,x+] ,
Z
lim sup n ((, x]) lim sup
Z
f dn =
f d ((, x + ]);
es decir, lim sup n ((, x]) ((, x]) porque > 0 era arbitrario.
definida como
Analogamente, sea g Cb la funcion
si t < x ,
1
0
si t > x,
g(t) :=
1 (t x + )/ si x t x.
Entonces, como I(,x] g I(,x] , se sigue que
Z
lim inf n ((, x]) lim inf
Z
g dn =
g d ((, x ]);
98
Probabilidad
es decir, lim inf n ((, x]) ((, x)).

Finalmente, si ({x}) = 0, entonces ((, x]) = ((, x)), de modo
que
lim inf n ((, x]) = lim sup((, x]) = ((, x]),
como se deseaba demostrar.
asoci(c) (d): Sean F y Fn (n = 1, 2, . . .) funciones de distribucion
adas a y n , respectivamente, es decir, F (x) := ((, x]) y Fn (x) :=
n ((, x]) para todo x IR. Sea (, F, P) el espacio de probabilidad
unitario ([0, 1], B[0, 1], ), con = medida de Lebesgue, y sean
Y () := inf{x|F (x) },
Yn () := inf{x|Fn (x) }
vv.aa. definidas como en el Lema 9.21. Luego, Y y Yn n para todo

n.
Notese
que las graficas de las funciones Yn y Y son las inversas de
las graficas de Fn y F . Ademas, por hipotesis,

Fn (x) F (x) en cada
punto x en el que F es continua. Por lo tanto, Yn () Y () en cada
punto (0, 1) correspondiente a un punto en el que F es estrictamente
creciente, es decir, para cada en donde Y es continua. De aqu se sigue
que Yn Y c.s. porque, como Y es nodecreciente, el conjunto en donde
Y es discontinua es a lo mas numerable.
en Cb . En particular, h es continua, y
(d) (a), (b): Sea h una funcion
como Yn Y c.s., se sigue que h(Yn ) h(Y ) c.s. Ademas, h es acotada
as que Eh(Yn ) Eh(Y ) y se obtiene (a).
medible con (Dh )

Para demostrar (b), supongase
que h es una funcion
= 0, donde Dh := { puntos de discontinuidad de h}. Entonces c.p.1 Y
/
Dh y lo tanto, h(Yn ) h(Y ) c.p.1 y, de nuevo, por convergencia acotada
se obtiene que Eh(Yn ) Eh(Y ). Finalmente, para obtener (b), sea A un
conjunto de Borel con (A) = 0 y tomese

h = IA . Luego, como Dh = A,
se obtiene (b). 2
Demostracion
del Teorema 9.20: Este teorema se obtiene de (25) y de la
99
equivalencia de (a) y (c) en el Lema 9.22.
Para concluir, observe que el Teorema 9.20(b),(c), combinado con los

de la Proposicion
9.18, es
Ejercicios 9.12 y 9.13, da una nueva demostracion
decir, convergencia en probabilidad implica convergencia en distribucion.
Ejercicios 9
de vv.aa. que converge uniformemente de X,
9.1 Sea {Xn } una sucesion
i.e. sup |Xn () X()| 0 cuando n . Demuestre que EXn EX.
9.2 Sea (, F, ) = (IR, B(IR), ) en donde es la medida de Lebesgue.
Ademas, para cada n = 1, 2, . . . , sea Xn := n1 I[0,n] y X 0. Demuestre que
(a) Xn X uniformemente y
R
R
al Teorema 9.6 o al
(c) Xn d 6 X d. Es e sto una contradiccion
Ejercicio 1?
9.3 Sea (, F, ) como en el Ejercicio 2, y sean Xn := I[n,) y X 0.
Demuestre:
(a) Xn X, y
R
R
a los Teoremas 9.2 o 9.6?
(c) Xn d 6 Xd. Es e sto una contradiccion
9.4 Sean X1 , X2 , . . . vv.aa. independientes en L2 , con E(Xj ) = mj y
Var(Xj ) = j2 . Supongase
que existe una constante M tal que j2 M para
todo j. Sea
n
X
Yn :=
(Xj mj ).
j=1
Demuestre que
100
Probabilidad
(a) Var(Yn ) nM ,
(b)
1
Y
n n
0 en L2 y, por lo tanto, en probabilidad.
(Al resultado en (b) se le conoce como ley debil de los grandes numeros
de
Chebyshev.)
9.5 Demuestre que si
P{|Xn X| } < para cada > 0, entonces
n=1
9.16.)
Xn X c.s. (Sugerencia: use la Proposicion
9.6 Demuestre:
(a) Si X, Xn (n = 1, 2, . . .) son vv.aa. en L2 tales que
E(Xn X)2 < ,
n=1
entonces Xn X c.s. (Sugerencia: use el Ejercicio 5.)

de vv.aa. discretas con
(b) Si {Xn } es una sucesion
P{Xn = 1/n} = P{Xn = 1/n} = 1/2 n = 1, 2, . . . ,
entonces Xn 0 c.s.
9.7 Demuestre que si Xn X c.s., entonces Xn X en probabilidad.
9.16.)
(Sugerencia: use la Proposicion
muere anualmente debido

9.8 Supongase
que el 0.005% de la poblacion
a de seguros
a un cierto tipo de accidente de trabajo, y que una compan
tiene entre sus clientes 10,000 que estan asegurados contra ese tipo de accidente.
a deba pagar mas de 3 poli
(a) Calcule la probabilidad de que la compan
dado.
zas en un ano
de Poisson (22).
(b) Repita (a) usando la aproximacion
9.9 Demuestre el Lema de Fatou: sean X1 , X2 , . . . , X vv.aa.
(a) Si Xn X para todo n, donde E(X) > , entonces
lim inf E(Xn ) E(lim inf Xn ).
n
101
(b) Si Xn X para todo n, donde E(X) < , entonces

lim sup E(Xn ) E(lim sup Xn ).
n
(Sugerencia: Sea Yn := inf kn Xk y Y := lim inf Xn = lim Yn , y observese

que Yn Y . Ahora, para demostrar (a) use el Teorema de convergen
cia monotona
9.2. Para demostrar (b) use el hecho de que lim sup Xn =
lim inf(Xn ) y aplique el inciso (a).)
definida como f (x) :=
9.10 Sea f : [0, ) [0, 1] la funcion
x 0. Demuestre que Xn X en probabilidad ssi
x
1+x
para
lim E[f (|Xn X|)] = 0.
9.11 Si Xn X en Lp o en probabilidad, entonces existe una sub nk tal que Xnk X c.s. cuando k .
sucesion
9.12 Extension
del Teorema de Convergencia Dominada. Supongase
que Xn X en probabilidad y que existe Y Lp tal que |Xn | Y para
todo n. Entonces X esta en Lp y Xn X en Lp .
continua. Si Xn X c.s. o en probabilidad,
9.13 Sea f una funcion
entonces f (Xn ) f (X) c.s. o en probabilidad, respectivamente.
9.14 Sea la medida de Lebesgue sobre el intervalo unitario, y sea n
la medida uniforme sobre {0, 1, . . . , n}, es decir ({i/n}) = 1/(n + 1) para
n {0, 1, . . . , n}. Demuestre que n converge debilmente a .
donde Xn 0. De9.15. Supongase

que Xn X en distribucion,
muestre que
EX lim inf EXn .
9.16. Sea X 0 y Xn tal que P{Xn = n} = 1/n y P{Xn = 0} = 1
1/n. Demuestre que X y Xn satisfacen las condiciones en el Ejercicio 9.15.
Ademas, Xn X en probabilidad.
normal N (0, 1/n). Diga si {n } converge
9.17. Sea n la distribucion
debilmente. En caso afirmativo, diga a que medida converge {n }.
102
10
Probabilidad
Funciones caractersticas y el TLC
generadora de momentos, funcion

caracterstica,
Contenido. Funcion
generadora de
teorema de continuidad, teorema lmite central, funcion
probabilidad.
Sea X una v.a. sobre un espacio de probabilidad (, F, P). La funcion
generadora de momentos (f.g.m.) de X se define como

MX (t) := E(etX )
(1)
para todo t IR para el cual la esperanza en (1) es finita. Para tales valores
de t, por (8.5) y (8.7) podemos escribir
Z
Z
tX
MX (t) =
e dP =
etx dFX (x),
(2)
IR
donde FX es la f.d. de X. La f.g.m. de X tambien se llama la transformada

de Laplace de FX .
de
Casos especiales. Si X es una v.a. discreta con valores {xk } y funcion
densidad fX , entonces
X
etxk fX (xk ).
(3)
MX (t) =
k
Si X es (absolutamente) continua con densidad fX , entonces

Z
MX (t) =
etx fX (x)dx.
(4)
Por otra parte, si i = 1 es la unidad imaginaria, definimos la

funcion
caracterstica (f.c.) de X como
CX (t) := MX (it) = E(eitX ) para todo t IR.
(5)
10. Funciones caractersticas
103
En este caso, en lugar de (2) tenemos

Z
Z
itX
CX (t) =
e dP =
eitx dFX (x)
IR
y tambien se dice que la f.c. de X es la transformada de Fourier de FX .

Ademas, si X es discreta o continua, entonces su f.c. se puede obtener
como en (3) y (4), respectivamente, sustituyendo t por it.
10.1 Observacion.
(a) Para cualquier x IR se tiene que
eix = cos x + i sen x
y, por lo tanto, |eix | = (cos2 x+sen2 x)1/2 = 1. De aqu se sigue que
Z
|CX (t)|
|eitx |dFX (x) = 1 para todo t IR.
IR
Esto significa que la f.c. CX (t) esta definida y es uniformemente acotada

para todo t IR; sin embargo, la f.g.m. MX (t) puede no estar definida para
algunos valores de t. (Vea 10.2 (b) y 10.4 (a).)
entero positivo n (i.e. E|X|n < ).
(b) Sea X una v.a. en Ln para algun
Entonces su f.c. es n veces diferenciable y satisface que
(k)
CX (0) = ik E(Xk ) k = 0, 1, . . . , n.
(6)
Esta formula
se puede demostrar por induccion.
Aqu lo haremos solo
para n = 1. Para tal fin, notese

que (6) es trivial para k = 0. Ahora, si
k = n = 1, observe que (6) equivale a demostrar que el lmite
Z
1
itX
lim t E(e 1 itX) = lim
t1 (eitx 1 itx)PX (dx)
t0
t0
IR
es cero. Esto ultimo

se obtiene de la formula
de Taylor, que da
|t1 (eitx 1 itx)| 1 + |x|
|t| < 1, x IR,
y usando el teorema de convergencia dominada.

Analogamente, si X esta en Ln y su f.g.m. MX (t) es finita para todo t en
una vecindad del origen t = 0, entonces en lugar de (6) tenemos
(k)
MX (0) = E(Xk ) k = 0, 1, . . . , n.
(7)
104
Probabilidad
generadora de momentos,
Debido a (7) es que a MX se le llama funcion
aunque de hecho la f.c. tambien genera momentos, en el sentido de (6).
10.2 Problema. En cada uno de los casos siguientes verifique que la f.g.m.
y la f.c. de X tienen el valor que se indica.
(a) X Bin(n, p), q := 1 p. Para todo t IR:
MX (t) = (pet + q)n ,
CX (t) = (peit + q)n .
(b) X Geo(p), q := 1 p.
MX (t) = p/(1 qet ) si qet < 1,
CX (t) = p/(1 qeit ) t IR.
(c) X Poi(). Para todo t IR:
t
MX (t) = e(e 1) ,
it 1)
CX (t) = e(e
10.3 Proposicion.
(a) Si Y = aX + b, entonces
CY (t) = eibt CX (at).
(8)
(b) Si X1 , . . . , Xn son vv.aa. independientes y S := X1 + + Xn , entonces

CS (t) = CX1 (t) CXn (t) t IR.
(9)
En particular, si X1 , . . . , Xn son i.i.d., entonces

CS (t) = [CX1 (t)]n .
(10)
(c) Propiedad de unicidad de la f.c. Dos vv.aa. tienen la misma f.d. ssi
tienen la misma f.c. En otras palabras, X Y ssi CX (t) = CY (t) para todo
t IR.
de (8)(9) es trivial, al igual que la demostracion
de
La demostracion
X Y CX () = CY ()
(11)
105
en el
en 10.3(c). El recproco de (11) se sigue de la formula
de inversion
Lema 10.13.
10.4 Problema. Repita el problema 10.2 para los casos siguientes:
(a) X Exp().
MX (t) = /( t) si t < ,
CX (t) = /( it) t IR.
(b) X N (, 2 ). Para todo t IR:
MX (t) = exp(t + 2 t2 /2),
CX (t) = exp(it 2 t2 /2).
(12)
En particular, si X N (0, 1) entonces

2 /2
MX (t) = et
2 /2
y CX (t) = et
t IR.
(13)
10.5 Ejemplo. Sean X1 , . . . , Xr vv.aa. independientes y sea S := X1 + +Xr .

Demuestre:
(a) Si Xk Poi(k ) para k = 1, . . . , r, entonces S Poi(1 + + r ).
(b) Si Xk N (k , k2 ) para k = 1, . . . , r, entonces S N (1 + + r , 12 +
+ r2 ).
Solucion.
(a) Por 10.3 (b) y 10.2 (c),
CS (t) =
r
Y
k=1
CXk (t) =
r
Y
it 1)
ek (e
k=1
de modo que
it 1)
CS (t) = e(1 ++r )(e
Es decir, la f.c. CS es como en 10.2 (c) pero con parametro = 1 + + r .

Por lo tanto, el resultado se sigue de la propiedad de unicidad 10.3 (c).
de (b) es similar, usando (12).
La demostracion
veremos varios resultados relacionados con

En el resto de esta seccion
de vv.aa. Recuerde que segun
el concepto de convergencia en distribucion
106
Probabilidad
9.9, Xn X en distribucion
si FXn (x) FX (x) para todo
la Definicion
x IR en el que la f.d. FX es continua. Un criterio relativamente sencillo
de usar para este tipo de convergencia es el siguiente, que ya vimos en
9.19.
ssi Eh(Xn ) Eh(X) para toda
10.6 Proposicion.
Xn X en distribucion
h : IR IR continua y acotada.
funcion
De hecho, aqu usaremos el siguiente criterio de convergencia en dis basado en funciones caractersticas. (El Teorema 10.7 se demuestribucion
tra mas adelante.)
10.7 Teorema de continuidad. Sean X y Xn (n = 1, 2, . . .) vv.aa. con f.c.s
ssi Cn (t)
CX y Cn , respectivamente. Entonces Xn X en distribucion
CX (t) para todo t en IR.
10.8 Ejemplo. Supongase

que Xn X en L2 . Demuestre que:
(a) EXn EX, E(X2n ) E(X2 ) y Var(Xn ) Var(X);
(b) Si ademas Xn N (n , n2 ) para cada n, con n y n2 2 > 0,
N (, 2 ) y Xn X en distribucion.
entonces X tiene distribucion

de convergencia en L2 , E(Xn X)2 0
Solucion.
(a) Por definicion

cuando n . Esto implica que EXn EX porque
(EXn EX)2 = [E(Xn X)]2 E(Xn X)2 0.
Ahora observe que E[X (Xn X)] 0 porque la desigualdad de Cauchy
Schwarz (Ejercicio 7.3) da que
(E[X (Xn X)])2 E(X2 ) E(Xn X)2 0.
Por lo tanto, como
X2n X2 = (Xn X)2 + 2X (Xn X),
se sigue E(X2n ) E(X2 ). Finalmente,
Var(Xn ) = E(X2n ) (EXn )2 E(X2 ) (EX)2 = Var(X).
107
(b) Por el inciso (a), n = EXn EX = y, analogamente n2

2 =Var(X). Luego, de (12), la f.c. de Xn converge a la f.c. de X pues
CXn (t) = exp(in t n2 t2 /2) exp(it 2 t2 /2) = CX (t)
para todo t IR. Es decir, X N (, 2 ) y de 10.7 concluimos que Xn X
tambien se podra
en distribucion.
(Observe que esta ultima
conclusion
9.10.)
haber obtenido de la Proposicion
2
En 10.1(b) vimos que si E|X|n < , entonces las derivadas de CX (t)
(k)
en t = 0 satisfacen que CX (0) = ik E(Xk ) para k = 0, 1, . . . , n. Ademas,
aplicando la formula
de Taylor a CX (t) se puede ver que
CX (t) =
n
X
(it)k E(Xk )/k! + o(tn ).
k=0
En particular, para n = 2 tenemos

CX (t) = 1 + (it)EX t2 E(X2 )/2 + o(t2 ).
(14)
para demostrar el siguiente importante resulUsaremos esta expresion

tado.
de vv.aa. i.i.d.
10.9 Teorema Lmite Central (TLC). Sea {Xn } una sucesion
2
con media y variancia > 0 finita. Para cada n = 1, 2, . . . , sean Sn y S n
la suma y el promedio muestral, respectivamente, i.e.
Sn := X1 + + Xn
Asimismo, sea
y S n :=
1
Sn .
n
Sn ESn
Sn n
;
Yn := p
=
n
Var(Sn )
(15)
notese
que
Yn =
Sn
.
/ n
Entonces
Yn Z
en distribucion,
(16)
108
Probabilidad
en donde Z N (0, 1). Equivalentemente, como

Z x
1
2
FZ (x) := P{Z x} =
ey /2 dy
2
es continua en todo x IR, se tiene que
P{Yn x} FZ (x) x IR.
(17)
Demostracion.
Sea Cn (t) la f.c. de Yn . Por el Teorema de Continuidad 10.7,
para demostrar (16) basta verificar que
2 /2
Cn (t) CZ (t) = et
t IR.
(18)
Con este fin, notese

primero que
Yn =
n
X
Xk / n,
(19)
k=1
en donde Xk := (Xk )/ es una v.a. con media 0 y varianza 1; ademas,

por (14), la f.c. de Xk satisface que
CXk (t) = 1 t2 /2 + o(t2 ) =: h(t) k = 1, 2, . . .
Por lo tanto, como las Xk son i.i.d., se sigue de (10) que
Cn (t) = [h(t/ n)]n

= [1 t2 /2n + o(t2 /n)]n .
Finalmente, tomando el lmite cuando n y usando (9.18) obtenemos (18).
2
10.10 Observaciones. (a) La desigualdad de BerryEssen da una esti de la rapidez de convergencia en (17) bajo las siguientes condimacion
ciones. Si las vv.aa. X1 , X2 , . . . son i.i.d. con media cero, varianza 2 > 0 y
tercer momento := E|Xk |3 < , entonces
|P{Yn x} FZ (x)| 3/ 3 n x IR.
109
(b) Reescrbase (19) como

Yn =
n
X
Zn,k
k=1
en donde Zn,k := (Xk )/ n, para k = 1, . . . , n, es una v.a. con media

cero y varianza 1/n 0 cuando n . En este caso se dice que las vv.aa.
Zn,k son asintoticamente

despreciables.
(c) Se llama Teorema de De MoivreLaplace al caso especial del TLC
en el que las vv.aa. Xk son Bernoulli con parametro p, i.e.
P{Xk = 1} = p,
P{Xk = 0} = 1 p =: q.
En tal caso, la suma muestral Sn Bin(n, p) de modo que (15) resulta
Yn = (Sn np)/ npq.
(20)
(d) Una pregunta natural es si en el TLC se puede tener convergencia

La respuesta
en un sentido mas fuerte que convergencia en distribucion.
es no. En efecto, sea Yn comoen (15) pero con = 0 (para simplificar la
notacion),
es decir Yn := Sn / n, y supongase
que
Yn X
en probabilidad.
()
y, por el TLC, X = Z N (0, 1).

Esto implica que Yn X en distribucion
Ahora, de nuevo por (),
S2n
Y2n := X
2n
en probabilidad,
y, por lo tanto,
S2n
Sn
Xn+1 + + X2n
=
2n
2n 2n

1
1
= Y2n Yn 1 X en probabilidad.
2
2
Un :=
110
Probabilidad
De aqu se sigue que la sucesion

Vn :=
Xn+1 + + X2n
= 2Un ( 2 1)X
n
en probabilidad. (+)
Para concluir, notese

que Vn Yn para todo n, de modo que, por el TLC,
Vn N (0, 1) en distribucion.
Por otra parte, por (+),
Vn ( 2 1)N (0, 1) en distribucion,

Luego, () no puede ocurrir.
lo cual es una contradiccion.
10.11 Ejemplo. En una encuesta preelectoral se encuentra que el 44% de
esta a favor de un cierto candidato. Calcule la probabilidad
la poblacion
de que en una muestra de 400 personas escogidas al azar mas de la mitad
esten a favor de dicho candidato.
Solucion.
Sean X1 , . . . , Xn , con n = 400, vv.aa. i.i.d. de Bernoulli con

parametro p = 0.44. Para cada k = 1, . . . , n, Xk = 1 (exito) si la kesima
persona esta a favor del candidato. Se pide calcular la probabilidad de que
Sn := X1 + + Xn > 200.
de Sn Bin(n, p), debemos calcuSi usamos directamente la distribucion
lar

200
X
n
P{Sn > 200} = 1 P{Sn 200} = 1
pk q nk ,
k
k=0
con q = 1 p = 0.56, que obviamente es un calculo complicado. Sin

embargo, usando el TLC con Yn como en (20), en donde
E(Sn ) = np = (400)(0.44) = 176 y
Var(Sn ) = npq = 98.56,
vemos que
P{Sn 200} = P{Yn (200 176)/ 98.56}

FZ (2.42)
[por (17)]
= 0.9922
[de la tabla normal].
111
Por lo tanto P{Sn > 200} 1 0.9922 = 0.0078 = 0.78%.
10.12 Ejemplo. Sean X1 , . . . , Xn , con n = 50, vv.aa. i.i.d. de Poisson con

parametro = 0.03. Calcule P{Sn 3}.
Solucion.
Notese
que Sn Poi(n) de modo que
E(Sn ) = Var(Sn ) = n = (50)(0.03) = 1.5.
Por lo tanto, el calculo exacto sera P{Sn 3} = 1 P{Sn 2} con
P{Sn 2} =
2
X
P{Sn = k} = e1.5 [1 + 1.5 + (1.5)2 /2].
k=0
Por otra parte, usando el TLC con Yn = (Sn n)/ n obtenemos
P{Sn 2} = P{Yn (2 1.5)/ 1.5}
FZ (0.5/ 1.5)
= 0.6591.
Luego, P{Sn 3} 0.3409.
10.13 Lema. (Formula
de inversion
de Fourier) Sea F una f.d.p. y
caracterstica de
F (a, b] := F (b) F
(a) para a < b. Si h es la funcion
R
F , es decir, h(t) := eitx dF (x), entonces
1
F (a, b] = lim
T 2
eita eitb
h(t)dt
it
(21)
para todo a y b que sean puntos de continuidad de F . Si ademas h es inte

grable sobre IR con respecto a la medida de Lebesgue, entonces la funcion
Z
1
eitx h(t)dt
f (x) :=
2
es una densidad para F , es decir, f es nonegativa y
Z x
f (u)du x IR.
F (x) =
112
Probabilidad
Demostracion.
Como |h(t)| 1,
ita
ita

itb
itb
e
e
e

h(t)

it
it

Z b

itx
e dx
=
a
b a,
de modo que
Z
ita

itb
e

e

dt 2T (b a) < .
h(t)

it
Por lo tanto, si JT es la integral en (21), i.e.

1
JT :=
2
eita eitb
h(t)dt,
it
usando el Teorema de Fubini vemos que

JT
Z T ita
Z
1
e
eitb
=
eitx dF (x)dt
2 T
it
Z Z T it(xa)
e
eit(xb)
1
dt dF (x)
=
2 T
it
Z Z T
1
sen t(x a) sen t(x b)
=
dt dF (x)
2 T
t
(22)
t1 cos(ct) es impar as que su integral sobre [T, T ] es

porque la funcion
cero.
Sea sgn (r) la funcion signo, definida como
1 si r > 0,
0 si r = 0,
sgn(r) :=
1 si r < 0.
113
Entonces, usando la formula

Z

Z t
Z t
sen x
rx
dx =
sen x
e dr dx
x
0
0
0
se obtiene que
e intercambiando el orden de integracion,
Z T
sen (rt)
dt = sgn(r).
lim
T T
t
Por lo tanto, de (22), usando el Teorema de Convergencia Acotada tenemos:
Z
Z
1
[sgn(x a) sgn(x b)]dF (x) =
J(x)dF (x),
lim JT =
T
2
donde
0 si x < a o x > b
1 si a < x < b,
J(x) =
1/2 si x = a o x = b.
Luego
1
lim JT = F (b) F (a) + [F (a) F (a) + F (b) F (b)]
T
2
= F (b) F (a)
de (21).
si F es continua en a y b. Esto completa la demostracion
Supongase
ahora que h es integrable y sea
Z
1
eitx h(t)dt x IR.
f (x) :=
2
f esta bien definida, es continua (por el
Como h es integrable, la funcion
teorema de convergencia dominada) y acotada. Ademas, por el teorema
de Fubini,
Z b

Z b
Z
1
itx
h(t)
e dx dt
f (x)dx =
2
a
a
Z T
1
eita eitb
= lim
h(t)
dt,
T 2 T
it
114
Probabilidad
i.e.,
Z
f (x)dx = F (a, b] = F (b) F (a)

a
por (21), si F es continua en a y b, y por lo tanto para todo a, b en IR (porque

F tiene a lo mas un conjunto numerable de discontinuidades, y cualquier
punto en IR es el lmite por la derecha de puntos de continuidad de F ).
2
Demostracion
de la Proposicion
10.3(c): unicidad de la f.c. Por la formula
(21), la f.c. h determina F en todos los puntos de continuidad.
de inversion
Pero, ademas, cada punto en IR es lmite por arriba de puntos de continuidad, as que h determina F en todo punto. 2
La distribucion
normal multivariada
10.14 Notacion.
Un vector siempre se interpretara como matriz columna,
aunque ocasionalmente en el texto lo escribiremos como fila. Luego (de
de producto de matrices) el producto escalar de
acuerdo con la definicion
dos nvectores u = (u1 , . . . , un ) y v = (v1 , . . . , vn ) es
u0 v =
n
X
uj v j = u1 v 1 + + un v n .
j=1
donde u0 es la transpuesta de u. Si X = (X1 , . . . , Xn ) es un nvector aleatorio

denotamos por EX y Cov(X) := E[(X EX)(X EX)0 ] su vector medio y su
matriz de covarianza, respectivamente. Es decir, EX es el nvector con coordenadas EXj (j = 1, . . . , n) y Cov(X) es la matriz n n con componentes.
Cov(X)jk = Cov(Xj , Xk ) para j, k = 1, . . . , n.
5.7, se dice que un n-vector aleatorio X =
De acuerdo con la Definicion
(X1 , . . . , Xn ) es gaussiano (o que tiene distribucion normal multivariada o que
las vv.aa. X1 , . . . , Xn son conjuntamente gaussianas) si
a0 X = a1 X1 + + an Xn
(23)
normal (univariada) para todo vector a = (a1 , . . . , an ) en

tiene distribucion
n
de la distribucion
normal
IR . Ahora tenemos la siguiente caracterizacion
115
de funcion
multivariada en base a la definicion
caracterstica de un n
vector X:
0
CX (t) := E(eit X ) t = (t1 , . . . , tn ) IRn .
(24)
carac10.15 Teorema. Un nvector aleatorio X es gaussiano ssi su funcion
terstica es de la forma
1
CX (t) = exp(it0 t0 Qt) t IRn ,
2
(25)
donde es un nvector y Q es una matriz n n simetrica y nonegativa

definida. En este caso = EX es el vector medio de X y Q =Cov(X) es la
matriz de covarianza.
Demostracion.
Supongase
que se tiene (25). Sea a IRn un nvector
arbitrario y sea Y := a0 X = a1 X1 + + an Xn . Para demostrar que X
caracterstica de Y es como en
es gaussiano basta verificar que la funcion
(12). Para este fin, tomese

u IR y observe que
0
CY (u) := E(eiuY ) = E(ei(ua) X ) = CX (ua),

i.e. (por (25)),
1
CY (u) = exp[iu(a0 ) u2 (a0 Qa)].
2
0
Esto significa de Y = a X es una v.a. normal N (a0 , a0 Qa).
Recprocamente, supongase
que X es un vector gaussiano con vector
medio := EX y matriz de covariancia Q := Cov(X). Luego (por la
5.7), para cada nvector a, la v.a. Y := a0 X es una v.a. normal
Definicion
con media y varianza
EY = a0 EX = a0
Var(Y ) = a0 Qa,
caracterstica
respectivamente. De aqu se sigue que (por (12)) la funcion
de Y es
1
CY (u) = exp[iu(a0 ) u2 (a0 Qa)] u IR.
2
En particular, tomando u = 1 vemos que
0
CY (1) = Ca0 X (1) = E(eia X ) = CX (a)
116
Probabilidad
y se tiene (25) con t = a. 2

Como consecuencia inmediata del Teorema 10.15 se obtiene lo siguiente (que se pide demostrar en el Ejercicio 8.)
10.16 Corolario. Si X1 , . . . , Xn son vv.aa. N (j , j2 )(j = 1, . . . , n) independientes, entonces el vector X = (X1 , . . . , Xn ) es gaussiano con vector
medio = (1 , . . . , n ) y matriz de covarianza Cov(X) = diag(12 , . . . , n2 ).
Recprocamente, si X es un vector gaussiano cuya matriz de covarianza es
diagonal, entonces las componentes de X son variables normales independientes.
Ejercicios 10
10.1 Sea X una v.a. discreta con valores en un subconjunto de los enteros no negativos, {0, 1, . . .}, y densidad f (k) := P(X = k). La funcion
generadora de probabilidad (f.g.p.) de X es la funcion

GX (t) := E(tX ) =
tk f (k) para |t| 1.
En cada uno de los casos siguientes demuestre que la f.g.p. tiene el valor
indicado:
(a) X Bin(n, p). GX (t) = (pt + q)n con q := 1 p.
(b) X Geo(p). GX (t) = p/(1 tq) con
q := 1 p
(c) X Poi(). GX (t) = e(t1) .

Observacion.
MX (t) = GX (et ) y CX (t) = MX (it) = GX (eit ).
10.2 Sean X y Y dos vv.aa. discretas como el Ejercicio 1. Demuestre que
ssi GX () = GY ().
X y Y tienen la misma distribucion
10.3 Sean X1 , . . . , Xr vv.aa. discretas como en el Ejercicio 1 y, ademas,
son independientes. Sea S := X1 + Xn . Demuestre:
117
(a) GS (t) = GX1 (t) GXr (t).

(b) Si Xk Bin(nk , p) para k = 1, . . . , r entonces S Bin(n1 + + nr , p).
(Sugerencia: use el inciso (a) y los Ejercicios 1(b) y 2.)
10.4 Supongase
que X N (0, 2 ). Use (12) y (6) [o (7)] para verificar
que
E(Xk ) = 0 si k es impar,
= k! k /2k/2 (k/2)! si k
es par.
10.5 Sea X una v.a. continua con densidad f (x) =

x IR.
1 |x|
e
2
para todo
(a) Demuestre que la f.g.m. de X es M (t) = 1/(1 t2 ) para 1 < t < 1.

(b) Use M (t) para demostrar que E(Xn ) = 0 si n es un entero positivo
de E(Xn ) cuando n es par.
impar, y para encontrar una expresion
10.6 Para cada n = 1, 2, . . . , sea Xn una v.a. con f.c. Cn (t). Demuestre
que los siguientes tres enunciados son equivalentes:
(a) Xn 0 en probabilidad.
(b) Xn 0 en distribucion.
(c) Cn (t) 1 para todo t IR.
10.7 Se sabe que el 5% de las computadoras fabricadas por una cierta
empresa son defectuosas. Si se seleccionan al azar 100 computadoras de
dicha empresa, calcule la probabilidad de que a lo mas una sea defectuosa
usando:
binomial,
(a) la distribucion
de Poisson a la distribucion
binomial (ver 9.13), y
(b) la aproximacion
(c) el TLC.
118
Probabilidad
10.8 Demuestre el Corolario 10.16.

10.9 Sea X un nvector gaussiano y Y un mvector gaussiano. Demuestre que si X y Y son independientes, entonces (X, Y ) es un (n + m)
vector gaussiano.
bivariada que no es gaussiana bi10.10 (Ejemplo de una distribucion
variada pero cuyas marginales s son gaussianas vea tambien el Ejem a > 0,
plo 5.8.) Sea X una v.a. N (0, 1) y sea Y la v.a. definida, para algun
como
Y := X I{|X|a} X I{|X|>a} .
Demuestre que Y N (0, 1), pero X + Y no es normal. Por lo tanto, cada
v.a. X y Y es gaussiana, pero el vector (X, Y ) no es gaussiano.
11
119
Esperanza condicional
condicional, esperanza condicional

Contenido. Densidad y distribucion
dada una algebra, estimador en la media cuadratica, estimador lineal.
Sean X y Y vv.aa. discretas con densidad conjunta f (x, y), i.e.,
f (x, y) := P{X = x, Y = y},
y sean
fX (x) := P(X = x) =
f (x, y) y fY (y) := P(Y = y) =
f (x, y)
las densidades marginales de X y Y , respectivamente. Definimos la densidad condicional de Y dado que X = x como
f (y|x) := f (x, y)/fX (x) si fX (x) > 0,
:= 0
si fX (x) = 0.
(1)
Asimismo, la distribucion
condicional de Y dado que X = x es
F (y|x) := P(Y y|X = x) =
f (y 0 |x).
(2)
y 0 y
Si ademas Y esta en L1 , definimos la esperanza condicional de Y dado

que X = x como
X
E(Y |X = x) :=
y f (y|x).
(3)
y
Para vv.aa. continuas tenemos definiciones analogas. Es decir, sean X

y Y vv.aa. continuas con densidad conjunta f (x, y) y sea
Z
fX (x) :=
f (x, y)dy
120
Probabilidad
la densidad marginal de X. Entonces definimos la densidad condicional

de Y dado que X = x como
f (y|x) := f (x, y)/fX (x) si fX (x) > 0
(4)
y f (y|x) := 0 si fX (x) = 0. Ademas, tenemos la distribucion

condicional
Z y
f (y 0 |x)dy 0
(5)
F (y|x) := P(Y y|X = x) =
y, para Y en L1 , la esperanza condicional

Z
E(Y |X = x) :=
y f (y|x)dy.
(6)
En cualquier caso, discreto o continuo, se puede ver que la densidad

condicional f (|x) es una densidad de probabilidad si fX (x) > 0. Por ejemplo, en el caso discreto (1) tenemos f (|x) 0 y, ademas,
X
f (y|x) =
1 X
1
fX (x) = 1.
f (x, y) =
fX (x) y
fX (x)
Tambien tenemos el siguiente resultado cuyo inciso (a) se puede interpre de la ley de la probabilidad total en el Teorema
tar como una version
3.5(a).
11.1 Proposicion.
(a) Si X y Y son vv.aa. discretas, entonces
fY (y) =
f (y|x)fX (x),
(7)
f (y|x) fX (x)dx.
(8)
y si son continuas, entonces

Z
fY (y) =
(b) Si X y Y son independientes, entonces

(b1 ) f (y|x) = fY (y),
y (b2 ) E(Y |X = x) = EY
(para Y L1 ).
(9)
121
Demostracion.
(a) Por (1), el lado derecho de (7) resulta
X
f (y|x)fX (x) =
f (x, y) = fY (y).
Analogamente, (8) se obtiene (4).

(b) Por el Teorema 5.2, si X y Y son independientes, entonces
f (x, y) = fX (x)fY (y).
(b1 ) en (9). Asimismo (b2 )
Por lo tanto, de (1) y (4) se obtiene la condicion
de esperanza condicional. En efecto, en
se sigue de (b1 ) y de la definicion
el caso discreto (3) obtenemos
E(Y |X = x) :=
y f (y|x) =
y fY (y) = EY.
En forma similar, en el caso continuo (b2 ) se obtiene de (b1 ) y (6).
11.2 Ejemplo. Sean X1 , X2 , . . . i.i.d. con valores en {0, 1, . . .}. Sea So := 0 y

Sn := X1 + + Xn para n 1. Sea N una v.a. con valores en {0, 1, . . .} e
independiente de {Xj }. Considere la suma aleatoria SN := X1 + + XN .
Demuestre que:
(a) P{SN = x} =
P{N = n} P{Sn = x}.
n=0
(b) Si ademas las Xj y N tienen medias finitas y EN , respectivamente,

entonces ESN = EN .
(b1 ) en (9)
Solucion.
(a) Notese
que, por la condicion
P{SN = x|N = n} = P{Sn = x|N = n} = P{Sn = x}.
(10)
122
Probabilidad
Ademas, por (7),
P{SN = x} =
n=0
n=0
P{SN = x, N = n}
P{N = n}P{SN = x|N = n}
[por (10)].
P{N = n}P{Sn = x}
n=0
de (a).
Esto completa la demostracion
(b) Primero observe que
X
E(Sn ) =
x P{Sn = x} = n,
y EN =
n P{N = n}.
(11)
de esperanza,
Ademas, por definicion
X
ESN :=
x P{SN = x}
x
X X
=
x
P{N = n}P{Sn = x}
x
P{N = n}
[por (a)]
x P{Sn = x}
n P{N = n}
[por (11)]
[por (11)]. 2
= EN
11.3 Definicion.
Sean X y Y vv.aa. sobre (, F, P), con Y en L1 . Definimos
la esperanza condicional de Y dada la v.a. X como la v.a.
E(Y |X) : IR
con valores
E(Y |X)() := E(Y |X = x) si X() = x.
123
(b2 ) en (9),
Notese
que, por la condicion
E(Y |X) = EY
si X y Y
son independientes.
(12)
11.3 esta asegurada

La existencia de la v.a. E(Y |X) en la Definicion
por el Teorema de RadonNikodym. (Vea 11.8 y 11.10(b).) Este teorema
tambien asegura que, si {X} es la algebra generada por X (vea el Ejercicio 4.6), entonces
de
(a) E(Y |X) es medible con respecto a {X} (es decir, existe una funcion
Borel h : IR IR tal que E(Y |X) = h(X)), y
(b) E[E(Y |X) IA ] = E(Y IA ) para todo A {X}.
11.4 Ejemplo. Sean X y Y las vv.aa. en el Ejemplo 5.5; es decir, el vector

(X, Y ) tiene densidad conjunta (normal bivariada estandar)
f (x, y) =
1 (x2 2xy+y2 )/2r2

e
2r
(x, y) IR2 ,
con || < 1 y r := (1 2 )1/2 . Por el inciso (a) de dicho ejemplo, cada

una de las vv.aa. X y Y tiene densidad normal estandar. En particular, la
densidad marginal de X es
fX (x) = (2)1/2 ex
2 /2
x IR.
Por lo tanto, por (4), la densidad condicional de Y dado que X = x es

f (y|x) := f (x, y)/fX (x) = (2r2 )1/2 e(yx)
2 /2r 2
(13)
la cual es una densidad normal N (x, r2 ). En otras palabras la densidad

marginal fY (y) es N (0, 1), pero la densidad condicional de Y dado X = x es
N (x, r2 ). De aqu se sigue que
E(Y |X = x) = x
x IR
(14)
y, en consecuencia, la esperanza condicional E(Y |X) es la v.a.

E(Y |X) = X.
(15)
124
Probabilidad
Finalmente, del inciso (b) del Ejemplo 5.5 recuerdese que X y Y son independientes ssi = 0, en cuyo caso r = 1. Por lo tanto, cuando X y Y son
independientes (13) se reduce a la densidad normal estandar N (0, 1), tal
11.1(b), mientras que [como en (12) o (9)
como se indica en la Proposicion
(b2 )] (14) y (15) se reducen a
E(Y |X = x) = E(Y |X) = EY = 0 x IR.
Por analoga con (7), (8) y con la ley de la probabilidad total en el Teo (16) en el siguiente teorema se le conoce como
rema 3.5(a), a la expresion
ley de la esperanza total en algunos textos se le llama la propiedad de
la esperanza iterada.
11.5 Teorema. Si Y esta en L1 , entonces
(a) para cualquier v.a. X,
EY = E[E(Y |X)].
(16)
En particular,
EY =
E(Y |X = x)fX (x) si X
es discreta,
(17)
E(Y |X = x)fX (x)dx
EY =
si X
es continua.
(18)
de
(b) Supongase
que, ademas, X es una v.a. y g : IR IR una funcion
Borel tales que Y y Y g(X) estan en L1 . Entonces
E[Y g(X)|X = x] = g(x)E(Y |X = x)
(19)
E[Y g(X)|X] = g(X)E(Y |X).
(20)
y, por lo tanto,
En particular, si Y = 1 se sigue de (19) y (20) que
E[g(X)|X = x] = g(x) y E[g(X)|X] = g(X)
(21)
125
Demostracion.
(a) Supongase
que X es una v.a. discreta. Luego, usando
de esperanza obtenemos que
(7) y la definicion
EY :=
y fY (y) =
f (y|x)fX (x).
Luego, intercambiando las sumatorias (lo cual es valido porque Y esta en

L1 ),
XX
X
EY =
[
y f (y|x)]fX (x) =
E(Y |X = x)fX (x).
x
Esto da (17) y, por lo tanto, (16) si X es discreta. Cuando X es continua, la

de (18) es similar, usando ahora (8).
demostracion
(b) En el caso discreto, usando (3) el lado derecho de (19) resulta
g(x)E(Y |X = x) = g(x)
y f (y|x)
y g(x)f (y|x)
= E[Y g(x)|X = x]
= E[Y g(X)|X = x],
[por (3)]
lo cual demuestra (19). El caso continuo se demuestra en forma similar.

2
11.6 Ejemplo. Una maquina produce un numero

aleatorio N de artculos,
en donde N Poi(). Cada artculo puede ser defectuoso con probabilidad p (0 < p < 1) independientemente de los otros artculos. Si X es el
numero
total de artculos defectuosos, calcule EX.
Solucion.
Por (16) o (17).
EX = E[E(X|N )] =
X
n=0
E(X|N = n)P(N = n),
126
Probabilidad
en donde P(N = n) = e n /n! para n = 0, 1, . . .. Por otra parte, como

P(X = k|N = n) =
n
k
pk q nk
k = 0, 1, . . . , n,
en donde q := 1 p, vemos que

E(X|N = n) =
n
X
k P(X = k|N = n) = n p
(explique).
k=0
Por lo tanto, E(X|N ) = N p de manera que EX = p EN = p .
Dado un evento A F y una v.a. X, definimos la probabilidad condicional de A dado que X = x como
P(A|X = x) := E(IA |X = x),
(22)
indicadora de A. Asimismo, la probabilidad

en donde IA es la funcion
condicional de A dada la v.a. X es la v.a.
P(A|X) := E(IA |X).
(23)
Por supuesto, los resultados para esperanzas condicionales tambien son

validos para probabilidades condicionales. Por ejemplo, como P(A) =
EIA , vemos de (16) que
P(A) = E[P(A|X)]
(24)
para cualquier v.a. X. Tambien podemos definir E(X|A) := E(X|IA ).
11.7 Ejemplo. Sean X y Y vv.aa. independientes que tienen distribucion

Geo(p1 ) y Geo(p2 ), respectivamente. Calcule P{X Y }.
Solucion.
Tomando A := {X Y } en (24) y (22) vemos que
P{X Y } =
X
n=0
P{X Y |Y = n}P{Y = n},
127
en donde P{Y = n} = p2 q2n para todo n = 0, 1, . . ., con q2 := 1 p2 .

Ademas,
P{X Y |Y = n} = P{X n|Y = n}
= P{X n}
(por independencia)
X
=
P{X = k}
k=n
= q1n
con q1 := 1 p1 .
Por lo tanto
P{X Y } =
q1n p2 q2n = p2 /(1 q1 q2 ).
n=0
11.8 Esperanza condicional dada una algebra. Sea (, F, P) un espacio

de probabilidad y G F una subalgebra de F. Si X : IR es una v.a.
b tal que
en L1 , entonces existe una v.a. X
b es medible con respecto a G, y
(a) X
b B ) = E(XIB ) B G.
(b) E(XI
b se le llama la esperanza condicional de X dada la algebra G
A la v.a. X
y se le denota por
b := E(X|G).
X
Esta v.a. es unica

c.s., en el sentido de que si Z es otra v.a. que satisface (a)
b
b = Z} = 1.
y (b), entonces X = Z c.s., es decir, P{X
El resultado 11.8 se obtiene directamente del Teorema de RadonNikodym
aplicado a la funcion
Z
(B) := E(XIB ) =
B
X dP, B G.
128
Probabilidad
11.9 Convencion.
Identificaremos vv.aa. que son iguales c.s. En otras

palabras, si X = Y c.s. entonces escribiremos simplemente X = Y .
11.10 Casos particulares. (a) Si G = {, } es la algebra trivial, entonces
E(X|G) = EX.
(b) Sea {Y } Y 1 (B) := {Y 1 (B)|B B} la algebra generada por
la v.a. Y , en donde B B(IR); vea el Ejercicio 4.6. Entonces, si G = {Y },
en lugar de escribir E(X|G) escribimos E(X|Y ), i.e.
E(X|{Y }) E(X|Y ).
(25)
(c) La algebra generada (o inducida) por una familia {Yi , i I} de

vv.aa. se define como la mnima algebra que contiene a iI {Yi }, es
decir,
[
{Yi , i I} := { {Yi }}.
iI
Si G = {Xi , i I} entonces [como en (25)] escribimos

E(X|{Yi , i i}) E(X|Yi , i I).
Por ejemplo, E(X|{Y1 , . . . , Yn }) E(X|Y1 , . . . , Yn ).
(d) La probabilidad condicional de un evento A F dada la sub
a lgebra G de F es
P(A|G) := E(IA |G).
El siguiente teorema establece, en particular, que E(X|Y ) es una fun de Y .
cion
11.11 Teorema. Sean X y Y vv.aa.
de Borel tal que X = h(Y ), entonces
(a) Si h : IR IR es una funcion
{X} {Y }.
de Borel
(b) Recprocamente, si {X} {Y }, entonces existe una funcion
h tal que X = h(Y ).
129
de Borel h tal que E(X|Y ) =

(c) Si X L1 , entonces existe una funcion
h(Y ).
Demostracion.
El inciso (a) se vio en el Ejercicio 4.7.
indicadora, digamos X = IC , con

(b) Supongase
que X es una funcion
1
conjunto de BorelP
C en {Y }. Entonces C = Y (A) para algun
A. Sea h :=
IA . Entonces h Y = I{Y A} = IC = X. Analogamente, si X = nk=1 xk ICK
simple
es una funcion
y tomamos ICK = hk Y como antes, entonces X =
P
h Y con h = nk=1 xk hk . En general, sean X1 , X2 , . . . funciones simples
tales que Xn X, y tomese

Xn = hn Y . Sea h := lim hn donde este lmite
existe y h := 0 en caso contrario. Entonces
X() = lim Xn () = lim hn (Y ()) = h(Y ()).
La parte (c) del teorema se sigue de (b) y del hecho de que, por 11.8(a),
b = E(X|Y ) es medible con respecto a G :=
la esperanza condicional X
b {Y }.
{Y }; luego, {X}
2
11.12 Teorema. Sean X y Y vv.aa. en L1 y G una subalgebra de F.
Entonces:
(a) E(aX + bY |G) = aE(X|G) + bE(Y |G) a, b IR.
(b) Propiedad de la esperanza iterada: E[E(X|G)] = EX. (Compare con
(16).)
(c) Si X es Gmedible, entonces E(XY |G) = X E(Y |G). (Compare con
(20).)
(d) Si X es Gmedible, entonces E(X|G) = X; tome Y 1 en (c). (Compare
con (21).)
(e) Si X es independiente de G, entonces E(X|G) = EX. (Compare con
(12.))
(f) Si G1 G2 F, entonces
E(X|G1 ) = E[E(X|G1 )|G2 ] = E[E(X|G2 )|G1 ].
(26)
130
Probabilidad
(g) Desigualdad de Jensen. Si h : IR IR es convexa y h(X) L1 , entonces h[E(X|G)] E[h(X)|G]. En particular, [E(X|G)]2 E(X2 |G) si
X L2 .
de los incisos (a)(f) del Teorema 11.12 se sigue direcLa demostracion
de esperanza condicional. La demostracion
de
tamente de la definicion
11.12(g) se obtiene del Teorema de la lnea de soporte que dice lo siguiente:
convexa, entonces existen sucesiones de
si h : IR IR es una funcion
numeros
reales an , bn tales que h(x) = supn (an x + bn ) para todo x IR.
Esto significa que h(X) an X + bn para todo n, de modo que
E[h(X)|G] an E(X|G) + bn
c.s.
Tomando el sup sobre n se obtiene (g).
Por otra parte, usando el Teorema 11.12 es facil dar una interpretacion
de E(X|G) como el mejor estimador de X en el siguiente sentido.
11.13 Definicion.
Considerese el espacio vectorial L2 := L2 (, F, P) con la
de distancia
funcion
k X Y k:= [E(X Y )2 ]1/2
X, Y L2 .
(Vea el Ejercicio 6, y recuerde la convencion 11.9.) Sea Lo un subespacio de

L2 y X L2 . Decimos que una v.a. Z Lo es la proyeccion
de X sobre Lo
si
(a) Z Lo , y
(b) k X Z k= min{k X Y k |Y Lo }.
En este caso tambien se dice que Z es el mejor estimador (o predictor) de
X en Lo , o que Z es el estimador en la media cuadratica de X.
de E(X|G)] Sea G una subalgebra de
11.14 Proposicion.
[Interpretacion
F y sea Lo L2 el subespacio que consiste de las vv.aa. en L2 que son G
b := E(X|G)
medible, es decir, Lo := L2 (, G, P). Si X esta en L2 , entonces X
o
de X sobre L .
es la proyeccion
b es Gmedible, miDemostracion.
Por 11.8(a), la esperanza condicional X
b esta en L2 (explique).
entras que por la desigualdad de Jensen 11.12(g), X
131
b satisface la condicion
b esta en Lo =
11.13(a), es decir, X
Por lo tanto, X
L2 (, G, P). Ahora demostraremos que
b k= min{k X Y k |Y Lo }.
kXX
(27)
En efecto, para cualquier Y Lo ,

b + (X
b Y )]2
E(X Y )2 = E[(X X)
b 2 + 2 E[(X X)(
b X
b Y )] + E(X
b Y )2
= E(X X)
(28)
b 2 + 2 E[(X X)(
b X
b Y )].
E(X X)
b X
b Y )] = 0 porque
Pero E[(X X)(
b X
b Y )] = E{E[(X X)(
b X
b Y )|G]}
E[(X X)(
b Y )E(X X|G)}
b
= E{(X
b Y )(X
b X)}
b
= E{(X
= 0.
[por 11.12(b)]
[por 11.12(c)]
[por 11.12(d)]
Esto significa que

b 2
E(X Y )2 E(X X)
Y Lo ,
b k para todo Y Lo , lo cual demuestra (27).

es decir, k X Y k k X X
2
Tomando Y = EX en (28) se obtiene lo siguiente.
11.15 Corolario. Para cualquier v.a. X L2
Var(X) Var[E(X|G)],
con igualdad ssi X = E(X|G) c.s.
En lugar del mejor estimador de una v.a. X, en el sentido de la
11.13, podemos considerar el mejor estimador lineal de X como
Definicion
en el siguiente ejemplo.
11.16 Ejemplo. Sean X, Y1 , . . . , Yn vv.aa. en L2 . Supongase

que Y1 , . . . , Yn
2
son independientes, con media cero y varianzas positivas j . Sea L L2
132
Probabilidad
el subespacio vectorial que consiste de todas las combinaciones lineales de

Y1 , . . . , Yn , es decir,
Y = a1 Y1 + + an Yn ,
con a1 , . . . , an IR.
de X sobre L es la v.a.
Demuestre que la proyeccion
Z=
n
X
(29)
a
j Yj
j=1
con coeficientes a
j = E(XYj )/j2 para j = 1, . . . , n.
Pn
aj Yj una v.a. en L . Entonces

X
X
X
E(X Y )2 = E(X
aj Yj )2 = E[X2 + (
aj Yj )2 2
aj XYj ]
Solucion.
Sea Y =
j=1
= E(X2 ) +
X
j
a2j E(Yj2 ) 2
aj E(XYj ).
anterior con respecto a

Calculando las derivadas parciales de la expresion
aj (j = 1, . . . , n) vemos que
E(X Y )2 = 2aj E(Yj2 ) 2E(XYj ) j = 1, . . . , n.

aj
Como estas derivadas son cero si aj = E(XYj )/E(Yj2 ), obtenemos (29).
2
A la v.a. Z en (29) se le llama tambien el mejor estimador lineal de X
en terminos de las vv.aa. Y1 , . . . , Yn .
Ejercicios 11
11.1 Sean X y Y vv.aa. discretas o continuas, y sea F (y|x) la distribucion

condicional de Y dado X = x. Demuestre que si X y Y son independientes,
11.1(b).)
entonces F (y|x) = FY (y). (Compare con la Proposicion
11.2 Si Y esta en L2 , definimos la varianza condicional de Y dado que X = x
como
Var(Y |X = x) := E[(Y E(Y |X = x))2 |X = x]
133
y la varianza condicional de Y dada la v.a. X como la v.a.

Var(Y |X) := E[(Y E(Y |X))2 |X].
()
Demuestre que
Var(Y ) = E[Var(Y |X)] + Var[E(Y |X)].
()
Sugerencia: Escriba Var(Y ) := E(Y EY )2 = E[(Y E(Y |X)) + (E(Y |X)

y despues use (*) y la
EY )]2 . Expanda el lado derecho de esta expresion
propiedad de la esperanza iterada (16).
11.3 Sean X1 , X2 , . . . , Sn y N como en el Ejemplo 11.2. Suponga que
:= EX1 y EN son finitas. Demuestre que
(a) E(SN |N ) = N ,
(b) E(SN ) = EN .
Si ademas X1 y N estan en L2 , entonces
(c) Var[E(SN |N )] = 2 Var(N ),
(d) Var(SN |N = n) = n 2 , en donde 2 := Var(X1 ),
(e) E[Var(SN |N )] = 2 EN , y
(f) Var(SN ) = 2 EN + 2 Var(N ). (Sugerencia: use (**) en el Ejercicio 11.2.)
11.4 Sea X Poi(1 ) y Y Poi(2 ) vv.aa. independientes [de modo
que X + Y Poi(1 + 2 )]. Dado un entero positivo n, demuestre que
P(Y = k|X + Y = n) k = 0, 1, . . . , n
Bin(n, p) con p := 2 /(1 + 2 ).
es una distribucion
11.5 Sean X y Y vv.aa. continuas con densidad conjunta
f (x, y) := 1/x si 0 y < x 1,
:= 0
en c.c.
134
Probabilidad
Demuestre que dado el evento {X = x}, con x > 0, la v.a. Y tiene densidad
uniforme sobre el intervalo [0, x].
p
11.6 Demuestre que k X k:= E(X2 ) define una norma sobre L2 , es
decir, (a) k X k 0, y k X k= 0 ssi X = 0; (b) k aX k= |a| k X k a IR; (c)
de k X k= 0 X = 0
k X + Y kk X k + k Y k. (Nota: la demostracion
requiere la Convencion 11.9.)
11.7 Sean X y Y vv.aa. con densidad conjunta
(a) f (x, y) := 2 ey para 0 x y,
(b) f (x, y) := xex(y+1) para x, y 0.
En cada caso calcule (a) las densidades marginales de X y Y , y (b) la densidad condicional y la esperanza condicional de Y dada X.
11.8 Sean X y Y vv.aa. discretas con densidades fX y fY , respectiva fX fY dada
mente. Definimos la convolucion
de fX y fY como la funcion
por
X
(fX fY )(y) :=
fX (x)fY (y x).
x
(a) Demuestre que si X y Y son independientes, entonces la densidad de

de las densidades de X y Y , i.e.
X + Y es la convolucion
fX+Y (y) := P(X + Y = y) = (fX fY )(y).
(b) Suponga que X y Y son i.i.d. con densidad comun

f (k) := p(1 p)k1
k = 1, 2, . . . .
Demuestre que fX+Y (y) = (y 1)p2 (1 p)y2 para y = 2, 3 . . ..

11.9 Sean X y Y vv.aa. continuas con densidades fX y fY , respectiva fX fY definida como
mente. La convolucion
de fX y fY es la funcion
Z
(fX fY )(z) :=
fX (x)fY (z x)dx.
Sea f (x, y) la densidad conjunta de X y Y , y f (y|x) la densidad condicional

de Y dado que X = x. Demuestre que

(a) P(X + Y z|X = x) =
135
zx
R
f (y|x)dy,
R
R zx
(b) FX+Y (z) := P{X + Y z} =
f (y|x)dy fX (x)dx, y
(c) La densidad de X + Y es fX+Y (z) =
f (x, z x)dx
(d) Si ademas X y Y son independientes, entonces fX+Y = fX fY .

11.10 Sean X y Y vv.aa. i.i.d. Calcule la densidad de X + Y en cada uno
de los siguientes casos: (a) X Exp(), (b) X N (0, 1). (Sugerencia: use
los Ejercicios 8 y 9.)
11.11 Suponga que los tiempos que requieren dos estudiantes para re exposolver un mismo problema son independientes y tienen distribucion
nencial con parametro . Calcule la probabilidad de que el primer estudiante tome al menos el doble del tiempo que requiere el segundo estudiante
para resolver el problema.
11.12 Sean X y Y vv.aa. continuas con densidad conjunta de la forma
f (x, y) = c e(x
2 xy+4y 2 )/2
x, y IR.
(a) Calcule el valor de c para el que f es efectivamente una densidad de

probabilidad.
(b) Calcule las densidades marginales de X y Y .
(c) Calcule E(Y |X) y E(X|Y ).
136
12
Probabilidad
Martingalas
Contenido. Martingalas, submartingalas y supermartingalas, teoremas

de convergencia, tiempos de paro, teorema de muestreo opcional.
considerese
Para motivar los conceptos introducidos en esta seccion,
{Xn } de vv.aa. en L1 , en donde Xn representa el capital de
una sucesion
un jugador despues de n jugadas. Sea X0 el capital inicial del jugador. Si
E(Xn+1 |X0 , . . . , Xn ) = Xn
n = 0, 1, . . . ,
(1)
se dice que el juego es honesto o que {Xn } es una martingala. En este

caso, la propiedad de la esperanza iterada da que EXn+1 = EXn para todo
n = 0, 1, . . ., de modo que la ganancia esperada del jugador permanece
constante:
EXn = EX0 n = 0, 1, . . . .
Por otra parte, si
E(Xn+1 |X0 , . . . , Xn ) Xn
n = 0, 1, . . . ,
(2)
se dice que el juego esta a favor del jugador o que {Xn } es una submartingala, y la ganancia esperada es no decreciente porque
EXn+1 EXn
n = 0, 1, . . . .
Finalmente, se dice que el juego esta en contra del jugador o que {Xn }
es una supermartingala si
E(Xn+1 |X0 , . . . , Xn ) Xn
n = 0, 1, . . . ,
en cuyo caso la ganacia esperada es no creciente pues

EXn+1 EXn .
(3)
12. Martingalas
137
Los conceptos en (1), (2), (3) se pueden extender a colecciones mas generales de vv.aa. como sigue.
12.1 Definicion.
Sea (, F, P) un espacio de probabilidad y T un subconjunto de IR (por ejemplo, T = {0, 1, 2, . . .}, T = [a, b] o T = (, )).
Sea {Xt , t T } una familia de vv.aa. sobre y {Ft , t T } una familia de
subalgebras de F. Decimos que:
(a) {Ft , t T } es una filtracion
de F si la familia es no decreciente, en el
sentido de que
Fs Ft
s, t T, con s < t;
{Ft , t T } si Xt es
(b) la familia {Xt , t T } esta adaptada a la filtracion
Ft medible para todo t T ;
(c) {Xt , t T } es una martingala con respecto a {Ft , t T } (o que
{Xt , Ft , t T } es una martingala) si
de F,
(c1 ) {Ft , t T } es una filtracion
(c2 ) {Xt , t T } esta adaptada a {Ft , t T },
(c3 ) Xt esta en L1 t T , y
(c4 ) E(Xt |Fs ) = Xs s, t T , con s t.
Si la igualdad en (c4 ) se sustituye por o , es decir, para todo s t
E(Xt |Fs ) Xs
o E(Xt |Fs ) Xs ,
se dice entonces que {Xt , Ft , t T } es una submartingala o una supermartingala, respectivamente.

consideraremos unicamente
En esta seccion
el caso en el que T es un
de vv.aa.,
conjunto de numeros
enteros. Si X := {Xn } es una sucesion
X
X
entonces la familia F := {Fn } con
FX
n := {X0 , . . . , Xn }
n = 0, 1, . . .
(4)
138
Probabilidad
se llama la filtracion
natural de X . Notese
que, efectivamente, {FX
n } es
X
X
(porque Fn Fn+1 para todo n) y que X esta adaptada a
una filtracion
(1)
FX
(porque
Xn es FX
n medible para todo n). Por lo tanto, la condicion

12.1(c) pues
coincide con la Definicion
E(Xn+1 |FX
n ) = Xn
n = 0, 1, . . . ,
(5)
y similarmente para (2) y (3).

naCuando X = {Xn } es una martingala con respecto a su filtracion
tural, se dice simplemente que X es una martingala. Para sub o supermartingalas se usa una terminologa similar.
{Fn }, enSi {Xn } es una martingala con respecto a cualquier filtracion
natural {FX
tonces {Xn } es una martingala con respecto a su filtracion
n }.
Este hecho tambien se cumple para sub o supermartingalas.
12.2 Observacion.
(a) {Xn , Fn , n = 0, 1, . . .} es una martingala ssi
E(Xn+k |Fn ) = Xn
n 0, k 1.
tambien se cumple para sub o supermartingalas reemplaEsta condicion

zando la igualdad por o , respectivamente.
(b) {Xn } es una submartingala (con respecto a {Fn } , digamos) ssi
{Xn } es una supermartingala.
(c) Sean X0 , X1 , . . . vv.aa. en L1 . Si Xn+1 = Xn para todo n (en particular
si Xn c, una constante, para todo n), entonces {Xn } es una martingala. Si
Xn+1 Xn o Xn+1 Xn para todo n, entonces {Xn } es una submartingala
o una supermartingala, respectivamente. En otras palabras, una sucesion

monotona de vv.aa. es una submartingala o una supermartingala dependi sea creciente o decreciente, respectivamente.
endo de que la sucesion
de vv.aa. independi12.3 Ejemplo. Sea X = {X1 , X2 , . . .} una sucesion
entes en L1 . Demuestre que:
S := {Sn }, con Sn :=
(a) Si EXn = 0 para todo n, entonces la sucesion
12. Martingalas
139
X1 + + Xn , es una martingala. (Mas generalmente, Sn :=
n
P
(Xk
k=1
si EXn 6= 0.)
EXk ) para n = 1, 2, . . ., es una martingala, aun
(b) Si EXn = 1 para todo n, y Yn := X1 Xn , entonces Y := {Yn } es una
martingala.
Solucion.
(a) Notese
que {X1 , . . . , Xn } = {S1 , . . . , Sn }. (Explique.) Es
12.1 y,
evidente que S satisface las condiciones (c1 ) a (c3 ) de la Definicion
por otra parte, como Sn+1 = Sn + Xn+1 , obtenemos (c4 ) pues
E(Sn+1 |S1 , . . . , Sn ) = E(Sn + Xn+1 |X1 , . . . , Xn )
= Sn + EXn+1
(explique)
= Sn .
natural de Y , de modo que Y
(b) Sea FYn := {Y1 , . . . , Yn } la filtracion
Y
esta adaptada a {Fn }. Ademas, Yn esta en L1 para todo n porque E|Yn | =
E|X1 | E|Xn | < . Finalmente,
E(Yn+1 |Fn ) = E(Yn Xn+1 |Fn )
= Yn E(Xn+1 )
(explique)
= Yn . 2
Por lo tanto, Y es una martingala.
12.4 Proposicion.
(a) Sea {Xn } una martingala y h : IR IR una funcion
convexa tal que h(Xn ) esta en L1 para todo n. Entonces {h(Xn )} es una
submartingala.
convexa, no
(b) Si {Xn } es una submartingala y h es una funcion
decreciente y tal que h(Xn ) esta en L1 para todo n, entonces tambien
{h(Xn )} es una submartingala.
Demostracion.
Sea FX
n := {X1 , . . . , Xn }. Por la desigualdad de Jensen
11.12(g),
X
E[h(Xn+1 )|FX
n ] h[E(Xn+1 |Fn )]
= h(Xn ).
140
Probabilidad
2
de (b) es similar.
Esto demuestra (a). La demostracion
2
Xn
12.5 Ejemplo. Si {Xn } es una martingala, entonces {X+
}
n }, {Xn } y {e
+
son submartingalas para cualquier IR, en donde Xn := max{Xn , 0}.
Asimismo, si {Xn } es una submartingala, entonces tambien lo son {X+
n} y
Xn
{e } para 0.
12.6 Teorema de convergencia de martingalas. Sea {Yn } una martingala

con E(Yn2 ) c < para todo n. Entonces existe una v.a. Y tal que Yn Y
c.s. y en L2 . Ademas, EYn = EY para todo n.
de vv.aa. tales que E(Xn |X1 , . . . ,
12.7 Ejemplo. Sea {Xn } una sucesion
X
)
=
0
para
todo
n,
y
sea
S
:=
X1 + + Xn . Demuestre que si
n
Pn1
2
2
1
k=1 E(Xk )/k < , entonces n Sn 0 c.s.
Demostracion.
Sea Yn :=
porque
Pn
k=1
Xk /k. Entonces {Yn } es una martingala
E(Yn |Y1 , . . . , Yn1 ) = E(Yn1 + Xn /n|Y1 , . . . , Yn1 )

= Yn1 .
(explique.)
Ademas, existe una constante c tal que E(Yn2 ) c para todo n, pues
E(Yn2 ) =
=
n
X
k=1
n
X
E(X2k )/k 2 +
E(Xj Xk )/jk
j6=k
E(X2k )/k 2
(explique)
k=1
E(X2k )/k 2 < .
k=1
Por lo tanto {Yn } satisface las hipotesis

del Teorema 12.6, as que existe una
v.a. Y tal que, en particular, Yn Y c.s. Luego, por el Lema de Kronecker
(Ejercicio 12.10),
n
1X
1
k(Xk /k) = Sn 0 c.s.
n k=1
n
12. Martingalas
141
Como caso especial del ejemplo anterior, observe

que si {Xn } es una
P
de vv.aa. independientes con media 0 y k=1 E(X2k )/k 2 < ,
sucesion
entonces n1 Sn 0 c.s.
12.8 Teorema de convergencia de submartingalas. Sea {Xn , Fn } una submartingala tal que supn E|Xn | < . Entonces existe una v.a. X tal que
Xn X c.s. y, ademas, E|X| supn E|Xn |.
12.9 Observacion.
(a) Notese
que |Xn | = X+
n + Xn Xn , de modo que
+
E|Xn | EX+
n . Por otra parte, como |Xn | = 2Xn Xn (explique), vemos
que si {Xn } es una submartingala, entonces
+
E|Xn | = 2EX+
n EXn 2EXn EX1 .
supn E|Xn | < en el Teorema 12.8 es equivaPor lo tanto, la condicion

lente a
sup EX+
n < .
n
De aqu se sigue que cualquier submartingala negativa converge c.s.

(b) Para supermartingalas, el resultado analogo a 12.8 es el siguiente. Si
{Xn , Fn } es una supermartingala y supn E(X
n ) < , entonces existe una
v.a. X tal que Xn X c.s. En particular, cualquier supermartingala no
negativa converge c.s.
12.10 Definicion.
Sea (, F, P) un espacio de probabilidad y {Fn } una

de F. Decimos que una v.a. T : IN {+} (con IN :=
filtracion
{0, 1, . . .}) es un tiempo de paro con respecto a {Fn } si el evento {T n}
esta en Fn para todo n IN. Asimismo, un tiempo de paro T es finito si
P(T < ) = 1, y acotado si existe una constante c tal que P(T c) = 1.
Ademas, si T es un tiempo de paro finito definimos la v.a. XT como
XT () := XT () ().
Es decir,
XT () =
X
n=0
Xn ()I{T ()=n} .
(6)
142
Probabilidad
Dado un tiempo de paro T , definimos

FT := {A F | A {T n} Fn n}.
(7)
Se puede demostrar que FT es una algebra y que XT es FT medible.

(Ejercicio 12.)
12.11 Teorema. (Teorema de muestreo opcional, Doob). Sea {Xn } una
martingala y sean S y T tiempos de paro acotados y con S T c.s. Entonces
E(XT | FS ) = XS c.s.
Ejercicios 12
12.1 Sean X1 , X2 , . . . vv.aa. tales que las sumas Sn := X1 + + Xn
forman una martingala. Demuestre que E(Xi Xj ) = 0 si i 6= j.
12.2 Sean X0 , X1 , . . . vv.aa. en L1 y tales que
E(Xn+1 |X0 , X1 , . . . , Xn ) = aXn + bXn1
n 1,
en donde 0 < a, b < 1 y a + b = 1. Encuentre un valor de para el cual la

de vv.aa. Sn := Xn + Xn1 , para n 1, es una martingala con
sucesion
respecto a Fn := {X0 , . . . , Xn }.
de vv.aa. independientes tales que
12.3 Sea {X1 , X2 , . . .} una sucesion
EXn = mn 6= 0 para todo n 1. Demuestre que la sucesion

Yn :=
n
Y
(Xk /mk ) para n = 1, 2, . . .
k=1
es una martingala con respecto a Fn := {X1 , . . . , Xn }.

12.4 Sean X1 , X2 , . . . vv.aa. independientes tales que
P{Xn = 1} = p
y P{Xn = 1} = 1 p =: q
n = 1, 2, . . . ,
12. Martingalas
143
donde 0 < p < 1. Sean

Sn := X1 + + Xn
y Yn := (q/p)Sn .
Demuestre que {Yn } es una martingala con respecto a Fn := {X1 , . . . , Xn }.

12.5 Sean X1 , X2 , . . . vv.aa. i.i.d. con EX1 = 0 y E(X21 ) = 2 < , y sea
Sn := X1 + + Xn . Demuestre que la sucesion

Yn := Sn2 n 2
para n = 1, 2, . . .
es una martingala con respecto a Fn := {X1 , . . . , Xn }.

de F.
12.6 Sea X una v.a. en L1 L1 (, F, P) y {Fn } una filtracion
Demuestre que las vv.aa. Xn := E(X|Fn ), para n = 1, 2, . . . , forman una
11.12(f).)
martingala. (Sugerencia: use la Proposicion
12.7 (Descomposicion
de submartingalas) Sea {Xn , Fn , n 1} una
submartingala. Ademas, sea
Yn := X1 +
n1
X
[Xk+1 E(Xk+1 |Fk )] para n 2, con Y1 := X1 , y
k=1
Zn :=
n1
X
[E(Xk+1 |Fk ) Xk ] para n 2, con Z1 := 0
k=1
Demuestre que:
(a) {Yn , Fn } es una martingala,
nodecreciente de vv.aa. nonegativas y tales
(b) {Zn } es una sucesion
que Zn es Fn1 medible para n 2, y
(c) Xn = Yn + Zn .
12.8 Demuestre que si {Xn } es una submartingala, entonces tambien lo
es {max(Xn , a)} para cualquier a IR.
de numeros
12.9 (Lema de Toeplitz) Si {an } es una

on
reales tales
Psucesi
n
1
que an a cuando n , entonces n k=1 ak a cuando n .
de numeros
12.10 (Lema
sucesion
reales tal
Pde Kronecker) Sea {an } una
P
n
1
que la serie n=1 an converge. Entonces n k=1 k ak 0 cuando n .
144
Probabilidad
(Sugerencia: sea sn la suma parcial sn := a1 + + an para n 1, y s0 := 0.

Verifique que
n
n1
1X
1X
k a k = sn
sk
n k=1
n k=1
y despues use el Ejercicio 9. )
12.10) ssi el
12.11 Demuestre que T es un tiempo de paro (Definicion
evento {T = n} esta en Fn para todo n.
12.12 Demuestre que FT (definida en (7)) es una algebra y que XT es
FT medible.
{Fn }.
12.13 Sean S y T tiempos de paro con respecto a una filtracion
Demuestre:
(a) Si S T , entonces FS FT .
(b) Si T n, entonces FT = Fn .
(c) min(S, T ) y max(S, T ) son tiempos de paro.

Onésimo - Probabilidad y Procesos Estocásticos I

Cargado por

Copyright:

Formatos disponibles

Onésimo - Probabilidad y Procesos Estocásticos I

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Onésimo - Probabilidad y Procesos Estocásticos I

Cargado por

Copyright:

Formatos disponibles

Septiembre 2009.

16. Procesos a tiempo continuo: introduccion

19. Comportamiento asintotico

Probability Essentials, Second Edition.

D. Khoshnevisan (2007). Probability. American Math. Soc.

Contenido: Espacios medibles, conjuntos de Borel, medidas, el teorema

(a) se puede obtener de (b) y (c). Sin embargo,

una familia de eventos. A un conjunto A F se le llama evento. Al

1.5 se puede extender al caso vectorial = IRn como

Sea (, F) un espacio medible y IR := IR {+, }

el conjunto extendido de los numeros

En este caso se dice que (, F, ) es un espacio de medida. A (A) se le

es un espacio de probabilidad. Asimismo, se dice que P(A) es la probabilidad del evento A F.

(b) Sea #(A) la cardinalidad (o numero

(c) Para cada punto definimos la medida de Dirac en

Un resultado de Analisis Real (vea el Teorema 1.19) asegura que la longi

, para B B(IRn ), son las siguientes.

Si B = {x} consiste de un unico

Cabra preguntarse si se cumple el recproco de esta ultima

de eventos) Sea {An } una suce de subconjuntos de .

(b) Si An An+1 para todo n = 1, 2, . . . , decimos que {An } es una

Ejemplo. (a) Sea An := [0, n] para n = 1, 2, . . . . Entonces An A+ := [0, ).

terminologa de conjuntos vs. enunciados probabilsticos. Sean A y B dos eventos

A y B ocurren ( ambos ocurren)

A o B ocurren ( al menos uno de los dos

A y B son mutuamente excluyentes

A implica B ( si A ocurre, entonces

AB = (A B) (B A) Ocurren A o B pero no ambos

1.14 Ejemplo. Considere tres eventos A, B y C. Encuentre una expresion

(f) Ocurre A unicamente.

lim inf xn := sup inf xk .

supkn xk (n = 1, 2, . . .) es decreciente (o no-creObserve que la sucesion

Analogamente, inf kn xk es creciente (o nodecreciente) y

En general, lim inf xn lim sup xn . Si se cumple la igualdad, es decir,

Sea A una familia de subconjuntos de un conjunto .

(c) si A1 , . . . , An esta en A, entonces su union

Sea A una a lgebra de subconjuntos de un conjunto .

1.18 Ejemplo. Volviendo al Ejemplo 1.8(d), sea A la familia de todas las

Ademas, si I1 , . . . , In son conjuntos ajenos de la forma (3), definimos la

En vista de este ejemplo, la pregunta es como

generada por A es precisamente la algebra de Borel B(IR), y la extension

de 1.20 se puede ver en la seccion

En este caso, la medida se extiende de manera unica

sobre F definida como

1.1 Demuestre las leyes (o formulas)

1.2 Sea (, F) un espacio medible. Demuestre que si A y B estan en

algebra F restringida a B se define como la familia

(B, F(B)) es un espacio medible. (Notese

con B([a, b]) = B(IR) [a, b],

1.4 Sean y 0 dos conjuntos arbitrarios y f : 0 una funcion

(d) Si F0 es una algebra de 0 , entonces la familia

1.15.) Si {An } es una sucesion

Si lim inf An = lim sup An =: A, decimos que {An } converge a A y, en este

Ak , para n = 1, 2, . . . , es creciente; despues use la

de lim inf An y la Proposicion

tercera desigualdad en (*) es similar. Por ultimo,

(a) B es una medida sobre F, llamada la restriccion

(a) tiene solo

1.8 Sean P1 , . . . , Pn m.p.s sobre (, F), y 1 , . . . , n numeros