Convergencia VA
Convergencia VA
Convergencia VA
5
5.1. Funciones Generadoras de Momentos
Dada una variable aleatoria X, o su función de distribución F , vamos a definir otra función generadora,
como
MX (t) = E(etX ).
siempre que este valor esperado exista.
Notemos que cuando X toma valores en los enteros no-negativos, MX (t) = φX (et ), donde φX es la
f.g.p. de la variable X. Si X está acotada, MX está bien definida para todo t real; en cambio, si X no está
acotada, es posible que el dominio de M no sea el conjunto de todos los reales. En todo caso, p siempre
está definida en cero, y M (0) = 1.
Es posible demostrar que si la f.g.m. de la v.a. X existe en un entorno de 0, entonces para todo k > 0,
E(|X|k ) < ∞.
y en general
(k)
MX (0) = E(X k ).
Es por esta última propiedad que esta función se conoce como función generadora de momentos (f.g.m.).
Ejemplos 5.1
1. Si X ∼ U(a, b), su densidad es f (x) = 1/(b − a) para a < x < b y
b
etx etb − eta
Z
M (t) = dx = (5.2)
a b−a t(b − a)
Si queremos derivar (5.2) para hallar los momentos de esta distribución, tenemos que aplicar la
regla de L’Hôpital repetidas veces. Una alternativa es usar el desarrollo de la función exponencial
en serie de potencias y juntar los términos de igual orden, apoyándonos en la existencia de la f.g.m.:
∞ ∞
1 1 X (tb)n X (ta)n
etb − eta =
M (t) = 1+ −1−
t(b − a) t(b − a) n=1
n! n=1
n!
∞
1 X (bn − an ) n−1
= t
b − a n=1 n!
Z x
1 2 2
4. Si X ∼ N (0, 1), es decir, si P (X ≤ x) = √ e−x /2 dx, entonces M (t) = et /2 .
2π −∞
Calculemos
Z ∞ Z ∞
1 2 1 1 2 2 2
M (t) = √ etx e−x /2 dx = √ e− 2 (x−t) et /2 dx = et /2
2π −∞ 2π −∞
R∞ 1 2
ya que −∞ √12π e− 2 (x−t) dx = 1 puesto que el integrando es la densidad de una variable aleatoria
con distribución N (t, 1)
Recordando el desarrollo en serie de potencias de la función exponencial obtenemos
∞ ∞
2 X t2n X (2n)! t2n
M (t) = et /2
= =
n=1
22n n! n=1 22n n! (2n)!
Comparando con (5.1) obtenemos que los momentos de X ∼ N (0, 1) están dados por
(
n 0 si n es impar,
E(X ) = n! −n/2
(n/2)! 2 si n es par.
5. Sea X una variable aleatoria con distribución de Pareto de ı́ndice α > 0, con densidad dada por
α
f (x) = para x > 1
x1+α
y 0 en otro caso. Es fácil ver que esta variable no tiene f.g.m. ya que
αetx
lim =∞
x→∞ x1+α
Sea X una v.a. con f.g.m. MX y sea Y = aX + b una transformación lineal de X, entonces
MY (t) = E(etY ) = E(et(aX+b) ) = E(etaX etb ) = etb E(etaX ) = etb MX (at) (5.4)
Ejemplo 5.2
Si X ∼ N (0, 1) sabemos que Y = σX + µ ∼ N (µ, σ 2 ). Por (5.4)
Observación 5.1 Por la forma en la cual hemos definido la función generadora de momentos, cuando
las f.g.m. de dos variables aleatorias X1 , X2 coinciden para todos los valores de t en un entorno de t = 0,
entonces las distribuciones de probabilidad de X1 y X2 deben ser idénticas. Este resultado lo enunciamos
en el próximo teorema, sin demostración
4 CAPÍTULO 5. CONVERGENCIA DE VARIABLES ALEATORIAS
Teorema 5.1 Si X tiene función generadora de momentos M (t) que está definida en un entorno (−a, a)
de 0, entonces M (t) caracteriza a la distribución de X, es decir, si otra variable Y tiene la misma función
generadora de momentos, las distribuciones de X e Y coinciden.
Si X, Y son v.a.i. con f.g.m. respectivas Mx y MY que existen en un dominio común |t| < d entonces
la f.g.m. de la suma X + Y está dada por
MX+Y (t) = E[et(X+Y ) ] = E[etX etY ] = E[etX ] E[etY ] = MX (t)MY (t) (5.5)
para |t| < d. Este resultado se extiende a la suma de n variables aleatorias independientes: Si Sn =
X1 + · · · + Xn ,
n
Y n
Y
MSn (t) = E(etXi ) = MXi (t).
i=1 i=1
Ejemplo 5.3
Consideremos n v.a.i. con distribución de Poisson de parámetros λi , respectivamente. Tenemos
∞
X λki −λi
MXi (t) = E(etXi ) = etk e
k!
k=0
∞
X (λi et )k
= e−λi
k!
k=0
t
−1)
= eλi (e
En consecuencia
n n
t Pn
λi (et −1))
Y Y
−1)
MSn (t) = MXi (t) = eλi (e = e( i=1
i=1 i=1
Pn
y por el teorema 5.1 vemos que Sn tiene distribución de Poisson de parámetro 1 λi .
Teorema 5.2 (de Continuidad) Sea Fn (x), n ≥ 1 una sucesión de f.d. con funciones generadores de
momento respectivas Mn (t), n ≥ 1, que están definidas para |t| < b. Supongamos que cuando n → ∞,
Mn (t) → M (t) para |t| ≤ a < b, donde M (t) es la función generadora de momentos de la distribución
F (x). Entonces Fn (x) → F (x) cuando n → ∞ para todo punto x en el cual F es continua.
5.1. FUNCIONES GENERADORAS DE MOMENTOS 5
Ejemplo 5.4
Sea Yn una v.a. con distribución uniforme en los enteros {1, 2, . . . , n}. Hallemos la f.g.m. de Yn /n:
1 t/n
Mn (t) = E[etYn /n ] = e + e2t/n + · · · + ent/n
n
1 et/n − e(n+1)t/n
=
n 1 − et/n
1 1 − et
=
n e−t/n − 1
1 − et
= t2 t3
t − 2n + 6n 2
1 − et
→ cuando n → ∞,
t
que es la f.g.m. de una distribución uniforme en (0, 1). Por lo tanto, para 0 ≤ x ≤ 1
Yn
P( ≤ x) → P (U ≤ x) = x
n
donde U tiene distribución U(0, 1). N
Ejemplo 5.5
Sea Yn una v.a. con distribución geométrica con parámetro p = λ/n. La f.g.p. de esta variables está dada
por
∞
X ps
φYn (s) = E(sYn ) = q k−1 psk =
1 − qs
k=1
La f.g.p. de Yn /n es
ps1/n
φn (s) = E(sYn /n ) = E((s1/n )Yn ) = φYn (s1/n ) =
1 − qs1/n
Recordemos que si la f.g.p. de X es φX (s) entonces la f.g.m. está dada por M (t) = φX (et ). Por lo
tanto, la f.g.m. de Yn /n está dada por
pet/n
Mn (t) = φn (et ) =
1 − qet/n
λ λ t/n −1
= et/n 1 − 1 − e
n n
Recordemos que ex = 1 + x + O(x2 ) cuando x → 0. Desarrollando las exponenciales en la expresión
anterior
λ t t 2 λ t t 2 −1
Mn (t) = 1+ +O 1− 1− 1+ +O
n n n n n n
λ 1 λ − t
1 −1
= 1+O +O
n n n n2
λ
→
λ−t
que es la f.g.m. de una variable exponencial con parámetro λ. Por lo tanto
X
n
P ≤ x → 1 − e−λx
n
para x > 0. N
6 CAPÍTULO 5. CONVERGENCIA DE VARIABLES ALEATORIAS
Veamos una aplicación del teorema anterior para demostrar el Teorema de de Moivre y Laplace.
Sn − np
Tn =
(npq)1/2
Ahora hacemos un desarrollo de Taylor para las dos exponenciales que aparecen en esta última expresión
para obtener
t(1 − p) qt q 2 t2 C1 q 3 t3
p exp =p 1+ + + (5.7)
(npq)1/2 (npq) 1/2 2npq 3!(npq)3/2
−pt pt p 2 t2 C2 p3 t3
q exp = q 1 − + + . (5.8)
(npq)1/2 (npq)1/2 2npq 3!(npq)3/2
t2
La suma de estas dos expresiones nos da 1 + 2n + O(n−3/2 ) y sustituyendo en (5.6) obtenemos
t2 n 2
E(etTn ) = 1 + + O(n−3/2 ) → et /2
2n
que es la f.g.m. de la distribución normal tı́pica.
Si tenemos ahora una sucesión de v.a.i. Xi con la misma distribución que X y otra v.a. N , independiente
PN
de ellas y con valores en 0, 1, 2, . . . , la f.g.p. de la suma aleatoria T = i=1 Xi , donde la suma vale 0 si
N = 0, tiene f.g.m. dada por
φT (s) = E(sT ) = φN (φX (s)),
es decir, es la composición de las f.g.p. de N y X.
5.1. FUNCIONES GENERADORAS DE MOMENTOS 7
Supongamos ahora que X tiene distribución con f.g.m. MX (t) = E(etX ) y consideramos, al igual que
PN
antes, la suma aleatoria T = i=1 Xi con la misma convención de que T = 0 si N = 0. ¿Cuál es ahora
la f.g.m. de T ? Tenemos
PN
MT (t) = E(etT ) = E(et 1 Xi )
X∞ Pn
E et 1 Xi P (N = n)
=
n=1
X∞
n
= MX (t)P (N = n)
n=1
= φN (MX (t))
Ejemplo 5.6
Supongamos que Xi tiene distribución exponencial de parámetro λ y N es geométrica con parámetro p.
Hemos visto que
λ ps
MX (t) = y φN (s) = .
λ−t 1 − qs
pMX (t) pλ pλ
MT (t) = = = .
1 − qMX (t) λ − t − qλ pλ − t
Esta última expresión corresponde a una distribución exponencial de parámetro pλ.Observamos que la
suma de un número fijo de variables exponenciales tiene distribución Gamma.
Consideremos una partı́cula (neutrones, bacterias, virus informático, etc.) que puede generar nuevas
partı́culas del mismo tipo. El grupo inicial de individuos pertenece a la generación 0 y suponemos que
cada individuo produce una cantidad aleatoria ξ de descendientes con distribución de probabilidad
P (ξ = k) = pk , k = 0, 1, 2, . . . (5.9)
P
donde pk ≥ 0, k pk = 1. Suponemos que todos los individuos actúan de manera independiente, que
todos viven el mismo perı́odo de tiempo y todos siguen la misma ley P dada por (5.9) para generar
su descendencia (ver figura 5.1). El proceso (Xn )n≥1 donde Xn representa el tamaño de la n-ésima
generación, es una cadena de Markov y se conoce como un proceso de ramificación.
8 CAPÍTULO 5. CONVERGENCIA DE VARIABLES ALEATORIAS
X0 = 1
v 0
! !!aaa
! aa
! !! aa
! aa
v
! ! v av 1
S A A
S A A
S A A
v
v Sv v
Av v
Av 2
L L L
L L L
L L L
v Lv v v v
Lv v v
v Lv 3
L L L L
L L L L
L L L L
v v Lv v
Lv v v v Lv v v Lv 4
Figura 5.1
El espacio de estados de esta cadena es {0, 1, 2, . . . } donde 0 es un estado absorbente. Por otro lado,
si Xn = k, los k miembros de esta generación producen
ξ1n + ξ2n + · · · + ξkn = Xn+1 (5.10)
descendientes, que forman la siguiente generación de modo que
Pkj = P (ξ1n + ξ2n + · · · + ξkn = j|Xn = k). (5.11)
Si una partı́cula produce ξ = 0 descendientes, lo interpretamos como que la partı́cula muere o desapare-
ce. Puede ocurrir que luego de varias generaciones todos los descendientes de la partı́cula inicial hayan
muerto o desaparecido. Decimos entonces que todos los descendientes de la partı́cula inicial se extinguie-
ron. Un problema interesante es calcular la probabilidad de extinción U∞ de un proceso de ramificación
que comienza con una sola partı́cula. Una vez que resolvamos este problema, podemos hallar la proba-
bilidad de que una cadena que comienza con k partı́culas se extinga, pues como las partı́culas actúan
independientemente, esta probabilidad es (U∞ )k .
Probabilidades de Extinción.
La población se extingue cuando el tamaño de la población es 0. El instante (aleatorio) de extinción
N es el primer ı́ndice n para el cual Xn = 0 y luego, obviamente, Xk = 0 para todo k ≥ N . 0 es un
estado absorbente y podemos calcular la probabilidad de extinción haciendo un análisis de la primera
transición. Llamemos
Un = P1 (N ≤ n) = P1 (Xn = 0) (5.12)
(0)
la probabilidad de extinción antes de n o en n. El único miembro inicial de la población produce ξ1 = k
descendientes. Por su parte, cada uno de estos descendientes generará una población de descendientes y
cada una de estas lı́neas de descendencias debe desaparecer en n − 1 generaciones o antes.
Las k poblaciones generadas por el individuo inicial son independientes entre sı́ y tienen las mismas
propiedades estadı́sticas que la población inicial. Por lo tanto, la probabilidad de que una cualquiera de
ellas desaparezca en n − 1 generaciones es Un−1 por definición, y la probabilidad de que las k subpobla-
ciones mueran en n − 1 generaciones es (Un−1 )k , por independencia.
Por la ley de la probabilidad total
∞
X
Un = pk (Un−1 )k , n = 1, 2, . . . (5.13)
k=0
5.1. FUNCIONES GENERADORAS DE MOMENTOS 9
con U0 = 0 y U1 = p0 .
Recordemos que si ξ es una v.a. con valores enteros positivos y distribución de probabilidad P (ξ =
k) = pk , k = 0, 1, . . . , la función generadora de probabilidad (f.g.p.) φ(s) asociada a la v.a. ξ (o
equivalentemente a su distribución (pk )) se define por
∞
X
ξ
φ(s) = E[s ] = sk pk , 0 ≤ s ≤ 1. (5.14)
k=0
es decir, si conocemos la función generadora de probabilidades φ(s), podemos calcular iterativamente las
probabilidades de extinción Un comenzando con U0 = 0: U1 = φ(U0 ) = φ(0), U2 = φ(U1 ), etc.
Ejemplo 5.7
En esta población un individuo no tiene descendientes con probabilidad 1/4 o tiene dos descendientes
con probabilidad 3/4. La relación recursiva (5.13) es en este caso
1 + 3(Un−1 )2
Un = .
4
6
φ(s)
U2 = φ(U1 ) H
U = φ(0)
1
-
s
U0 = 0 U1 U2 1
Figura 5.2
La función generadora es
1 3 1 + 3s2
φ(s) = E[sξ ] = 1 · + s2 · =
4 4 4
y vemos que Un = φ(Un−1 ). Representamos esta función en la Figura 5.2. Podemos ver que las probabi-
lidades de extinción convergen de manera creciente a la menor solución de la ecuación u = φ(u).
Esto también ocurre en el caso general: Si U∞ es la menor solución de la ecuación u = φ(u), entonces
U∞ es la probabilidad de que la población se extinga en algún momento finito. La alternativa es que la
población exista indefinidamente, lo que ocurre con probabilidad 1 − U∞ .
En el ejemplo que estamos considerando, la ecuación u = φ(u) es
1 3 2
u= + u ,
4 4
con soluciones 1 y 1/3, y la menor solución es 1/3. N
10 CAPÍTULO 5. CONVERGENCIA DE VARIABLES ALEATORIAS
Puede ocurrir que U∞ = 1, en cuyo caso es seguro que la población desaparece en algún momento.
Ejemplo 5.8
Si las probabilidades son ahora p0 = 3/4 y p2 = 1/4, la función generadora es
3 1 2
φ(s) = + s .
4 4
La ecuación u = φ(u) es ahora
3 1 2
u= + u
4 4
con soluciones 1 y 3. Como la menor solución es 1, U∞ = 1.
6
φ(s)
U2 = φ(U1 )
U1 = φ(0)
-
s
U0 = 0 U1 U2 1
Figura 5.3
N
Para determinar en cuál caso nos encontramos hay que ver si la curva de la función generadora φ(s)
cruza la recta y = x por debajo de 1, y esto se puede determinar por la pendiente de φ en 1:
dφ(s)
φ0 (1) = = E(ξ) = µ.
ds s=1
En el razonamiento que sigue usaremos el hecho de que si pk > 0 para algún k > 1, la f.g.p. correspondiente
es estrictamente convexa en [0, 1]. Esto es consecuencia de que φ es una serie de potencias con coeficientes
positivos.
Si 0 < µ ≤ 1 entonces φ(t) > t, para todo t ∈ [0, 1). Para probarlo, definimos una función g(t) =
φ(t)−t, esta función satisface que g(0) = φ(0), g(1) = 0 y es estrictamente decreciente puesto que su
derivada g 0 (t) = φ0 (t) − 1 es estrictamente negativa, y esto se debe al hecho que φ0 es estrictamente
creciente y φ0 (1) = µ ≤ 1. Entonces, g(t) > 0, para 0 ≤ t < 1. En particular, la ecuación φ(t) = t,
no tiene raı́ces en (0, 1).
Si µ > 1, entonces la ecuación φ(t) = t tiene una única solución en [0, 1). Esto implica que
lı́mt↑1 φ0 (t) = φ0 (1) = µ > 1. Por continuidad existe un t0 < 1, tal que φ0 (t) > 1 para todo
t0 < t ≤ 1, por el teorema del valor intermedio vemos que
φ(1) − φ(t0 ) 1 − φ(t0 )
= = φ0 (t0 ) > 1, para algún t0 ∈ (t0 , 1),
1 − t0 1 − t0
de donde sigue que g(t0 ) = φ(t0 ) − t0 < 0, y puesto que g es continua y g(0) = P (ξ = 0) > 0,
podemos afirmar que existe un 0 < η < 1 con g(η) = 0. Por la convexidad estricta de φ es claro que
g no puede tener ninguna otra raı́z en (η, 1), ni en (0, η).
5.1. FUNCIONES GENERADORAS DE MOMENTOS 11
Sea η la raı́z más pequeña de la ecuación φ(t) = t, en [0, 1]. Los hechos anteriores implican que esta
solución existe y además: si µ ≤ 1, entonces η = 1; si µ > 1, entonces η < 1.
Tenemos entonces
φ0 (1) < 1 no hay cruce U∞ = 1,
0
φ (1) > 1 hay cruce U∞ < 1.
Pero hemos visto que φ0 (1) = E[ξ] y por lo tanto,
E[ξ] < 1 ⇒ U∞ = 1,
E[ξ] > 1 ⇒ U∞ < 1.
El caso lı́mite corresponde a E[ξ] = 1, donde E[Xn |X0 = 1] = 1 para todo n, de modo que el tamaño
promedio de la población es constante pero la población desaparece con seguridad, a menos que la varianza
sea 0, es decir, que con probabilidad 1 todo individuo tenga exactamente un descendiente, en cuyo caso
la población no se extingue nunca.
Ejemplo 5.9
Supongamos que el tamaño de las familias se distribuye según una ley geométrica con parámetro q,
Observemos que si para algún n ≥ 1, Xn = 0 entonces Xn+k = 0, para todo k ≥ 0. Es decir que la
población se extingue en un tiempo anterior o igual a n. Tenemos que
P (extinción en un tiempo finito) = lı́m P (extinción antes del instante n)
n→∞
= lı́m P (Xn = 0)
n→∞
(
1 si p ≤ q
= q
p , si p > q.
12 CAPÍTULO 5. CONVERGENCIA DE VARIABLES ALEATORIAS
Conclusión: La extinción ocurre con probabilidad 1, solamente en el caso en que p/q = µ = E(X1 ) ≤ 1;
esta condición es bastante natural, puesto que E(Xn ) = E(X1 )n ≤ 1, y es de esperarse que Xn = 0 tarde
o temprano.
Veamos que el resultado de los ejercicios anteriores es consecuencia de un resultado más general.
donde η es la menor solución a la ecuación, φ(t) = t. Además, η = 1, si µ < 1, (el caso subcrı́tico) y
η < 1, si µ > 1 (caso super-crı́tico), mientras que en el caso en que µ = 1, (el caso crı́tico) η = 1 si el
tamaño de las familias tiene varianza estrictamente positiva.
Un = φ(Un−1 ).
Es claro que {Xn = 0} ⊂ {Xn+1 = 0}, para todo n ≥ 1, entonces Un es una sucesión creciente y acotada;
en consecuencia el limite de Un existe y por la continuidad de φ debe de satisfacer
η = lı́m Un ≤ 1, η = φ(η).
n→∞
Veamos ahora que si ν es otra raı́z positiva de la ecuación, entonces η ≤ ν. Dado que φ es una función
estrictamente creciente, tenemos que
U1 = φ(0) ≤ φ(ν) = ν,
y se sigue que
U2 = φ(U1 ) ≤ φ(ν) = ν,
y por inducción se ve que Un ≤ ν, para todo n ≥ 1, y por lo tanto que η ≤ ν. En consecuencia, η es la
menor solución de la ecuación t = φ(t).
Ya vimos que si µ > 1 entonces la ecuación φ(t) = t, tiene una única solución η en [0, 1), y de hecho la
otra solución a la ecuación es t = 1. La menor solución es η < 1. Por otro lado, en el caso en que µ < 1,
vimos que φ(t) > t para todo t ∈ [0, 1), y es claro que φ(1) = 1, por lo tanto la solución positiva más
pequeña a la ecuación φ(t) = t es η = 1. En el caso especial en que µ = 1, el caso crı́tico, necesitamos
distinguir entre el caso en que σ 2 = 0, donde φ(s) = s y por lo tanto η = 0, y el caso σ 2 > 0, donde
φ(s) > s, s ∈ [0, 1) y por lo tanto η = 1.
Notación: Xn → X.
5.2. CONVERGENCIA DE VARIABLES ALEATORIAS 13
Definición 5.2 La sucesión Xn converge casi seguramente o con probabilidad 1 a X si existe un conjunto
nulo N ∈ F tal que para todo ω ∈ / N se cumple que
c.s.
Notación: Xn → X c.s. o c.p.1, o también Xn −→ X.
Definición 5.3 La sucesión Xn converge en probabilidad a X si dado cualquier ε > 0 se tiene que
P
Notación: Xn −→ X.
Lp
Notación: Xn −→ X o también Xn → X en Lp .
Observación 5.2
N
Ejemplo 5.10
P
Sea Xn ∼ Γ(n, n). Veamos que Xn −→ 1 cuando n → ∞.
Observamos que E[Xn ] = 1 mientras que Var[X] = 1/n. Usando la desigualdad de Chebyshev obte-
nemos que para todo ε > 0,
1
P (|Xn − X| > ε) ≤ →0 cuando n → ∞.
nε2
N
14 CAPÍTULO 5. CONVERGENCIA DE VARIABLES ALEATORIAS
Ejemplo 5.11
Sean X1 , X2 , . . . v.a.i. con densidad común
(
αx−α−1 , para x > 1, α > 0,
f (x) =
0, en otro caso.
y sea Yn = n−1/α máx1≤k≤n Xk , n ≥ 1. Demuestre que Yn converge en distribución y determine la
distribución lı́mite.
Para resolver este problema vamos a calcular la f.d. común:
Z x
F (x) = αx−α−1 dy = 1 − x−α
1
siempre que x > 1 y vale 0 si no. Por lo tanto, para cualquier x > 1,
n
FYn (x) = P ( máx Xk ≤ xn1/α ) = F (xn1/α )
1≤k≤n
1 n −α
= 1− → e−x cuando n → ∞.
nxα
N
Ejemplo 5.12 (La Ley Débil de los Grandes Números)
Esta es una versión débil de la LGN. Sean X1 , X2 , . . . v.a.i.i.d. con media µ y varianza finita σ 2 y
pongamos Sn = X1 + · · · + Xn , n ≥ 1. La Ley (Débil) de los Grandes Números dice que para todo ε > 0,
Sn
P (| − µ| > ε) → 0 cuando n → ∞,
n
es decir
Sn P
−→ µ cuando n → ∞.
n
La prueba de esta proposición sigue de la desigualdad de Chebyshev:
Sn σ2
P (| − µ| > ε) ≤ 2 → 0 cuando n → ∞.
n nε
N
Ejemplo 5.13 (Aproximación de Poisson)
Sea Xn ∼ Bin(n, nλ ), entonces
D
Xn −→ Pois(λ)
Vemos esto
n λ k λ n−k n(n − 1) · · · (n − k + 1) λ k λ n−k
P (Xn = k) = 1− = 1−
k n n k! n n
k
n(n − 1) · · · (n − k + 1) λ λ n−k
= 1−
nk k! n
1 2 k − 1 λk λ n−k
= 1− 1− ··· 1 − 1−
n n n k! n
1 − n1 1 − n2 · · · 1 − k−1 n λ k
λ n
= 1−
λ k k! n
1− n
Si ahora hacemos n → ∞ la primera fracción tiende a 1 porque k y λ están fijos, mientras que
λ n
lı́m 1 − = e−λ
n→∞ n
Por lo tanto
λk
lı́m P (Xn = k) = e−λ
n→∞ k!
N
5.2. CONVERGENCIA DE VARIABLES ALEATORIAS 15
Es fácil ver que, sin pérdida de generalidad, podemos tomar ε de la forma 1/r para r ∈ N. Por lo tanto,
Xn (ω) → X(ω) si y solo si para todo r ∈ N existe k = k(ω) tal que
1
n ≥ k(ω) ⇒ |Xn (ω) − X(ω)| < . (5.16)
r
Como consecuencia tenemos que el conjunto de ω ∈ Ω para los cuales la sucesión Xn (ω) converge a
X(ω) se puede expresar como
∞ [∞ \
∞
\ 1
C= ω : |Xn (ω) − X(ω)| < (5.17)
r=1
r
k=1 n=k
En efecto, si ω ∈ C entonces tiene que estar en todos los conjuntos que figuran en la primera inter-
sección (para todo r), en alguno de los conjuntos de la unión (existe k) y en todos los conjuntos de la
segunda intersección (para todo n ≥ k) y la condición que aparece en la definición del conjunto entre
llaves es precisamente la desigualdad de la derecha en (5.16). Teniendo en cuenta que todas las funciones
son medibles, esto muestra que el conjunto C es medible. La convergencia con probabilidad 1 dice que
P (C) = 1.
Observamos que si P (∩r≥1 Dr ) = 1, necesariamente P (Dr ) = 1 para todo r ≥ 1, pues si para algún
r0 se tiene P (Dr0 ) < 1 entonces, por monotonı́a de la probabilidad P ,
c.s.
Este razonamiento demuestra que Xn −→ X cuando n → ∞ sı́ y sólo sı́ para todo ε > 0 y δ, 0 < δ < 1,
existe n0 tal que, para todo n > n0
\
P( {|Xm − X| < ε}) > 1 − δ (5.18)
m>n
16 CAPÍTULO 5. CONVERGENCIA DE VARIABLES ALEATORIAS
o equivalentemente
[
P( {|Xm − X| > ε}) < δ.
m>n
la sucesión también converge en probabilidad. El siguiente ejemplo muestra que el recı́proco es falso.
Ejemplo 5.14
Sean X1 , X2 , . . . v.a.i. tales que
1 1
P (Xn = 1) = 1 − y P (Xn = n) = , n ≥ 1.
n n
Claramente,
1
P (|Xn − 1| > ε) = P (Xn = n) = → 0, cuando n → ∞,
n
para todo ε > 0, es decir,
P
Xn −→ 1 cuando n → ∞.
Veamos ahora que Xn no converge c.s. a 1 cuando n → ∞. Para todo ε > 0, δ ∈ (0, 1) y N > n tenemos
\ N
\
P( {|Xm − X| < ε}) = P (lı́m {|Xm − X| < ε})
N
m>n m=n+1
N
\
= lı́m P ( {|Xm − X| < ε})
N
m=n+1
N
Y
= lı́m P (|Xm − 1| < ε)
N
m=n+1
N N
Y Y 1
= lı́m P (Xm = 1) = lı́m 1−
N
m=n+1
N
m=n+1
m
N
Y m−1 n
= lı́m = lı́m = 0,
N
m=n+1
m N N
para cualquier n. Esto muestra que no existe n0 para el cual (5.18) valga, y por lo tanto Xn no converge
c.s. a 1 cuando n → ∞.
N
1
P (|Xn − X| > ε) ≤ E[|Xn − X|p ] → 0
εp
cuando n → ∞, lo que muestra la conclusión.
En este caso el recı́proco tampoco es cierto. Para empezar, E[|Xn − X|] no tiene por qué existir, pero
aun si existe puede ocurrir que haya convergencia en probabilidad sin que haya convergencia en Lp .
5.2. CONVERGENCIA DE VARIABLES ALEATORIAS 17
Ejemplo 5.15
Sea α > 0 y sea X1 , X2 , . . . v.a. tales que
1 1
P (Xn = 1) = 1 − y P (Xn = n) = , n ≥ 1.
nα nα
Como
1
P (|Xn − 1| > ε) = P (Xn = n) = → 0, cuando n → ∞,
nα
para todo ε > 0, tenemos que
P
Xn −→ 1 cuando n → ∞.
Por otro lado
1 p 1 (n − 1)p
E[|Xn − 1|p ] = 0p · 1 − + |n − 1| = ,
nα nα nα
de donde obtenemos que
0,
para p < α,
p
E[|Xn − 1| ] → 1, para p = α, (5.19)
+∞, para p > α,
Lp
Esto muestra que Xn → 1 cuando n → ∞ si p < α pero Xn no converge en Lp si p ≥ α. Por lo tanto,
convergencia en Lp es más fuerte que convergencia en probabilidad. N
es decir,
FXn (x) ≤ FX (x + ε) + P (|Xn − X| > ε). (5.20)
De manera similar se demuestra que
Esta relación es válida para todo x y todo ε > 0. Para demostrar la convergencia en distribución supo-
nemos que x ∈ C(FX ) y hacemos ε → 0. Obtenemos
FX (x) ≤ lı́m inf FXn (x) ≤ lı́m sup FXn (x) ≤ FX (x),
n→∞ n→∞
por lo tanto
lı́m FXn (x) = FX (x),
n→∞
FX (x−) ≤ lı́m inf FXn (x) ≤ lı́m sup FXn (x) ≤ FX (x),
n→∞ n→∞
y FX (x) − FX (x−) es el tamaño del salto. Esto explica por qué sólo se toman en cuenta los puntos de
continuidad en la definición de convergencia en distribución.
Como mencionamos anteriormente, la convergencia en distribución no requiere que las variables estén
definidas en un mismo espacio de probabilidad. El siguiente ejemplo muestra que aun cuando las variables
estén definidas en un espacio común, existen sucesiones que sólo convergen en distribución.
Ejemplo 5.16
Sea X una variable con distribución simétrica, continua y no-degenerada y definimos X1 , X2 , . . . por
D D
X2n = X y X2n−1 = −X, n = 1, 2, . . . . Como Xn = X para todo n, tenemos, en particular, Xn −→ X
cuando n → ∞. Por otro lado, como X tiene distribución no-degenerada existe a > 0 tal que P (|X| >
a) > 0 (¿por qué?). En consecuencia, para todo ε > 0, 0 < ε < 2a,
(
0, para n par,
P (|Xn − X| > ε) = ε
P (|X| > 2 ) > 0, para n impar.
entonces
n
1X P
X̄n − µ̄n = (Xi − µi ) −→ 0 (5.23)
n i=1
Para variables aleatorias que no necesariamente tienen igual distribución tenemos el siguiente resul-
tado, que se debe a Kolmogorov.
Pn
Teorema 5.8 (Kolmogorov) Sea Xn , n ≥ 1 una sucesión de v.a.i. y sea Sn = k=1 Xk . Supongamos
que las variables Xn son centradas y tienen varianzas σk2 que satisfacen
∞
X σ2 k
< ∞. (5.24)
k2
k=1
Entonces
1 c.s.
Sn −→ 0.
n
Corolario 5.1 Si en el teorema anterior se satisfacen todas las condiciones excepto que las variables Xk
en lugar de estar centradas tienen media µk , entonces
n n
1 X 1 X c.s.
Sn − µk = (Xk − µk ) −→ 0.
n n
k=1 k=1
Corolario 5.2 (Borel) Consideremos una sucesión de ensayos de Bernoulli Xn , n ≥ 1 con probabilidad
de éxito p. Entonces
1 c.s.
Sn −→ p.
n
Ejemplo 5.17
Consideremos la sucesión de variables aleatorias (Xk ) con función de probabilidad
1 1
P (Xk = k) = P (Xk = −k) = √ , P (Xk = 0) = 1 − √ .
2 k k
Veamos si estas variables satisfacen las condiciones de los teoremas de Chebychef y de Kolmogorov. Es
fácil ver que las variables son centradas y
1
σk2 = Var(Xk ) = E(Xk2 ) = k 2 √ = k 3/2
k
y vemos que la condición (5.24) del teorema de Kolmogorov no se satisface. Para verificar si se satisface la
condición (5.22) del teorema de Chebychef usamos el hecho de que la función x3/2 es creciente. Tenemos
n n Z n
1 X 2 1 X 3/2 1 2
σ = i ∼ x3/2 dx = n1/2 → ∞
n2 i=1 i n2 i=1 n2 0 5
Ejemplo 5.18
Si modificamos la función de probabilidad del ejemplo anterior de modo que
1 1
P (Xk = k) = P (Xk = −k) = , P (Xk = 0) = 1 − .
2k α kα
para algún α > 1 vemos que
1
σk2 = Var(Xk ) = E(Xk2 ) = k 2 = k 2−α
kα
y la condición (5.24) se satisface siempre que α > 1.
5.3. LA LEY DE GRANDES NÚMEROS 21
5.3.3. Aplicaciones
Supongamos que nos interesa estimar la probabilidad de un cierto evento, por ejemplo, para a < b
nos interesa estimar
p = P (X ∈ (a, b])
Una posibilidad es considerar una sucesión independiente (Xk )nk=1 de realizaciones de esta variable y
estimar p por la proporción de veces que se satisface Xi ∈ (a, b]. Definimos Yi = 1(a,b] (Xi ), de modo que
Yi vale 1 si Xi ∈ (a, b] y 0 en otro caso.
Con esta definición las variables Yi forman una sucesión de variables de Bernoulli independientes con
probabilidad de éxito la probabilidad p que deseamos estimar. Recordando que E(Yi ) = p, la LFGN nos
dice que
1 c.s.
p̂n = Sn −→ p.
n
Este resultado nos dice que si estimamos p por p̂n , con probabilidad 1 cuando n → ∞ el estimador
converge al valor real (desconocido) del parámetro. Esta propiedad se conoce como consistencia.
Como caso particular, si tenemos una variable discreta X con valores x1 , . . . , xk , podemos estimar
pj = P (X = xj ) usando un procedimiento similar. En este caso el estimador es
n
1X
p̂j = 1x (Xi ).
n i=1 j
sim.beta.1
Figura 5.4
En la figura 5.4 presentamos la aproximación que obtuvimos para los valores de una densidad beta
de parámetros (2, 2) en los puntos x = 0.2 y x = 0.6 a partir de 500 simulaciones de una variable con
esta distribución. La lı́nea continua representa la densidad de la distribución β(2, 2) y los rectángulos
la aproximación a partir de intervalos de ancho h = 0.1 centrados en los valores de x. Como podemos
observar, el valor estimado para x = 0.2 está por encima del verdadero valor mientras que para x = 0.6
la estimación cae por debajo.
A partir de la ecuación (5.25) vemos que el área del rectángulo es
Ȳn
2h × fˆ(a) = 2h × = Ȳn .
2h
Si repetimos este procedimiento en una red de puntos equidistantes que cubran el dominio de la
densidad y representamos las aproximaciones obtenidas por rectángulos, obtenemos un histograma. Es-
te nombre fue propuesto por Karl Pearson en 1881, aunque la idea de este tipo de representación es
muy anterior. En la figura 5.5 presentamos el histograma correspondiente a esta muestra. Vemos que,
globalmente, la aproximación es razonable.
1.5
1.0
0.5
0.0
sim.beta
Figura 5.5
Teorema 5.9 (TCL de DeMoivre-Laplace) Sean a < b números reales y Xn , n ≥P1 una sucesión de
n
variables aleatorias con distribución de Bernoulli de parámetro p ∈ (0, 1) y sea Sn = 1 Xi entonces
Sn − np w
√ −→ N (0, 1) (5.26)
npq
cuando n → ∞.
La siguiente versión muestra que el teorema se puede extender a sumas de v.a.i. con igual distribución,
siempre que tengan segundo momento finito.
5.4. EL TEOREMA CENTRAL DEL LÍMITE 23
2
Pn Sea Xn , n ≥ 1 una sucesión de v.a.i.i.d. con media µ = E(Xi ) y varianza σ =
Teorema 5.10 (TCL)
Var Xi . Sea Sn = 1 Xi , entonces
Sn − nµ w
√ −→ N (0, 1)
nσ
cuando n → ∞.
La demostración de este teorema requiere herramientas que no están al nuestro alcance, pero para
dar la idea, haremos la prueba para un acaso particular, suponiendo que las variables Xn tienen función
generadora de momentos M (t) = E(etX ), que existe para |t| < δ para algún δ > 0.
Demostración Definimos Yi = (Xi − µ)/σ, de modo que E(Yi ) = 0 y Var(Yi ) = 1. Usando (5.1) obtenemos
t2 E[(X − µ)3 ] 3
MY (t) = 1 + + t + ···
2 6σ 3
Ahora calculamos las f.g.m. de las sumas, normalizadas
h n S − nµ oi h n t X n oi
n
E exp t = E exp Y i
n1/2 σ n1/2 i=1
t n
= MY 1/2
n
t2 E[(X − µ)3 ] 3 n
= 1+ + t + · · ·
2n 6σ 3 n3/2
t2 /2
→e .
La función lı́mite es la f.g.m. de la distribución normal tı́pica y por el teorema de continuidad obtenemos
el resultado.
¿Qué sucede si las variables Xi no tienen la misma distribución? En este caso es posible tener un
resultado similar, pero se requiere una condición, debida a Lindeberg, que garantiza que ninguno de los
sumandos sea determinante en el valor de la suma. Esta condición se expresa en términos de las varianzas.
Supongamos que la variable Xn tiene varianze σn2 y sea
n
X
s2n = Var(Sn ) = σi2 ,
1
Una manera alternativa de presentar la condición de Lindeberg es la siguiente. Definimos las variables
(
Xi si |Xi | ≥ εsn ,
Yi = (5.27)
0 si |Xi | < εsn .
Estas variables ’truncadas’ coinciden con las variables originales si sus valores son grandes, pero toman
el valor 0 si no es ası́. La condición de Lindeberg es
n
1 X 2
E Yi → 0 (n → ∞). (5.28)
s2n i=1
Ejemplos 5.19
1. Consideremos la sucesión de v.a.i. con distribución
1 1
P (Xn = nα ) = P (Xn = −nα ) = , P (Xn = 0) = 1 −
2n2α n2α
√
Es sencillo verificar que E(Xn ) = 0 y σn = Var(Xn ) =√1, de modo que sn = n. De acuerdo a
la ecuación (5.27) para ε fijo, Yi = 0 si |Xi | = iα < ε n, es decir, si i < ε1/α n1/2α . Llamemos
n0 = n0 (α, ε) = [ε1/α n1/2α ], con esta notación la suma en la condición (5.28) es
n n
1 X 2 1 X 2 n − n0
E Yi = E Xi = (5.29)
s2n i=1 n i=n n
0
1 2 n2α−1
sn ∼
n2 2α + 1
y cuando n → ∞ esto va a 0 si α < 1/2. Por lo tanto la LDGN se satisface si α < 1/2.
Para el TCL necesitamos verificar si la condición de Lindeberg vale y para esto usaremos la versión
que nos da la ecuación (5.28). Sabemos que Yi = 0 siempre que |Xi | = iα < εsn ∼ εn2α+1 /(1 +
1/2 1/2
2α) . Llamemos n0 = εn2α+1 /(1 + 2α) entonces
n0 ε1/2 n1+1/2α
∼ →∞
n (1 + 2α)1/2α n
Por lo tanto, para n suficientemente grande, i ≤ n < εsn y Yi = 0. Esto muestra que la condición
(5.28) se satisface y el TCL vale.
N
Por último presentamos el teorema de Berry-Esseen, que nos da información sobre la distancia entre
la distribución de la suma estandarizada y la función de distribución normal tı́pica.
Teorema 5.12 (Berry-Esseen) Sea Xn , n ≥ 1 una sucesión√de v.a.i.i.d. con media 0, varianza σ 2 > 0
y E(|Xi3 |) = ρ < ∞. Sea Fn la función de distribución de Sn / nσ. Entonces, para todo x ∈ R,
3ρ
Fn (x) − Φ(x) ≤ √ .
σ3 n
5.4.1. Aplicaciones
Ejemplo 5.20 (Error de redondeo)
En este ejemplo retomamos el problema del error de redondeo. Supongamos que redondeamos una serie
de números al entero más cercano. El error que se comete al redondear el k-ésimo número es una variable
Xk que tiene distribución uniforme U(−0.5, 0.5). Si sumamos n de estos números, el error que cometemos
será Sn = X1 + X2 + · · · + Xn , cuya distribución no es sencilla de determinar. Sin embargo, podemos
recurrir al Teorema Central de Lı́mite para aproximar la distribución de esta variable. En los ejemplos
5.1 vimos que µ = E(Xk ) = 0 y σ 2 = Var(Xk ) = 1/12.
Si queremos hallar la probabilidad de que el error cometido sea mayor que α tenemos
S − nµ α − nµ
n
P (Sn > α) = P √ > √
σ n σ n
S − nµ √
n 12α
=P √ > √
σ n n
√12α
≈1−Φ √
n
Para ver un caso concreto, supongamos que sumamos 50 números redondeados al entero más cercano
y queremos hallar la probabilidad de que el error que cometemos sea menor o igual que 5, es decir,
queremos hallar
5√12
p = P (|S50 | ≤ 5) ≈ Φ √ = 0.9928
50