Teorema Del Limite Central Teorema Del L
Teorema Del Limite Central Teorema Del L
Teorema Del Limite Central Teorema Del L
P03/75057/01008
FUOC • P03/75057/01008 Teorema del límite central
Índice
Sesión 1
La distribución de la media muestral ................................................. 5
1. Distribución de la media muestral para variables normales ................... 5
1.1. Caso de desviación típica poblacional conocida .............................. 5
1.2. Caso de desviación típica poblacional desconocida.
La t de Student .................................................................................. 8
2. Resumen ................................................................................................... 10
Ejercicios ....................................................................................................... 11
Sesión 2
El teorema del límite central ................................................................ 13
1. Aproximación de la binomial a la normal .............................................. 13
1.1. Estudio de la proporción .................................................................. 16
2. El teorema del límite central .................................................................... 17
2.1. Control de calidad ............................................................................ 18
3. Resumen ................................................................................................... 19
Ejercicios ....................................................................................................... 20
FUOC • P03/75057/01008 5 Teorema del límite central
Veremos que si sabemos que la variable que se estudia es normal, entonces la me-
dia muestral también es normal, pero con desviación típica menor. Y también
veremos que si la variable no es normal pero la muestra es lo bastante grande, la
media también será aproximadamente normal.
Supongamos que tenemos una muestra x1, ..., xn de una variable aleatoria nor-
mal. Recordemos que la media se define como:
n
x = 1
--- ∑ xi .
n i = 1
Pensemos ahora que tenemos una muestra de cien estudiantes de la UOC. Ha-
cemos diez grupos de diez estudiantes y hacemos la media aritmética para cada
grupo. Obtenemos diez valores, correspondientes a las diez medias x 1 ,..., x 10 .
Parece razonable pensar que la media de estos nuevos datos sería también 172.
Por otra parte, también parece razonable pensar que estos nuevos valores sean
más cercanos a 172 que los datos originales, ya que en cada una de las medias
se nos habrán compensado valores grandes con valores pequeños.
Demostración
Si la variable que estudiamos sigue una distribución normal con media µ
La demostración de este
y desviación típica σ conocidas, entonces la media muestral es también resultado es consecuencia de
normal con la misma media µ y desviación típica σ ⁄ n , donde n es el una importante propiedad de
las variables aleatorias norma-
tamaño de la muestra. Por tanto, tipificamos la variable X y obtene- les. La propiedad es la siguien-
te: si X e Y son variables
mos que: aleatorias independientes con
leyes
N ( µ1 , σ 1 ) y N ( µ2 , σ 2 )
2 2
X–µ
------------- respectivamente, entonces
σ X + Y tiene una ley:
-------
n
N ( µ1 + µ2 , σ 1 + σ 2 )
2 2
En nuestro ejemplo la variable que recoge todas las posibles medias de cada
grupo de diez estudiantes sigue una distribución normal de media 172 cm y des-
viación típica 11 / 10 = 3,48 cm. Observamos que, efectivamente, cuanto
mayor es la muestra, menor resulta la desviación típica y, por tanto, hay me-
nos dispersión.
Observad que...
Si σ es la desviación típica de la población y n el tamaño de la muestra,
... el error estándar es cada
se define el error estándar de la media muestral como: vez menor cuanto mayor es el
tamaño de la muestra.
σ
-------
n
Consideremos las alturas de los estudiantes de la UOC. Supongamos que sabemos que se tra-
ta de una variable aleatoria normal de media 172 cm y desviación típica 11 cm y que hemos
tomado una muestra de trescientos estudiantes al azar. Entonces podemos contestar pregun-
tas del tipo siguiente:
11
-------------- = 0,635
300
FUOC • P03/75057/01008 7 Teorema del límite central
b) ¿Cuál es la probabilidad de que la distancia entre la media muestral (de esta muestra
de trescientos estudiantes) y la media poblacional, 172 cm, sea menor que 1 cm?
Por un razonamiento parecido (si la distancia entre dos números a y b ha de ser menor
que k, se debe cumplir: |a − b| < k):
X–µ
P ( X – µ < 1 ) = P ( 1 < X – µ < 1 ) = P – --------------- < --------------- < --------------- = P ( – 1,57 < Z < 1,57 )
1 1
0,635 0,635 0,635
donde Z es una variable aleatoria normal (0,1). Si buscamos en las tablas de la ley normal
(0,1), vemos que esta probabilidad es igual a 0,8836.
Tenemos así una probabilidad del 0,8836 de obtener un valor para la media muestral que
difiera en menos de 1 cm del valor real de la media cuando tomamos una muestra de tres-
cientos individuos.
Observad que en ninguna parte hemos utilizado el hecho de que la media fuese exacta-
mente 172 cm. Es decir, si sabemos que la variable “altura” sigue una normal con una
desviación típica de 11 cm y tomamos una muestra de trescientos estudiantes, sabemos
que la diferencia entre su media y la media poblacional µ (que quizá no conozcamos) será
menor de 1 cm con una probabilidad del 0,8836.
X–µ
-------------
11
-------
n
se distribuye como una normal (0,1). Por otra parte, si observamos las tablas, nos damos
cuenta de que si Z es una normal (0,1):
Por tanto:
X–µ
0,95 = P – 1,96 < ------------- < 1,96 = P – 1,96 ------- < X – µ < 1,96 -------
11 11
11-
------ n n
n
11
1,96 ------- < 1
n
Por tanto, n > 11 ⋅ 1,96 , y así: n > ( 11 ⋅ 1,96 ) = 464,8 . Entonces, si tomamos 465 in-
2
dividuos para llevar a cabo el estudio, sabemos que la diferencia entre la media muestral
que obtendremos y la media real será menor de 1 cm, con una probabilidad del 0,95. Fi-
jaos en que cuanto mayor sea el tamaño de la muestra, menor será la diferencia entre la
media muestral y la poblacional.
n
∑ X i – nµ
i = 1
---------------------------
-
nσ
1 n Observad que...
------------ ∑ ( x i – x )
2
s =
n – 1i = 1 ... en el caso de la desviación
típica muestral se divide
de manera que en los cálculos del apartado anterior reemplazaremos la σ por por n − 1, no por n.
la s. Entonces la distribución muestral de la media ya no es una distribución
normal, como sucedía cuando en lugar de s conocíamos el auténtico valor σ
de la desviación.
Varios estudios realizados por W.S. Gosset al final del siglo XIX demostraron
que en este caso se obtiene una distribución diferente de la normal, aunque W.S. Gosset
para tamaños lo bastante grandes se parecen bastante. Esta nueva distribución W.S. Gosset trabajaba en la
se conoce con el nombre de t de Student con n − 1 grados de libertad. Esto sig- empresa cervecera Guinness
y utilizaba el seudónimo
nifica que por cada medida de la muestra, n, en realidad tenemos una distri- de Student para firmar sus
trabajos.
bución diferente.
de libertad, n, más se aproxima la distribución tn de Student a la distri- Observad que cuando conoce-
mos el valor auténtico de σ, la
bución normal (0,1). Consideraremos que podemos aproximar la tn por variable X sigue siempre una
una normal estándar para n > 100. distribución normal, pero su
varianza depende de n.
FUOC • P03/75057/01008 9 Teorema del límite central
s
Error estándar = -------
n
X–µ
-------------
s
-------
n
Las tablas que nos dan la distribución de la t de Student son parecidas a las de
la distribución normal estándar. No obstante, y dado que para cada valor de
los grados de libertad tenemos una distribución diferente, las tablas habituales
sólo nos sirven para ocho probabilidades determinadas (para otros valores hay
FUOC • P03/75057/01008 10 Teorema del límite central
que utilizar algún software apropiado). La forma de utilizar las tablas es la si-
guiente: buscamos en la primera columna el número de grados de libertad,
nos situamos en aquella fila y determinamos qué puntos nos dejan la pro-
babilidad acumulada que nos interesa.
Una empresa indica en un paquete de arroz que el peso medio del paquete es de 900 gra-
mos. En una inspección hemos analizado el peso en gramos de 10 paquetes de arroz y
hemos obtenido los datos siguientes:
Es razonable pensar que el peso en gramos de un paquetede arroz es una variable aleatoria
normal con media del peso que indica el paquete, y con una desviación típica determi-
nada. Es decir, de media los paquetes deberían tener 900 gramos, pero a causa de los erro-
res de medida de los aparatos que los llenan, algunos contendrán un poco más de 900
gramos y otros, un poco menos. Supongamos, pues, que la variable de interés (el peso del
paquete) es normal, pero no sabemos nada de su desviación típica. Con nuestros datos
podemos estimar la desviación típica y obtenemos:
s = 4,19
3 X–µ 3
P ( X – µ > 3 ) = 1 – P ( – 3 < X – µ < 3 ) = 1 – P – ------------ < ------------- < ------------ =
-----------
4,19- 4,19 4,19
------------ ------------
10 10 10
donde ya sabemos que t9 es una t de Student con nueve grados de libertad. Podemos calcular
esta probabilidad en las tablas:
Entonces:
Por tanto, a partir de estos datos, todo parece indicar que la empresa engaña a sus clien-
tes. En efecto, si se toma una muestra de tamaño 10, la probabilidad de que la diferencia
entre la media muestral y la real sea mayor de sólo 3 gramos es de un 5%. En cambio, la
media de nuestra muestra es de 896 gramos, 4 gramos menos que la cantidad que indica
el paquete.
En este caso los valores que nos han aparecido nos han permitido utilizar las tablas. En
otras ocasiones necesitaremos utilizar el ordenador.
2. Resumen
Ejercicios
2. Hemos hecho una encuesta entre los hombres de una población determina-
da y, a partir de los resultados, deducimos que el peso de los hombres de esta
población sigue una distribución normal de media 72 kg. Para saber si los datos
que hemos obtenido son fiables, pesamos a cuatro de los encuestados y obtene-
mos una media de 77,57 kg, con una desviación típica de 3,5 kg. ¿Tenemos su-
ficientes motivos para pensar que los encuestados han mentido cuando nos han
dicho su peso?
Solucionario
1. Llamamos XA al gasto anual. Puesto que el gasto mensual XM sigue una ley
normal de media 3.000 y desviación típica 500 y
X A – 36.000
sabemos que -------------------------------
- sigue una distribución normal estándar.
77,4597
Por tanto, la probabilidad de que la familia Robles gaste menos de 37.000 pe-
sos es:
X A – 36.000 G – 36.000
P ( XA < G ) = P -------------------------------
- < ----------------------------- = 0,99
77,4597 77,4597
G – 36.000
-----------------------------
77,4597
FUOC • P03/75057/01008 12 Teorema del límite central
G – 36.000
----------------------------- = 2,33
77,4597
obtenemos que es preciso que G = 36.180,4811 para tener una seguridad del
99% de que esta familia no gastará más de lo que gana.
P ( X – µ ≥ 5,57 )
Si esta probabilidad fuese pequeña, nos indicaría que los encuestados segura-
mente han mentido sobre su peso. Con la ayuda de las tablas, calculamos la
probabilidad del complementario:
5,57 X – µ 5,57
P ( X – µ < 5,57 ) = P ( – 5,57 < X – µ < 5,57 ) = P – ------------ < ------------- < ------------ =
3,5
--------
3,5
--------
3,5
--------
4 4 4
Así pues, parece que nos han mentido, ya que la probabilidad de que la diferencia
entre las medias de los pesos que nos han dicho y 72 es muy pequeña, del orden
de 0,05.
Observad que podemos hacer todos estos cálculos con las tablas de la t de Student.
FUOC • P03/75057/01008 13 Teorema del límite central
Cuando la muestra es lo bastante grande, la solución nos viene dada por uno
de los resultados fundamentales de la estadística: el teorema del límite central.
Lo introduciremos con un caso particular: el estudio de la binomial.
Consideremos la variable X(n), que no da el número de veces que nos han devuel-
Binomial
to el importe jugado cuando se han realizado n sorteos. En este caso sabemos que
Si X sigue una distribución
la variable aleatoria X(n) sigue una distribución binomial de parámetros n y p = binomial de parámetros n y p,
0,1. En efecto, se han hecho n sorteos (es decir, se ha repetido un mismo expe- entonces:
P ( X = k ) = n p ( 1 – p )
k n–k
rimento n veces de manera independiente) y en cada sorteo la probabilidad de k
que nos devuelvan el dinero es p = 1/10 = 0,1 (probabilidad de éxito). Sin em- para los k ∈ {0, ..., n}
bargo, observemos qué sucede al aumentar el valor de n con la función de den-
sidad de probabilidad de la variable X(n). Si dibujamos esta función de
densidad de probabilidad para n = 3, obtenemos el gráfico siguiente:
FUOC • P03/75057/01008 14 Teorema del límite central
Si ahora consideramos n = 10, los posibles valores van del 0 al 10, y el gráfico
de la función de densidad de probabilidad es:
Vemos, pues, que el perfil de este gráfico cada vez se parece más al de la función
de densidad de probabilidad de una variable aleatoria normal. La conclusión
que extraemos de este experimento es que si n es lo bastante grande, la variable
aleatoria X(n) es aproximadamente normal. Determinaremos ahora la media y
la desviación de esta variable aleatoria, que serán las correspondientes a la mis-
ma X(n):
n · p = 0,1 · n
• y la varianza:
Éstos serán los parámetros de la variable aleatoria normal que aproxima la dis-
tribución de X(n). Así pues, si n es lo bastante grande, X(n) se comporta como
una N(0,1n; 0,09n).
Este resultado nos permite simplificar bastante los cálculos en algunas situa-
ciones.
Ejemplo de la lotería
En cambio, si renunciamos a pedir que la probabilidad sea exacta y nos conformamos con
una muy buena aproximación, podemos utilizar el hecho de que la distribución de X(365)
se puede aproximar por una normal de parámetros µ = 365 · 0,1 = 36,5 y σ2 = 365 · 0,09 =
32,85. Así:
y si llamamos Z a una variable aleatoria normal (0,1), esta probabilidad será aproximada-
mente:
P Z ≥ 50
------------------------- = P ( Z ≥ 2,36 ) = 0,0091
– 36,5
32,85
Por tanto, la probabilidad aproximada de que nos devuelvan el dinero cincuenta veces o
más a lo largo del año es únicamente del 0,0091.
Observad que hemos calculado P(X(365) ≥ 50), pero que esta cantidad es la misma que
P(X(365) ≥ 49,5), ya que la variable sólo toma valores naturales. Fijaos en que si la aproxi-
mamos por la normal, obtendremos:
que es una cantidad ligeramente diferente de la obtenida antes. Se dice que este valor se
ha obtenido haciendo una corrección de continuidad, ya que aproximamos una varia-
ble discreta por una continua. Podemos considerar buenos los dos resultados.
Hemos visto que cuando n es grande, podemos aproximar una binomial (n,p)
por una normal de parámetros µ = np y σ2 = np(1 – p). Por otro lado, sabemos
que podemos considerar la variable aleatoria binomial como la suma de n va-
riables aleatorias con distribución de Bernoulli de parámetro p. Si dividimos
esta suma por n, obtenemos claramente la proporción de éxitos.
Ejemplo de la lotería
0,3 ( 1 – 0,3 )
N 0,3; -------------------------------- = N ( 0,3; 0,0005 )
400
Para calcular la probabilidad de que la proporción de habitantes a favor sea mayor del 40%,
deberíamos hacer:
El último resultado es cierto sea cual sea la distribución de los datos originales.
Es decir, no es preciso que partamos ni de distribuciones normales ni de dis-
tribuciones de Bernoulli, ya que para muestras de tamaños lo bastante gran-
des, la distribución de la media muestral es normal sea cual sea la distribución
original. Este resultado fundamental de la estadística tiene un nombre propio:
el teorema del límite central.
Una empresa de mensajería que opera en la ciudad tarda una media de 35 minutos en lle-
var un paquete, con una desviación típica de 8 minutos. Supongamos que durante el día
de hoy han repartido doscientos paquetes.
FUOC • P03/75057/01008 18 Teorema del límite central
a) ¿Cuál es la probabilidad de que la media de los tiempos de entrega de hoy esté entre
30 y 35 minutos?
b) ¿Cuál es la probabilidad de que, en total, para los doscientos paquetes hayan estado
más de 115 horas?
Por el teorema del límite central sabemos que la media muestral se comporta como una
normal de esperanza 35 y desviación típica:
8
-------------- = 0,566
200
= 0,5 – 0 = 0,5
donde Z es una normal (0,1). Es decir, tenemos una probabilidad aproximada del 0,4616
de que la media del tiempo de entrega de hoy haya estado entre 30 y 35 minutos.
Por lo que respecta a la segunda pregunta, de entrada debemos pasar las horas a minutos,
ya que ésta es la unidad con la que nos viene dada la variable. Observad que 115 horas por
60 minutos nos dan 6.900 minutos. Se nos pide que calculemos la probabilidad siguiente:
y como que sabemos que la media se distribuye aproximadamente como una normal de
media 35 y desviación típica 0,566 (supondremos siempre que la distribución de la media
es normal, ya sea porque la variable de interés es normal o porque la muestra es lo bas-
tante grande), esta probabilidad se puede aproximar por la probabilidad de una distribu-
ción normal estándar Z:
Uno de los casos más habituales en los que podemos aplicar el teorema del lí-
mite central es a la hora de hacer un proceso de control de calidad.
¿Por qué tomamos este intervalo? Si aplicamos el teorema del límite central so-
bre la variable de interés, sabemos que la media de n datos se distribuye como
una normal con media µ y varianza σ ⁄ n . Se demuestra fácilmente que la pro-
babilidad de que una media esté fuera del intervalo µ + 3σ ⁄ n y µ – 3σ ⁄ n es
de 0,001 (esto significa que un valor fuera de este intervalo, si el proceso fun-
cionase correctamente, se puede dar sólo con una probabilidad de 0,001). Por
tanto, cuando se dé un valor fuera del intervalo, pensaremos que no es casua-
lidad y que el problema es que la variable no se comporta como suponíamos.
Consideremos una máquina que llena tarros de yogur. Supongamos que, de media, cada ta-
rro contiene 125 gramos de yogur con una desviación típica de 1,5 gramos. Todas las sema-
nas hacemos un control de la máquina: analizamos una muestra de treinta tarros y
calculamos la media de cada uno. En este ejemplo el error estándar es:
1,5
----------- = 0,274
30
Así pues, si la media de las muestras semanales de tamaño 30 está entre estos dos valores, con-
sideraremos que todo está correcto, mentras que si es inferior a 124,18 o superior a 125,82
supondremos que hay alguna anomalía en el proceso de producción, y habrá que revisarlo.
Por cierto, fijaos en que para hacer este control de calidad sólo se desperdician treinta yogures
a la semana.
3. Resumen
Ejercicios
Estableced cuáles son los límites de control y explicad qué podéis concluir so-
bre el proceso de producción en estos instantes.
Solucionario
1. Dado que la muestra es grande, por el teorema del límite central podemos
suponer que la distribución de la media es una normal de media µ y desviación
típica el error estándar. Por tanto, la probabilidad que nos preguntan, que es:
0,01 X – µ 0,01
P ( X – µ < 0,01 ) = P ( – 0,01 < X – µ < 0,01 ) = P – ------------ < ------------- < ------------ =
0,05
------------ ------------ ------------
0,05 0,05
98 98 98
X–µ
= P – 1,98 < ------------- < 1,98
0,05
------------
98
σ 0,003
------- = --------------- = 0,001
n 10
FUOC • P03/75057/01008 21 Teorema del límite central
Por tanto, los límites de control serán 1,003 y 0,997. Observemos que absoluta-
mente todas las medias que hemos obtenido de las sucesivas muestras están
dentro del intervalo formado por los dos límites de control. Es decir, no hay nin-
gún dato superior a 1,003 ni ningún dato inferior a 0,997. Por tanto, podemos
concluir que el proceso de control ha sido correcto durante el tiempo que lo he-
mos analizado, y que no hemos detectado ninguna anomalía.