Loa Mo

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 12

Índice

1. Estimación por punto....................................................... 13

2. Intervalos de Confianza.................................................... 27

3. Contrastes de Hipótesis.................................................... 37

4. Análisis de la Varianza..................................................... 51

5. Regresión lineal simple y Correlación.............................. 63

6. Regresión lineal múltiple y Correlación............................ 73

7. Pruebas χ2 ....................................................................... 79

8. Contrastes no paramétricos............................................. 93

9. Miscelánea....................................................................... 107

10. Tablas Estadı́sticas......................................................... 133


Capı́tulo 1

Estimación por punto

En este capı́tulo se abordan problemas de estimación por punto, cuyos


desarrollos teóricos se estudian en CB-capı́tulo 5 ó EII-capı́tulo 2. Entre ellos
destacan los de la determinación de estimadores mediante el método de la máxi-
ma verosimilitud, ası́ como los relacionados con la distribución en el muestreo
de los estimadores utilizados en las situaciones más habituales, tales como el
cálculo de determinadas probabilidades en las que aquellos están implicados,
o la determinación del tamaño de la muestra para una precisión dada.

Problema 1.1
En un estudio sobre el efecto de la contaminación industrial en los alrededores de
una gran ciudad, se eligieron al azar 10 huevos de pelı́cano de la isla de Anacapa
situada frente a la ciudad californiana de Los Ángeles, observándose en ellos
la concentración, en partes por millón, de bifemil policlorado PCB, un agente
contaminante industrial. Los resultados obtenidos fueron los siguientes:

260 , 270 , 166 , 175 , 204 , 225 , 220 , 185 , 235 , 250
Suponiendo que la concentración del contaminante en estudio sigue una distri-
bución normal de media µ, se pide:
a) Determinar la estimación de máxima verosimilitud de µ.
b) Calcular la probabilidad de que µ y su estimador de máxima verosimilitud
difieran, en valor absoluto, menos de 10 partes por millón.

Si llamamos X a la variable aleatoria concentración, en partes por millón,


de PCB, el enunciado del problema nos indica que se puede suponer para X
una distribución normal N (µ, σ).
a) El estimador de máxima verosimilitud para µ, en esta situación de
variable aleatoria normal de varianza desconocida, viene determinado en CB-
ejemplo 5.4 ó EII-ejemplo 2.2, resultando ser la media muestral,

µ̂ = x
por lo que la estimación de máxima verosimilitud buscada será

13
14 Ejercicios de Estadı́stica Aplicada

260 + · · · + 250 2190


µ̂ = x = = = 219.
10 10
b) La probabilidad pedida es

P {|x − µ| < 10}

para lo que necesitamos conocer la distribución en el muestreo de la media


muestral, en la situación en la que nos movemos aquı́ de una población normal
de varianza desconocida. En esta situación (véase CB-sección 5.4 ó EII-sección
2.4) la distribución de la media muestral (tipificada) es una t de Student:

x−µ
√ ; tn−1
S/ n
en donde S es la cuasidesviación tı́pica muestral,

 n
 1 
S= (Xi − x)2 .
n − 1 i=1

La probabilidad pedida será, por tanto,

   
|x − µ| 10 10
P {|x − µ| < 10} = P √ < √ =P |t9 | < √
S/ n S/ n 35 99/ 10


   
= P |t9 | < 0 88 = 1 − 2 · P t9 > 0 88 ≈ 1 − 2 · 0 2 = 0 6

en donde la probabilidad
   
P t9 > 0 88 ≈ P t9 > 0 883 = 0 2

se obtiene de la Tabla 5 de la distribución t de Student.

Problema 1.2
Se quiere dar una estimación de máxima verosimilitud de la probabilidad p de
sufrir una averı́a grave, que lleve a su sustitución, en la bomba del agua de un
vehı́culo de una marca, modelo y año de fabricación determinados.
Para ello se eligieron al azar diez automóviles de la marca modelo y año en
análisis y se anotó si habı́an tenido o no alguna averı́a grave en su bomba del
agua desde su fabricación hace seis años. Los resultados obtenidos fueron los
siguientes:

Automóvil número 1 2 3 4 5 6 7 8 9 10
¿Tuvo averı́a grave? SÍ NO NO SÍ NO SÍ SÍ NO NO NO
Estimación por punto 15

Se pide:
a) Modelizar el problema planteado indicando la interpretación del parámetro p
en el modelo que haya establecido.
b) Determinar la estimación de máxima verosimilitud de p.
c) Supuesto que contamos con una muestra de 101 automóviles del mismo mo-
delo, marca y año que los que son objeto de estudio, calcular, aproximadamente,
la probabilidad de que p y su estimador de máxima verosimilitud difieran, en
valor absoluto, en menos de 0 1.

a) El problema se puede modelizar mediante una variable aleatoria di-


cotómica X que tome el valor 1 si el coche ha cambiado su bomba del agua y
cero si no la ha cambiado. Denotando por p la probabilidad de que X tome el
valor 1; es decir, la probabilidad de que cambie la bomba del agua, podemos
modelizar X mediante una variable de Bernoulli B(1, p) (la distribución bino-
mial B(1, p) recibe el nombre de distribución de Bernoulli), en donde p es la
probabilidad de éxito: “haber cambiado la bomba del agua”.
b) La función de masa de X es

p(x) = px (1 − p)1−x x = 0, 1
con lo que la función de verosimilitud de la muestra será
n

L(p) = pxi (1 − p)1−xi
i=1

de logaritmo
n

log L(p) = [xi log p + (1 − xi ) log(1 − p)] .
i=1

Su derivada igualada a cero —ecuación de verosimilitud— será

n

d xi 1
log L(p) = − (1 − xi ) =0
dp i=1
p 1−p
es decir,
n
i=1 xi n − ni=1 xi
− =0
p 1−p
o bien,
n
i=1 xi
p̂ =
n
es decir, la proporción muestral. La estimación de máxima verosimilitud será,
ahora, el cociente entre los éxitos de la muestra y el tamaño de ésta; es decir,
16 Ejercicios de Estadı́stica Aplicada

n
i=1 xi 4
p̂ = = = 0 4.
n 10
c) La probabilidad pedida es
 
P |p̂ − p| < 0 1
para lo que necesitamos conocer la distribución en el muestreo de p̂. Como
contamos con una muestra de tamaño suficientemente grande —n > 100—,
podemos aproximar la distribución de p̂ mediante una normal (CB-sección 5.5
ó EII-sección 2.5) de la forma

p̂ − p
≈ N (0, 1)
p · (1 − p)
n
con lo que la probabilidad pedida será,
   

 
 
 

     
|p̂ − p| 0 1 0 1
P |p̂ − p| < 0 1 = P  <  ≈P |Z| < 

 p · (1 − p) p · (1 − p) 
 
 p · (1 − p) 

   
n n 101

siendo Z una variable aleatoria con distribución N (0, 1). Como no conocemos
p, para el cálculo de la probabilidad anterior utilizaremos como estimación
suya la obtenida en el apartado b), con lo que la probabilidad pedida será,
aproximadamente igual a
      
P |Z| < 0 1/ 0 4 · 0 6/101 = P |Z| < 2 05 = 1−2·P Z > 2 05 = 1−2·0 0202 = 0 9596

en donde la probabilidad
 
P Z > 2 05 = 0 0202
se ha obtenido de la Tabla 3 de la distribución N (0, 1).

Problema 1.3
Se sabe que el número X de clientes que acuden a un determinado servicio
informático es una variable aleatoria discreta con función de masa o probabilidad

(log θ)x−1
pθ (x) = x = 1, 2, 3, ...
θ (x − 1)!
siendo θ > 1 un parámetro desconocido. Utilizando una muestra aleatoria simple
de X de tamaño n, determinar el estimador θ de máxima verosimilitud de θ.
Estimación por punto 17

Determinando previamente la distribución de Y = X − 1 y si en una muestra


previa de tamaño n = 101 se obtuvo una media muestral x = 20, calcular aproxi-
madamente la probabilidad

P {θ > e}

La función de verosimilitud de la muestra es


n
n
(log θ) i=1 xi −n
L(θ) = pθ (x1 , ..., xn ) = pθ (xi ) = n n
i=1
θ i=1 (xi − 1)!

la cual tiene por logaritmo


 n  n

log L(θ) = xi − n log log θ − n log θ − log (xi − 1)!
i=1 i=1

cuya derivada igualada a cero es


n
 
∂  1 1 n
log L(θ) = xi − n − =0
∂θ i=1
log θ θ θ
de donde despejando se obtiene como estimador máximo-verosı́mil para θ,

θ = ex−1 .

La función de masa de Y = X − 1 será

(log θ)y
pθ (y) = P {Y = y} = P {X − 1 = y} = P {X = y + 1} =
θ y!

si y = 0, 1, 2, ..., que es la función de masa de una distribución de Poisson de


parámetro log θ.
La probabilidad pedida será

 n

1
P {θ > e} = P {ex−1 > e} = P (Xi − 1) > 1 = P {y > 1}
n i=1

Como, según hemos visto, las Yi = Xi − 1 siguen una distribución P(log θ)


y el tamaño muestral es suficientemente grande (n = 101), la media muestral y
sigue aproximadamente una distribución normal (véase CB-sección 5.5 ó EII-
sección 2.5)
18 Ejercicios de Estadı́stica Aplicada

y − log θ
 ≈ N (0, 1)
y/n
con lo que, tipificando, se obtiene que la probabilidad pedida es aproximada-
mente
 
P Z > −41 5 ≈ 1
con Z ; N (0, 1).

Problema 1.4
Por razones aún desconocidas, el porcentaje, p, de esquizofrénicos en todos los
paı́ses es, de forma invariable, del 1 %. Determinar el tamaño de muestra nece-
sario para que el porcentaje de esa muestra difiera en términos absolutos de p
en menos de 0 003 con probabilidad 0 9, suponiendo que dicho tamaño muestral
va a resultar grande.

Nos piden el tamaño de muestra necesario (véase el ejemplo 5.8 de CB)


para que se verifique la igualdad

P {|p̂ − p| < 0 003} = 0 9 [1.1]


suponiendo que es
 !  !

p̂ ≈ N p , p(1 − p)/n ≡ N 0 01 , 0 01 · 0 99/n

al ser el tamaño muestral suficientemente grande.


Tipificando en [1.1] se obtiene que es

 n
P {|Z| < 0 003  } = 0 9.
p(1 − p)
con Z ; N (0, 1). Como por otro lado es

P {|Z| < 1 645} = 0 9


será

 n
0 003  = 1 645
p(1 − p)
obteniéndose de ahı́ el valor n = 2976 6; es decir, son necesarios n = 2977
individuos para alcanzar la precisión deseada.
Estimación por punto 19

Problema 1.5
Se sometió a 9 personas a un curso intensivo de dudosa eficacia, de informática,
anotándose el nivel de conocimientos de estos nueve alumnos antes del comienzo
del curso, X, y una vez finalizado éste, Y . Los resultados obtenidos por los nueve
estudiantes fueron los siguientes:

Xi 7 6 5 3 6 2 6 5 7
Yi 8 6 4 6 7 6 5 6 7
Admitiendo para X e Y distribuciones normales de igual media, calcular la pro-
babilidad de que repitiendo el curso con una nueva muestra también de 9 alum-
nos, se obtuviera una diferencia de medias muestrales mayor que la obtenida
en ésta (es decir, se mejoraran los resultados del curso realizado), suponiendo
que, en esa nueva muestra, la cuasivarianza muestral será la misma que en el
experimento realizado.

El enunciado nos dice que puede admitirse para X e Y las distribuciones,


X ; N (µ, σ1 ) e Y ; N (µ, σ2 ). Claramente éste es un experimento de Da-
tos Apareados puesto que las calificaciones se obtienen en los mismos nueve
individuos. (Véase el ejemplo 5.13 de CB).
La variable diferencia D = Y − X (mejora de conocimientos) seguirá una
distribución D ; N (0, σd ) y la media muestral de las diferencias (es decir,
la diferencia de medias muestrales), d = y − x, una distribución

d−0
√ ; tn−1 .
Sd / n
Como de los datos del enunciado se obtiene, para la variable diferencia D,
una media muestral igual a 0 89 y una cuasivarianza muestral de Sd2 = 2 86,
la probabilidad que nos piden es que para un nuevo curso,
 
 0 89  
P {d > 0 89} = P t8 >   = P t8 > 1 58 = 0 08
2 86/9
valor obtenido por interpolación lineal a partir de los datos de la tabla de la t
de Student.

Problema 1.6
El tiempo en dı́as que tarda un ordenador en quedar inutilizado por un deter-
minado virus informático es una variable aleatoria X con la siguiente función de
densidad:
1 3 2 −θx
fθ (x) = θ x e x>0
2
siendo θ un parámetro desconocido. En 5 ordenadores elegidos al azar, el virus
en estudio dejó inutilizado el ordenador al cabo de 15, 20, 10, 13 y 12 dı́as.
Determinar la estimación de máxima verosimilitud del parámetro θ.
20 Ejercicios de Estadı́stica Aplicada

Para determinar el estimador de máxima verosimilitud (CB-sección 5.2


ó EII-sección 2.2) lo primero que deberemos construir es la función de verosi-
militud, la cual es

n n
 
1 3n 2

fθ (x1 , ..., xn ) = n θ xi exp −θ xi si x1 , ..., xn > 0
2 i=1 i=1

de donde será
n
n

log fθ (x1 , ..., xn ) = −n log 2 + 3n log θ + log x2i − θ xi
i=1 i=1

obteniéndose de la ecuación de verosimilitud


n
∂ 3n 
log fθ (x1 , ..., xn ) = − xi = 0
∂θ θ i=1

el estimador de máxima verosimilitud para θ

3n
θ̂ = n .
i=1 Xi
De los datos del enunciado se obtiene que la estimación de máxima ve-
rosimilitud (es decir, el valor del estimador de máxima verosimilitud para la
muestra observada) es

3n 3·5 15
θ̂ = n = = = 0 2143.
i=1 Xi 15 + 20 + 10 + 13 + 12 70

Problema 1.7
Se cree que el tiempo de vida útil de una determinada componente electrónica
incluida en los ordenadores es una variable aleatoria X con función de densidad

fθ (x) = θ2 x e−θx x>0


dependiente de un parámetro θ. Elegida una muestra aleatoria simple de X se
obtuvieron los siguientes diez valores

1 , 1 2 , 2 , 0 9 , 2 4 , 1 7 , 2 1 , 2 5 , 1 8 , 3 4
Se pide:
a) Determinar la estimación de máxima verosimilitud del parámetro θ.
b) Si nos dicen que en una muestra de tamaño n = 121 de esta variable, se
obtuvo una cuasidesviación tı́pica muestral igual a 10, ¿cuál será la probabilidad
(aproximada) de que la media de la muestra y de la población difieran en más
de 2 unidades?
Estimación por punto 21

a) El estimador de máxima verosimilitud (CB-sección 5.2 ó EII-sección


2.2) es el valor del parámetro que hace máxima a la función de verosimilitud,
que, en este caso, es igual a

n
n
n
 n

2 −θxi 2n
L(θ) = fθ (x1 , ..., xn ) = fθ (xi ) = θ e xi = θ exp{−θ xi } xi
i=1 i=1 i=1 i=1

si x1 , ..., xn > 0.
Como el máximo de una función y de su logaritmo se alcanzan en el mismo
valor de la variable, dado que la función de verosimilitud es de tipo exponencial,
nos resultará más simple determinar el máximo para el logaritmo de la función
de verosimilitud,
n
 n

log L(θ) = 2n log θ − θ xi + log xi
i=1 i=1

Por el tipo de función que tenemos que maximizar, la obtención del máximo
resultará más simple si igualamos la derivada a cero en la ecuación anterior,
obteniendo la ecuación de verosimilitud
n
∂ 2n 
log L(θ) = − xi = 0
∂θ θ i=1

de donde, despejando θ, obtenemos el estimador de máxima verosimilitud para


θ

2n
θ̂ = n .
i=1 Xi
De los datos del enunciado se obtiene que la estimación de máxima ve-
rosimilitud (es decir, el valor del estimador de máxima verosimilitud para la
muestra observada) es

2n 2 2
θ̂ = n = =  = 1 053.
i=1 Xi x 19
b) Estamos en un caso de estimación de la media µ de una población no
normal y tamaños de muestra suficientemente grandes (n > 100) (CB-sección
5.5 ó EII-sección 2.5) en el que la distribución de la media muestral se puede
aproximar por un normal N (0, 1)

x−µ
√ ≈ N (0, 1).
S/ n
La probabilidad que nos piden es
22 Ejercicios de Estadı́stica Aplicada

P {|x − µ| > 2}
con lo que tipificando, para obtener un suceso equivalente al anterior en don-
de aparezca una Z ; N (0, 1) cuya probabilidad será fácilmente calculable
utilizando las tablas de la normal estándar, será,

 
|x − µ| 2
P {|x − µ| > 2} ≈ P √ > √
S/ n S/ n
 
2  
= P |Z| > = 2 · P Z > 2 2 = 2 · 0 0139 = 0 0278.
10/11

Problema 1.8
Estudios anteriores han demostrado que puede admitirse, en una determinada
región geográfica, una distribución de Poisson de parámetro θ para el número
de hembras de un insecto. Si puede admitirse que es θ = 1, calcular el número
mı́nimo de veces, n, que debe de muestrearse en la región en cuestión para que
la diferencia entre el número medio de hembras del insecto en la muestra y el
valor supuesto para θ difieran en una o menos de una unidad, con probabilidad
mayor o igual a 0 95.
(Observación: n será pequeño.)

El enunciado nos dice que puede admitirse para la variable X =número


de hembras de un insecto, una distribución de Poisson P(1) y nos pide que
determinemos el menor valor de n para el que

P {|x − 1| ≤ 1} ≥ 0 95.
Es decir, que determinemos el valor de n tal que
 n


P 0≤ Xi ≤ 2n ≥ 0 95
i=1

o bien
 n 

P Xi > 2n ≤ 0 05
i=1
n
siendo i=1 Xi ; P(n).
Si fuera n = 1, de las tablas de la distribución de Poisson, se obtiene que

P {W1 > 2} = 0 0613 + 0 0153 + 0 0031 + 0 0005 + 0 0001 = 0 0803 > 0 05


Estimación por punto 23

con W1 ; P(1), por lo que debemos aumentar el tamaño de la muestra.


Si fuera n = 2, serı́a

P {W2 > 4} = 0 0361 + 0 0120 + 0 0034 + 0 0009 + 0 0002 = 0 0526 > 0 05

con W2 ; P(2), por lo que debemos aumentar el tamaño de la muestra.


Si fuera n = 3, serı́a

P {W3 > 6} = 0 0216 + 0 0081 + 0 0027 + 0 0008 + 0 0002 = 0 0334 < 0 05

con W3 ; P(3), por lo que el tamaño mı́nimo con el que obtener la precisión
deseada será n = 3, ya que, si fuéramos aumentando el valor de n, es decir, la
cola anterior, la probabilidad cola irı́a disminuyendo.

Problema 1.9
Se sabe que el tiempo de supervivencia a un tipo de cáncer, en ratas de labo-
ratorio, sigue una distribución de probabilidad dada por la siguiente función de
densidad
 
fθ (x) = 0 05 exp −0 05(x − θ) , x > θ.
Si los tiempos de supervivenvia de 17 ratas afectadas de la enfermedad en estudio
fueron

188, 188, 190, 192, 206, 209, 213, 216, 220, 227, 230, 234, 246, 265, 304, 216, 244
determinar la estimación de máxima verosimilitud del parámetro θ.

Determinaremos primero el estimador de máxima verosimilitud del paráme-


tro (CB-sección 5.2 ó EII-sección 2.2) calculando después el valor de éste para
los valores de la muestra.
La función de verosimilitud de la muestra será

n
 n


 n 
L(θ) = fθ (x1 , ..., xn ) = fθ (xi ) = 0 05 exp −0 05 (xi − θ)
i=1 i=1

si x1 , ..., xn > θ.
Como siempre, el método de la máxima verosimilitud se basa en asignar a
θ el valor que maximice la función L(θ); el problema es que ahora θ aparece
en el recorrido de la variable, es decir, que L(θ) toma un valor distinto de cero
si θ < x1 , ..., xn y si algún xi es tal que xi ≤ θ será L(θ) = 0. En la estimación
de θ habrá que tener también en cuenta, por tanto, el recorrido de L(θ).
La función

También podría gustarte