Guía Inferencia
Guía Inferencia
Guía Inferencia
Verificación de Modelos
1. Introducción
Los procedimientos desarrollados para la estimación de parámetros presupone una distribución
hipotética para la población. Si tal distribción no es la correcta, el modelo probabilı́stico resultante
puede ser irreal y dar una pobre representación del fenómeno fı́sico o natural en estudio.
En este capı́tulo estudiaremos algunos métodos para verificar o contrastar una distribución
de probabilidades de una población basándose en una muestra extraı́da desde la población. El
problema de verificación de distribución basado en la información muestral cae dentro del esquema
de pruebas de hipótesis ya estudiado.
Caso 1: Cuando la distribución hipotética esta completamente especificada con todos sus pará-
metros conocidos.
Supongamos que la supuesta distribución esta completamente especificada con todos sus
parámetros conocidos. En el test χ2 , el estadı́stico de prueba surge de comparar las fre-
cuencias observadas y las frecuencias esperadas. Consideremos una muestra aleatoria de
tamaño n de la distribución de una variable aleatoria X dividida en k clases mutuamente
excluyentes (Ai , i = 1, . . . , k) y sea Ni , i = 1, . . . , k, el número de observaciones en Ai .
Considérese la verificación de la hipótesis nula
H0 : F (x) = F0 (x),
1
en donde el modelo de probabilidad propuesto (F0 (x)) es conocido, respecto de todos sus
parámetros. Dado que se especifica F0 (x) de manera completa, se puede obtener la probabi-
lidad pi de obtener una observación en la i−ésima clase bajo H0 , en donde necesariamente
Pk P
k
pi = 1. Sea ni la realización de Ni para i = 1, . . . , k de manera tal que ni = n.
i=1 i=1
La probabilidad de tener, de manera exacta, ni observaciones en la i−ésima clase es pni i
para i = 1, . . . , k. Dado que existen k categorı́as mutuamente excluyentes con probabilidades
p1 , p2 , . . . , pk , entonces bajo la hipotésis nula la probabilidad de la muestra agrupada es igual
a la función de probabilidad de una distribución multinomial1 . Luego, (N1 , N2 , . . . , Nk ) es
un vector multinomial de parámetros (n; p1 , p2 , . . . , pk ) donde pi = P (x ∈ Ai ) = P (Ai ) bajo
H0 . Cada Ni tiene distribución binomial de parámetros (n, pi ) y por tanto con media npi
(frecuencia esperada). Ası́, el estadı́stico más apropiado es
k
X (Ni − npi )2
D= ∼ χ2k−1 cuando n → ∞.
npi
i=1
o bien
Valor-p = P (χ21−α,k−1 ≥ Dcalculado )
Ejercicio 2.1 Consideremos el lanzamiento de un dado que se lanza 120 veces. Se desea
probar que el dado no esta cargado. Se registraron los siguientes resultados:
1
Ver Anexo
2
Solución
Si el dado no esta cargado, significa que cada cara del dado tiene la misma probabilidad
de ocurrir, luego la distribución hipotética de los resultados es la distribución uniforme
discreta:
1
p(x) = , x = 1, 2, . . . , 6.
6
Si dado no esta cargado, se esperarı́a que cada lado cayera 20 veces, esto es:
1
E(Ni ) = npi = 120 · = 20
6
entonces el estadı́stico de prueba resulta:
k
X 6
X
(Ni − npi )2 (Ni − 20)2
D= = = 1,7.
npi 20
i=1 i=1
Como 1,7 ∈
/ RC no podemos rechazar H0 , por lo que no existe evidencia suficiente para
rechazar el hecho de que el dado esta cargado.
Calculemos, además su valor p:
3
Universidad de Concepción
Facultad de Ciencias Fı́sicas y Matemáticas
Departamento de Estadı́stica
Ejercicio 2.2 Los estudiantes universitarios han insistido regularmente en tener la libertad de
elegir cuando se inscriben en los cursos. En este semestre hubo 7 secciones de un curso de
matemáticas en particular. Se programaron en varios horarios con variedad de profesores. La
tabla informa acerca del número de alumnos qie seleccionan cada una de las 7 secciones
Solución
Si no hubo preferencia en la selección de las secciones del curso, se esperarı́a que los 119 estudiantes
esten igualmente distribuı́dos entre las 7 clases con un probabilidad de 17 , luego el número esperado
de alumnos inscritos en cada sección serı́a:
1
E(Ni ) = npi = 119 · = 17 estudiantes.
7
Lo que deseamos probar es que no hubo preferencias, esto es, contrastar:
Región Crı́tica:
RC = {Dcalculado > χ20,95,6 } = {Dcalculado > 12,59}
| {z }
12,59
Para un nivel de significación del 5 % parece haber preferencia en la selección de las secciones
4
Caso 2: Cuando la distribución no esta completamente identificada y debemos estimar los parámet-
ros desde los datos.
Este caso consiste en que los parámetros de la distribución supuesta necesitan ser estimados
desde los datos. El procedimiento para el Test de Bondad de Ajuste es estimar los paráme-
tros (por algún procedimiento estudiado) y luego proceder como un test χ2 de parámetros
conocidos.
D ∼ χ2k−s−1
Región Crı́tica:
RC = {Dcalculado > χ21−α,k−s−1 }
Valor-p:
Valor-p = P (χ21−α,k−s−1 ≥ Dcalculado )
Ejercicio 2.3 Supongamos que los vehı́culos que llegan a ciertos puntos de la ciudad de
Concepción son registrados a intervalos de un minuto, durante 106 ocasiones. Los resultados
del estudio aparecen en la siguiente tabla:
Intervalos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Ni 0 1 3 5 7 13 12 8 9 13 10 5 6 4 5 4 0 1
5
Solución
Lo que deseamos probar es si los datos provienen de la distribución hipotética:
9,09x · e−9,09
p(x) = , x = 0, 1, 2, . . . , 18 (1)
x!
Luego, estimamos las probabilidades p̂i usando la expresión (2), obteniendo ası́ los siguientes
resultados:
x Ni p̂i
0 0 0.00
1 0 0.00
2 1 0.00
3 3 0.01
4 5 0.03
5 7 0.06
6 13 0.09
7 12 0.11
8 8 0.13
9 9 0.13
10 13 0.12
11 10 0.10
12 5 0.07
13 6 0.05
14 4 0.03
15 5 0.02
16 4 0.01
17 0 0.01
18 1 0.00
6
Ahora, para proseguir debemos determinar intervalos (clases) Ai mutuamente excluyentes
de tal forma que n p̂i ≥ 5, ∀ i, de esta manera se construyen k = 11 intervalos, éstos se
muestran en la tabla siguiente:
Valor-p:
7
Ejercicio 2.4 Se mide el número de partı́culas α que llegan a una determinada zona pro-
ducto de una sustancia radiactiva en un corto espacio de tiempo siempre igua, con los
resultados siguientes:
Número de partı́culas 0 1 2 3 4 5 6
Número de periodos de tiempo 269 325 207 82 28 7 2
Solución
a) Para ajustar una distribución Poisson, debemos determinar:
µx e−µ
p(x) = , x = 0, 1, 2, 3, 4, 5, 6
x!
donde es necesario estimar el parámetro µ desde los datos.
1,24x · e−1,24
p(x) = , x = 0, 1, 2, . . . , 6 (2)
x!
b) Las probabilidades p̂i son
8
c) Lo que deseamos probar es si los datos provienen de la distribución hipotética:
Valor-p:
9
2.1. Ejercicios Propuestos
Ejercicio 2.5 Se puede admitir que la distribución uniforme de las edades de una gran población
de la que hemos tomado una muestra aleatoria n = 100 y hemos obtenido la siguiente tabla:
Ejercicio 2.6 A lo largo de 540 dı́as se anota el número de accidentes mortales de tráfico que
se producen en una cierta ciudad, obteniéndose los resultados de la tabla adjunta:
Ejercicio 2.7 Use el test χ2 con 6 intervalos equiprobables bajo H0 , para probar que los siguientes
45 datos provienen de una población normal con media µ = 0,5 y σ 2 = 0,002
10
Ejercicio 2.8 En un hospital, el número de nacimientos observados para cada mes de un cierto
año, fueron los siguientes:
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
95 105 95 105 90 95 105 110 105 100 95 100
Si α = 0,01, ¿existe alguna razón para creer que el número de nacimientos no se encuentra en
forma uniforme durante todos los meses del año? ¿Cuál es su valor-p?
Ejercicio 2.9 Supóngase que, en el Ejercicio 2.8, el número de nacimientos que se observaron
cada mes durante un periodo de 10 años es simplememte igual a diez veces los números observados
en el ejercicio anterior para un año.
b) ¿Que puede concluirse con respecto al empleo de prueba de bondad de ajuste χ2 para valores
grandes de n?
Ejercicio 2.10 Una organización de seguridad vial desea determinar si el número de accidentes
fatales se encuentra distribuido de igual forma para el color de automóviles involucrados en los
accidentes. La organización obtuvo una muestra aleatoria de 600 accidentes automovilı́sticos en
los cuales ocurrió al menos una muerte y anotó el color del automóvil. Se obtuvo la siguiente
información:
¿Existe alguna razón para creer que las proporciones de color no son idénticas? Úsese α = 0,01
11
3. Anexo
4. Bibliografı́a
• Cid/Mora/Valenzuela. “Probabilidad y Estadı́stica”.1996.
12