Guía Inferencia

Universidad de Concepción
Facultad de Ciencias Fı́sicas y Matemáticas

Departamento de Estadı́stica
Lunes 14 de Mayo de 2007

Inferencia Estadı́stica (523311)
Prof. Cristina Paz Burgos
Verificación de Modelos
1. Introducción
Los procedimientos desarrollados para la estimación de parámetros presupone una distribución
hipotética para la población. Si tal distribción no es la correcta, el modelo probabilı́stico resultante
puede ser irreal y dar una pobre representación del fenómeno fı́sico o natural en estudio.
En este capı́tulo estudiaremos algunos métodos para verificar o contrastar una distribución
de probabilidades de una población basándose en una muestra extraı́da desde la población. El
problema de verificación de distribución basado en la información muestral cae dentro del esquema
de pruebas de hipótesis ya estudiado.
2. Prueba de Bondad de Ajuste

Esta prueba se emplea para decidir cuando un conjunto de datos se apega a una distribución
de probabilidad dada. Basándose en qué tan buen ajuste se tiene entre la frecuencia de ocurrencia
de las observaciones y las frecuencias esperadas que se tienen de la distribución hipotética. En la
aplicación de este test debemos distinguir dos casos:
Caso 1: Cuando la distribución hipotética esta completamente especificada con todos sus pará-
metros conocidos.
Supongamos que la supuesta distribución esta completamente especificada con todos sus
parámetros conocidos. En el test χ2 , el estadı́stico de prueba surge de comparar las fre-
cuencias observadas y las frecuencias esperadas. Consideremos una muestra aleatoria de
tamaño n de la distribución de una variable aleatoria X dividida en k clases mutuamente
excluyentes (Ai , i = 1, . . . , k) y sea Ni , i = 1, . . . , k, el número de observaciones en Ai .
Considérese la verificación de la hipótesis nula
H0 : F (x) = F0 (x),
1
en donde el modelo de probabilidad propuesto (F0 (x)) es conocido, respecto de todos sus
parámetros. Dado que se especifica F0 (x) de manera completa, se puede obtener la probabi-
lidad pi de obtener una observación en la i−ésima clase bajo H0 , en donde necesariamente
Pk P
k
pi = 1. Sea ni la realización de Ni para i = 1, . . . , k de manera tal que ni = n.
i=1 i=1
La probabilidad de tener, de manera exacta, ni observaciones en la i−ésima clase es pni i
para i = 1, . . . , k. Dado que existen k categorı́as mutuamente excluyentes con probabilidades
p1 , p2 , . . . , pk , entonces bajo la hipotésis nula la probabilidad de la muestra agrupada es igual
a la función de probabilidad de una distribución multinomial1 . Luego, (N1 , N2 , . . . , Nk ) es
un vector multinomial de parámetros (n; p1 , p2 , . . . , pk ) donde pi = P (x ∈ Ai ) = P (Ai ) bajo
H0 . Cada Ni tiene distribución binomial de parámetros (n, pi ) y por tanto con media npi
(frecuencia esperada). Ası́, el estadı́stico más apropiado es
k
X (Ni − npi )2
D= ∼ χ2k−1 cuando n → ∞.
npi
i=1
Una vez observado (N1 , N2 , . . . , Nk ) podemos calcular el valor observado de D bajo H0 y

si encontramos que este valor es muy grande indicarı́a que hay grandes diferencias entre
las frecuencias observadas y esperadas, por lo que recharazamos H0 . La razón de proceder
de esta manera es que si H0 es verdadera deberı́a tenerse que E(Ni ) = npi para todo
i = 1, . . . , k lo que conducirı́a a un valor observado de D pequeño.
En general la distribución χ2 es una buena aproximación si npi ≥ 5, i = 1, . . . , k, rechazan-

do H0 si
RC = {Dcalculado > χ21−α,k−1 }
o bien
Valor-p = P (χ21−α,k−1 ≥ Dcalculado )
Ejercicio 2.1 Consideremos el lanzamiento de un dado que se lanza 120 veces. Se desea
probar que el dado no esta cargado. Se registraron los siguientes resultados:
Cara del dado 1 2 3 4 5 6

Observación 20 22 17 18 19 24
Utilice un nivel de signifiación del 5 %
1
Ver Anexo
2
Solución
Si el dado no esta cargado, significa que cada cara del dado tiene la misma probabilidad
de ocurrir, luego la distribución hipotética de los resultados es la distribución uniforme
discreta:
1
p(x) = , x = 1, 2, . . . , 6.
6
Si dado no esta cargado, se esperarı́a que cada lado cayera 20 veces, esto es:
1
E(Ni ) = npi = 120 · = 20
6
entonces el estadı́stico de prueba resulta:
k
X 6
X
(Ni − npi )2 (Ni − 20)2
D= = = 1,7.
npi 20
i=1 i=1
Por otro lado, la región crı́tica esta dada por:
RC = {Dcalculado > χ21−α,k−1 } = {Dcalculado > χ20,95,5 } = {Dcalculado > 11,07}

| {z }
11,07
Como 1,7 ∈
/ RC no podemos rechazar H0 , por lo que no existe evidencia suficiente para
rechazar el hecho de que el dado esta cargado.
Calculemos, además su valor p:
Valor-p = P (χ20,95,5 ≥ 1,7)

= 1 − P (χ20,95,5 ≤ 1,7)
= 1 − 0,1 = 0,9 > 0,05 no se rechaza H0
3
Universidad de Concepción
Facultad de Ciencias Fı́sicas y Matemáticas
Departamento de Estadı́stica
Viernes 18 de Mayo de 2007

Inferencia Estadı́stica (523311)
Prof. Cristina Paz Burgos
Ejercicio 2.2 Los estudiantes universitarios han insistido regularmente en tener la libertad de
elegir cuando se inscriben en los cursos. En este semestre hubo 7 secciones de un curso de
matemáticas en particular. Se programaron en varios horarios con variedad de profesores. La
tabla informa acerca del número de alumnos qie seleccionan cada una de las 7 secciones
Sección del curso de Matemáticas 1 2 3 4 5 6 7 total

Número de alumnos 18 12 25 23 8 19 14 119
Utilice para el análisis un nivel de signifiación del 5 %.
Solución
Si no hubo preferencia en la selección de las secciones del curso, se esperarı́a que los 119 estudiantes
esten igualmente distribuı́dos entre las 7 clases con un probabilidad de 17 , luego el número esperado
de alumnos inscritos en cada sección serı́a:
1
E(Ni ) = npi = 119 · = 17 estudiantes.
7
Lo que deseamos probar es que no hubo preferencias, esto es, contrastar:
H0 : No se manifestó preferencia (las secciones están distribuı́das de igual manera)

H1 : Se manifestó preferencia (las secciones no están distribuı́das de igual manera)
Calculemos el estadı́stico de prueba:

7
X (Ni − 17)2
Dcalculado = = 12,9411
17
i=1
Región Crı́tica:
RC = {Dcalculado > χ20,95,6 } = {Dcalculado > 12,59}
| {z }
12,59
Como Dcalculado ∈ RC se rechaza H0
Valor-p = P (χ20,95,6 ≥ 12,94) = 0,0439 ≈ 0,05
Para un nivel de significación del 5 % parece haber preferencia en la selección de las secciones
4
Caso 2: Cuando la distribución no esta completamente identificada y debemos estimar los parámet-
ros desde los datos.
Este caso consiste en que los parámetros de la distribución supuesta necesitan ser estimados
desde los datos. El procedimiento para el Test de Bondad de Ajuste es estimar los paráme-
tros (por algún procedimiento estudiado) y luego proceder como un test χ2 de parámetros
conocidos.
Complicación: las probabilidades teóricas pi son funciones de la muestra; además, son

funciones de los parámetros de la distribución.
Ahora, el estadı́stico de prueba tiene la forma:

k
X (Ni − n p̂i )2
D= → función de la muestra!
n p̂i
i=1
donde p̂i es el estimador máximo verosı́mil de pi .
¿Cuál es la nueva distribución de D?
D ∼ χ2k−s−1
donde s representa al número de parámetros estimados desde los datos.
Región Crı́tica:
RC = {Dcalculado > χ21−α,k−s−1 }
Valor-p:
Valor-p = P (χ21−α,k−s−1 ≥ Dcalculado )
Ejercicio 2.3 Supongamos que los vehı́culos que llegan a ciertos puntos de la ciudad de
Concepción son registrados a intervalos de un minuto, durante 106 ocasiones. Los resultados
del estudio aparecen en la siguiente tabla:
Intervalos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Ni 0 1 3 5 7 13 12 8 9 13 10 5 6 4 5 4 0 1
Uilice un nivel de significación del 5 %.
5
Solución
Lo que deseamos probar es si los datos provienen de la distribución hipotética:
H0 : Los datos provienen de la Distribución Poisson

H1 : Los datos no provienen de la Distribución Poisson
Es decir, debemos determinar:

µx e−µ
p(x) = , x = 0, 1, 2, . . . , 18
x!
donde es necesario estimar el parámetro µ desde los datos, luego s = 1.
El estimador máximo verosı́mil para µ está dado por:

1 · 0 + 2 · 1 + 3 · 3 + . . . + 17 · 0 + 18 · 1 964
x= = = 9,09
108 106
por lo tanto, la función de probailidad queda especificada como:
9,09x · e−9,09
p(x) = , x = 0, 1, 2, . . . , 18 (1)
x!
Luego, estimamos las probabilidades p̂i usando la expresión (2), obteniendo ası́ los siguientes
resultados:
x Ni p̂i
0 0 0.00
1 0 0.00
2 1 0.00
3 3 0.01
4 5 0.03
5 7 0.06
6 13 0.09
7 12 0.11
8 8 0.13
9 9 0.13
10 13 0.12
11 10 0.10
12 5 0.07
13 6 0.05
14 4 0.03
15 5 0.02
16 4 0.01
17 0 0.01
18 1 0.00
6
Ahora, para proseguir debemos determinar intervalos (clases) Ai mutuamente excluyentes
de tal forma que n p̂i ≥ 5, ∀ i, de esta manera se construyen k = 11 intervalos, éstos se
muestran en la tabla siguiente:
Ai Ni p̂i 106 · p̂i Dcalculado

1 0≤x≤4 9 0.05 5.51 2.21
2 x=5 7 0.06 6.18 0.11
3 x=6 13 0.09 9.37 1.41
4 x=7 12 0.11 12.16 0.00
5 x=8 8 0.13 13.82 2.45
6 x=9 9 0.13 13.96 1.76
7 x = 10 13 0.12 12.69 0.01
8 x = 11 10 0.10 10.49 0.02
9 x = 12 5 0.07 7.94 1.09
10 x = 13 6 0.05 5.55 0.04
11 14 ≤ x ≤ 18 14 0.08 8.03 4.43
Total 106 1 ≈ 106 13.53
Por otro lado, la nuestra región crı́tica está dada por:

= {Dcalculado > χ21−0,05,11−1−1 }
= {Dcalculado > χ20,95,9 }
= {Dcalculado > 16,92}
En vista, de que Dcalculado = 13,53 ∈

/ RC aceptamos la hipótesis de que los datos provienen
de una distribución Poisson con parámetro µ = 9,09 con un 5 % del nivel de significación.
Valor-p:

= P (χ20,95,9 ≥ 16,92)
≈ 0,05
7
Ejercicio 2.4 Se mide el número de partı́culas α que llegan a una determinada zona pro-
ducto de una sustancia radiactiva en un corto espacio de tiempo siempre igua, con los
resultados siguientes:
Número de partı́culas 0 1 2 3 4 5 6
Número de periodos de tiempo 269 325 207 82 28 7 2
a) Ajuste una distribución Poisson

b) Calcular la probabilidad de que lleguen a dicha superficie a 0, 1, . . . , 6 partı́culas α
c) Verificar el ajuste mediante un contraste χ2
Solución
a) Para ajustar una distribución Poisson, debemos determinar:
µx e−µ
p(x) = , x = 0, 1, 2, 3, 4, 5, 6
x!
donde es necesario estimar el parámetro µ desde los datos.
El estimador máximo verosı́mil para µ está dado por:

0 · 269 + 1 · 325 + 3 · 207 + . . . + 5 · 7 + 6 · 2 1144
x= = = 1,24
920 920
por lo tanto, la función de probailidad queda especificada como:
1,24x · e−1,24
p(x) = , x = 0, 1, 2, . . . , 6 (2)
x!
b) Las probabilidades p̂i son
Número de partı́culas p̂i

0 0.29
1 0.36
2 0.22
3 0.09
4 0.03
5 0.01
6 0.00
8
c) Lo que deseamos probar es si los datos provienen de la distribución hipotética:
H0 : Los datos provienen de la Distribución Poisson

H1 : Los datos no provienen de la Distribución Poisson
Ai p̂i Ni 920 · p̂i

0 0.29 269 266.2 ≥5 X
1 0.36 325 330.1 ≥5 X
2 0.22 207 204.7 ≥5 X
3 0.09 82 84.6 ≥5 X
4 0.03 28 26.2 ≥5 X
5 0.01 7 6.5 ≥5 X
6 0.00 2 1,3 5 ×
| {z }
se debe combinar con la clase anterior!!
Al combinar las clases 5 y 6 resulta:
Ai Ni p̂i 920 · pi Dcalculado

0 269 0.29 266.2 ≥5 X 0.03
1 325 0.36 330.1 ≥5 X 0.08
2 207 0.22 204.7 ≥5 X 0.03
3 82 0.09 84.6 ≥5 X 0.08
4 28 0.03 26.2 ≥5 X 0.12
5≤x≤6 9 0.01 7.8 ≥5 X 0.17
Total 920 1 ≈ 920 0.50
Por otro lado, la nuestra región crı́tica está dada por:

= {Dcalculado > χ21−0,05,6−1−1 }
= {Dcalculado > χ20,95,4 }
= {Dcalculado > 9,49}
Valor-p:

= P (χ20,95,4 ≥ 9,49)
≈ 0,05
9
2.1. Ejercicios Propuestos
Ejercicio 2.5 Se puede admitir que la distribución uniforme de las edades de una gran población
de la que hemos tomado una muestra aleatoria n = 100 y hemos obtenido la siguiente tabla:
Edades (años) Número de individuos

Menos de 15 16
15-30 22
30-45 20
45-60 19
Más de 60 23
Total 100
Ejercicio 2.6 A lo largo de 540 dı́as se anota el número de accidentes mortales de tráfico que
se producen en una cierta ciudad, obteniéndose los resultados de la tabla adjunta:
Número de accidentes mortales por dı́a Número de dı́as

0 132
1 195
2 120
3 60
4 24
5 09
a) ¿Qué distribución podemos ajustar y por qué?
b) Estudiar la bondad del ajuste
c) ¿Cuántos dı́as se producirán 2 accidentes mortales en un año?
Ejercicio 2.7 Use el test χ2 con 6 intervalos equiprobables bajo H0 , para probar que los siguientes
45 datos provienen de una población normal con media µ = 0,5 y σ 2 = 0,002
0.4976 0.4991 0.5014 0.5008 0.4993 0.4994 0.501 0.4997

0.5013 0.5000 0.5017 0.4984 0.4967 0.5028 0.4975 0.5013
0.5047 0.5069 0.4977 0.4961 0.4987 0.4990 0.4974 0.5008
0.4967 0.4977 0.4992 0.5007 0.4975 0.4998 0.5000 0.5008
0.4959 0.5015 0.5012 0.5056 0.4991 0.5006 0.4987 0.4968
10
Ejercicio 2.8 En un hospital, el número de nacimientos observados para cada mes de un cierto
año, fueron los siguientes:
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
95 105 95 105 90 95 105 110 105 100 95 100
Si α = 0,01, ¿existe alguna razón para creer que el número de nacimientos no se encuentra en
forma uniforme durante todos los meses del año? ¿Cuál es su valor-p?
Ejercicio 2.9 Supóngase que, en el Ejercicio 2.8, el número de nacimientos que se observaron
cada mes durante un periodo de 10 años es simplememte igual a diez veces los números observados
en el ejercicio anterior para un año.
a) ¿Cambiará esto la conclusión del ejercicio anterior?
b) ¿Que puede concluirse con respecto al empleo de prueba de bondad de ajuste χ2 para valores
grandes de n?
Ejercicio 2.10 Una organización de seguridad vial desea determinar si el número de accidentes
fatales se encuentra distribuido de igual forma para el color de automóviles involucrados en los
accidentes. La organización obtuvo una muestra aleatoria de 600 accidentes automovilı́sticos en
los cuales ocurrió al menos una muerte y anotó el color del automóvil. Se obtuvo la siguiente
información:
Rojo Café Amarillo Blanco Gris Azul

75 125 70 80 135 115
¿Existe alguna razón para creer que las proporciones de color no son idénticas? Úsese α = 0,01
11
3. Anexo
3.1. Distribución Multinomial
La distribución multinomial es una generalización de la distribución binomial en donde se

consideran k diferentes resultados posibles (excluyentes) con probabilidades p1 , p2 , . . . , pk entonces
para n ensayos independientes la función de probabilidad está dada por:
n!
p(x) = px1 px2 . . . pxk k
x1 !x2 ! . . . xk ! 1 2
4. Bibliografı́a
• Cid/Mora/Valenzuela. “Probabilidad y Estadı́stica”.1996.
• Canavos, G. “Probabilidad y Estadı́stica. Aplicaciones y Métodos”. McGraw–Hill. 1988.
12

Guía Inferencia

Cargado por

Copyright:

Formatos disponibles

Guía Inferencia

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Guía Inferencia

Cargado por

Copyright:

Formatos disponibles

Universidad de Concepción

Facultad de Ciencias Fı́sicas y Matemáticas

Lunes 14 de Mayo de 2007

2. Prueba de Bondad de Ajuste

Una vez observado (N1 , N2 , . . . , Nk ) podemos calcular el valor observado de D bajo H0 y

En general la distribución χ2 es una buena aproximación si npi ≥ 5, i = 1, . . . , k, rechazan-

Cara del dado 1 2 3 4 5 6

Utilice un nivel de signifiación del 5 %

Por otro lado, la región crı́tica esta dada por:

RC = {Dcalculado > χ21−α,k−1 } = {Dcalculado > χ20,95,5 } = {Dcalculado > 11,07}

Valor-p = P (χ20,95,5 ≥ 1,7)

Viernes 18 de Mayo de 2007

Sección del curso de Matemáticas 1 2 3 4 5 6 7 total

Utilice para el análisis un nivel de signifiación del 5 %.

H0 : No se manifestó preferencia (las secciones están distribuı́das de igual manera)

Calculemos el estadı́stico de prueba:

Como Dcalculado ∈ RC se rechaza H0

Valor-p = P (χ20,95,6 ≥ 12,94) = 0,0439 ≈ 0,05

Complicación: las probabilidades teóricas pi son funciones de la muestra; además, son

Ahora, el estadı́stico de prueba tiene la forma:

donde p̂i es el estimador máximo verosı́mil de pi .

¿Cuál es la nueva distribución de D?

donde s representa al número de parámetros estimados desde los datos.

Uilice un nivel de significación del 5 %.

H0 : Los datos provienen de la Distribución Poisson

Es decir, debemos determinar:

El estimador máximo verosı́mil para µ está dado por:

Ai Ni p̂i 106 · p̂i Dcalculado

Por otro lado, la nuestra región crı́tica está dada por:

RC = {Dcalculado > χ21−α,k−s−1 }

En vista, de que Dcalculado = 13,53 ∈

Valor-p = P (χ21−α,k−s−1 ≥ Dcalculado )

a) Ajuste una distribución Poisson

El estimador máximo verosı́mil para µ está dado por:

Número de partı́culas p̂i

H0 : Los datos provienen de la Distribución Poisson

Ai p̂i Ni 920 · p̂i

Ai Ni p̂i 920 · pi Dcalculado

Por otro lado, la nuestra región crı́tica está dada por:

RC = {Dcalculado > χ21−α,k−s−1 }

Valor-p = P (χ21−α,k−s−1 ≥ Dcalculado )

Edades (años) Número de individuos

Número de accidentes mortales por dı́a Número de dı́as

a) ¿Qué distribución podemos ajustar y por qué?

b) Estudiar la bondad del ajuste

c) ¿Cuántos dı́as se producirán 2 accidentes mortales en un año?

0.4976 0.4991 0.5014 0.5008 0.4993 0.4994 0.501 0.4997

a) ¿Cambiará esto la conclusión del ejercicio anterior?

Rojo Café Amarillo Blanco Gris Azul

3.1. Distribución Multinomial

La distribución multinomial es una generalización de la distribución binomial en donde se

• Canavos, G. “Probabilidad y Estadı́stica. Aplicaciones y Métodos”. McGraw–Hill. 1988.

También podría gustarte