FMSP316 s7 Apunte2
FMSP316 s7 Apunte2
FMSP316 s7 Apunte2
Inferencia Estadística
1. Introducción.
La estadı́stica inferencial o inferencia estadı́stica estudia cómo determinar conclusiones generales
para toda la población a partir del estudio de una muestra y el grado de significación de los
resultados obtenidos. Esto se debe hacer cuando es imposible contar con los datos de toda la
población y poder encontrar los parámetros que la describen. La estadı́stica inferencial se centra
en la estimación de estos parámetros para que, usando la probabilidad, se pueda concluir sobre
la población. La estimación de los parámetros es de dos tipos. Estimación puntual, donde se trata
de encontrar el valor exacto del parámetro. Dado un parámetro de interés, tal como la media µ o
la proporción ρ de una población, el objetivo de la estimación puntual es utilizar una muestra para
calcular un número que representa en cierto sentido una buena suposición del valor verdadero
del parámetro. El número resultante se llama estimación puntual. Y la estimación por intervalos,
donde a la estimación puntual se le agrega el término de error que se genera al extender el
resultado. Este error se puede restar o sumar, lo que genera una estimación por intervalos o
intervalos de confianza. Un intervalo de confianza siempre se calcula seleccionando primero un
nivel de confianza, el cual mide el grado de confiabilidad del intervalo. Un nivel de confianza de
95 % implica que el 95 % de todas las muestras darı́a un intervalo que incluye µ o cualquier otro
parámetro que se esté estimando y solo 5 % de las muestras darı́an un intervalo erróneo. Los
niveles de confianza más frecuentemente utilizados son 95 %, 99 % y 90 %. Mientras más alto
es el nivel de confianza, más fuerte es la creencia de que el valor del parámetro que se está
estimando queda dentro del intervalo. Al nivel de confianza se le conoce como 1 − α, y α es el
nivel de significancia. Si el nivel de significancia es el 5 % entonces α = 0, 05 (se trabaja como
ı́ndice).
Las distribuciones muestrales resultan cuando se consideran todas las muestras posibles que
pueden ser tomadas de una población. Sirve para calcular la probabilidad que tiene el estimador
de acercarse al parámetro y se desea extender el resultado de la muestra a la población completa.
En la unidad anterior vimos la primera de estas distribuciones.
2. Distribuciones Muestrales.
1. Distribución de la media muestral: Si X es una variable aleatoria con media µ y varianza σ2
conocidas, la variable aleatoria X̄ (media muestral) sigue una distribución normal de media
σ2
µ y varianza , es decir:
n
σ2
X̄ → N µ,
n
s2n−1
Para estimar la varianza poblacional se necesita conocer el estadı́stico χ2 = (n − 1)
σ2
que tiene una distribución muestral chi-cuadrada con n − 1 grados de libertad, es decir:
s2n−1
( n − 1) → χ2n−1
σ2
Donde n es el tamaño de la muestra, s2 la varianza muestral y σ2 la varianza poblacional.
La distribución chi cuadrada χ2 o de Pearson es una distribución continua con un parámetro
k ∈ N que representa los grados de libertad de la variable aleatoria X, definida como la
suma de k variables aleatorias independientes normales N (0, 1) al cuadrado, es decir:
k
X= ∑ Zi2
i =1
En otras palabras, los grados de libertad son el número de observaciones puramente libres (que
pueden variar) cuando estimamos los parámetros. Por ejemplo, se tiene un conjunto de datos
de n observaciones, la suma de los n valores dividido en n debe ser igual a la media (un valor
fijo). Con esta restricción tenemos n − 1 variables libres (pueden tomar cualquier valor) porque la
última variable se debe ajustar para obtener el promedio.
Ejemplo: Si la edad de personas que postulan a cierto cargo se distribuye de forma normal con
media 46,6 años y una desviación estándar de 13,97 años.
Se elige una muestra aleatoria de 25 postulantes de la población en estudio. Determina la
probabilidad de que la varianza muestral esté contenida entre 12,922 y 14,972 años2 .
= 0, 65 − 0, 30
= 0, 35
Finalmente, la probabilidad de que la varianza de una muestra de 25 postulantes esté entre ambos
valores es de 35 %.
Apunte – Inferencia Estadística
4
Observación 1. Para calcular la probabilidad P(χ224 > 27, 5589) se utiliza la tabla de esta distribu-
ción. Las tablas chi cuadrado, a diferencia de las tablas de la distribución normal, generalmente
utilizan probabilidad mayor (mayor o igual). La tabla normal usa menor (menor o igual):
3. Intervalos de Confianza.
En estadı́stica se sabe que las estimaciones puntuales no son exactas, por lo que se intenta medir
el grado de error en estas estimaciones, dando paso a las estimaciones por intervalos o intervalos
de confianza.
2
En el caso de una población normal
con 2
σ conocido sabemos que la variable media muestral X̄
σ
sigue una distribución normal N µ, de forma que:
n
X̄ − µ 2
σ ∈ N (0, 1 )
√
n
X̄ − µ
Despejando µ de la desigualdad −z1− α2 ≤ σ ≤ z1− α2 tenemos que:
√
n
σ σ
−z1− α2 √ ≤ µ ≤ z1− α2 √
n n
Apunte – Inferencia Estadística
5
Para que la estimación tenga sentido se adopta α, que es la significancia o error tipo 1 del
intervalo de confianza. Es la probabilidad de errar al realizar la estimación. El α lo define el
investigador, pero generalmente se usan valores menores al 10 %. Tampoco se puede utilizar un
valor tan bajo, ya que esto significa que el error de la estimación aumenta y el intervalo se hace
más grande. El valor 1 − α se conoce como el grado de confianza del intervalo.
Ejemplo: Considerando α = 0, 05 tenemos que z1− α2 = z0,975 = 1, 96. Esto porque P( Z <
1, 96) = 0, 975. Dependiendo de la situación y el parámetro que se desea estimar vamos a tener
distintos tipos de intervalos de confianza, los cuales resumiremos en:
1. Intervalos de confianza para la media:
a. Cuando σ2 es conocida: El intervalo es:
σ
µ ∈ X̄ ± z1− α2 √
n
Ejemplo: Consideremos una caja con tarjetas, cada una con un número. Supongamos
que la población tiene una media µ y σ desconocidos. Extraemos dos muestras de tamaño
n = 9.
Primera muestra: 4 ; 13 ; 8 ; 12 ; 8 ; 15 ; 14 ; 7 ; 8
Segunda muestra: 17 ; 14 ; 2 ; 12 ; 12 ; 6 ; 5 ; 11 ; 5
Obtendremos el intervalo de confianza para cada muestra considerando α = 0, 05.
Solución.
Del enunciado tenemos X̄1 = 9, 9 y X̄2 = 9,3. Ahora también debemos calcular s1 = 3, 72 y
s2 = 5 (se debe calcular s2 primero). Utilizaremos un nivel de confianza del 95 %. Esto quiere
decir que (1 − α) = 0, 95 y α = 0, 05, necesitamos t0,975;8 (n-1 grados de libertad).
Obtenemos por la tabla t que t0,975;8 = 2, 306 y construiremos el intervalo de confianza para
cada caso:
s
I1 = X̄ ± t1− α2 ,n−1 √ = [9, 9 ± 2, 9] = [7 − 12, 8]
n
s
I2 = X̄ ± t1− α2 ,n−1 √ = [9, 3 ± 3, 8] = [5, 5 − 13, 1]
n
Observación 2. La probabilidad t0,975;8 = 2, 306 se obtiene usando la tabla de esta distribu-
ción:
IC_I2 = [I2_promedio-t_crı́tico*I2_de/np.
,→sqrt(len(I2)),I2_promedio+t_crı́tico*I2_de/np.sqrt(len(I2))]
IC_I1, IC_I2
número de éxitos
p̄ =
número de ensayos
p̄(1 − p̄)
en este caso ρ sigue una distribución normal de media µ = p̄ y varianza σ2 = , por
n
lo que el intervalo de confianza resulta:
" r #
p̄(1 − p̄)
ρ ∈ p̄ ± z1− α2
n
Apunte – Inferencia Estadística
8
Ejemplo: Un jugador de baloncesto lanza 100 tiros libres y anota 85. Calcular un intervalo
de confianza para la proporción de aciertos.
Solución.
85
La proporción de éxitos será entonces p̄ = 100 = 0, 85. Usando un nivel de confianza
1 − α = 0, 95 tenemos el siguiente intervalo:
" r #
p̄(1 − p̄)
I = p̄ ± z1− α2 = [0, 85 ± 0, 07]
n
Obteniendo el intervalo 0, 78 ; 0, 92 , esto quiere decir que el promedio de aciertos del
jugador está entre 78 y 92 % con una confianza del 95 %.
Intervalos de confianza para la varianza: Utilizaremos la distribución chi-cuadrado (χ2 ), sa-
( n − 1) s2
bemos que el estadı́stico sigue una distribución χ2 con n − 1 grados de libertad.
σ2
Por lo tanto, necesitamos el intervalo que cumpla:
( n − 1) s2
2
P χ α ,n−1 < < χ21− α ,n−1 = 1−α
2 σ2 2
( n − 1) s2
Trabajando con la condición χ2α ,n−1 < < χ21− α ,n−1 se obtiene que:
2 σ2 2
" #
( n − 1) s2 2 ( n − 1) s2
<σ <
χ21− α ,n−1 χ2α ,n−1
2 2
Este intervalo no tiene por qué ser simétrico en torno a la varianza muestral. De la misma
manera, el intervalo de confianza para la desviación tı́pica se escribe como:
" s s #
( n − 1) s2 ( n − 1) s2
σ∈ ;
χ21− α ,n−1 χ2α ,n−1
2 2
Apunte – Inferencia Estadística
9
Ejemplo: Considerando los tiempos de reacción (en segundos) de una mezcla, se toma
una muestra de largo 12 obteniendo:
883 ; 816 ; 778 ; 796 ; 682 ; 711 ; 611 ; 599 ; 1051 ; 781 ; 578 ; 796
Solución.
Del enunciado obtenemos X̄ = 756, 83 y s = 133, 5. Utilizaremos α = 0, 05.
El intervalo será:
" s s # " s s #
( n − 1) s2 ( n − 1) s2 11 · 133, 52 11 · 133, 52
I= ; = ;
χ21− α ,n−1 χ2α ,n−1 21, 920 3, 816
2 2
σ∈ 94, 57 ; 226, 66
IC_var
σx2 σy2
Var ( Z̄ ) = Var ( X̄ ) + Var (Ȳ ) = +
nx ny
Notar que σx2 y n x son respectivamente la varianza y el total de datos de la variable X,
lo mismo para la variable Y.
b. Diferencia de medias poblacionales normales con σx2 y σy2 desconocidas (muestra gran-
de n x + ny > 30):
En este caso en vez de la varianza poblacional σx2 se utiliza la varianza muestras s2x (lo
mismo para la variable Y, resultando:
s
s2x s2y
µ x − µy ∈ X̄ − Ȳ ± z1− α2 +
nx ny
" s #
1 1
µ x − µy ∈ X̄ − Ȳ ± t1− α2 ;nx +ny −2 · s p · +
nx ny
En este caso tenemos que utilizar la variable t de Student con f grados de libertad:
s
s2x s2y
µ x − µy ∈ X̄ − Ȳ ± t1− α2 ; f · +
nx ny
2
s21 s22
n1 + n2
Donde los grados de libertad se obtienen con f = 2 2 2 2 −2
s s2
1
n1 n2
n1 +1 + n2 +1
Solución.
Al tratar de poblaciones normales de varianza conocida se utiliza el intervalo:
s s
2 2 2 2
x̄ A − x̄ B − z1− α σA + σB ; x̄ A − x̄ B + z1− α σA + σB
2 nA nB 2 nA nB
,→B_de**2/B_n)]
IC
2. Intervalos de confianza para la diferencia de proporciones: Para este caso debemos con-
siderar la esperanza y la varianza de la diferencia de proporciones, como de diferencia de
medias, en este caso resulta:
" s #
P̄x (1 − P̄x ) P̄y (1 − P̄y )
ρ x − ρy ∈ P̄x − P̄y ± z1− α2 +
nx ny
Solución.
Llamaremos A : Chile y B : Argentina, del enunciado tenemos:
37 55
p̄ A = = 0, 185 ; p̄ B = = 0, 275 ; z1− α2 = 1, 82
200 200
Apunte – Inferencia Estadística
13
IC
Como ambos valores (diferencia de proporciones) son negativos, se puede asegurar que la
proporción de gente que aceptó el producto en Argentina fue mayor que en Chile con una
confianza del 93 %.
3. Intervalos de confianza para el cociente de varianzas: En el caso de las varianzas, para
poder compararlas es necesario dividirlas, ya que la diferencia es siempre positiva, como
vimos anteriormente. Se considera que si ba > 1 → a > b o bien si ba < 1 → a < b. Para
este caso necesitamos la distribución F de Fisher, como la razón de variables chi-cuadrado.
1
Fα2 ;n1 −1;n2 −1 =
F1− α2 ;n2 −1;n1 −1
Apunte – Inferencia Estadística
14
Ejemplo: Para una muestra de 17 bonos industriales emitidos recientemente con califica-
ción AAA, la varianza muestral de sus vencimientos (en años al cuadrado) fue de 123,35.
Para otra muestra independiente de 11 bonos industriales emitidos con calificación CCC, la
varianza muestral de sus vencimientos fue de 8,02. Construye un intervalo de confianza al
90 % para el cociente de las varianzas.
Solución.
Llamaremos X al vencimiento de los bonos industriales con calificación AAA e Y al venci-
miento de los bonos con calificación CCC.
" #
σx2 s2x 1 s2x
∈ · ; ·F α
σy2 2
sy F1− α2 ;ny −1;nx −1 s2y 1− 2 ;nx −1;ny −1
" #
s2x 1 s2x
∈ 2
· ; · F0,95;16;10
sy F0,95;10;16 s2y
123, 35 1 123, 35
= · ; · 2, 83
8, 02 2, 49 8, 02
= 6, 1768 ; 43, 5262
Observación 5. Para calcular el valor de la distribución Fisher F0,95;16;10 se utilizó la tabla de esta
distribución:
Apunte – Inferencia Estadística
15
Observación 6. Muestras pareadas: Hasta el momento hemos supuesto que las poblaciones
o variables X e Y son independientes. En el caso de que sean dependientes vamos a estar en
caso de una muestra pareada. Este tipo de casos recoge casos como, por ejemplo, evaluar en la
misma población si un nuevo medicamento es efectivo contra cierta enfermedad o si una campaña
publicitaria tiene efecto sobre las ventas de un producto en la población tomando mediciones
antes (variable X) y después (variable Y).
Ejemplo: Se quiere probar un nuevo medicamento en pacientes con diabetes, por que sirve
para disminuir la concentración de azúcar en la sangre. Para esto se considera una muestra de
9 pacientes, a quienes se les mide la concentración de azúcar antes y 30 minutos después de
suministrarle el nuevo medicamento. Los resultados obtenidos son:
Antes 154 231 315 275 159 198 251 185 260
Después 168 214 172 265 174 184 217 210 213
1. Mediante un intervalo de confianza del 90 %, determina si el nuevo medicamento es eficiente
en el tratamiento contra la diabetes.
2. Determina el intervalo de confianza del 95 % para la verdadera varianza de los datos poste-
riores al medicamento.
3. Si se obtiene una concentración mı́nima de azúcar en la sangre antes del medicamento de
172.1720 mg/dl, determina la confianza utilizada.
Apunte – Inferencia Estadística
16
Solución:
1. Debemos hacer el intervalo de confianza para dos poblaciones no independientes (términos
pareados):
Antes 154 231 315 275 159 198 251 185 260
Después 168 214 172 265 174 184 217 210 213
Di f erencias 14 −17 −143 −10 15 −14 −34 25 −47
X̄ = −23, 44 ; s = 50, 62
Como el intervalo de confianza pasa por el cero, indica que no hay evidencia de que haya
diferencia, por lo que no se puede asumir que el medicamento es eficiente.
2. Obtenemos el intervalo de confianza para la varianza de los datos posteriores (después)
Primero obtenemos:
X 2α ,n 2
= X0,025;8 2
= 17, 535 ; X12− α ,nd −1 = X0,975;8 = 2, 180
2 d −1 2
De los datos se obtiene que la desviación muestral es sd = 30, 9 (nd = 9); ası́ resulta:
"
(nd − 1)s2d (nd − 1)s2d
#
8 · 30, 92 8 · 30, 92
; = ;
X 2α ,n −1 X12− α ,n −1 17, 535 2, 180
2 d 2 d
3. Utilizamos el lı́mite izquierdo del intervalo de confianza para la media antes del nuevo me-
dicamento:
sa
X̄a − t1− α2 ,na −1 √ = 172, 1720
na
sa 55, 1
X̄a − t1− α2 ,na −1 √ = 172, 1720 → 225, 3 − t1− α2 ,8 √ = 172, 1720
na 9
→ 2, 893 = t1− α2 ,8
α
→ 1− = 0, 99
2
→ 1 − α = 0, 98
X̄ − µ0 h i
si σ ∈ −z1− α2 ; z1− α2 acepta H0
√
n
X̄ − µ0 h i
si σ ̸∈ −z1− α2 ; z1− α2 rechaza H0
√
n
Apunte – Inferencia Estadística
19
Este test se conoce como bidimensional, ya que hay dos zonas de rechazo, cuando el estadı́stico
X̄ − µ0
observado σ es muy grande o muy pequeño, es decir, la zona de rechazo es para valores
√
n
grandes positivos, o negativos de gran valor absoluto. Existe otro tipo de contraste unidimensio-
nales donde existe solo una zona de rechazo y depende del objetivo de estudio.
1. Test de hipótesis para la media:
a. Cuando σ2 es conocida:
El test bidimensional resulta:
X̄ − µ0 | X̄ − µ0 |
µ = µ0 µ ̸ = µ0 z= σ Normal σ ≤ z1− α2
√ √
n n
X̄ − µ0 X̄ − µ0
µ ≤ µ0 µ > µ0 z= σ Normal σ ≤ z 1− α
√ √
n n
X̄ − µ0 X̄ − µ0
µ ≥ µ0 µ < µ0 z= σ Normal − z 1− α ≤ σ
√ √
n n
Ejemplo: Cierto tipo de condensador electrónico ha sido fabricado por una empresa
durante varios años y se ha observado que la duración de estos condensadores es una
variable aleatoria normal con desviación estándar de 90 horas. Una muestra aleatoria
de 20 de estos condensadores tuvo una duración media de 1450 horas. Prueba la
hipótesis de que la duración media de estos condensadores es de 1500 horas. α =
0.05.
Apunte – Inferencia Estadística
20
Solución.
Se desea conocer si la duración media de los condensadores es igual a 1500 horas.
Por lo tanto, se establece la hipótesis como:
H0 : µ = 1500
H1 : µ ̸= 1500
Ahora, con los datos del enunciado reemplazamos y calculamos el estadı́stico obser-
vado:
X̄ − µ0 1450 − 1500
z= = = −2,4845
√
σ 90
√
n 20
Luego, se debe buscar la probabilidad asociada al estadı́stico anterior y analizar si se
encuentra en la zona de aceptación o rechazo.
[27]: -2.484519974999767
[29]: ss.norm.cdf(z_obs)
[29]: 0.00648631149952178
Apunte – Inferencia Estadística
21
b. Cuando σ2 es desconocida:
El test bidimensional resulta:
H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0
X̄ − µ0 | X̄ − µ0 |
µ = µ0 µ ̸ = µ0 z= s t de Student s ≤ t1− α2 ,n−1
√ √
n n
X̄ − µ0 X̄ − µ0
µ ≤ µ0 µ > µ0 z= s t de Student s ≤ t1−α,n−1
√ √
n n
X̄ − µ0 X̄ − µ0
µ ≥ µ0 µ < µ0 z= s t de Student −t1−α,n−1 ≤ s
√ √
n n
H0 : µ ≥ 15
H1 : µ < 15
Apunte – Inferencia Estadística
22
Ahora, con los datos del enunciado reemplazamos y calculamos el estadı́stico ob-
servado:
X̄ − µ0 14 − 15
t= s = = −1,3833
√ 2,286
√
n 10
[ ]: -1.3833235608785563
[ ]: ss.t.cdf(t_obs,9)
[ ]: 0.0999563596629237
X̄ − µ0 | X̄ − µ0 |
µ = µ0 µ ̸ = µ0 z= s Normal s ≤ z1− α2
√ √
n n
X̄ − µ0 X̄ − µ0
µ ≤ µ0 µ > µ0 z= s Normal s ≤ z 1− α
√ √
n n
Apunte – Inferencia Estadística
23
X̄ − µ0 X̄ − µ0
µ ≥ µ0 µ < µ0 z= s Normal − z 1− α ≤ s
√ √
n n
ρ̄ − ρ0 |ρ̄ − ρ0 |
ρ = ρ0 ρ ̸ = ρ0 z= r Normal r ≤ z1− α2
ρ0 (1 − ρ0 ) ρ0 (1 − ρ0 )
n n
ρ̄ − ρ0 ρ̄ − ρ0
ρ ≤ ρ0 ρ > ρ0 z= r Normal r ≤ z 1− α
ρ0 (1 − ρ0 ) ρ0 (1 − ρ0 )
n n
Apunte – Inferencia Estadística
24
ρ̄ − ρ0 ρ̄ − ρ0
ρ ≥ ρ0 ρ < ρ0 z= r Normal − z 1− α ≤ r
ρ0 (1 − ρ0 ) ρ0 (1 − ρ0 )
n n
H0 : ρ ≤ 0,4
H1 : ρ > 0,4
Ahora, con los datos del enunciado se puede desprender que de la muestra el 45 % de los
clientes está interesado, luego reemplazamos y calculamos el estadı́stico observado:
ρ̄ − ρ0 0,45 − 0,4
z= r =r = 1,021
ρ0 (1 − ρ0 ) 0,4(1 − 0,6)
n 100
z_obs
[24]: 1.0206207261596574
[30]: ss.norm.cdf(z_obs)
[30]: 0.8462829170363023
( n − 1) s2 ( n − 1) s2 h 2 i
σ = σ0 σ ̸= σ0 χ2 = Chi cuadrada ∈ χ α ,n−1 ; χ21− α ,n−1
σ02 σ02 2 2
( n − 1) s2 ( n − 1) s2
σ ≤ σ0 σ > σ0 χ2 = Chi cuadrada ≤ χ21−α,n−1
σ02 σ02
( n − 1) s2 ( n − 1) s2
σ ≥ σ0 σ < σ0 χ2 = Chi cuadrada χ2α,n−1 ≤
σ02 σ02
Ejemplo: En una embotelladora de refresco el proceso de llenado realizado por una máquina
está fuera de control cuando la desviación estándar de la cantidad de refresco vertida supera 0,02
u.m. Para controlar la variabilidad se tomó una muestra aleatoria de 28 botellas llenadas por la
máquina y se obtuvo una desviación estándar s = 0,027 u.m. ¿Puede concluirse que la máquina
está fuera de control? Considera α = 5 %
Solución. Se desea conocer si la duración media de acceso al disco duro con modificaciones es
menor a 15 milisegundos. Por lo tanto, se establece la hipótesis como:
H0 : σ ≤ 0,02
H1 : σ > 0,02
Ahora, con los datos del enunciado reemplazamos y calculamos el estadı́stico observado:
( n − 1) s2 (27)0,0272
χ2 = = = 49,2075
σ02 0,022
[32]: s = 0.027
n = 28
sigma = 0.02
chi_obs = (n-1)*s**2/sigma**2
chi_obs
[32]: 49.207499999999996
[39]: ss.chi2.cdf(chi_obs,n)
[39]: 0.9920828988316592
Como indica el código de Python, para el estadı́stico calculado la probabilidad es 0.9921. Como
la probabilidad encontrada es mayor al valor de significancia unidimensional (0,95 a la derecha)
nos encontramos en la zona de rechazo a la hipótesis nula y se concluye que: ”Existe evidencia
estadı́sticamente significativa a un nivel de confianza del 95 % para indicar que la máquina se
encuentra fuera de control”.
x̄ − ȳ | x̄ − ȳ|
µ x = µy µ x ̸= µy z= s Normal s ≤ z1− α2
σx2 σy2 σx 2 σ 2
y
+ +
nx ny nx ny
x̄ − ȳ x̄ − ȳ
µ x ≤ µy µ x > µy z= s Normal s ≤ z 1− α
σx2 σy2 σx2 σy2
+ +
nx ny nx ny
b. Test para la diferencia de medias poblacionales normales con σx2 y σy2 desconocidas y
muestra grande (n x + ny > 30):
Apunte – Inferencia Estadística
27
x̄ − ȳ | x̄ − ȳ|
µ x = µy µ x ̸= µy z= s Normal s ≤ z1− α2
s2x s2y s2x s2y
+ +
nx ny nx ny
x̄ − ȳ x̄ − ȳ
µ x ≤ µy µ x > µy z= s Normal s ≤ z 1− α
s2x s2y s2x s2y
+ +
nx ny nx ny
c. Test para la diferencia de medias poblacionales normales con σx2 y σy2 desconocidas e
iguales (σx2 = σy2 ) y muestra pequeña (n x + ny ≤ 30):
x̄ − ȳ
t= s | x̄ − ȳ|
1 1 ≤ t1− α2 ,k
sp +
r
nx ny 1 1
µ x = µy µ x ̸= µy t de Student sp +
n1 n2
(n x − 1)s2x + (ny − 1)s2y
s2p = k = n x + ny − 2
n x + ny − 2
x̄ − ȳ
t= s x̄ − ȳ
1 1 ≤ t1−α,k
sp +
r
1 1
nx ny sp +
µ x ≤ µy µ x > µy t de Student n1 n2
(n x − 1)s2x + (ny − 1)s2y k = n x + ny − 2
s2p =
n x + ny − 2
Apunte – Inferencia Estadística
28
d. Test para la diferencia de medias poblacionales normales con σx2 y σy2 desconocidas y
distintas (σx2 ̸= σy2 ) y muestra pequeña (n x + ny ≤ 30):
x̄ − ȳ
t= s
s2x s2y
+
nx ny
| x̄ − ȳ|
µ x = µy µ x ̸= µy 2 t de Student s ≤ t1− α2 , f
s2x s2y s2y
nx + ny
s2x
+
f = 2 2 −2 nx ny
s2y
s2x
nx ny
n y +1 + n y +1
x̄ − ȳ
t= s
s2x s2y
+
nx ny
x̄ − ȳ
µ x ≤ µy µ x > µy 2 t de Student s ≤ t1− α2 , f
s2x s2y s2y
nx + ny
s2x
+
f = 2 2 −2 nx ny
s2y
s2x
nx ny
n x +1 + n y +1
ρ¯x − ρ¯y
ρ x = ρy ρ x ̸= ρy zest = r Normal |zest | ≤ z1− α2
ρ x (1 − ρ x ) ρ y (1 − ρ y )
+
nx ny
Apunte – Inferencia Estadística
29
ρ¯x − ρ¯y
ρ x ≤ ρy ρ x > ρy zest = r Normal zest ≤ z1−α
ρ x (1 − ρ x ) ρ y (1 − ρ y )
+
nx ny
s2x s2x h i
σx2 = σy2 σx2 ̸= σy2 F= F de Fisher ∈ F 2 ,n x −1,ny −1
α ; F1− 2 ,n x −1,ny
α
s2y s2y
s2x s2x
σx2 ≤ σy2 σx2 > σy2 F= F de Fisher ≤ F1−α,nx −1,ny
s2y s2y
Ejemplo: Se revisó la dureza del agua (Y) de dos muestras obtenidas a partir de bocas de salida
separadas de una planta de energı́a. Los resultados codificados (partes por millón) se presentan
a continuación:
Ubicación ni ∑ yi ∑ y2i
1 9 504 29101
2 14 868 54201
Analiza si la varianza de la dureza del agua proveniente del lugar 1 es mayor que la del lugar 2.
Considera α = 5 %.
Solución. Se desea conocer si la razón de varianzas entre las ubicaciones es mayor o igual a 1.
Por lo tanto, se establece la hipótesis como:
H0 : σ12 /σ22 ≤ 1
H1 : σ12 /σ22 > 1
Ahora, con los datos del enunciado podemos obtener las varianzas de cada ubicación, reempla-
zamos y calculamos el estadı́stico observado:
Apunte – Inferencia Estadística
30
s21 97,44
F= 2
= = 3,5434
s2 27,5
Para encontrar las varianzas de cada ubicación y probabilidad de este estadı́stico utilizaremos el
siguiente código en Python.
[37]: var_1 = 29101/9 - (504/9)**2
var_2 = 54201/14 - (868/14)**2
n_1 = 9
n_2 = 14
F_obs = var_1/var_2
F_obs
[37]: 3.5434343434343396
[38]: ss.f.cdf(F_obs,n_1,n_2)
[38]: 0.9830034238259722
Como indica el código de Python, para el estadı́stico calculado la probabilidad es 0.983. Como
la probabilidad encontrada es mayor al valor de significancia unidimensional (0,95 a la derecha)
nos encontramos en la zona de rechazo a la hipótesis nula y se concluye que: ”Existe evidencia
estadı́sticamente significativa a un nivel de confianza del 95 % para indicar que la varianza de la
dureza del agua en la ubicación 1 es mayor a la varianza de la dureza del agua de la ubicación
2”.
Ejemplo: Se piensa que la concentración del ingrediente activo de un detergente lı́quido para
ropa es afectada por el tipo de catalizador utilizado en el proceso de fabricación. Se realizan diez
observaciones con cada catalizador y se obtienen los siguientes resultados:
Catalizador 1: 57, 9; 66, 2; 65, 4; 65, 4; 65, 2; 62, 6; 67, 6; 63, 7; 67, 2; 71, 0.
Catalizador 2: 66, 4; 71, 7; 70, 3; 69, 3; 64, 8; 69, 6; 68, 6; 69, 4; 65, 3; 68, 8.
¿Existe alguna evidencia que indique que las concentraciones activas medias dependen del
catalizador utilizado? Utilizar α = 0, 05.
Solución. Del enunciado podemos obtener los valores: X̄1 = 65, 22; s1 = 3, 44; n1 = n2 = 10;
X̄2 = 68, 42; s2 = 2, 22.
Primero debemos determinar si las varianzas son iguales o distintas para luego realizar el con-
traste.
Apunte – Inferencia Estadística
31
(Oi − Ei )2
χ2prueba = ∑ Ei
i
Determinado el valor de α el valor crı́tico es χ21−α;gl o se puede obtener el α o p-valor del es-
tadı́stico de prueba. gl corresponden a los grados de libertad (gl es la cantidad de filas menos
1).
Apunte – Inferencia Estadística
32
χ21−α;gl = X0,95
2
; 6−1 = 11, 070
[31]: False
Como el estadı́stico es mayor que el valor crı́tico, se rechaza H0 , por lo que se establece que las
ventas no se distribuyen de igual forma entre las seis categorı́as.
H0 : no hay relación entre las variables ; H1 : sı́ hay relación entre las variables
" #
3 3 (Oij − Eij )2
2
Xprueba = ∑∑ Eij
i =1 j =1
Se compara con X12−α,gl , donde α es el error y gl = (n◦ filas − 1) · (n◦ columnas − 1).
Se acepta H0 si:
χ2prueba ≤ χ21−α,gl
Ejemplo: Supón que se encuestó a una muestra aleatoria de personas de todos los grupos
socioeconómicos. De un listado de marcas de bebidas gaseosas, los encuestados debı́an elegir la
de mayor preferencia (U, V o W). Los resultados con las frecuencias observadas de preferencias
se muestran a continuación:
Marca
Grupo U V W
ABC 12 11 16
D 9 6 3
E 0 5 9
Apunte – Inferencia Estadística
34
H0 :̸ ∃ relación ; H1 : ∃ relación
En el enunciado se tienen los valores observados (Oij ) y calculamos los valores esperados ( Eij )
ni ∗ · n ∗ j
utilizando las distribuciones marginales, es decir, Eij = . La siguiente tabla muesta los
ntotal
valores esperados:
Marca
Grupo U V W
ABC 11, 5 12, 1 15, 4
D 5, 3 5, 6 7, 1
E 4, 1 4, 3 5, 5
" #
3 3 (Oij − Eij )2
Calculamos χ2prueba = ∑ ∑ = 11, 58.
i =1 j =1
Eij
Para α = 0, 05 y 4 grados de libertad ((no filas - 1)·(no columnas - 1)), se tiene:
χ20,95;4 = 9, 4877
Como χ20,95;4 < χ2Prueba , se rechaza H0 y se acepta que existe relación entre ambas variables, por
lo que la marca de la bebida está condicionada al nivel socioeconómico.
Apunte – Inferencia Estadística
35
Referencias bibliográficas.
1. Devore, J. L. (2008). Probabilidad y estadı́stica para ingenierı́as y ciencias. Cengage Lear-
ning Editores.
2. Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2007). Probabilidad y estadı́stica para
ingenierı́a y ciencias. Norma, 162, 157.
3. Montgomery, D. C., Runger, G. C., & Medal, E. G. U. (1996). Probabilidad y estadı́stica
aplicadas a la ingenierı́a (No. 968-18-5914-6. 01-A1 LU. AL-PyE. 1.). México DF, México:
McGraw-Hill.