FMSP316 s7 Apunte2

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 35

APUNTE

Inferencia Estadística

Castillo, S. (2021) & Moraga, F (2022).


Material didáctico
UniversidadAndrés Bello, Santiago.
Apunte – Inferencia Estadística
2

1. Introducción.
La estadı́stica inferencial o inferencia estadı́stica estudia cómo determinar conclusiones generales
para toda la población a partir del estudio de una muestra y el grado de significación de los
resultados obtenidos. Esto se debe hacer cuando es imposible contar con los datos de toda la
población y poder encontrar los parámetros que la describen. La estadı́stica inferencial se centra
en la estimación de estos parámetros para que, usando la probabilidad, se pueda concluir sobre
la población. La estimación de los parámetros es de dos tipos. Estimación puntual, donde se trata
de encontrar el valor exacto del parámetro. Dado un parámetro de interés, tal como la media µ o
la proporción ρ de una población, el objetivo de la estimación puntual es utilizar una muestra para
calcular un número que representa en cierto sentido una buena suposición del valor verdadero
del parámetro. El número resultante se llama estimación puntual. Y la estimación por intervalos,
donde a la estimación puntual se le agrega el término de error que se genera al extender el
resultado. Este error se puede restar o sumar, lo que genera una estimación por intervalos o
intervalos de confianza. Un intervalo de confianza siempre se calcula seleccionando primero un
nivel de confianza, el cual mide el grado de confiabilidad del intervalo. Un nivel de confianza de
95 % implica que el 95 % de todas las muestras darı́a un intervalo que incluye µ o cualquier otro
parámetro que se esté estimando y solo 5 % de las muestras darı́an un intervalo erróneo. Los
niveles de confianza más frecuentemente utilizados son 95 %, 99 % y 90 %. Mientras más alto
es el nivel de confianza, más fuerte es la creencia de que el valor del parámetro que se está
estimando queda dentro del intervalo. Al nivel de confianza se le conoce como 1 − α, y α es el
nivel de significancia. Si el nivel de significancia es el 5 % entonces α = 0, 05 (se trabaja como
ı́ndice).
Las distribuciones muestrales resultan cuando se consideran todas las muestras posibles que
pueden ser tomadas de una población. Sirve para calcular la probabilidad que tiene el estimador
de acercarse al parámetro y se desea extender el resultado de la muestra a la población completa.
En la unidad anterior vimos la primera de estas distribuciones.

2. Distribuciones Muestrales.
1. Distribución de la media muestral: Si X es una variable aleatoria con media µ y varianza σ2
conocidas, la variable aleatoria X̄ (media muestral) sigue una distribución normal de media
σ2
µ y varianza , es decir:
n
σ2
 
X̄ → N µ,
n

2. Distribución de la varianza muestral: Si se toma una muestra con reemplazo { x1 , x2 , , , , , xn }


de n valores, el estimador de la varianza poblacional es s2 :
n n
( xi − x̄ )2 1
s2n−1 = ∑ n−1 =
n − 1 ∑ (xi − x̄)2
i =1 i =1

Por simplicidad denotaremos s2 = s2n−1 .


Apunte – Inferencia Estadística
3

s2n−1
Para estimar la varianza poblacional se necesita conocer el estadı́stico χ2 = (n − 1)
σ2
que tiene una distribución muestral chi-cuadrada con n − 1 grados de libertad, es decir:

s2n−1
( n − 1) → χ2n−1
σ2
Donde n es el tamaño de la muestra, s2 la varianza muestral y σ2 la varianza poblacional.
La distribución chi cuadrada χ2 o de Pearson es una distribución continua con un parámetro
k ∈ N que representa los grados de libertad de la variable aleatoria X, definida como la
suma de k variables aleatorias independientes normales N (0, 1) al cuadrado, es decir:
k
X= ∑ Zi2
i =1

Donde todos los Zi siguen una distribución normal N (0, 1).

Definición 1. Los grados de libertad son la combinación del número de observaciones de un


conjunto de datos que varı́an de manera aleatoria e independiente menos las observaciones que
están condicionadas a estos valores arbitrarios.

En otras palabras, los grados de libertad son el número de observaciones puramente libres (que
pueden variar) cuando estimamos los parámetros. Por ejemplo, se tiene un conjunto de datos
de n observaciones, la suma de los n valores dividido en n debe ser igual a la media (un valor
fijo). Con esta restricción tenemos n − 1 variables libres (pueden tomar cualquier valor) porque la
última variable se debe ajustar para obtener el promedio.

Ejemplo: Si la edad de personas que postulan a cierto cargo se distribuye de forma normal con
media 46,6 años y una desviación estándar de 13,97 años.
Se elige una muestra aleatoria de 25 postulantes de la población en estudio. Determina la
probabilidad de que la varianza muestral esté contenida entre 12,922 y 14,972 años2 .

Solución. Debemos obtener:


24 · 12, 922 ( n − 1) s2 24 · 14, 972
 
P(12, 922 < s2 < 14, 972 ) = P 2
< 2
<
13, 97 σ 13, 977

= P(20, 5278 < χ224 < 27, 5589)

= P(χ224 > 20, 5278) − P(χ224 > 27, 5589)

= 0, 65 − 0, 30

= 0, 35

Finalmente, la probabilidad de que la varianza de una muestra de 25 postulantes esté entre ambos
valores es de 35 %.
Apunte – Inferencia Estadística
4

Observación 1. Para calcular la probabilidad P(χ224 > 27, 5589) se utiliza la tabla de esta distribu-
ción. Las tablas chi cuadrado, a diferencia de las tablas de la distribución normal, generalmente
utilizan probabilidad mayor (mayor o igual). La tabla normal usa menor (menor o igual):

3. Intervalos de Confianza.
En estadı́stica se sabe que las estimaciones puntuales no son exactas, por lo que se intenta medir
el grado de error en estas estimaciones, dando paso a las estimaciones por intervalos o intervalos
de confianza.
2
En el caso de una población normal
 con 2
 σ conocido sabemos que la variable media muestral X̄
σ
sigue una distribución normal N µ, de forma que:
n

X̄ − µ 2
σ ∈ N (0, 1 )

n

Lo que nos permite, fijado α, obtener el valor z1− α2 tal que:


 
X̄ − µ
P −z1− α2 ≤ σ ≤ z1− α2  = 1 − α
 

n

X̄ − µ
Despejando µ de la desigualdad −z1− α2 ≤ σ ≤ z1− α2 tenemos que:

n
σ σ
−z1− α2 √ ≤ µ ≤ z1− α2 √
n n
Apunte – Inferencia Estadística
5

Finalmente, el intervalo de confianza para la media poblacional µ resulta:


 
 σ 
 X̄ ± z1− α2 √n 
µ∈ 
| {z }
error

Para que la estimación tenga sentido se adopta α, que es la significancia o error tipo 1 del
intervalo de confianza. Es la probabilidad de errar al realizar la estimación. El α lo define el
investigador, pero generalmente se usan valores menores al 10 %. Tampoco se puede utilizar un
valor tan bajo, ya que esto significa que el error de la estimación aumenta y el intervalo se hace
más grande. El valor 1 − α se conoce como el grado de confianza del intervalo.

Ejemplo: Considerando α = 0, 05 tenemos que z1− α2 = z0,975 = 1, 96. Esto porque P( Z <
1, 96) = 0, 975. Dependiendo de la situación y el parámetro que se desea estimar vamos a tener
distintos tipos de intervalos de confianza, los cuales resumiremos en:
1. Intervalos de confianza para la media:
a. Cuando σ2 es conocida: El intervalo es:
 
σ
µ ∈ X̄ ± z1− α2 √
n

b. Cuando σ2 es desconocida: cuando σ2 es desconocido se utiliza la varianza muestral


s2n−1 como estimación puntual para σ2 , debido a que el valor esperado de s2n−1 es σ2
2 2

(E s = σ ). Se puede construir el intervalo utilizando la distribución t de Student con
n − 1 grados de libertad, resultando:
 
s
µ ∈ X̄ ± t1− α2 ,n−1 √
n

La distribución t de Student surge debido al problema de estimar la media de una


población normalmente distribuida cuando el tamaño de la muestra es pequeño
(n ≤ 30).

c. Cuando σ2 es desconocida y la muestra es grande n > 30: En este caso s suele


ser un estimador muy preciso de σ, de forma que el intervalo se puede construir solo
sustituyendo s por σ:  
s
µ ∈ X̄ ± z1− α2 √
n
Debido al tamaño de la muestra, no hay mayor diferencia entre usar distribución normal
o distribución t de Student.
Apunte – Inferencia Estadística
6

Ejemplo: Consideremos una caja con tarjetas, cada una con un número. Supongamos
que la población tiene una media µ y σ desconocidos. Extraemos dos muestras de tamaño
n = 9.
Primera muestra: 4 ; 13 ; 8 ; 12 ; 8 ; 15 ; 14 ; 7 ; 8
Segunda muestra: 17 ; 14 ; 2 ; 12 ; 12 ; 6 ; 5 ; 11 ; 5
Obtendremos el intervalo de confianza para cada muestra considerando α = 0, 05.

Solución.
Del enunciado tenemos X̄1 = 9, 9 y X̄2 = 9,3. Ahora también debemos calcular s1 = 3, 72 y
s2 = 5 (se debe calcular s2 primero). Utilizaremos un nivel de confianza del 95 %. Esto quiere
decir que (1 − α) = 0, 95 y α = 0, 05, necesitamos t0,975;8 (n-1 grados de libertad).
Obtenemos por la tabla t que t0,975;8 = 2, 306 y construiremos el intervalo de confianza para
cada caso:
 
s
I1 = X̄ ± t1− α2 ,n−1 √ = [9, 9 ± 2, 9] = [7 − 12, 8]
n
 
s
I2 = X̄ ± t1− α2 ,n−1 √ = [9, 3 ± 3, 8] = [5, 5 − 13, 1]
n
Observación 2. La probabilidad t0,975;8 = 2, 306 se obtiene usando la tabla de esta distribu-
ción:

Ahora veamos cámo resolver el ejercicio en Python:


Apunte – Inferencia Estadística
7

[36]: # Creamos la lista de de datos


I1 = [4,13,8,12,8,15,14,7,8]
I2 = [17,14,2,12,12,6,5,11,5]
# Calculamos los estadı́sticos necesarios
I1_promedio = np.mean(I1)
I1_de = np.std(I1, ddof = 1)
I2_promedio = np.mean(I2)
I2_de = np.std(I2, ddof = 1)
#Cálculo del estadı́stico crı́tico
t_crı́tico = ss.t.ppf(0.975,8)
# Desarrollamos los intervalos de confianza
IC_I1 = [I1_promedio-t_crı́tico*I1_de/np.
,→sqrt(len(I1)),I1_promedio+t_crı́tico*I1_de/np.sqrt(len(I1))]

IC_I2 = [I2_promedio-t_crı́tico*I2_de/np.
,→sqrt(len(I2)),I2_promedio+t_crı́tico*I2_de/np.sqrt(len(I2))]

IC_I1, IC_I2

[36]: ([7.027098311358072, 12.750679466419706],


[5.489993108277716, 13.176673558388952])

Esto nos permite notar que la estimación depende de la muestra obtenida.


Intervalos de confianza para la proporción: Para estimar la proporción ρ de una población
considerando la proporción muestral

número de éxitos
p̄ =
número de ensayos

p̄(1 − p̄)
en este caso ρ sigue una distribución normal de media µ = p̄ y varianza σ2 = , por
n
lo que el intervalo de confianza resulta:
" r #
p̄(1 − p̄)
ρ ∈ p̄ ± z1− α2
n
Apunte – Inferencia Estadística
8

Ejemplo: Un jugador de baloncesto lanza 100 tiros libres y anota 85. Calcular un intervalo
de confianza para la proporción de aciertos.

Solución.
85
La proporción de éxitos será entonces p̄ = 100 = 0, 85. Usando un nivel de confianza
1 − α = 0, 95 tenemos el siguiente intervalo:
" r #
p̄(1 − p̄)
I = p̄ ± z1− α2 = [0, 85 ± 0, 07]
n
 
Obteniendo el intervalo 0, 78 ; 0, 92 , esto quiere decir que el promedio de aciertos del
jugador está entre 78 y 92 % con una confianza del 95 %.
Intervalos de confianza para la varianza: Utilizaremos la distribución chi-cuadrado (χ2 ), sa-
( n − 1) s2
bemos que el estadı́stico sigue una distribución χ2 con n − 1 grados de libertad.
σ2
Por lo tanto, necesitamos el intervalo que cumpla:

( n − 1) s2
 
2
P χ α ,n−1 < < χ21− α ,n−1 = 1−α
2 σ2 2

( n − 1) s2
Trabajando con la condición χ2α ,n−1 < < χ21− α ,n−1 se obtiene que:
2 σ2 2

" #
( n − 1) s2 2 ( n − 1) s2
<σ <
χ21− α ,n−1 χ2α ,n−1
2 2

Obteniendo el intervalo de confianza al nivel (1 − α) para la varianza:


" #
( n − 1) s2 ( n − 1) s2
σ2 ∈ ;
χ21− α ,n−1 χ2α ,n−1
2 2

Este intervalo no tiene por qué ser simétrico en torno a la varianza muestral. De la misma
manera, el intervalo de confianza para la desviación tı́pica se escribe como:

" s s #
( n − 1) s2 ( n − 1) s2
σ∈ ;
χ21− α ,n−1 χ2α ,n−1
2 2
Apunte – Inferencia Estadística
9

Ejemplo: Considerando los tiempos de reacción (en segundos) de una mezcla, se toma
una muestra de largo 12 obteniendo:

883 ; 816 ; 778 ; 796 ; 682 ; 711 ; 611 ; 599 ; 1051 ; 781 ; 578 ; 796

Se desea construir un intervalo de confianza para la desviación estándar de los tiempos de


reacción.

Solución.
Del enunciado obtenemos X̄ = 756, 83 y s = 133, 5. Utilizaremos α = 0, 05.

Consultando las tablas vemos que:

χ20,975;11 = 21, 920 y χ20,025;11 = 3, 816

El intervalo será:

" s s # " s s #
( n − 1) s2 ( n − 1) s2 11 · 133, 52 11 · 133, 52
I= ; = ;
χ21− α ,n−1 χ2α ,n−1 21, 920 3, 816
2 2

Finalmente el intervalo resulta:

 
σ∈ 94, 57 ; 226, 66

Ahora veamos cómo resolver este problema en Python:


[41]: # Creamos la lista de de datos
T_reacción = [883,816,778,796,682,711,611,599,1051,781,578,796]
# Calculamos los estadı́sticos necesarios
T_reacción_promedio = np.mean(T_reacción)
T_reacción_de = np.std(T_reacción, ddof = 1)
#Cálculo del estadı́stico crı́tico
X2_inf = ss.chi2.ppf(0.025,11)
X2_sup = ss.chi2.ppf(0.975,11)
# Desarrollamos los intervalos de confianza
IC_var = [np.sqrt((len(T_reacción)-1)*T_reacción_de**2/X2_sup),np.
,→sqrt((len(T_reacción)-1)*T_reacción_de**2/X2_inf)]

IC_var

[41]: [94.53913046607197, 226.59092349475267]


Apunte – Inferencia Estadística
10

4. Intervalos de confianza para las diferencias.


Dependiendo de la situación y el parámetro que se desea estimar, se pueden obtener intervalos
de confianza para comparar dos poblaciones.
1. Intervalos de confianza para la diferencia de medias:
a. Diferencia de medias poblacionales normales con σx2 y σy2 conocidas: En este caso,
tenemos que obtener el intervalo de confianza para la variable Z = X − Y, donde
X e Y son las variables de cada una de las poblaciones, realizamos el intervalo de
confianza considerando:
E( Z̄ ) = E( X̄ ) − E(Ȳ ) = µ x − µy

σx2 σy2
Var ( Z̄ ) = Var ( X̄ ) + Var (Ȳ ) = +
nx ny
Notar que σx2 y n x son respectivamente la varianza y el total de datos de la variable X,
lo mismo para la variable Y.

De modo que el intervalo resulta :


 s 
σx2 σy2
µ x − µy ∈  X̄ − Ȳ ± z1− α2 + 
nx ny

b. Diferencia de medias poblacionales normales con σx2 y σy2 desconocidas (muestra gran-
de n x + ny > 30):
En este caso en vez de la varianza poblacional σx2 se utiliza la varianza muestras s2x (lo
mismo para la variable Y, resultando:
 s 
s2x s2y
µ x − µy ∈  X̄ − Ȳ ± z1− α2 + 
nx ny

c. Diferencia de medias poblacionales normales con σx2 y σy2 desconocidas e iguales


(σx2 = σy2 )
(muestra pequeña n x + ny ≤ 30):

En este caso tenemos que utilizar la variable t de Student con n x + ny − 2 grados de


libertad:

" s #
1 1
µ x − µy ∈ X̄ − Ȳ ± t1− α2 ;nx +ny −2 · s p · +
nx ny

(n x − 1)s2x + (ny − 1)s2y


Donde s2p =
n x + ny − 2
Apunte – Inferencia Estadística
11

d. Diferencia de medias poblacionales normales con σx2 y σy2 desconocidas y distintas


(σx2 ̸= σy2 )
(muestra pequeña n x + ny ≤ 30):

En este caso tenemos que utilizar la variable t de Student con f grados de libertad:
 s 
s2x s2y
µ x − µy ∈  X̄ − Ȳ ± t1− α2 ; f · + 
nx ny

2
s21 s22

n1 + n2
Donde los grados de libertad se obtienen con f =  2 2  2 2 −2
s s2
1
n1 n2

n1 +1 + n2 +1

Observación 3. Cuando se desconoce la igualdad de las varianzas, antes se debe


hacer un test de hipótesis para decidir cómo considerarlas, iguales o distintas. Esto lo
veremos más adelante en el apunte.
Ejemplo: Una fábrica elabora dos artı́culos A y B cuya demanda aleatoria sigue una
distribución normal con medias µ A y µ B desconocidas y desviaciones tı́picas σA = 100
y σB = 50. Observados 100 puntos de venta, la demanda media de dichos artı́culos ha
resultado de 200 y 150 unidades respectivamente. Construya un intervalo de confianza al
95 % para la diferencia de medias. Con base en sus resultados, determina el artı́culo que
presenta una mayor demanda.

Solución.
Al tratar de poblaciones normales de varianza conocida se utiliza el intervalo:
 s s 
2 2 2 2
 x̄ A − x̄ B − z1− α σA + σB ; x̄ A − x̄ B + z1− α σA + σB 
2 nA nB 2 nA nB

Tenemos que n A = 100; x̄ A = 200; σA = 100; n B = 100; x̄ B = 150 y σB = 50. Para α = 0, 05


se tiene z1− α2 = 1, 96 y resulta el intervalo:

[28, 09 ; 71, 91]

Ahora veamos cómo resolver este problema en Python:


Apunte – Inferencia Estadística
12

[45]: # Definición de variables


A_n = 100
A_media = 200
A_de = 100
B_n = 100
B_media = 150
B_de =50
# Nivel de significancia
alpha=0.05
# Cálculo z crı́tico
z_crı́tico = ss.norm.ppf(1-alpha/2)
# Construcción de intervalo
IC = [A_media - B_media - z_crı́tico * np.sqrt(A_de**2/A_n +
,→B_de**2/B_n),A_media - B_media + z_crı́tico * np.sqrt(A_de**2/A_n +

,→B_de**2/B_n)]

IC

[45]: [28.08693648558546, 71.91306351441455]

2. Intervalos de confianza para la diferencia de proporciones: Para este caso debemos con-
siderar la esperanza y la varianza de la diferencia de proporciones, como de diferencia de
medias, en este caso resulta:
" s #
P̄x (1 − P̄x ) P̄y (1 − P̄y )
ρ x − ρy ∈ P̄x − P̄y ± z1− α2 +
nx ny

Ejemplo: Una compañı́a multinacional desea lanzar al mercado un nuevo producto en


2 paı́ses distintos (Chile y Argentina). Para obtener una estimación de los ingresos que
producirá el nuevo producto se realizó una campaña publicitaria por una semana y luego se
seleccionó a 200 personas en cada paı́s, de las que 37 personas de Chile y 55 de Argentina
manifiestan su disposición a comprar el producto. Al final, el departamento de marketing
decide lanzar el producto en el paı́s que tiene mayor aceptación. Mediante un intervalo de
confianza para la verdadera diferencia de proporción determina en qué paı́s deberı́a lanzar
el nuevo producto. Utiliza una confianza del 93 %.

Solución.
Llamaremos A : Chile y B : Argentina, del enunciado tenemos:

37 55
p̄ A = = 0, 185 ; p̄ B = = 0, 275 ; z1− α2 = 1, 82
200 200
Apunte – Inferencia Estadística
13

El intervalo que necesitamos es:


 s 
p̄ A (1 − p̄ A ) p̄ (1 − p̄ B ) 
( p̄ A − p̄ B ) ± z1− α + B = [−0, 166; −0, 014]
2 nA nB

Veamos una alternativa a este problema en Python:


[60]: # Definición de variables
p_A = 37/200
n_A = 200
p_B = 55/200
n_B = 200
# Nivel de significancia
alpha = 0.07
#Cálculo z crı́tico
z_crı́tico = ss.norm.ppf(1-alpha/2)
# Construcción intervalo
IC = [p_A - p_B - z_crı́tico*np.sqrt(p_A*(1-p_A)/n_A+p_B*(1-p_B)/n_B),p_A -
,→p_B + z_crı́tico*np.sqrt(p_A*(1-p_A)/n_A+p_B*(1-p_B)/n_B)]

IC

[60]: [-0.16581390220166917, -0.014186097798330882]

Como ambos valores (diferencia de proporciones) son negativos, se puede asegurar que la
proporción de gente que aceptó el producto en Argentina fue mayor que en Chile con una
confianza del 93 %.
3. Intervalos de confianza para el cociente de varianzas: En el caso de las varianzas, para
poder compararlas es necesario dividirlas, ya que la diferencia es siempre positiva, como
vimos anteriormente. Se considera que si ba > 1 → a > b o bien si ba < 1 → a < b. Para
este caso necesitamos la distribución F de Fisher, como la razón de variables chi-cuadrado.

Para poder estudiar el cociente de varianzas tenemos el intervalo de confianza:


" #
σx2 s2x s2x
∈ · Fα2 ;nx −1;ny −1 ; · F1− α2 ;nx −1;ny −1
σy2 s2y s2y
" #
s2x 1 s2x
= · ; ·F α
2
sy F1− α2 ;ny −1;nx −1 s2y 1− 2 ;nx −1;ny −1

Observación 4. Se utiliza la propiedad:

1
Fα2 ;n1 −1;n2 −1 =
F1− α2 ;n2 −1;n1 −1
Apunte – Inferencia Estadística
14

Ejemplo: Para una muestra de 17 bonos industriales emitidos recientemente con califica-
ción AAA, la varianza muestral de sus vencimientos (en años al cuadrado) fue de 123,35.
Para otra muestra independiente de 11 bonos industriales emitidos con calificación CCC, la
varianza muestral de sus vencimientos fue de 8,02. Construye un intervalo de confianza al
90 % para el cociente de las varianzas.
Solución.
Llamaremos X al vencimiento de los bonos industriales con calificación AAA e Y al venci-
miento de los bonos con calificación CCC.
" #
σx2 s2x 1 s2x
∈ · ; ·F α
σy2 2
sy F1− α2 ;ny −1;nx −1 s2y 1− 2 ;nx −1;ny −1
" #
s2x 1 s2x
∈ 2
· ; · F0,95;16;10
sy F0,95;10;16 s2y
 
123, 35 1 123, 35
= · ; · 2, 83
8, 02 2, 49 8, 02
 
= 6, 1768 ; 43, 5262

Observación 5. Para calcular el valor de la distribución Fisher F0,95;16;10 se utilizó la tabla de esta
distribución:
Apunte – Inferencia Estadística
15

[65]: # Definición de variables


n_X = 17
var_X = 123.35
n_Y = 11
var_Y = 8.02
# Nivel de significancia
Nivel_de_confianza = 0.9
alpha = 1-Nivel_de_confianza
#Cálculo z crı́tico
f_crı́tico_inf = ss.f.ppf(alpha/2,n_X-1,n_Y-1)
f_crı́tico_sup = ss.f.ppf(1-alpha/2,n_X-1,n_Y-1)
# Construcción intervalo
IC = [var_X/var_Y*f_crı́tico_inf,var_X/var_Y*f_crı́tico_sup]
IC

[65]: [6.168124203474329, 43.488817860369515]

Observación 6. Muestras pareadas: Hasta el momento hemos supuesto que las poblaciones
o variables X e Y son independientes. En el caso de que sean dependientes vamos a estar en
caso de una muestra pareada. Este tipo de casos recoge casos como, por ejemplo, evaluar en la
misma población si un nuevo medicamento es efectivo contra cierta enfermedad o si una campaña
publicitaria tiene efecto sobre las ventas de un producto en la población tomando mediciones
antes (variable X) y después (variable Y).
Ejemplo: Se quiere probar un nuevo medicamento en pacientes con diabetes, por que sirve
para disminuir la concentración de azúcar en la sangre. Para esto se considera una muestra de
9 pacientes, a quienes se les mide la concentración de azúcar antes y 30 minutos después de
suministrarle el nuevo medicamento. Los resultados obtenidos son:

Antes 154 231 315 275 159 198 251 185 260
Después 168 214 172 265 174 184 217 210 213
1. Mediante un intervalo de confianza del 90 %, determina si el nuevo medicamento es eficiente
en el tratamiento contra la diabetes.
2. Determina el intervalo de confianza del 95 % para la verdadera varianza de los datos poste-
riores al medicamento.
3. Si se obtiene una concentración mı́nima de azúcar en la sangre antes del medicamento de
172.1720 mg/dl, determina la confianza utilizada.
Apunte – Inferencia Estadística
16

Solución:
1. Debemos hacer el intervalo de confianza para dos poblaciones no independientes (términos
pareados):

Antes 154 231 315 275 159 198 251 185 260
Después 168 214 172 265 174 184 217 210 213
Di f erencias 14 −17 −143 −10 15 −14 −34 25 −47

Para esta diferencia obtenemos el promedio y desviación muestral:

X̄ = −23, 44 ; s = 50, 62

Ahora calculamos el intervalo de confianza correspondiente a este caso:


   
s 50, 62
X̄ ± t1− 2 ,n−1 √
α = −23, 44 ± t0,95;8 · √
n 9

= [−23, 44 ± 1, 860 · 16, 87]

= [−23, 44 ± 31, 38]

= [−54, 82; 7, 94]

Como el intervalo de confianza pasa por el cero, indica que no hay evidencia de que haya
diferencia, por lo que no se puede asumir que el medicamento es eficiente.
2. Obtenemos el intervalo de confianza para la varianza de los datos posteriores (después)
Primero obtenemos:

X 2α ,n 2
= X0,025;8 2
= 17, 535 ; X12− α ,nd −1 = X0,975;8 = 2, 180
2 d −1 2

De los datos se obtiene que la desviación muestral es sd = 30, 9 (nd = 9); ası́ resulta:
"
(nd − 1)s2d (nd − 1)s2d
#
8 · 30, 92 8 · 30, 92
 
; = ;
X 2α ,n −1 X12− α ,n −1 17, 535 2, 180
2 d 2 d

= [435, 61 − 3503, 89]

3. Utilizamos el lı́mite izquierdo del intervalo de confianza para la media antes del nuevo me-
dicamento:
sa
X̄a − t1− α2 ,na −1 √ = 172, 1720
na

De los datos obtenemos:

n a = 9 ; X̄a = 225, 3 ; s a = 55, 1


Apunte – Inferencia Estadística
17

Ahora resolviendo tenemos:

sa 55, 1
X̄a − t1− α2 ,na −1 √ = 172, 1720 → 225, 3 − t1− α2 ,8 √ = 172, 1720
na 9

→ 2, 893 = t1− α2 ,8

α
→ 1− = 0, 99
2

→ 1 − α = 0, 98

De modo que el nivel de confianza es 98 %.


Apunte – Inferencia Estadística
18

5. Test o contrastes de hipótesis.


Frecuentemente, el problema que se presenta en estadı́stica no es tan solo la estimación de un
parámetro, sino el diseño de una regla de decisión que nos conduzca a la aceptación o rechazo
de alguna afirmación que hemos hecho sobre la población. Estas afirmaciones se denominan
hipótesis estadı́sticas y pueden estar referidas únicamente al valor de un parámetro poblacional
(media, desviación estándar, etc.) o a la ley que rige el comportamiento del fenómeno aleatorio
a estudio (la población es uniforme, normal, etc.). Los métodos que conducen a la aceptación
o rechazo de una hipótesis estadı́stica se denominan contrastes, pruebas o test de hipótesis
estadı́sticas.
Definición 2. La hipótesis nula, denotada por H0 , es la pretensión de que inicialmente se
supone cierta (la pretensión de “creencia previa”). La hipótesis alternativa, denotada por Ha o H1 ,
es la aseveración contradictoria a H0 . La hipótesis nula será rechazada en favor de la hipótesis
alternativa solo si la evidencia muestral sugiere que H0 es falsa. Si la muestra no contradice
fuertemente a H0 , se continuará creyendo en la verdad de la hipótesis nula. Las dos posibles
conclusiones derivadas de un análisis de prueba de hipótesis son entonces aceptar H0 o no
aceptar - rechazar H0 .

Supongamos que se desea contrastar la llamada hipótesis nula H0 : µ = µ0 frente a la alternativa


H1 : µ ̸= µ0 . El planteamiento dependerá del conocimiento que se tenga de la población. En el
caso de una población normal con σ conocido se tiene: Eneste caso sabemos que la variable
σ2

media muestral X̄ sigue una distribución normal N µ0 , , suponiendo que H0 es cierta, de
n
forma que:
X̄ − µ0
σ ∈ N (0, 1)

n
Lo que nos permite, fijado α, obtener el valor z1− α2 tal que:
 
X̄ − µ0
P −z1− α2 ≤ ≤ z1− α2  = 1 − α
 
σ

n

Y adoptar la regla de decisión siguiente:

X̄ − µ0 h i
si σ ∈ −z1− α2 ; z1− α2 acepta H0

n

X̄ − µ0 h i
si σ ̸∈ −z1− α2 ; z1− α2 rechaza H0

n
Apunte – Inferencia Estadística
19

Este test se conoce como bidimensional, ya que hay dos zonas de rechazo, cuando el estadı́stico
X̄ − µ0
observado σ es muy grande o muy pequeño, es decir, la zona de rechazo es para valores

n
grandes positivos, o negativos de gran valor absoluto. Existe otro tipo de contraste unidimensio-
nales donde existe solo una zona de rechazo y depende del objetivo de estudio.
1. Test de hipótesis para la media:
a. Cuando σ2 es conocida:
El test bidimensional resulta:

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

X̄ − µ0 | X̄ − µ0 |
µ = µ0 µ ̸ = µ0 z= σ Normal σ ≤ z1− α2
√ √
n n

El test unidimensional con zona de rechazo a la derecha es:

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

X̄ − µ0 X̄ − µ0
µ ≤ µ0 µ > µ0 z= σ Normal σ ≤ z 1− α
√ √
n n

El test unidimensional con zona de rechazo a la izquierda es:

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

X̄ − µ0 X̄ − µ0
µ ≥ µ0 µ < µ0 z= σ Normal − z 1− α ≤ σ
√ √
n n

Ejemplo: Cierto tipo de condensador electrónico ha sido fabricado por una empresa
durante varios años y se ha observado que la duración de estos condensadores es una
variable aleatoria normal con desviación estándar de 90 horas. Una muestra aleatoria
de 20 de estos condensadores tuvo una duración media de 1450 horas. Prueba la
hipótesis de que la duración media de estos condensadores es de 1500 horas. α =
0.05.
Apunte – Inferencia Estadística
20

Solución.
Se desea conocer si la duración media de los condensadores es igual a 1500 horas.
Por lo tanto, se establece la hipótesis como:

H0 : µ = 1500
H1 : µ ̸= 1500

Ahora, con los datos del enunciado reemplazamos y calculamos el estadı́stico obser-
vado:
X̄ − µ0 1450 − 1500
z= = = −2,4845

σ 90

n 20
Luego, se debe buscar la probabilidad asociada al estadı́stico anterior y analizar si se
encuentra en la zona de aceptación o rechazo.

Una forma alternativa para el cálculo es el siguiente código en Python.


[27]: m_muestral = 1450
m_poblacional = 1500
de_poblacional = 90
n = 20
z_obs = (m_muestral-m_poblacional)/(de_poblacional/np.sqrt(n))
z_obs

[27]: -2.484519974999767

[29]: ss.norm.cdf(z_obs)

[29]: 0.00648631149952178
Apunte – Inferencia Estadística
21

Como indica la tabla y el código de Python, para el estadı́stico calculado la probabi-


lidad es 0.0064. Como la probabilidad encontrada es menor al valor de significancia
bidimensional (0,025 a la izquierda y 0,975 a la derecha) nos encontramos en la zona
de rechazo a la hipótesis nula y se concluye que: .Existe evidencia estadı́sticamente
significativa a un nivel de confianza del 95 % para indicar que la vida media poblacional
de los condensadores es distinta a 1500”.

b. Cuando σ2 es desconocida:
El test bidimensional resulta:
H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

X̄ − µ0 | X̄ − µ0 |
µ = µ0 µ ̸ = µ0 z= s t de Student s ≤ t1− α2 ,n−1
√ √
n n

El test unidimensional con zona de rechazo a la derecha es:


H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

X̄ − µ0 X̄ − µ0
µ ≤ µ0 µ > µ0 z= s t de Student s ≤ t1−α,n−1
√ √
n n

El test unidimensional con zona de rechazo a la izquierda es:


H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

X̄ − µ0 X̄ − µ0
µ ≥ µ0 µ < µ0 z= s t de Student −t1−α,n−1 ≤ s
√ √
n n

Ejemplo: El tiempo de acceso al disco duro en un cierto modelo de computador


es una variable aleatoria con media 15 milisegundos. Se ha propuesto una modifi-
cación técnica con objeto de disminuir este tiempo de acceso. Se prueba el nuevo
sistema en 10 computadores, obteniéndose un promedio de 14 ms. y desviación
estándar de 2,286 ms. ¿Se puede establecer que la modificación disminuye el
tiempo de acceso al disco duro? Considera un nivel de significación 0,05.
Solución. Se desea conocer si la duración media de acceso al disco duro con
modificaciones es menor a 15 milisegundos. Por lo tanto, se establece la hipótesis
como:

H0 : µ ≥ 15
H1 : µ < 15
Apunte – Inferencia Estadística
22

Ahora, con los datos del enunciado reemplazamos y calculamos el estadı́stico ob-
servado:

X̄ − µ0 14 − 15
t= s = = −1,3833
√ 2,286

n 10

Para encontrar la probabilidad de este estadı́stico, utilizaremos el siguiente código


en Python.
[ ]: m_muestral = 14
m_poblacional = 15
de_muestral = 2.286
n = 10
t_obs = (m_muestral-m_poblacional)/(de_muestral/np.sqrt(n))
t_obs

[ ]: -1.3833235608785563

[ ]: ss.t.cdf(t_obs,9)

[ ]: 0.0999563596629237

Como indica el código de Python, para el estadı́stico calculado la probabilidad es


0.0999. Como la probabilidad encontrada es mayor al valor de significancia uni-
dimensional (0,05 a la izquierda) nos encontramos en la zona de aceptación a la
hipótesis nula y se concluye que: ”No existe evidencia estadı́sticamente significa-
tiva a un nivel de confianza del 95 % para indicar que las modificaciones técnicas
para el acceso al disco duro disminuyan la velocidad de acceso”.
c. Cuando σ2 es desconocida y la muestra es grande n > 30:
El test bidimensional resulta:

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

X̄ − µ0 | X̄ − µ0 |
µ = µ0 µ ̸ = µ0 z= s Normal s ≤ z1− α2
√ √
n n

El test unidimensional con zona de rechazo a la derecha es:

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

X̄ − µ0 X̄ − µ0
µ ≤ µ0 µ > µ0 z= s Normal s ≤ z 1− α
√ √
n n
Apunte – Inferencia Estadística
23

El test unidimensional con zona de rechazo a la izquierda es:

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

X̄ − µ0 X̄ − µ0
µ ≥ µ0 µ < µ0 z= s Normal − z 1− α ≤ s
√ √
n n

Ejemplo: Una empresa fabrica cuerdas cuya resistencia media a la rotura es de


300 kg. Una muestra de 64 cuerdas fabricadas mediante un nuevo proceso de
fabricación dio una resistencia media de 310 kg y desviación estándar muestral de
24. La compañı́a desea estudiar si, efectivamente, el nuevo proceso da mejores
resultados que el antiguo. Realiza el estudio correspondiente. Utiliza α = 0, 05.
Solución. Del enunciado debemos considerar s = 24, las hipótesis son:
H0 : µ ≤ 300; H1 : µ > 300
310 − 300
n = 64, x̄ = 310, estadı́stico observado es zestadı́stico = = 3, 3̄
24

64
Debemos comparar con el valor crı́tico, tenemos que α = 0, 05 de esta forma
z1−α = 1, 65
finalmente, 3, 3̄ > 1, 65 y por lo tanto se rechaza H0 y se acepta que el nuevo
proceso da mejores resultados que el antiguo.
2. Test de hipótesis para la proporción:
El test bidimensional resulta:

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

ρ̄ − ρ0 |ρ̄ − ρ0 |
ρ = ρ0 ρ ̸ = ρ0 z= r Normal r ≤ z1− α2
ρ0 (1 − ρ0 ) ρ0 (1 − ρ0 )
n n

El test unidimensional con zona de rechazo a la derecha es:

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

ρ̄ − ρ0 ρ̄ − ρ0
ρ ≤ ρ0 ρ > ρ0 z= r Normal r ≤ z 1− α
ρ0 (1 − ρ0 ) ρ0 (1 − ρ0 )
n n
Apunte – Inferencia Estadística
24

El test unidimensional con zona de rechazo a la izquierda es:

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

ρ̄ − ρ0 ρ̄ − ρ0
ρ ≥ ρ0 ρ < ρ0 z= r Normal − z 1− α ≤ r
ρ0 (1 − ρ0 ) ρ0 (1 − ρ0 )
n n

Ejemplo: Una empresa se plantea la posibilidad de establecer un servicio complementario


de información a sus clientes. Este será rentable únicamente si más del 40 % de los clientes
están interesados. Para poder tomar una decisión se realizó un sondeo con una muestra
aleatoria de 100 clientes, de los cuales 45 estar de acuerdo. ¿Existe evidencia suficiente al
nivel de significación del 5 % para apoyar la hipótesis de rentabilidad?
Solución. Se desea conocer si hay más de 40 % de los clientes interesados para incorporar
un servicio complementario de información. Por lo tanto, se establece la hipótesis como:

H0 : ρ ≤ 0,4
H1 : ρ > 0,4

Ahora, con los datos del enunciado se puede desprender que de la muestra el 45 % de los
clientes está interesado, luego reemplazamos y calculamos el estadı́stico observado:

ρ̄ − ρ0 0,45 − 0,4
z= r =r = 1,021
ρ0 (1 − ρ0 ) 0,4(1 − 0,6)
n 100

Para encontrar la probabilidad de este estadı́stico, utilizaremos el siguiente código en


Python.
[24]: p_muestra = 0.45
p_poblacional = 0.4
q_poblacional = 1-p_poblacional
n_muestral = 100
z_obs = (p_muestra-p_poblacional)/np.
,→sqrt(p_poblacional*q_poblacional/n_muestral)

z_obs

[24]: 1.0206207261596574

[30]: ss.norm.cdf(z_obs)

[30]: 0.8462829170363023

Como indica el código de Python, para el estadı́stico calculado la probabilidad es 0.8463.


Como la probabilidad encontrada es menor al valor de significancia unidimensional (0,95 a
25

la derecha) nos encontramos en la zona de aceptación a la hipótesis nula y se concluye que:


”Con base en la evidencia presentada a un nivel de confianza del 95 % se tiene significancia
estadı́stica para indicar que más del 40 % de los clientes está interesado en el sistema”.
3. Test de hipótesis para la varianza:
El test bidimensional resulta:
H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

( n − 1) s2 ( n − 1) s2 h 2 i
σ = σ0 σ ̸= σ0 χ2 = Chi cuadrada ∈ χ α ,n−1 ; χ21− α ,n−1
σ02 σ02 2 2

El test unidimensional con zona de rechazo a la derecha es:


H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

( n − 1) s2 ( n − 1) s2
σ ≤ σ0 σ > σ0 χ2 = Chi cuadrada ≤ χ21−α,n−1
σ02 σ02

El test unidimensional con zona de rechazo a la izquierda es:

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

( n − 1) s2 ( n − 1) s2
σ ≥ σ0 σ < σ0 χ2 = Chi cuadrada χ2α,n−1 ≤
σ02 σ02

Ejemplo: En una embotelladora de refresco el proceso de llenado realizado por una máquina
está fuera de control cuando la desviación estándar de la cantidad de refresco vertida supera 0,02
u.m. Para controlar la variabilidad se tomó una muestra aleatoria de 28 botellas llenadas por la
máquina y se obtuvo una desviación estándar s = 0,027 u.m. ¿Puede concluirse que la máquina
está fuera de control? Considera α = 5 %
Solución. Se desea conocer si la duración media de acceso al disco duro con modificaciones es
menor a 15 milisegundos. Por lo tanto, se establece la hipótesis como:

H0 : σ ≤ 0,02
H1 : σ > 0,02

Ahora, con los datos del enunciado reemplazamos y calculamos el estadı́stico observado:

( n − 1) s2 (27)0,0272
χ2 = = = 49,2075
σ02 0,022

Para encontrar la probabilidad de este estadı́stico, utilizaremos el siguiente código en Python.


Apunte – Inferencia Estadística
26

[32]: s = 0.027
n = 28
sigma = 0.02
chi_obs = (n-1)*s**2/sigma**2
chi_obs

[32]: 49.207499999999996

[39]: ss.chi2.cdf(chi_obs,n)

[39]: 0.9920828988316592

Como indica el código de Python, para el estadı́stico calculado la probabilidad es 0.9921. Como
la probabilidad encontrada es mayor al valor de significancia unidimensional (0,95 a la derecha)
nos encontramos en la zona de rechazo a la hipótesis nula y se concluye que: ”Existe evidencia
estadı́sticamente significativa a un nivel de confianza del 95 % para indicar que la máquina se
encuentra fuera de control”.

6. Test o contrastes de hipótesis para las diferencias.


1. Test de hipótesis para la diferencia de medias:
a. Test para la diferencia de medias poblacionales normales con σx2 y σy2 conocidas:
Test para evaluar la desigualdad:

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

x̄ − ȳ | x̄ − ȳ|
µ x = µy µ x ̸= µy z= s Normal s ≤ z1− α2
σx2 σy2 σx 2 σ 2
y
+ +
nx ny nx ny

Test para evaluar la desigualdad mayor (o menor):

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

x̄ − ȳ x̄ − ȳ
µ x ≤ µy µ x > µy z= s Normal s ≤ z 1− α
σx2 σy2 σx2 σy2
+ +
nx ny nx ny

b. Test para la diferencia de medias poblacionales normales con σx2 y σy2 desconocidas y
muestra grande (n x + ny > 30):
Apunte – Inferencia Estadística
27

Test para evaluar la desigualdad:

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

x̄ − ȳ | x̄ − ȳ|
µ x = µy µ x ̸= µy z= s Normal s ≤ z1− α2
s2x s2y s2x s2y
+ +
nx ny nx ny

Test para evaluar la desigualdad mayor (o menor):

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

x̄ − ȳ x̄ − ȳ
µ x ≤ µy µ x > µy z= s Normal s ≤ z 1− α
s2x s2y s2x s2y
+ +
nx ny nx ny

c. Test para la diferencia de medias poblacionales normales con σx2 y σy2 desconocidas e
iguales (σx2 = σy2 ) y muestra pequeña (n x + ny ≤ 30):

Test para evaluar la desigualdad:

H0 H1 Estadı́stico observado Distribución Regla aceptación H0

x̄ − ȳ
t= s | x̄ − ȳ|
1 1 ≤ t1− α2 ,k
sp +
r
nx ny 1 1
µ x = µy µ x ̸= µy t de Student sp +
n1 n2
(n x − 1)s2x + (ny − 1)s2y
s2p = k = n x + ny − 2
n x + ny − 2

Test para evaluar la desigualdad mayor (o menor):

H0 H1 Estadı́stico observado Distribución Regla aceptación H0

x̄ − ȳ
t= s x̄ − ȳ
1 1 ≤ t1−α,k
sp +
r
1 1
nx ny sp +
µ x ≤ µy µ x > µy t de Student n1 n2
(n x − 1)s2x + (ny − 1)s2y k = n x + ny − 2
s2p =
n x + ny − 2
Apunte – Inferencia Estadística
28

d. Test para la diferencia de medias poblacionales normales con σx2 y σy2 desconocidas y
distintas (σx2 ̸= σy2 ) y muestra pequeña (n x + ny ≤ 30):

Test para evaluar la desigualdad:

H0 H1 Estadı́stico observado Distribución Regla aceptación H0

x̄ − ȳ
t= s
s2x s2y
+
nx ny
| x̄ − ȳ|
µ x = µy µ x ̸= µy  2 t de Student s ≤ t1− α2 , f
s2x s2y s2y
nx + ny
s2x
+
f = 2 2 −2 nx ny
s2y
 
s2x
nx ny

n y +1 + n y +1

Test para evaluar la desigualdad mayor (o menor):

H0 H1 Estadı́stico observado Distribución Regla aceptación H0

x̄ − ȳ
t= s
s2x s2y
+
nx ny
x̄ − ȳ
µ x ≤ µy µ x > µy  2 t de Student s ≤ t1− α2 , f
s2x s2y s2y
nx + ny
s2x
+
f = 2 2 −2 nx ny
s2y
 
s2x
nx ny

n x +1 + n y +1

2. Test de hipótesis para la diferencia de proporciones:


" r #
p̄(1 − p̄)
ρ ∈ p̄ ± z1− α2
n

Test para evaluar la desigualdad:

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

ρ¯x − ρ¯y
ρ x = ρy ρ x ̸= ρy zest = r Normal |zest | ≤ z1− α2
ρ x (1 − ρ x ) ρ y (1 − ρ y )
+
nx ny
Apunte – Inferencia Estadística
29

Test para evaluar la desigualdad mayor (o menor):

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

ρ¯x − ρ¯y
ρ x ≤ ρy ρ x > ρy zest = r Normal zest ≤ z1−α
ρ x (1 − ρ x ) ρ y (1 − ρ y )
+
nx ny

3. Test de hipótesis para la diferencia de varianzas:


Test para evaluar la desigualdad:

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

s2x s2x h i
σx2 = σy2 σx2 ̸= σy2 F= F de Fisher ∈ F 2 ,n x −1,ny −1
α ; F1− 2 ,n x −1,ny
α
s2y s2y

Test para evaluar la desigualdad mayor (o menor):

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0

s2x s2x
σx2 ≤ σy2 σx2 > σy2 F= F de Fisher ≤ F1−α,nx −1,ny
s2y s2y

Ejemplo: Se revisó la dureza del agua (Y) de dos muestras obtenidas a partir de bocas de salida
separadas de una planta de energı́a. Los resultados codificados (partes por millón) se presentan
a continuación:

Ubicación ni ∑ yi ∑ y2i
1 9 504 29101
2 14 868 54201

Analiza si la varianza de la dureza del agua proveniente del lugar 1 es mayor que la del lugar 2.
Considera α = 5 %.
Solución. Se desea conocer si la razón de varianzas entre las ubicaciones es mayor o igual a 1.
Por lo tanto, se establece la hipótesis como:

H0 : σ12 /σ22 ≤ 1
H1 : σ12 /σ22 > 1

Ahora, con los datos del enunciado podemos obtener las varianzas de cada ubicación, reempla-
zamos y calculamos el estadı́stico observado:
Apunte – Inferencia Estadística
30

s21 97,44
F= 2
= = 3,5434
s2 27,5

Para encontrar las varianzas de cada ubicación y probabilidad de este estadı́stico utilizaremos el
siguiente código en Python.
[37]: var_1 = 29101/9 - (504/9)**2
var_2 = 54201/14 - (868/14)**2
n_1 = 9
n_2 = 14
F_obs = var_1/var_2
F_obs

[37]: 3.5434343434343396

[38]: ss.f.cdf(F_obs,n_1,n_2)

[38]: 0.9830034238259722

Como indica el código de Python, para el estadı́stico calculado la probabilidad es 0.983. Como
la probabilidad encontrada es mayor al valor de significancia unidimensional (0,95 a la derecha)
nos encontramos en la zona de rechazo a la hipótesis nula y se concluye que: ”Existe evidencia
estadı́sticamente significativa a un nivel de confianza del 95 % para indicar que la varianza de la
dureza del agua en la ubicación 1 es mayor a la varianza de la dureza del agua de la ubicación
2”.

Ejemplo: Se piensa que la concentración del ingrediente activo de un detergente lı́quido para
ropa es afectada por el tipo de catalizador utilizado en el proceso de fabricación. Se realizan diez
observaciones con cada catalizador y se obtienen los siguientes resultados:
Catalizador 1: 57, 9; 66, 2; 65, 4; 65, 4; 65, 2; 62, 6; 67, 6; 63, 7; 67, 2; 71, 0.
Catalizador 2: 66, 4; 71, 7; 70, 3; 69, 3; 64, 8; 69, 6; 68, 6; 69, 4; 65, 3; 68, 8.
¿Existe alguna evidencia que indique que las concentraciones activas medias dependen del
catalizador utilizado? Utilizar α = 0, 05.

Solución. Del enunciado podemos obtener los valores: X̄1 = 65, 22; s1 = 3, 44; n1 = n2 = 10;
X̄2 = 68, 42; s2 = 2, 22.
Primero debemos determinar si las varianzas son iguales o distintas para luego realizar el con-
traste.
Apunte – Inferencia Estadística
31

Las primeras hipótesis son:


H0 : σ12 = σ22 ; H1 : σ12 ̸= σ22
s21
El estadı́stico observado es Fprueba = = 2, 40, además los valores extremos son:
s22
F0,975;9;9 = 4, 026; F0,025;9;9 = 0, 248. Como 2, 40 ∈ [0, 248; 4, 026] se acepta H0 y, por lo tanto,
consideraremos σ12 = σ22 para realizar el test.
Debemos determinar si las medias son iguales o distintas, por lo que tenemos las hipótesis:
H0 : µ1 = µ2 ; H1 : µ1 ̸= µ2
Debemos obtener el estadı́stico observado, para ello necesitamos s2p =
2
9 · (3, 44) + 9 · (2, 22) 2
= 8, 381 → s p = 2, 895
18
|65, 22 − 68, 42|
Ası́ testadı́stico = q = 2, 472
1 1
2, 895 · 10 + 10
Considerando α = 0, 05 el valor crı́tico es t0,975;18 = 2, 101; como 2, 472 > 2, 101 se rechaza
H0 , por lo que hay evidencia de que las concentraciones activas medias dependen del
catalizador utilizado.

7. Prueba de bondad de ajuste.


El test de bondad de ajuste se utiliza para determinar si una colección de datos se ajusta a una
distribución teórica de una determinada población. Nos dice si la muestra disponible representa o
se ajusta de manera razonable a los datos que se esperan encontrar en la población.
La fórmula para el cálculo del estadı́stico chi cuadrado utilizado en el test de bondad de ajuste es:

(Oi − Ei )2
χ2prueba = ∑ Ei
i

Donde Oi corresponde al valor observado y Ei corresponde al valor esperado de la clase u obser-


vación i-ésima.
Las hipótesis del test son:

H0 : Los datos se ajustan a una distribución dada


H1 : Los datos no se ajustan a una distribución dada

Determinado el valor de α el valor crı́tico es χ21−α;gl o se puede obtener el α o p-valor del es-
tadı́stico de prueba. gl corresponden a los grados de libertad (gl es la cantidad de filas menos
1).
Apunte – Inferencia Estadística
32

Ejemplo: La señora Patricia Mora es la gerente de marketing de un fabricante de tarjetas depor-


tivas. Ella planea iniciar la venta de una serie de tarjetas con fotografı́as y estadı́sticas de juego
de ex jugadores de las ligas mayores de béisbol. Uno de los problemas es la selección de ex
jugadores. En una exhibición de tarjetas de béisbol en Southwyck Mall el pasado fin de semana,
instaló un puesto y ofreció tarjetas de los siguientes seis jugadores miembros del Salón de la
Fama: Tom Seaver, Nolan Ryan, Ty Cobb, George Brett, Hank Aaron y Johnny Bench. Al final del
dı́a vendió un total de 120 tarjetas. El número de tarjetas vendidas de cada jugador aparece en la
siguiente tabla:
Jugador tarjetas vendidas
Tom Seaver 13
Nolan Ryan 33
Ty Cobb 14
George Brett 7
Hank Aaron 36
Johnny Bench 17
Total 120
¿La señora Kilpatrick puede concluir que las ventas no son iguales por cada jugador? Considera
α = 0, 05.
Solución. Si no hay una diferencia significativa en la popularidad de los jugadores, se esperarı́a
que las frecuencias observadas Oi fueran iguales o casi iguales. Es decir, se esperarı́a vender
igual número de tarjetas de Tom Seaver que de Nolan Ryan. Por tanto, cualquier discrepancia
en las frecuencias observada y esperada puede atribuirse al muestreo (casualidad). Como hay
120 tarjetas en la muestra, se espera que fe sea 20 tarjetas, es decir, la frecuencia esperada Ei
aparecerá en cada una de las seis categorı́as.
Ahora tenemos las hipótesis:

H0 : Las ventas se distribuyen de igual forma entre las seis categorı́as


H1 : Las ventas no se distribuyen de igual forma entre las seis categorı́as

El estadı́stico de prueba lo obtenemos con la tabla:

Jugador valor observado Oi valor esperado Ei Oi − Ei


Tom Seaver 13 20 −7
Nolan Ryan 33 20 13
Ty Cobb 14 20 −6
George Brett 7 20 −13
Hank Aaron 36 20 −16
Johnny Bench 17 20 −3
Total 120 120 0

Ası́, de la tabla tenemos:


(Oi − Ei )2
χ2prueba = ∑ Ei
= 34, 40
i
Si trabajamos con α = 0, 05 tenemos que nuestro valor crı́tico es:

χ21−α;gl = X0,95
2
; 6−1 = 11, 070

Veamos una alternativa para resolver este ejercicio en Python:


Apunte – Inferencia Estadística
33

[31]: # Definimos las variables


Observado = np.array([13,33,14,7,36,17])
Esperado = np.array([20,20,20,20,20,20])
# Construimos el estadı́stico de prueba
Dif = Observado - Esperado
Dif2 = Dif**2/Esperado
X2_prueba = sum(Dif2)
# Calculamos los grados de libertad
gl = len(Observado)-1
# Estadı́stico crı́tico
Nivel_confianza = 0.95
X2 = ss.chi2.ppf(Nivel_confianza,gl)
# Comparamos los valores
X2_prueba < X2

[31]: False

Como el estadı́stico es mayor que el valor crı́tico, se rechaza H0 , por lo que se establece que las
ventas no se distribuyen de igual forma entre las seis categorı́as.

8. Test de independencia chi-cuadrado


La χ2 es una prueba de libre distribución (no paramétrica) que mide la diferencia o discrepancia
entre una distribución de frecuencias observadas y esperadas. Sirve para estudiar la independen-
cia de dos variables aleatorias.
Sean X e Y dos variables de la misma población. Se definen las hipótesis:

H0 : no hay relación entre las variables ; H1 : sı́ hay relación entre las variables

" #
3 3 (Oij − Eij )2
2
Xprueba = ∑∑ Eij
i =1 j =1

Se compara con X12−α,gl , donde α es el error y gl = (n◦ filas − 1) · (n◦ columnas − 1).
Se acepta H0 si:
χ2prueba ≤ χ21−α,gl

Ejemplo: Supón que se encuestó a una muestra aleatoria de personas de todos los grupos
socioeconómicos. De un listado de marcas de bebidas gaseosas, los encuestados debı́an elegir la
de mayor preferencia (U, V o W). Los resultados con las frecuencias observadas de preferencias
se muestran a continuación:
Marca
Grupo U V W
ABC 12 11 16
D 9 6 3
E 0 5 9
Apunte – Inferencia Estadística
34

Verificar si la elección de la marca de bebida gaseosa está condicionada al nivel socioeconómico.


Usa una significancia del 5 %.
Solución. Test de independencia χ2 :

H0 :̸ ∃ relación ; H1 : ∃ relación
En el enunciado se tienen los valores observados (Oij ) y calculamos los valores esperados ( Eij )
ni ∗ · n ∗ j
utilizando las distribuciones marginales, es decir, Eij = . La siguiente tabla muesta los
ntotal
valores esperados:
Marca
Grupo U V W
ABC 11, 5 12, 1 15, 4
D 5, 3 5, 6 7, 1
E 4, 1 4, 3 5, 5
" #
3 3 (Oij − Eij )2
Calculamos χ2prueba = ∑ ∑ = 11, 58.
i =1 j =1
Eij
Para α = 0, 05 y 4 grados de libertad ((no filas - 1)·(no columnas - 1)), se tiene:

χ20,95;4 = 9, 4877

Como χ20,95;4 < χ2Prueba , se rechaza H0 y se acepta que existe relación entre ambas variables, por
lo que la marca de la bebida está condicionada al nivel socioeconómico.
Apunte – Inferencia Estadística
35

Referencias bibliográficas.
1. Devore, J. L. (2008). Probabilidad y estadı́stica para ingenierı́as y ciencias. Cengage Lear-
ning Editores.
2. Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2007). Probabilidad y estadı́stica para
ingenierı́a y ciencias. Norma, 162, 157.
3. Montgomery, D. C., Runger, G. C., & Medal, E. G. U. (1996). Probabilidad y estadı́stica
aplicadas a la ingenierı́a (No. 968-18-5914-6. 01-A1 LU. AL-PyE. 1.). México DF, México:
McGraw-Hill.

También podría gustarte