FMSP316 s7 Apunte2

APUNTE
Inferencia Estadística
Castillo, S. (2021) & Moraga, F (2022).

Material didáctico
UniversidadAndrés Bello, Santiago.
Apunte – Inferencia Estadística
2
1. Introducción.
La estadı́stica inferencial o inferencia estadı́stica estudia cómo determinar conclusiones generales
para toda la población a partir del estudio de una muestra y el grado de significación de los
resultados obtenidos. Esto se debe hacer cuando es imposible contar con los datos de toda la
población y poder encontrar los parámetros que la describen. La estadı́stica inferencial se centra
en la estimación de estos parámetros para que, usando la probabilidad, se pueda concluir sobre
la población. La estimación de los parámetros es de dos tipos. Estimación puntual, donde se trata
de encontrar el valor exacto del parámetro. Dado un parámetro de interés, tal como la media µ o
la proporción ρ de una población, el objetivo de la estimación puntual es utilizar una muestra para
calcular un número que representa en cierto sentido una buena suposición del valor verdadero
del parámetro. El número resultante se llama estimación puntual. Y la estimación por intervalos,
donde a la estimación puntual se le agrega el término de error que se genera al extender el
resultado. Este error se puede restar o sumar, lo que genera una estimación por intervalos o
intervalos de confianza. Un intervalo de confianza siempre se calcula seleccionando primero un
nivel de confianza, el cual mide el grado de confiabilidad del intervalo. Un nivel de confianza de
95 % implica que el 95 % de todas las muestras darı́a un intervalo que incluye µ o cualquier otro
parámetro que se esté estimando y solo 5 % de las muestras darı́an un intervalo erróneo. Los
niveles de confianza más frecuentemente utilizados son 95 %, 99 % y 90 %. Mientras más alto
es el nivel de confianza, más fuerte es la creencia de que el valor del parámetro que se está
estimando queda dentro del intervalo. Al nivel de confianza se le conoce como 1 − α, y α es el
nivel de significancia. Si el nivel de significancia es el 5 % entonces α = 0, 05 (se trabaja como
ı́ndice).
Las distribuciones muestrales resultan cuando se consideran todas las muestras posibles que
pueden ser tomadas de una población. Sirve para calcular la probabilidad que tiene el estimador
de acercarse al parámetro y se desea extender el resultado de la muestra a la población completa.
En la unidad anterior vimos la primera de estas distribuciones.
2. Distribuciones Muestrales.
1. Distribución de la media muestral: Si X es una variable aleatoria con media µ y varianza σ2
conocidas, la variable aleatoria X̄ (media muestral) sigue una distribución normal de media
σ2
µ y varianza , es decir:
n
σ2

X̄ → N µ,
n
2. Distribución de la varianza muestral: Si se toma una muestra con reemplazo { x1 , x2 , , , , , xn }

de n valores, el estimador de la varianza poblacional es s2 :
n n
( xi − x̄ )2 1
s2n−1 = ∑ n−1 =
n − 1 ∑ (xi − x̄)2
i =1 i =1
Por simplicidad denotaremos s2 = s2n−1 .

3
s2n−1
Para estimar la varianza poblacional se necesita conocer el estadı́stico χ2 = (n − 1)
σ2
que tiene una distribución muestral chi-cuadrada con n − 1 grados de libertad, es decir:
s2n−1
( n − 1) → χ2n−1
σ2
Donde n es el tamaño de la muestra, s2 la varianza muestral y σ2 la varianza poblacional.
La distribución chi cuadrada χ2 o de Pearson es una distribución continua con un parámetro
k ∈ N que representa los grados de libertad de la variable aleatoria X, definida como la
suma de k variables aleatorias independientes normales N (0, 1) al cuadrado, es decir:
k
X= ∑ Zi2
i =1
Donde todos los Zi siguen una distribución normal N (0, 1).
Definición 1. Los grados de libertad son la combinación del número de observaciones de un

conjunto de datos que varı́an de manera aleatoria e independiente menos las observaciones que
están condicionadas a estos valores arbitrarios.
En otras palabras, los grados de libertad son el número de observaciones puramente libres (que
pueden variar) cuando estimamos los parámetros. Por ejemplo, se tiene un conjunto de datos
de n observaciones, la suma de los n valores dividido en n debe ser igual a la media (un valor
fijo). Con esta restricción tenemos n − 1 variables libres (pueden tomar cualquier valor) porque la
última variable se debe ajustar para obtener el promedio.
Ejemplo: Si la edad de personas que postulan a cierto cargo se distribuye de forma normal con
media 46,6 años y una desviación estándar de 13,97 años.
Se elige una muestra aleatoria de 25 postulantes de la población en estudio. Determina la
probabilidad de que la varianza muestral esté contenida entre 12,922 y 14,972 años2 .
Solución. Debemos obtener:

24 · 12, 922 ( n − 1) s2 24 · 14, 972

P(12, 922 < s2 < 14, 972 ) = P 2
< 2
<
13, 97 σ 13, 977
= P(20, 5278 < χ224 < 27, 5589)
= P(χ224 > 20, 5278) − P(χ224 > 27, 5589)
= 0, 65 − 0, 30
= 0, 35
Finalmente, la probabilidad de que la varianza de una muestra de 25 postulantes esté entre ambos
valores es de 35 %.
4
Observación 1. Para calcular la probabilidad P(χ224 > 27, 5589) se utiliza la tabla de esta distribu-
ción. Las tablas chi cuadrado, a diferencia de las tablas de la distribución normal, generalmente
utilizan probabilidad mayor (mayor o igual). La tabla normal usa menor (menor o igual):
3. Intervalos de Confianza.
En estadı́stica se sabe que las estimaciones puntuales no son exactas, por lo que se intenta medir
el grado de error en estas estimaciones, dando paso a las estimaciones por intervalos o intervalos
de confianza.
2
En el caso de una población normal
con 2
σ conocido sabemos que la variable media muestral X̄
σ
sigue una distribución normal N µ, de forma que:
n
X̄ − µ 2
σ ∈ N (0, 1 )
√
n
Lo que nos permite, fijado α, obtener el valor z1− α2 tal que:

 
X̄ − µ
P −z1− α2 ≤ σ ≤ z1− α2  = 1 − α
 
√
n
X̄ − µ
Despejando µ de la desigualdad −z1− α2 ≤ σ ≤ z1− α2 tenemos que:
√
n
σ σ
−z1− α2 √ ≤ µ ≤ z1− α2 √
n n
5
Finalmente, el intervalo de confianza para la media poblacional µ resulta:

 
 σ 
 X̄ ± z1− α2 √n 
µ∈ 
| {z }
error
Para que la estimación tenga sentido se adopta α, que es la significancia o error tipo 1 del
intervalo de confianza. Es la probabilidad de errar al realizar la estimación. El α lo define el
investigador, pero generalmente se usan valores menores al 10 %. Tampoco se puede utilizar un
valor tan bajo, ya que esto significa que el error de la estimación aumenta y el intervalo se hace
más grande. El valor 1 − α se conoce como el grado de confianza del intervalo.
Ejemplo: Considerando α = 0, 05 tenemos que z1− α2 = z0,975 = 1, 96. Esto porque P( Z <
1, 96) = 0, 975. Dependiendo de la situación y el parámetro que se desea estimar vamos a tener
distintos tipos de intervalos de confianza, los cuales resumiremos en:
1. Intervalos de confianza para la media:
a. Cuando σ2 es conocida: El intervalo es:

σ
µ ∈ X̄ ± z1− α2 √
n
b. Cuando σ2 es desconocida: cuando σ2 es desconocido se utiliza la varianza muestral

s2n−1 como estimación puntual para σ2 , debido a que el valor esperado de s2n−1 es σ2
2 2

(E s = σ ). Se puede construir el intervalo utilizando la distribución t de Student con
n − 1 grados de libertad, resultando:

s
µ ∈ X̄ ± t1− α2 ,n−1 √
n
La distribución t de Student surge debido al problema de estimar la media de una

población normalmente distribuida cuando el tamaño de la muestra es pequeño
(n ≤ 30).
c. Cuando σ2 es desconocida y la muestra es grande n > 30: En este caso s suele

ser un estimador muy preciso de σ, de forma que el intervalo se puede construir solo
sustituyendo s por σ:
s
µ ∈ X̄ ± z1− α2 √
n
Debido al tamaño de la muestra, no hay mayor diferencia entre usar distribución normal
o distribución t de Student.
6
Ejemplo: Consideremos una caja con tarjetas, cada una con un número. Supongamos
que la población tiene una media µ y σ desconocidos. Extraemos dos muestras de tamaño
n = 9.
Primera muestra: 4 ; 13 ; 8 ; 12 ; 8 ; 15 ; 14 ; 7 ; 8
Segunda muestra: 17 ; 14 ; 2 ; 12 ; 12 ; 6 ; 5 ; 11 ; 5
Obtendremos el intervalo de confianza para cada muestra considerando α = 0, 05.
Solución.
Del enunciado tenemos X̄1 = 9, 9 y X̄2 = 9,3. Ahora también debemos calcular s1 = 3, 72 y
s2 = 5 (se debe calcular s2 primero). Utilizaremos un nivel de confianza del 95 %. Esto quiere
decir que (1 − α) = 0, 95 y α = 0, 05, necesitamos t0,975;8 (n-1 grados de libertad).
Obtenemos por la tabla t que t0,975;8 = 2, 306 y construiremos el intervalo de confianza para
cada caso:

s
I1 = X̄ ± t1− α2 ,n−1 √ = [9, 9 ± 2, 9] = [7 − 12, 8]
n

s
I2 = X̄ ± t1− α2 ,n−1 √ = [9, 3 ± 3, 8] = [5, 5 − 13, 1]
n
Observación 2. La probabilidad t0,975;8 = 2, 306 se obtiene usando la tabla de esta distribu-
ción:
Ahora veamos cámo resolver el ejercicio en Python:

7
[36]: # Creamos la lista de de datos

I1 = [4,13,8,12,8,15,14,7,8]
I2 = [17,14,2,12,12,6,5,11,5]
# Calculamos los estadı́sticos necesarios
I1_promedio = np.mean(I1)
I1_de = np.std(I1, ddof = 1)
I2_promedio = np.mean(I2)
I2_de = np.std(I2, ddof = 1)
#Cálculo del estadı́stico crı́tico
t_crı́tico = ss.t.ppf(0.975,8)
# Desarrollamos los intervalos de confianza
IC_I1 = [I1_promedio-t_crı́tico*I1_de/np.
,→sqrt(len(I1)),I1_promedio+t_crı́tico*I1_de/np.sqrt(len(I1))]
IC_I2 = [I2_promedio-t_crı́tico*I2_de/np.
,→sqrt(len(I2)),I2_promedio+t_crı́tico*I2_de/np.sqrt(len(I2))]
IC_I1, IC_I2
[36]: ([7.027098311358072, 12.750679466419706],

[5.489993108277716, 13.176673558388952])
Esto nos permite notar que la estimación depende de la muestra obtenida.

Intervalos de confianza para la proporción: Para estimar la proporción ρ de una población
considerando la proporción muestral
número de éxitos
p̄ =
número de ensayos
p̄(1 − p̄)
en este caso ρ sigue una distribución normal de media µ = p̄ y varianza σ2 = , por
n
lo que el intervalo de confianza resulta:
" r #
p̄(1 − p̄)
ρ ∈ p̄ ± z1− α2
n
8
Ejemplo: Un jugador de baloncesto lanza 100 tiros libres y anota 85. Calcular un intervalo
de confianza para la proporción de aciertos.
Solución.
85
La proporción de éxitos será entonces p̄ = 100 = 0, 85. Usando un nivel de confianza
1 − α = 0, 95 tenemos el siguiente intervalo:
" r #
p̄(1 − p̄)
I = p̄ ± z1− α2 = [0, 85 ± 0, 07]
n

Obteniendo el intervalo 0, 78 ; 0, 92 , esto quiere decir que el promedio de aciertos del
jugador está entre 78 y 92 % con una confianza del 95 %.
Intervalos de confianza para la varianza: Utilizaremos la distribución chi-cuadrado (χ2 ), sa-
( n − 1) s2
bemos que el estadı́stico sigue una distribución χ2 con n − 1 grados de libertad.
σ2
Por lo tanto, necesitamos el intervalo que cumpla:
( n − 1) s2

2
P χ α ,n−1 < < χ21− α ,n−1 = 1−α
2 σ2 2
( n − 1) s2
Trabajando con la condición χ2α ,n−1 < < χ21− α ,n−1 se obtiene que:
2 σ2 2
" #
( n − 1) s2 2 ( n − 1) s2
<σ <
χ21− α ,n−1 χ2α ,n−1
2 2
Obteniendo el intervalo de confianza al nivel (1 − α) para la varianza:

" #
( n − 1) s2 ( n − 1) s2
σ2 ∈ ;
χ21− α ,n−1 χ2α ,n−1
2 2
Este intervalo no tiene por qué ser simétrico en torno a la varianza muestral. De la misma
manera, el intervalo de confianza para la desviación tı́pica se escribe como:
" s s #
( n − 1) s2 ( n − 1) s2
σ∈ ;
χ21− α ,n−1 χ2α ,n−1
2 2
9
Ejemplo: Considerando los tiempos de reacción (en segundos) de una mezcla, se toma
una muestra de largo 12 obteniendo:
883 ; 816 ; 778 ; 796 ; 682 ; 711 ; 611 ; 599 ; 1051 ; 781 ; 578 ; 796
Se desea construir un intervalo de confianza para la desviación estándar de los tiempos de

reacción.
Solución.
Del enunciado obtenemos X̄ = 756, 83 y s = 133, 5. Utilizaremos α = 0, 05.
Consultando las tablas vemos que:
χ20,975;11 = 21, 920 y χ20,025;11 = 3, 816
El intervalo será:
" s s # " s s #
( n − 1) s2 ( n − 1) s2 11 · 133, 52 11 · 133, 52
I= ; = ;
χ21− α ,n−1 χ2α ,n−1 21, 920 3, 816
2 2
Finalmente el intervalo resulta:

σ∈ 94, 57 ; 226, 66
Ahora veamos cómo resolver este problema en Python:

[41]: # Creamos la lista de de datos
T_reacción = [883,816,778,796,682,711,611,599,1051,781,578,796]
# Calculamos los estadı́sticos necesarios
T_reacción_promedio = np.mean(T_reacción)
T_reacción_de = np.std(T_reacción, ddof = 1)
#Cálculo del estadı́stico crı́tico
X2_inf = ss.chi2.ppf(0.025,11)
X2_sup = ss.chi2.ppf(0.975,11)
# Desarrollamos los intervalos de confianza
IC_var = [np.sqrt((len(T_reacción)-1)*T_reacción_de**2/X2_sup),np.
,→sqrt((len(T_reacción)-1)*T_reacción_de**2/X2_inf)]
IC_var
[41]: [94.53913046607197, 226.59092349475267]

10
4. Intervalos de confianza para las diferencias.

Dependiendo de la situación y el parámetro que se desea estimar, se pueden obtener intervalos
de confianza para comparar dos poblaciones.
1. Intervalos de confianza para la diferencia de medias:
a. Diferencia de medias poblacionales normales con σx2 y σy2 conocidas: En este caso,
tenemos que obtener el intervalo de confianza para la variable Z = X − Y, donde
X e Y son las variables de cada una de las poblaciones, realizamos el intervalo de
confianza considerando:
E( Z̄ ) = E( X̄ ) − E(Ȳ ) = µ x − µy
σx2 σy2
Var ( Z̄ ) = Var ( X̄ ) + Var (Ȳ ) = +
nx ny
Notar que σx2 y n x son respectivamente la varianza y el total de datos de la variable X,
lo mismo para la variable Y.
De modo que el intervalo resulta :

 s 
σx2 σy2
µ x − µy ∈  X̄ − Ȳ ± z1− α2 + 
nx ny
b. Diferencia de medias poblacionales normales con σx2 y σy2 desconocidas (muestra gran-
de n x + ny > 30):
En este caso en vez de la varianza poblacional σx2 se utiliza la varianza muestras s2x (lo
mismo para la variable Y, resultando:
 s 
s2x s2y
µ x − µy ∈  X̄ − Ȳ ± z1− α2 + 
nx ny
c. Diferencia de medias poblacionales normales con σx2 y σy2 desconocidas e iguales

(σx2 = σy2 )
(muestra pequeña n x + ny ≤ 30):
En este caso tenemos que utilizar la variable t de Student con n x + ny − 2 grados de

libertad:
" s #
1 1
µ x − µy ∈ X̄ − Ȳ ± t1− α2 ;nx +ny −2 · s p · +
nx ny
(n x − 1)s2x + (ny − 1)s2y

Donde s2p =
n x + ny − 2
11
d. Diferencia de medias poblacionales normales con σx2 y σy2 desconocidas y distintas

(σx2 ̸= σy2 )
(muestra pequeña n x + ny ≤ 30):
En este caso tenemos que utilizar la variable t de Student con f grados de libertad:
 s 
s2x s2y
µ x − µy ∈  X̄ − Ȳ ± t1− α2 ; f · + 
nx ny
2
s21 s22

n1 + n2
Donde los grados de libertad se obtienen con f = 2 2 2 2 −2
s s2
1
n1 n2
n1 +1 + n2 +1
Observación 3. Cuando se desconoce la igualdad de las varianzas, antes se debe

hacer un test de hipótesis para decidir cómo considerarlas, iguales o distintas. Esto lo
veremos más adelante en el apunte.
Ejemplo: Una fábrica elabora dos artı́culos A y B cuya demanda aleatoria sigue una
distribución normal con medias µ A y µ B desconocidas y desviaciones tı́picas σA = 100
y σB = 50. Observados 100 puntos de venta, la demanda media de dichos artı́culos ha
resultado de 200 y 150 unidades respectivamente. Construya un intervalo de confianza al
95 % para la diferencia de medias. Con base en sus resultados, determina el artı́culo que
presenta una mayor demanda.
Solución.
Al tratar de poblaciones normales de varianza conocida se utiliza el intervalo:
 s s 
2 2 2 2
 x̄ A − x̄ B − z1− α σA + σB ; x̄ A − x̄ B + z1− α σA + σB 
2 nA nB 2 nA nB
Tenemos que n A = 100; x̄ A = 200; σA = 100; n B = 100; x̄ B = 150 y σB = 50. Para α = 0, 05

se tiene z1− α2 = 1, 96 y resulta el intervalo:
[28, 09 ; 71, 91]
Ahora veamos cómo resolver este problema en Python:

12
[45]: # Definición de variables

A_n = 100
A_media = 200
A_de = 100
B_n = 100
B_media = 150
B_de =50
# Nivel de significancia
alpha=0.05
# Cálculo z crı́tico
z_crı́tico = ss.norm.ppf(1-alpha/2)
# Construcción de intervalo
IC = [A_media - B_media - z_crı́tico * np.sqrt(A_de**2/A_n +
,→B_de**2/B_n),A_media - B_media + z_crı́tico * np.sqrt(A_de**2/A_n +
,→B_de**2/B_n)]
IC
[45]: [28.08693648558546, 71.91306351441455]
2. Intervalos de confianza para la diferencia de proporciones: Para este caso debemos con-
siderar la esperanza y la varianza de la diferencia de proporciones, como de diferencia de
medias, en este caso resulta:
" s #
P̄x (1 − P̄x ) P̄y (1 − P̄y )
ρ x − ρy ∈ P̄x − P̄y ± z1− α2 +
nx ny
Ejemplo: Una compañı́a multinacional desea lanzar al mercado un nuevo producto en

2 paı́ses distintos (Chile y Argentina). Para obtener una estimación de los ingresos que
producirá el nuevo producto se realizó una campaña publicitaria por una semana y luego se
seleccionó a 200 personas en cada paı́s, de las que 37 personas de Chile y 55 de Argentina
manifiestan su disposición a comprar el producto. Al final, el departamento de marketing
decide lanzar el producto en el paı́s que tiene mayor aceptación. Mediante un intervalo de
confianza para la verdadera diferencia de proporción determina en qué paı́s deberı́a lanzar
el nuevo producto. Utiliza una confianza del 93 %.
Solución.
Llamaremos A : Chile y B : Argentina, del enunciado tenemos:
37 55
p̄ A = = 0, 185 ; p̄ B = = 0, 275 ; z1− α2 = 1, 82
200 200
13
El intervalo que necesitamos es:

 s 
p̄ A (1 − p̄ A ) p̄ (1 − p̄ B ) 
( p̄ A − p̄ B ) ± z1− α + B = [−0, 166; −0, 014]
2 nA nB
Veamos una alternativa a este problema en Python:

p_A = 37/200
n_A = 200
p_B = 55/200
n_B = 200
alpha = 0.07
#Cálculo z crı́tico
z_crı́tico = ss.norm.ppf(1-alpha/2)
# Construcción intervalo
IC = [p_A - p_B - z_crı́tico*np.sqrt(p_A*(1-p_A)/n_A+p_B*(1-p_B)/n_B),p_A -
,→p_B + z_crı́tico*np.sqrt(p_A*(1-p_A)/n_A+p_B*(1-p_B)/n_B)]
IC
[60]: [-0.16581390220166917, -0.014186097798330882]
Como ambos valores (diferencia de proporciones) son negativos, se puede asegurar que la
proporción de gente que aceptó el producto en Argentina fue mayor que en Chile con una
confianza del 93 %.
3. Intervalos de confianza para el cociente de varianzas: En el caso de las varianzas, para
poder compararlas es necesario dividirlas, ya que la diferencia es siempre positiva, como
vimos anteriormente. Se considera que si ba > 1 → a > b o bien si ba < 1 → a < b. Para
este caso necesitamos la distribución F de Fisher, como la razón de variables chi-cuadrado.
Para poder estudiar el cociente de varianzas tenemos el intervalo de confianza:

" #
σx2 s2x s2x
∈ · Fα2 ;nx −1;ny −1 ; · F1− α2 ;nx −1;ny −1
σy2 s2y s2y
" #
s2x 1 s2x
= · ; ·F α
2
sy F1− α2 ;ny −1;nx −1 s2y 1− 2 ;nx −1;ny −1
Observación 4. Se utiliza la propiedad:
1
Fα2 ;n1 −1;n2 −1 =
F1− α2 ;n2 −1;n1 −1
14
Ejemplo: Para una muestra de 17 bonos industriales emitidos recientemente con califica-
ción AAA, la varianza muestral de sus vencimientos (en años al cuadrado) fue de 123,35.
Para otra muestra independiente de 11 bonos industriales emitidos con calificación CCC, la
varianza muestral de sus vencimientos fue de 8,02. Construye un intervalo de confianza al
90 % para el cociente de las varianzas.
Solución.
Llamaremos X al vencimiento de los bonos industriales con calificación AAA e Y al venci-
miento de los bonos con calificación CCC.
" #
σx2 s2x 1 s2x
∈ · ; ·F α
σy2 2
sy F1− α2 ;ny −1;nx −1 s2y 1− 2 ;nx −1;ny −1
" #
s2x 1 s2x
∈ 2
· ; · F0,95;16;10
sy F0,95;10;16 s2y

123, 35 1 123, 35
= · ; · 2, 83
8, 02 2, 49 8, 02

= 6, 1768 ; 43, 5262
Observación 5. Para calcular el valor de la distribución Fisher F0,95;16;10 se utilizó la tabla de esta
distribución:
15

n_X = 17
var_X = 123.35
n_Y = 11
var_Y = 8.02
Nivel_de_confianza = 0.9
alpha = 1-Nivel_de_confianza
#Cálculo z crı́tico
f_crı́tico_inf = ss.f.ppf(alpha/2,n_X-1,n_Y-1)
f_crı́tico_sup = ss.f.ppf(1-alpha/2,n_X-1,n_Y-1)
# Construcción intervalo
IC = [var_X/var_Y*f_crı́tico_inf,var_X/var_Y*f_crı́tico_sup]
IC
[65]: [6.168124203474329, 43.488817860369515]
Observación 6. Muestras pareadas: Hasta el momento hemos supuesto que las poblaciones
o variables X e Y son independientes. En el caso de que sean dependientes vamos a estar en
caso de una muestra pareada. Este tipo de casos recoge casos como, por ejemplo, evaluar en la
misma población si un nuevo medicamento es efectivo contra cierta enfermedad o si una campaña
publicitaria tiene efecto sobre las ventas de un producto en la población tomando mediciones
antes (variable X) y después (variable Y).
Ejemplo: Se quiere probar un nuevo medicamento en pacientes con diabetes, por que sirve
para disminuir la concentración de azúcar en la sangre. Para esto se considera una muestra de
9 pacientes, a quienes se les mide la concentración de azúcar antes y 30 minutos después de
suministrarle el nuevo medicamento. Los resultados obtenidos son:
Antes 154 231 315 275 159 198 251 185 260
Después 168 214 172 265 174 184 217 210 213
1. Mediante un intervalo de confianza del 90 %, determina si el nuevo medicamento es eficiente
en el tratamiento contra la diabetes.
2. Determina el intervalo de confianza del 95 % para la verdadera varianza de los datos poste-
riores al medicamento.
3. Si se obtiene una concentración mı́nima de azúcar en la sangre antes del medicamento de
172.1720 mg/dl, determina la confianza utilizada.
16
Solución:
1. Debemos hacer el intervalo de confianza para dos poblaciones no independientes (términos
pareados):
Antes 154 231 315 275 159 198 251 185 260
Después 168 214 172 265 174 184 217 210 213
Di f erencias 14 −17 −143 −10 15 −14 −34 25 −47
Para esta diferencia obtenemos el promedio y desviación muestral:
X̄ = −23, 44 ; s = 50, 62
Ahora calculamos el intervalo de confianza correspondiente a este caso:

s 50, 62
X̄ ± t1− 2 ,n−1 √
α = −23, 44 ± t0,95;8 · √
n 9
= [−23, 44 ± 1, 860 · 16, 87]
= [−23, 44 ± 31, 38]
= [−54, 82; 7, 94]
Como el intervalo de confianza pasa por el cero, indica que no hay evidencia de que haya
diferencia, por lo que no se puede asumir que el medicamento es eficiente.
2. Obtenemos el intervalo de confianza para la varianza de los datos posteriores (después)
Primero obtenemos:
X 2α ,n 2
= X0,025;8 2
= 17, 535 ; X12− α ,nd −1 = X0,975;8 = 2, 180
2 d −1 2
De los datos se obtiene que la desviación muestral es sd = 30, 9 (nd = 9); ası́ resulta:
"
(nd − 1)s2d (nd − 1)s2d
#
8 · 30, 92 8 · 30, 92

; = ;
X 2α ,n −1 X12− α ,n −1 17, 535 2, 180
2 d 2 d
= [435, 61 − 3503, 89]
3. Utilizamos el lı́mite izquierdo del intervalo de confianza para la media antes del nuevo me-
dicamento:
sa
X̄a − t1− α2 ,na −1 √ = 172, 1720
na
De los datos obtenemos:
n a = 9 ; X̄a = 225, 3 ; s a = 55, 1

17
Ahora resolviendo tenemos:
sa 55, 1
X̄a − t1− α2 ,na −1 √ = 172, 1720 → 225, 3 − t1− α2 ,8 √ = 172, 1720
na 9
→ 2, 893 = t1− α2 ,8
α
→ 1− = 0, 99
2
→ 1 − α = 0, 98
De modo que el nivel de confianza es 98 %.

18
5. Test o contrastes de hipótesis.

Frecuentemente, el problema que se presenta en estadı́stica no es tan solo la estimación de un
parámetro, sino el diseño de una regla de decisión que nos conduzca a la aceptación o rechazo
de alguna afirmación que hemos hecho sobre la población. Estas afirmaciones se denominan
hipótesis estadı́sticas y pueden estar referidas únicamente al valor de un parámetro poblacional
(media, desviación estándar, etc.) o a la ley que rige el comportamiento del fenómeno aleatorio
a estudio (la población es uniforme, normal, etc.). Los métodos que conducen a la aceptación
o rechazo de una hipótesis estadı́stica se denominan contrastes, pruebas o test de hipótesis
estadı́sticas.
Definición 2. La hipótesis nula, denotada por H0 , es la pretensión de que inicialmente se
supone cierta (la pretensión de “creencia previa”). La hipótesis alternativa, denotada por Ha o H1 ,
es la aseveración contradictoria a H0 . La hipótesis nula será rechazada en favor de la hipótesis
alternativa solo si la evidencia muestral sugiere que H0 es falsa. Si la muestra no contradice
fuertemente a H0 , se continuará creyendo en la verdad de la hipótesis nula. Las dos posibles
conclusiones derivadas de un análisis de prueba de hipótesis son entonces aceptar H0 o no
aceptar - rechazar H0 .
Supongamos que se desea contrastar la llamada hipótesis nula H0 : µ = µ0 frente a la alternativa

H1 : µ ̸= µ0 . El planteamiento dependerá del conocimiento que se tenga de la población. En el
caso de una población normal con σ conocido se tiene: Eneste caso sabemos que la variable
σ2

media muestral X̄ sigue una distribución normal N µ0 , , suponiendo que H0 es cierta, de
n
forma que:
X̄ − µ0
σ ∈ N (0, 1)
√
n
Lo que nos permite, fijado α, obtener el valor z1− α2 tal que:
 
X̄ − µ0
P −z1− α2 ≤ ≤ z1− α2  = 1 − α
 
σ
√
n
Y adoptar la regla de decisión siguiente:
X̄ − µ0 h i
si σ ∈ −z1− α2 ; z1− α2 acepta H0
√
n
X̄ − µ0 h i
si σ ̸∈ −z1− α2 ; z1− α2 rechaza H0
√
n
19
Este test se conoce como bidimensional, ya que hay dos zonas de rechazo, cuando el estadı́stico
X̄ − µ0
observado σ es muy grande o muy pequeño, es decir, la zona de rechazo es para valores
√
n
grandes positivos, o negativos de gran valor absoluto. Existe otro tipo de contraste unidimensio-
nales donde existe solo una zona de rechazo y depende del objetivo de estudio.
1. Test de hipótesis para la media:
a. Cuando σ2 es conocida:
El test bidimensional resulta:
H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0
X̄ − µ0 | X̄ − µ0 |
µ = µ0 µ ̸ = µ0 z= σ Normal σ ≤ z1− α2
√ √
n n
El test unidimensional con zona de rechazo a la derecha es:
X̄ − µ0 X̄ − µ0
µ ≤ µ0 µ > µ0 z= σ Normal σ ≤ z 1− α
√ √
n n
El test unidimensional con zona de rechazo a la izquierda es:
X̄ − µ0 X̄ − µ0
µ ≥ µ0 µ < µ0 z= σ Normal − z 1− α ≤ σ
√ √
n n
Ejemplo: Cierto tipo de condensador electrónico ha sido fabricado por una empresa
durante varios años y se ha observado que la duración de estos condensadores es una
variable aleatoria normal con desviación estándar de 90 horas. Una muestra aleatoria
de 20 de estos condensadores tuvo una duración media de 1450 horas. Prueba la
hipótesis de que la duración media de estos condensadores es de 1500 horas. α =
0.05.
20
Solución.
Se desea conocer si la duración media de los condensadores es igual a 1500 horas.
Por lo tanto, se establece la hipótesis como:
H0 : µ = 1500
H1 : µ ̸= 1500
Ahora, con los datos del enunciado reemplazamos y calculamos el estadı́stico obser-
vado:
X̄ − µ0 1450 − 1500
z= = = −2,4845
√
σ 90
√
n 20
Luego, se debe buscar la probabilidad asociada al estadı́stico anterior y analizar si se
encuentra en la zona de aceptación o rechazo.
Una forma alternativa para el cálculo es el siguiente código en Python.

[27]: m_muestral = 1450
m_poblacional = 1500
de_poblacional = 90
n = 20
z_obs = (m_muestral-m_poblacional)/(de_poblacional/np.sqrt(n))
z_obs
[27]: -2.484519974999767
[29]: ss.norm.cdf(z_obs)
[29]: 0.00648631149952178
21
Como indica la tabla y el código de Python, para el estadı́stico calculado la probabi-

lidad es 0.0064. Como la probabilidad encontrada es menor al valor de significancia
bidimensional (0,025 a la izquierda y 0,975 a la derecha) nos encontramos en la zona
de rechazo a la hipótesis nula y se concluye que: .Existe evidencia estadı́sticamente
significativa a un nivel de confianza del 95 % para indicar que la vida media poblacional
de los condensadores es distinta a 1500”.
b. Cuando σ2 es desconocida:
X̄ − µ0 | X̄ − µ0 |
µ = µ0 µ ̸ = µ0 z= s t de Student s ≤ t1− α2 ,n−1
√ √
n n

X̄ − µ0 X̄ − µ0
µ ≤ µ0 µ > µ0 z= s t de Student s ≤ t1−α,n−1
√ √
n n

X̄ − µ0 X̄ − µ0
µ ≥ µ0 µ < µ0 z= s t de Student −t1−α,n−1 ≤ s
√ √
n n
Ejemplo: El tiempo de acceso al disco duro en un cierto modelo de computador

es una variable aleatoria con media 15 milisegundos. Se ha propuesto una modifi-
cación técnica con objeto de disminuir este tiempo de acceso. Se prueba el nuevo
sistema en 10 computadores, obteniéndose un promedio de 14 ms. y desviación
estándar de 2,286 ms. ¿Se puede establecer que la modificación disminuye el
tiempo de acceso al disco duro? Considera un nivel de significación 0,05.
Solución. Se desea conocer si la duración media de acceso al disco duro con
modificaciones es menor a 15 milisegundos. Por lo tanto, se establece la hipótesis
como:
H0 : µ ≥ 15
H1 : µ < 15
22
Ahora, con los datos del enunciado reemplazamos y calculamos el estadı́stico ob-
servado:
X̄ − µ0 14 − 15
t= s = = −1,3833
√ 2,286
√
n 10
Para encontrar la probabilidad de este estadı́stico, utilizaremos el siguiente código

en Python.
[ ]: m_muestral = 14
m_poblacional = 15
de_muestral = 2.286
n = 10
t_obs = (m_muestral-m_poblacional)/(de_muestral/np.sqrt(n))
t_obs
[ ]: -1.3833235608785563
[ ]: ss.t.cdf(t_obs,9)
[ ]: 0.0999563596629237
Como indica el código de Python, para el estadı́stico calculado la probabilidad es

0.0999. Como la probabilidad encontrada es mayor al valor de significancia uni-
dimensional (0,05 a la izquierda) nos encontramos en la zona de aceptación a la
hipótesis nula y se concluye que: ”No existe evidencia estadı́sticamente significa-
tiva a un nivel de confianza del 95 % para indicar que las modificaciones técnicas
para el acceso al disco duro disminuyan la velocidad de acceso”.
c. Cuando σ2 es desconocida y la muestra es grande n > 30:
X̄ − µ0 | X̄ − µ0 |
µ = µ0 µ ̸ = µ0 z= s Normal s ≤ z1− α2
√ √
n n
X̄ − µ0 X̄ − µ0
µ ≤ µ0 µ > µ0 z= s Normal s ≤ z 1− α
√ √
n n
23
X̄ − µ0 X̄ − µ0
µ ≥ µ0 µ < µ0 z= s Normal − z 1− α ≤ s
√ √
n n
Ejemplo: Una empresa fabrica cuerdas cuya resistencia media a la rotura es de

300 kg. Una muestra de 64 cuerdas fabricadas mediante un nuevo proceso de
fabricación dio una resistencia media de 310 kg y desviación estándar muestral de
24. La compañı́a desea estudiar si, efectivamente, el nuevo proceso da mejores
resultados que el antiguo. Realiza el estudio correspondiente. Utiliza α = 0, 05.
Solución. Del enunciado debemos considerar s = 24, las hipótesis son:
H0 : µ ≤ 300; H1 : µ > 300
310 − 300
n = 64, x̄ = 310, estadı́stico observado es zestadı́stico = = 3, 3̄
24
√
64
Debemos comparar con el valor crı́tico, tenemos que α = 0, 05 de esta forma
z1−α = 1, 65
finalmente, 3, 3̄ > 1, 65 y por lo tanto se rechaza H0 y se acepta que el nuevo
proceso da mejores resultados que el antiguo.
2. Test de hipótesis para la proporción:
ρ̄ − ρ0 |ρ̄ − ρ0 |
ρ = ρ0 ρ ̸ = ρ0 z= r Normal r ≤ z1− α2
ρ0 (1 − ρ0 ) ρ0 (1 − ρ0 )
n n
ρ̄ − ρ0 ρ̄ − ρ0
ρ ≤ ρ0 ρ > ρ0 z= r Normal r ≤ z 1− α
ρ0 (1 − ρ0 ) ρ0 (1 − ρ0 )
n n
24
ρ̄ − ρ0 ρ̄ − ρ0
ρ ≥ ρ0 ρ < ρ0 z= r Normal − z 1− α ≤ r
ρ0 (1 − ρ0 ) ρ0 (1 − ρ0 )
n n
Ejemplo: Una empresa se plantea la posibilidad de establecer un servicio complementario

de información a sus clientes. Este será rentable únicamente si más del 40 % de los clientes
están interesados. Para poder tomar una decisión se realizó un sondeo con una muestra
aleatoria de 100 clientes, de los cuales 45 estar de acuerdo. ¿Existe evidencia suficiente al
nivel de significación del 5 % para apoyar la hipótesis de rentabilidad?
Solución. Se desea conocer si hay más de 40 % de los clientes interesados para incorporar
un servicio complementario de información. Por lo tanto, se establece la hipótesis como:
H0 : ρ ≤ 0,4
H1 : ρ > 0,4
Ahora, con los datos del enunciado se puede desprender que de la muestra el 45 % de los
clientes está interesado, luego reemplazamos y calculamos el estadı́stico observado:
ρ̄ − ρ0 0,45 − 0,4
z= r =r = 1,021
ρ0 (1 − ρ0 ) 0,4(1 − 0,6)
n 100
Para encontrar la probabilidad de este estadı́stico, utilizaremos el siguiente código en

Python.
[24]: p_muestra = 0.45
p_poblacional = 0.4
q_poblacional = 1-p_poblacional
n_muestral = 100
z_obs = (p_muestra-p_poblacional)/np.
,→sqrt(p_poblacional*q_poblacional/n_muestral)
z_obs
[24]: 1.0206207261596574
[30]: ss.norm.cdf(z_obs)
[30]: 0.8462829170363023
Como indica el código de Python, para el estadı́stico calculado la probabilidad es 0.8463.

Como la probabilidad encontrada es menor al valor de significancia unidimensional (0,95 a
25
la derecha) nos encontramos en la zona de aceptación a la hipótesis nula y se concluye que:

”Con base en la evidencia presentada a un nivel de confianza del 95 % se tiene significancia
estadı́stica para indicar que más del 40 % de los clientes está interesado en el sistema”.
3. Test de hipótesis para la varianza:
( n − 1) s2 ( n − 1) s2 h 2 i
σ = σ0 σ ̸= σ0 χ2 = Chi cuadrada ∈ χ α ,n−1 ; χ21− α ,n−1
σ02 σ02 2 2

( n − 1) s2 ( n − 1) s2
σ ≤ σ0 σ > σ0 χ2 = Chi cuadrada ≤ χ21−α,n−1
σ02 σ02
( n − 1) s2 ( n − 1) s2
σ ≥ σ0 σ < σ0 χ2 = Chi cuadrada χ2α,n−1 ≤
σ02 σ02
Ejemplo: En una embotelladora de refresco el proceso de llenado realizado por una máquina
está fuera de control cuando la desviación estándar de la cantidad de refresco vertida supera 0,02
u.m. Para controlar la variabilidad se tomó una muestra aleatoria de 28 botellas llenadas por la
máquina y se obtuvo una desviación estándar s = 0,027 u.m. ¿Puede concluirse que la máquina
está fuera de control? Considera α = 5 %
Solución. Se desea conocer si la duración media de acceso al disco duro con modificaciones es
menor a 15 milisegundos. Por lo tanto, se establece la hipótesis como:
H0 : σ ≤ 0,02
H1 : σ > 0,02
Ahora, con los datos del enunciado reemplazamos y calculamos el estadı́stico observado:
( n − 1) s2 (27)0,0272
χ2 = = = 49,2075
σ02 0,022
Para encontrar la probabilidad de este estadı́stico, utilizaremos el siguiente código en Python.

26
[32]: s = 0.027
n = 28
sigma = 0.02
chi_obs = (n-1)*s**2/sigma**2
chi_obs
[32]: 49.207499999999996
[39]: ss.chi2.cdf(chi_obs,n)
[39]: 0.9920828988316592
Como indica el código de Python, para el estadı́stico calculado la probabilidad es 0.9921. Como
la probabilidad encontrada es mayor al valor de significancia unidimensional (0,95 a la derecha)
nos encontramos en la zona de rechazo a la hipótesis nula y se concluye que: ”Existe evidencia
estadı́sticamente significativa a un nivel de confianza del 95 % para indicar que la máquina se
encuentra fuera de control”.
6. Test o contrastes de hipótesis para las diferencias.

1. Test de hipótesis para la diferencia de medias:
a. Test para la diferencia de medias poblacionales normales con σx2 y σy2 conocidas:
Test para evaluar la desigualdad:
x̄ − ȳ | x̄ − ȳ|
µ x = µy µ x ̸= µy z= s Normal s ≤ z1− α2
σx2 σy2 σx 2 σ 2
y
+ +
nx ny nx ny
Test para evaluar la desigualdad mayor (o menor):
x̄ − ȳ x̄ − ȳ
µ x ≤ µy µ x > µy z= s Normal s ≤ z 1− α
σx2 σy2 σx2 σy2
+ +
nx ny nx ny
b. Test para la diferencia de medias poblacionales normales con σx2 y σy2 desconocidas y
muestra grande (n x + ny > 30):
27
x̄ − ȳ | x̄ − ȳ|
µ x = µy µ x ̸= µy z= s Normal s ≤ z1− α2
s2x s2y s2x s2y
+ +
nx ny nx ny
x̄ − ȳ x̄ − ȳ
µ x ≤ µy µ x > µy z= s Normal s ≤ z 1− α
s2x s2y s2x s2y
+ +
nx ny nx ny
c. Test para la diferencia de medias poblacionales normales con σx2 y σy2 desconocidas e
iguales (σx2 = σy2 ) y muestra pequeña (n x + ny ≤ 30):
H0 H1 Estadı́stico observado Distribución Regla aceptación H0
x̄ − ȳ
t= s | x̄ − ȳ|
1 1 ≤ t1− α2 ,k
sp +
r
nx ny 1 1
µ x = µy µ x ̸= µy t de Student sp +
n1 n2
(n x − 1)s2x + (ny − 1)s2y
s2p = k = n x + ny − 2
n x + ny − 2
x̄ − ȳ
t= s x̄ − ȳ
1 1 ≤ t1−α,k
sp +
r
1 1
nx ny sp +
µ x ≤ µy µ x > µy t de Student n1 n2
(n x − 1)s2x + (ny − 1)s2y k = n x + ny − 2
s2p =
n x + ny − 2
28
d. Test para la diferencia de medias poblacionales normales con σx2 y σy2 desconocidas y
distintas (σx2 ̸= σy2 ) y muestra pequeña (n x + ny ≤ 30):
x̄ − ȳ
t= s
s2x s2y
+
nx ny
| x̄ − ȳ|
µ x = µy µ x ̸= µy 2 t de Student s ≤ t1− α2 , f
s2x s2y s2y
nx + ny
s2x
+
f = 2 2 −2 nx ny
s2y

s2x
nx ny
n y +1 + n y +1
x̄ − ȳ
t= s
s2x s2y
+
nx ny
x̄ − ȳ
µ x ≤ µy µ x > µy 2 t de Student s ≤ t1− α2 , f
s2x s2y s2y
nx + ny
s2x
+
f = 2 2 −2 nx ny
s2y

s2x
nx ny
n x +1 + n y +1
2. Test de hipótesis para la diferencia de proporciones:

" r #
p̄(1 − p̄)
ρ ∈ p̄ ± z1− α2
n
ρ¯x − ρ¯y
ρ x = ρy ρ x ̸= ρy zest = r Normal |zest | ≤ z1− α2
ρ x (1 − ρ x ) ρ y (1 − ρ y )
+
nx ny
29
ρ¯x − ρ¯y
ρ x ≤ ρy ρ x > ρy zest = r Normal zest ≤ z1−α
ρ x (1 − ρ x ) ρ y (1 − ρ y )
+
nx ny
3. Test de hipótesis para la diferencia de varianzas:

s2x s2x h i
σx2 = σy2 σx2 ̸= σy2 F= F de Fisher ∈ F 2 ,n x −1,ny −1
α ; F1− 2 ,n x −1,ny
α
s2y s2y
s2x s2x
σx2 ≤ σy2 σx2 > σy2 F= F de Fisher ≤ F1−α,nx −1,ny
s2y s2y
Ejemplo: Se revisó la dureza del agua (Y) de dos muestras obtenidas a partir de bocas de salida
separadas de una planta de energı́a. Los resultados codificados (partes por millón) se presentan
a continuación:
Ubicación ni ∑ yi ∑ y2i
1 9 504 29101
2 14 868 54201
Analiza si la varianza de la dureza del agua proveniente del lugar 1 es mayor que la del lugar 2.
Considera α = 5 %.
Solución. Se desea conocer si la razón de varianzas entre las ubicaciones es mayor o igual a 1.
Por lo tanto, se establece la hipótesis como:
H0 : σ12 /σ22 ≤ 1
H1 : σ12 /σ22 > 1
Ahora, con los datos del enunciado podemos obtener las varianzas de cada ubicación, reempla-
zamos y calculamos el estadı́stico observado:
30
s21 97,44
F= 2
= = 3,5434
s2 27,5
Para encontrar las varianzas de cada ubicación y probabilidad de este estadı́stico utilizaremos el
siguiente código en Python.
[37]: var_1 = 29101/9 - (504/9)**2
var_2 = 54201/14 - (868/14)**2
n_1 = 9
n_2 = 14
F_obs = var_1/var_2
F_obs
[37]: 3.5434343434343396
[38]: ss.f.cdf(F_obs,n_1,n_2)
[38]: 0.9830034238259722
Como indica el código de Python, para el estadı́stico calculado la probabilidad es 0.983. Como
la probabilidad encontrada es mayor al valor de significancia unidimensional (0,95 a la derecha)
nos encontramos en la zona de rechazo a la hipótesis nula y se concluye que: ”Existe evidencia
estadı́sticamente significativa a un nivel de confianza del 95 % para indicar que la varianza de la
dureza del agua en la ubicación 1 es mayor a la varianza de la dureza del agua de la ubicación
2”.
Ejemplo: Se piensa que la concentración del ingrediente activo de un detergente lı́quido para
ropa es afectada por el tipo de catalizador utilizado en el proceso de fabricación. Se realizan diez
observaciones con cada catalizador y se obtienen los siguientes resultados:
Catalizador 1: 57, 9; 66, 2; 65, 4; 65, 4; 65, 2; 62, 6; 67, 6; 63, 7; 67, 2; 71, 0.
Catalizador 2: 66, 4; 71, 7; 70, 3; 69, 3; 64, 8; 69, 6; 68, 6; 69, 4; 65, 3; 68, 8.
¿Existe alguna evidencia que indique que las concentraciones activas medias dependen del
catalizador utilizado? Utilizar α = 0, 05.
Solución. Del enunciado podemos obtener los valores: X̄1 = 65, 22; s1 = 3, 44; n1 = n2 = 10;
X̄2 = 68, 42; s2 = 2, 22.
Primero debemos determinar si las varianzas son iguales o distintas para luego realizar el con-
traste.
31
Las primeras hipótesis son:

H0 : σ12 = σ22 ; H1 : σ12 ̸= σ22
s21
El estadı́stico observado es Fprueba = = 2, 40, además los valores extremos son:
s22
F0,975;9;9 = 4, 026; F0,025;9;9 = 0, 248. Como 2, 40 ∈ [0, 248; 4, 026] se acepta H0 y, por lo tanto,
consideraremos σ12 = σ22 para realizar el test.
Debemos determinar si las medias son iguales o distintas, por lo que tenemos las hipótesis:
H0 : µ1 = µ2 ; H1 : µ1 ̸= µ2
Debemos obtener el estadı́stico observado, para ello necesitamos s2p =
2
9 · (3, 44) + 9 · (2, 22) 2
= 8, 381 → s p = 2, 895
18
|65, 22 − 68, 42|
Ası́ testadı́stico = q = 2, 472
1 1
2, 895 · 10 + 10
Considerando α = 0, 05 el valor crı́tico es t0,975;18 = 2, 101; como 2, 472 > 2, 101 se rechaza
H0 , por lo que hay evidencia de que las concentraciones activas medias dependen del
catalizador utilizado.
7. Prueba de bondad de ajuste.

El test de bondad de ajuste se utiliza para determinar si una colección de datos se ajusta a una
distribución teórica de una determinada población. Nos dice si la muestra disponible representa o
se ajusta de manera razonable a los datos que se esperan encontrar en la población.
La fórmula para el cálculo del estadı́stico chi cuadrado utilizado en el test de bondad de ajuste es:
(Oi − Ei )2
χ2prueba = ∑ Ei
i
Donde Oi corresponde al valor observado y Ei corresponde al valor esperado de la clase u obser-

vación i-ésima.
Las hipótesis del test son:
H0 : Los datos se ajustan a una distribución dada

H1 : Los datos no se ajustan a una distribución dada
Determinado el valor de α el valor crı́tico es χ21−α;gl o se puede obtener el α o p-valor del es-
tadı́stico de prueba. gl corresponden a los grados de libertad (gl es la cantidad de filas menos
1).
32
Ejemplo: La señora Patricia Mora es la gerente de marketing de un fabricante de tarjetas depor-

tivas. Ella planea iniciar la venta de una serie de tarjetas con fotografı́as y estadı́sticas de juego
de ex jugadores de las ligas mayores de béisbol. Uno de los problemas es la selección de ex
jugadores. En una exhibición de tarjetas de béisbol en Southwyck Mall el pasado fin de semana,
instaló un puesto y ofreció tarjetas de los siguientes seis jugadores miembros del Salón de la
Fama: Tom Seaver, Nolan Ryan, Ty Cobb, George Brett, Hank Aaron y Johnny Bench. Al final del
dı́a vendió un total de 120 tarjetas. El número de tarjetas vendidas de cada jugador aparece en la
siguiente tabla:
Jugador tarjetas vendidas
Tom Seaver 13
Nolan Ryan 33
Ty Cobb 14
George Brett 7
Hank Aaron 36
Johnny Bench 17
Total 120
¿La señora Kilpatrick puede concluir que las ventas no son iguales por cada jugador? Considera
α = 0, 05.
Solución. Si no hay una diferencia significativa en la popularidad de los jugadores, se esperarı́a
que las frecuencias observadas Oi fueran iguales o casi iguales. Es decir, se esperarı́a vender
igual número de tarjetas de Tom Seaver que de Nolan Ryan. Por tanto, cualquier discrepancia
en las frecuencias observada y esperada puede atribuirse al muestreo (casualidad). Como hay
120 tarjetas en la muestra, se espera que fe sea 20 tarjetas, es decir, la frecuencia esperada Ei
aparecerá en cada una de las seis categorı́as.
Ahora tenemos las hipótesis:
H0 : Las ventas se distribuyen de igual forma entre las seis categorı́as

H1 : Las ventas no se distribuyen de igual forma entre las seis categorı́as
El estadı́stico de prueba lo obtenemos con la tabla:
Jugador valor observado Oi valor esperado Ei Oi − Ei

Tom Seaver 13 20 −7
Nolan Ryan 33 20 13
Ty Cobb 14 20 −6
George Brett 7 20 −13
Hank Aaron 36 20 −16
Johnny Bench 17 20 −3
Total 120 120 0
Ası́, de la tabla tenemos:

(Oi − Ei )2
χ2prueba = ∑ Ei
= 34, 40
i
Si trabajamos con α = 0, 05 tenemos que nuestro valor crı́tico es:
χ21−α;gl = X0,95
2
; 6−1 = 11, 070
Veamos una alternativa para resolver este ejercicio en Python:

33
[31]: # Definimos las variables

Observado = np.array([13,33,14,7,36,17])
Esperado = np.array([20,20,20,20,20,20])
# Construimos el estadı́stico de prueba
Dif = Observado - Esperado
Dif2 = Dif**2/Esperado
X2_prueba = sum(Dif2)
# Calculamos los grados de libertad
gl = len(Observado)-1
# Estadı́stico crı́tico
Nivel_confianza = 0.95
X2 = ss.chi2.ppf(Nivel_confianza,gl)
# Comparamos los valores
X2_prueba < X2
[31]: False
Como el estadı́stico es mayor que el valor crı́tico, se rechaza H0 , por lo que se establece que las
ventas no se distribuyen de igual forma entre las seis categorı́as.
8. Test de independencia chi-cuadrado

La χ2 es una prueba de libre distribución (no paramétrica) que mide la diferencia o discrepancia
entre una distribución de frecuencias observadas y esperadas. Sirve para estudiar la independen-
cia de dos variables aleatorias.
Sean X e Y dos variables de la misma población. Se definen las hipótesis:
H0 : no hay relación entre las variables ; H1 : sı́ hay relación entre las variables
" #
3 3 (Oij − Eij )2
2
Xprueba = ∑∑ Eij
i =1 j =1
Se compara con X12−α,gl , donde α es el error y gl = (n◦ filas − 1) · (n◦ columnas − 1).
Se acepta H0 si:
χ2prueba ≤ χ21−α,gl
Ejemplo: Supón que se encuestó a una muestra aleatoria de personas de todos los grupos
socioeconómicos. De un listado de marcas de bebidas gaseosas, los encuestados debı́an elegir la
de mayor preferencia (U, V o W). Los resultados con las frecuencias observadas de preferencias
se muestran a continuación:
Marca
Grupo U V W
ABC 12 11 16
D 9 6 3
E 0 5 9
34
Verificar si la elección de la marca de bebida gaseosa está condicionada al nivel socioeconómico.

Usa una significancia del 5 %.
Solución. Test de independencia χ2 :
H0 :̸ ∃ relación ; H1 : ∃ relación
En el enunciado se tienen los valores observados (Oij ) y calculamos los valores esperados ( Eij )
ni ∗ · n ∗ j
utilizando las distribuciones marginales, es decir, Eij = . La siguiente tabla muesta los
ntotal
valores esperados:
Marca
Grupo U V W
ABC 11, 5 12, 1 15, 4
D 5, 3 5, 6 7, 1
E 4, 1 4, 3 5, 5
" #
3 3 (Oij − Eij )2
Calculamos χ2prueba = ∑ ∑ = 11, 58.
i =1 j =1
Eij
Para α = 0, 05 y 4 grados de libertad ((no filas - 1)·(no columnas - 1)), se tiene:
χ20,95;4 = 9, 4877
Como χ20,95;4 < χ2Prueba , se rechaza H0 y se acepta que existe relación entre ambas variables, por
lo que la marca de la bebida está condicionada al nivel socioeconómico.
35
Referencias bibliográficas.
1. Devore, J. L. (2008). Probabilidad y estadı́stica para ingenierı́as y ciencias. Cengage Lear-
ning Editores.
2. Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2007). Probabilidad y estadı́stica para
ingenierı́a y ciencias. Norma, 162, 157.
3. Montgomery, D. C., Runger, G. C., & Medal, E. G. U. (1996). Probabilidad y estadı́stica
aplicadas a la ingenierı́a (No. 968-18-5914-6. 01-A1 LU. AL-PyE. 1.). México DF, México:
McGraw-Hill.

FMSP316 s7 Apunte2

Cargado por

Copyright:

Formatos disponibles

FMSP316 s7 Apunte2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

FMSP316 s7 Apunte2

Cargado por

Copyright:

Formatos disponibles

APUNTE

Castillo, S. (2021) & Moraga, F (2022).

2. Distribución de la varianza muestral: Si se toma una muestra con reemplazo { x1 , x2 , , , , , xn }

Por simplicidad denotaremos s2 = s2n−1 .

Donde todos los Zi siguen una distribución normal N (0, 1).

Definición 1. Los grados de libertad son la combinación del número de observaciones de un

Solución. Debemos obtener:

= P(20, 5278 < χ224 < 27, 5589)

= P(χ224 > 20, 5278) − P(χ224 > 27, 5589)

Lo que nos permite, fijado α, obtener el valor z1− α2 tal que:

Finalmente, el intervalo de confianza para la media poblacional µ resulta:

b. Cuando σ2 es desconocida: cuando σ2 es desconocido se utiliza la varianza muestral

La distribución t de Student surge debido al problema de estimar la media de una

c. Cuando σ2 es desconocida y la muestra es grande n > 30: En este caso s suele

Ahora veamos cámo resolver el ejercicio en Python:

[36]: # Creamos la lista de de datos

[36]: ([7.027098311358072, 12.750679466419706],

Esto nos permite notar que la estimación depende de la muestra obtenida.

Obteniendo el intervalo de confianza al nivel (1 − α) para la varianza:

Se desea construir un intervalo de confianza para la desviación estándar de los tiempos de

Consultando las tablas vemos que:

χ20,975;11 = 21, 920 y χ20,025;11 = 3, 816

Finalmente el intervalo resulta:

Ahora veamos cómo resolver este problema en Python:

[41]: [94.53913046607197, 226.59092349475267]

4. Intervalos de confianza para las diferencias.

De modo que el intervalo resulta :

c. Diferencia de medias poblacionales normales con σx2 y σy2 desconocidas e iguales

En este caso tenemos que utilizar la variable t de Student con n x + ny − 2 grados de

(n x − 1)s2x + (ny − 1)s2y

d. Diferencia de medias poblacionales normales con σx2 y σy2 desconocidas y distintas

Observación 3. Cuando se desconoce la igualdad de las varianzas, antes se debe

Tenemos que n A = 100; x̄ A = 200; σA = 100; n B = 100; x̄ B = 150 y σB = 50. Para α = 0, 05

[28, 09 ; 71, 91]

Ahora veamos cómo resolver este problema en Python:

[45]: # Definición de variables

[45]: [28.08693648558546, 71.91306351441455]

Ejemplo: Una compañı́a multinacional desea lanzar al mercado un nuevo producto en

El intervalo que necesitamos es:

Veamos una alternativa a este problema en Python:

[60]: [-0.16581390220166917, -0.014186097798330882]

Para poder estudiar el cociente de varianzas tenemos el intervalo de confianza:

Observación 4. Se utiliza la propiedad:

[65]: # Definición de variables

[65]: [6.168124203474329, 43.488817860369515]

Para esta diferencia obtenemos el promedio y desviación muestral:

Ahora calculamos el intervalo de confianza correspondiente a este caso:

= [−23, 44 ± 1, 860 · 16, 87]

= [−23, 44 ± 31, 38]

= [−54, 82; 7, 94]

= [435, 61 − 3503, 89]

De los datos obtenemos:

n a = 9 ; X̄a = 225, 3 ; s a = 55, 1

Ahora resolviendo tenemos:

De modo que el nivel de confianza es 98 %.

5. Test o contrastes de hipótesis.

Supongamos que se desea contrastar la llamada hipótesis nula H0 : µ = µ0 frente a la alternativa

Y adoptar la regla de decisión siguiente:

H0 H1 Estadı́stico observado Distribución Regla de aceptación de H0