EI1 - 3I1 - T2Portafolio Estadística Inferencial

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 40

DEPARTAMENTO DE INGENIERÍA INDUSTRIAL.

ESTADÍSTICA INFERENCIAL I

UNIDAD 2: ESTIMACIONES

INTEGRANTES DEL EQUIPO:

ABRAHAM DE JESUS DZIB PACHECO

CARLOS MARIO CAUICH PEREZ

ANDREA CONCEPCION GUZMAN MANUEL

ANGEL DAVID SALAS ROMERO

PORTAFOLIO DE EVIDENCIAS

GRUPO: 3I1.

PROFESOR: ING. LUIS EDUARDO BASTO AGUILAR

CURSO EN LINEA, SEMESTRE FEBRERO – JUNIO 2021.

FECHA DE ENTREGA: 15 de Abril de 2021

ISO 9001:2015 8.1, 8.2.2, 8.5.1, 7.1.5, 9.1.1, 8.6 R E V 06 ITMER-AC-PO-003-01


INDICE

2. ESTIMADORES .................................................................................................. 3

2.1 Introducción de estimación. ............................................................................... 3

2.2 Características de un estimador ........................................................................ 4

2.3 Estimación puntual ............................................................................................ 7

2.4 Estimación por intervalo de confianza. .............................................................. 8

2.4.1 Intervalos de confianza para la media .......................................................... 10

2.4.2 Intervalos de confianza para la diferencia de medias. .................................. 17

2.4.3 INTERVALO DE CONFIANZA PARA LA PROPORCION ............................ 23

2.4.4 INTERVALOS DE CONFIANZA PARA LA VARIANZA ................................ 26

2.4.5 intervalos de confianza para la relación de varianzas .................................. 29

2.5 Determinación del tamaño de la muestra ........................................................ 32

Conclusión............................................................................................................. 39

Referencias ........................................................................................................... 40
2. ESTIMADORES

2.1 Introducción de estimación.


La estimación es un elemento básico para las investigaciones, de hecho todas las
personas efectúan estimaciones en su vida sin preocuparse si son científicos, con
la finalidad de que sus proyectos guarden relación razonable con los resultados. A
través de la estimación se hace inferencia respecto a las características de la
población a partir de la información contenida en una muestra, estudiando los
métodos que nos permitan estimar de manera razonable. Hay dos tipos de
estimación que son estimación puntual que es un parámetro poblacional es cuando
se utiliza un único valor para estimar ese parámetro, es decir, se usa un punto en
concreto de la muestra para estimar el valor deseado y la estimación por intervalos
que consiste en establecer el intervalo de valores donde es más probable se
encuentre el parámetro.

En nuestra investigación se recolecto información valiosa, donde se hace referencia


a la estimación, estimador, tipos de estimación, intervalos de confianza, entre otros,
es oportuno mencionar que todo mundo hace estimaciones todos los dias, las
estimaciones son muy importantes. Cabe destacar que la estimación es un valor
especifico observado de un estimador , ante lo expuesto formamos una estimación
tomando una muestra y calculando el valor que en ella asume nuestro estimador.la
finalidad es proporcionar las herramientas necesarias para poder determinar
buenas aproximaciones (estimaciones ) a aquellos valores desconocidos en la
población y que estamos interesados en conocer . Un buen estimador debe contar
con ciertos criterios como eficiencia, imparcialidad, congruencia y suficiencia.

En fin esperemos sea de su agrado nuestro trabajo y cumpla con sus expectativas
la verdad para nosotros fue muy interesante este tema.
2.2 Características de un estimador
Sesgo.

Se dice que un estimador es insesgado si la Media de la distribución del estimador


es igual al parámetro. Estimadores insesgados son la Media muestral (estimador de
la Media de la población) y la Varianza (estimador de la Varianza de la población):

Ejemplo

En una población de 500 puntuaciones cuya Media (m) es igual a 5.09 han hecho
un muestreo aleatorio (número de muestras= 10000, tamaño de las muestras= 100)
y hallan que la Media de las Medias muéstrales es igual a 5.09, (la media poblacional
y la media de las medias muéstrales coinciden). En cambio, la Mediana de la
población es igual a 5 y la Media de las Medianas es igual a 5.1 esto es, hay
diferencia ya que la Mediana es un estimador sesgado.

La Varianza es un estimador sesgado. Ejemplo: La Media de las Varianzas


obtenidas con la Varianza en un muestreo de 1000 muestras (n=25) en que la
Varianza de la población es igual a 9.56 ha resultado igual a 9.12, esto es, no
coinciden.

En cambio, al utilizar la Cuasivarianza la Media de las Varianzas muéstrales es igual


a 9.5, esto es, coincide con la Varianza de la población ya que la Cuasivarianza es
un estimador insesgado.
Consistencia.

Un estimador es consistente si aproxima el valor del parámetro cuanto mayor es n


(tamaño de la muestra).

Algunos estimadores consistentes son:

Ejemplo

En una población de 500 puntuaciones cuya Media (m) es igual a 4.9 han hecho
tres muestreos aleatorios (número de muestras= 100) con los siguientes resultados:

Vemos que el muestreo en que n=100 la Media de las Medias muéstrales toma el
mismo valor que la Media de la población.

Eficiencia.

Diremos que un estimador es más eficiente que otro si la Varianza de la distribución


muestral del estimador es menor a la del otro estimador. Cuanto menor es la
eficiencia, menor es la confianza de que el estadístico obtenido en la muestra
aproxime al parámetro poblacional.

La eficiencia de los estimadores está limitada por las características de la


distribución de probabilidad de la muestra de la que proceden. El teorema de
Cramér-Rao determina que la varianza de un estimador insesgado 𝜃 de un
parámetro 𝜃 es, como mínimo.

Donde 𝑓(𝑋; 𝜃) es la función de densidad de probabilidad de la muestra


X=(X1,X2…..Xn)t en función del parámetro 𝜃 (denominada función de verosimilitud).
Si un estimador insesgado alcanza esta cota mínima, entonces se dice que el
estimador es de mínima varianza dentro de los estimadores insesgados, pudiendo
existir estimadores sesgados con varianza menor.

Ejemplo

La Varianza de la distribución muestral de la Media en un muestreo aleatorio


(número de muestras: 1000, n=25) ha resultado igual a 0.4. La Varianza de la
distribución de Medianas ha resultado, en el mismo muestreo, igual a 1.12, (este
resultado muestra que la Media es un estimador más eficiente que la Mediana).

Robustez

El estimador 𝜃 será un estimador robusto del parámetro 𝜃 si la violación de los


supuestos de partida en los que se basa la estimación (normalmente, atribuir a la
población un determinado tipo de función de distribución que, en realidad, no es la
correcta), no altera de manera significativa los resultados que éste proporciona.

Suficiencia

Se dice que un estimador es suficiente cuando resume toda la información relevante


contenida en la muestra, de forma que ningún otro estimador pueda proporcionar
información adicional sobre el parámetro desconocido de la población. Por ejemplo,
la media muestral sería un estimador suficiente de la media poblacional, mientras
que la moda también.
Invariancia

Se dice que un estimador es invariante cuando el estimador de la función del


parámetro coincide con la función del estimador del parámetro, [𝑓(𝜃)] ∗= 𝑓(𝜃)

Ejemplo.-

Si para estimar la varianza poblacional utilizamos la varianza muestral, entonces


para estimar la desviación típica poblacional será razonable utilizar la desviación
típica muestral.

2.3 Estimación puntual


Una estimación puntual de un parámetro poblacional es cuando se utiliza un único
valor para estimar ese parámetro, es decir, se usa un punto en concreto de la
muestra para estimar el valor deseado.

Cuando estimamos un parámetro de forma puntual, podemos saber con certeza,


cual es ese valor. Imaginemos una población de 30 personas de las que
seleccionamos una muestra de 20 para las que conocemos sus edades. Estimar de
forma puntual la media de edad, sería tan sencillo como sumar esos 20 datos y
dividirlos entre el total de la muestra estadística.

Pensemos ahora en que queremos estimar la altura media de esa muestra. Al


contrario que antes, no tenemos el valor de la altura de cada persona. En este caso
no podríamos realizar una estimación puntual, es decir, no podríamos hallar un valor
concreto de esa altura media. En este caso tendríamos que realizar una estimación
por intervalos, es decir, podríamos acotar el valor más alto y más bajo de las alturas
de las personas con cierta seguridad o lo que en estadística se conoce como cierto
nivel de confianza.

Ejemplos de estimaciones puntuales

Para obtener una estimación puntual se usa un estadístico que recibe el nombre de
estimador o función de decisión. Algunos ejemplos de estadísticos son:

La media muestral que sirve como estimación puntual de la media poblacional.


La desviación típica muestral que sirve de estimación para la desviación típica de la
población.

2.4 Estimación por intervalo de confianza.


La estimación puntual aproxima mediante un número el valor de una característica
poblacional o parámetro desconocido (la altura media de los españoles, la intención
de voto a un partido en las próximas elecciones generales, el tiempo medio de
ejecución de un algoritmo, el número de taxis…) pero no nos indica el error que se
comete en dicha estimación.

Lo razonable, en la práctica, es adjuntar, junto a la estimación puntual del


parámetro, un intervalo que mida el margen de error de la estimación. La
construcción de dicho intervalo es el objetivo de la estimación por intervalos de
confianza.

Un intervalo de confianza para un parámetro con un nivel de confianza

1 − 𝛼(0 < 𝛼 < 1) , es un intervalo de extremos aleatorios (𝐿𝑈) que, con


probabilidad 1 − 𝛼, contiene al parámetro en cuestión.

𝑃(𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑜 ∈ (𝐿, 𝑈)) = 1 − 𝛼

Los valores más habituales del nivel de confianza 1 − 𝛼 son 0.9, 0.95 O 0.99 (la
confianza es del 90%,95% o 99%. En ocasiones también se emplea la
terminología nivel de significación para el valor 𝛼
En la estimación por intervalos de confianza partimos de una muestra 𝑥1 , … , 𝑥𝑛. A
partir de estos valores obtenemos un intervalo numérico. Por ejemplo, podríamos
hablar de que, con una confianza del 99 por ciento, la proporción de voto al partido
político “Unidas Ciudadanas” está entre el 29 y el 31 por ciento. O que, con una
confianza del por ciento, la estatura media está entre 1.80 y 1.84.

Igual que vimos antes con las encuestas de las estaturas, o de la proporción de
gente que cree en los extraterrestres, con cada muestra obteníamos 𝑛 datos
diferentes, y valores diferentes (de la media muestral o de la proporción muestral).

De cada muestra también puede obtenerse un intervalo de confianza. Entonces,


con cada muestra diferente, obtendremos un intervalo también diferente. A medida
que aumenta la cantidad de intervalos que hemos construido, el porcentaje de
intervalos que contienen el verdadero valor del parámetro se aproximará al
100(1 − 𝛼 )%.

Así, por ejemplo, un intervalo de confianza al 95% garantiza que, si tomamos 100
muestras, el verdadero valor del parámetro estará dentro del intervalo
en aproximadamente el 95 de los intervalos construidos.

Esta foto de Autor desconocido está bajo licencia CC BY-SA


2.4.1 Intervalos de confianza para la media

Nos centramos en la estimación de la media μ de una población o


variable normal (altura media, peso medio, tiempo medio haciendo gimnasia…).

Inicialmente, consideramos que la desviación típica de la variable es conocida (es


un número que sabemos).

Por una vez, y sin que sirva de precedente, vamos a ver cómo es la construcción
matemática del intervalo de confianza. Consideremos la variable X∈N(μ,σ), que
representa a la característica que estamos midiendo (altura, peso…). Supongamos
que σ es conocida.

Consideramos una muestra aleatoria simple 𝑥1 , … , 𝑥𝑛 de la variable x. Dado el nivel


de confianza (1 − 𝛼 ), elegimos el llamado estadístico pivote

𝑋̅ − 𝜇
𝑍=
𝜎/√𝑛

Un estadístico es una función de variables aleatorias y es también otra variable


aleatoria. En este caso, vamos a ver que distribución sigue esta variable Z que
acabamos de definir (el término pivote es una nomenclatura utilizada en los test de
hipótesis).

Como vimos anteriormente, la media muestral verifica:

𝜎
𝑋̅ ∈ 𝑁 (𝜇, )
√𝑛

Por lo tanto, si tipificamos la variable (restamos la media y dividimos por la


desviación típica), obtenemos la variable T, lo que quiere decir que esta variable
sigue una distribución normal estándar (N(0,1)).
𝛼
Teniendo en cuenta que = 𝑃(𝑍 ≥ 𝑍𝛼/2 ), sabemos que:
2

Niveles de significación en una normal estandarizada

𝑋̅ − 𝜇
1 − 𝛼 = 𝑃 (−𝑍𝛼/2 < <𝑍𝛼/2 )
𝜎/√𝑛

Despejando el parámetro μ obtenemos

𝜎 𝜎
1 − 𝛼 = 𝑃 (𝑋̅−𝑍𝛼/2 < 𝜇 <𝑋̅+𝑍𝛼/2 )
√𝑛 √𝑛

Por tanto, el intervalo de confianza para μ al nivel de confianza (1 − 𝛼) es

𝜎 𝜎
(𝐿, 𝑈) = (𝑋̅ −𝑍𝛼/2 , 𝑋̅ +𝑍𝛼/2 )
√𝑛 √𝑛
El procedimiento teórico para llegar a esta fórmula es simple, aunque difícil de seguir
para cualquiera con pocos conocimientos matemáticos. En todo caso, lo importante
es que la fórmula del intervalo no tiene excesiva dificultad. El intervalo está centrado
en el estimador media muestral, y los extremos consisten en restar y sumar la misma
cantidad: un valor que depende del nivel de confianza utilizado, multiplicado por el
error muestral de la media.

EJERCICIO

En una clínica de fisioterapia se quiere saber el número de grados que acaba


doblando una rodilla después de dos semanas de tratamiento. Las medidas de 10
pacientes fueron: 41.60, 41.48, 42.34, 41.95, 41.86, 42.41, 41.72, 42.26, 41.81,
42.04, 41.60, 41.48, 42.34, 41.95, 41.86, 42.41, 41.72, 42.26, 41.81, 42.04.

Aceptando que la variable aleatoria X = “grados que dobla la rodilla” sigue una
distribución normal, y suponiendo que 𝜎 = 0.30 grados,

Obtener un intervalo de confianza para la temperatura media al nivel del 90%.

Deduce el tamaño muestral necesario para conseguir un intervalo de confianza al


99%, con un error menor o igual que 0.05.

SOLUCION

Sabemos que 𝜎 = 0.3 y 𝑛 = 10

La media muestral es

10
1 419.47
𝑥 = ∑ 𝑥𝑖 = = 41.947
𝑛 10
𝑖=1

El intervalo de confianza para μ al nivel de confianza 1−α es:

𝜎 𝜎 0.3
(𝑋̅−𝑍𝛼/2 , 𝑋̅ +𝑍𝛼/2 ) = (41.947 ± 𝑍𝛼/2 )
√𝑛 √𝑛 √10
Donde el valor 𝑍𝛼/2 = 1.645 se puede obtener como:

Calculamos el cuartil de una normal (por defecto, los parámetros 0 y 1 no hace falta
escribirlos).

El intervalo de confianza para µ al 95% es, entonces:

0.3
(41.947 ± 1.96 ) = (41.947 ± 0.186) = (41.761, 42.133)
√10

Escribimos de nuevo la fórmula del intervalo de confianza:

𝜎 𝜎
(𝑋̅−𝑍𝛼/2 , 𝑋̅ +𝑍𝛼/2 )
√𝑛 √𝑛

Para ver que, con una probabilidad 1−α el parámetro verdadero (µ) esta dentro de
ese intervalo; es decir, que la distancia entre µ y 𝑋̅ es, como mucho,

𝜎
𝑍𝛼/2 ,
√𝑛

Esto es, el error de estimación esta acotado:

𝜎
|𝑋̅ − 𝜇| ≤ 𝑍𝛼/2 ,
√𝑛

Si queremos calcular el tamaño muestral necesario para que el error sea menor o
igual a una cantidad 𝑒 (0.05 en este caso), hacemos:

2
𝜎 𝑍𝛼/2 ∙ 𝜎2 1.96 ∙ 0.3 2
𝑍𝛼/2 , ≤𝑒⇔𝑛≥ = ( ) = 138.298
√𝑛 𝑒2 0.05

Hay que tomar entonces n=139 mediciones.

Fijémonos en que, si quisiésemos obtener un error la mitad de pequeño (e/2), la


fórmula que obtenemos es:

2 2
𝑍𝛼/2 ∙ 𝜎2 𝑍𝛼/2 ∙ 𝜎2
𝑛≥ =4×
(𝑒/2)2 𝑒2
Es decir, habría que tomar una muestra 4 veces más grande.

En la práctica, no es habitual conocer la desviación típica, así que esta debe


estimarse a partir de la muestra, igual que se estima la media. El intervalo de
confianza para la media de una variable aleatoria normal, con desviación típica
desconocida, tiene la siguiente forma:

𝑆̂𝑛−1
(𝑋̅ ± 𝑡𝑛−1,𝛼/2 )
√𝑛

Siendo 𝑡𝑛−1,𝛼/2 el valor de una t de Student con n-1 grados de libertad que deja a la
derecha 𝛼/2 de área (mismo significado que en el caso anterior, pero debemos
biscar dicho valor en la densidad t con n-1 grados de libertad).

𝑆̂𝑛−1 es la cuasi-desviacion típica muestral, es decir la raíz cuadrada de la cuasi-


varianza muestral.

Como parece lógico, si se desea una mayor confianza de que el parámetro buscado
esté dentro del intervalo, el intervalo va a salir más grande. La única manera de
obtener intervalos más pequeños sería aumentar el tamaño muestral (recordemos
que la forma del intervalo es
𝑆̂
(𝑋̅ ± 𝑡𝑛−1,𝛼/2 𝑛−1 ), donde la longitud es inversamente proporcional a √𝑛
√𝑛

Como hemos dicho anteriormente, en la práctica, si de una población no se conoce


la media (y por eso intentamos estimarla), es raro conocer la desviación típica. Por
ello el intervalo de confianza para la media que calculan, en general, los paquetes
estadísticos.

Esta foto de Autor desconocido está bajo licencia CC BY


Ahora bien, volveremos a conocer el intervalo de confianza para la media, pero
ahora con la varianza desconocida.

De tal manera que nuevamente como se trata de encontrar un intervalo de


1
confianza para μ nos basamos en la esperanza muestral 𝑥 = ∑𝑛𝑖=1 𝑥𝑖 que
𝑛
sabemos es un buen estimador de μ. Pero ahora no podemos usar como pivote a
𝑋̅ − 𝜇
𝑍=
𝜎/√𝑛

porque desconocemos σ y una condición para ser pivote es que, excepto por el
parámetro a estimar (en este caso μ), todos los parámetros que aparecen en él
deben ser conocidos. Entonces proponemos como pivote una variable aleatoria
definida en forma parecida a Z pero reemplazando σ por un estimador adecuado.
Ya vimos que la varianza muestral definida

1
𝑆 2 = 𝑛−1 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2 ,

donde X es la esperanza muestral, es un estimador insesgado de la varianza


poblacional VX  , es decir, 𝐸(𝑆 2 ) = 𝑉(𝑋) = 𝜎 2 ∀𝑛 . Entonces estimamos σ con S
y proponemos como pivote a la variable aleatoria

𝑋̅ − 𝜇
𝑇=
𝑆/√𝑛

Pero para poder usar a T como pivote debemos conocer su distribución. Se puede
probar que la distribución de T es una distribución llamada Student con parámetro
n-1. Luego, para construir el intervalo de confianza buscado a partir del pivote T
procedemos como en los casos anteriores:

Comenzamos por plantear la ecuación

𝑃(−𝑡 ≤ 𝑇 ≤ 𝑡) = 1 − 𝛼

donde la incógnita es el número real t.


Si reemplazamos la v.a. T por su expresión, tenemos sucesivamente (multiplicando
por 𝑆/√𝑛 y restando 𝑋̅):

𝑋̅ −𝜇 𝑆 𝑆 𝑆 𝑆
𝑃 (−𝑡 ≤ ≤ 𝑡)= 𝑃 (−𝑡 ≤ 𝑋̅ − 𝜇 ≤ 𝑡 ) = 𝑃 (−𝑋̅ − 𝑡 ≤ −𝜇 ≤ −𝑋̅ + 𝑡 )= 1−𝛼
𝑆/√𝑛 √𝑛 √𝑛 √𝑛 √𝑛

Multiplicando todos los miembros de la desigualdad por -1 (el orden de los miembros
se invierte) llegamos a:

𝑆 𝑆
𝑃 (𝑋̅ − 𝑡 ≤ 𝜇 ≤ −𝑋̅ + 𝑡 ) = 1−𝛼
√𝑛 √𝑛

EJERCICIO

Se hicieron 10 mediciones sobre la resistencia de cierto tipo de alambre que dieron


1
valores 𝑥1 , 𝑥2 , … , 𝑥10 tales que 𝑥̅ = 10 ∑10
𝑖=1 𝑥𝑖 = 10.48 𝑜ℎ𝑚𝑠 y

1
𝑆 = √9 ∑10 2 2
𝑖=1(𝑥𝑖 − 𝑥̅ ) = 1.36 𝑜ℎ𝑚𝑠. Supongase que 𝑋~𝑁(𝜇,𝜎 ).

Se desea obtener un intervalo de confianza para la esperanza poblacional µ al 90%.

Tenemos que 1 − 𝛼 = 0.90 → 𝛼 = 0.1 → 𝛼/2 = 0.05

De la tabla de la t de Student tenemos que 𝑡0.05,9 = 1.8331. Entonces el intervalo de


confianza buscado es:

𝑆 𝑆 1.36 1.36
[𝑥̅ − 𝑡𝛼 ,𝑛−1 , 𝑥̅ + 𝑡𝛼 ,𝑛−1 ] = [10.48 − 1.8331 , 10.48 + 1.8331 ]
2 √𝑛 2 √𝑛 √10 √10

Esto es: [9.69, 11.27].

Si 𝜎 2 es desconocido y el tamaño de la muestra grande, entonces se puede probar


que al reemplazar 𝜎 por S, el estadístico

𝑋̅−𝜇
𝑍 = 𝑆/ ~𝑁(0,1) aproximadamente y puedo construir el intervalo para µ como
√𝑛

antes:

𝑆 𝑆
[𝑥̅ − 𝑧𝛼,𝑛−1 , 𝑥̅ + 𝑧𝛼,𝑛−1 ], pero su nivel es aproximadamente 1 − 𝛼.
2 √𝑛 2 √𝑛
2.4.2 Intervalos de confianza para la diferencia de medias.

De la misma forma, vamos a realizar otro tipo de situación, en la cual nos solicitan
un intervalo de confianza pero en esta ocasión para la diferencia de medias, en el
cual hay 2 casos típicos, cuando se conoce la varianza, y cuando esta es
desconocida.

A continuación, explicaremos a fondo el intervalo de confianza para diferencia de


medias, con varianza conocida.

Supongamos que tenemos dos variables aleatorias independientes normalmente


distribuidas:

𝑋1 ~𝑁(𝜇1 𝜎12 )
{ y suponemos que las varianzas 𝜎12 y 𝜎22 son conocidas.
𝑋2 ~𝑁(𝜇2 𝜎22 )

Sean además

(𝑋11 , 𝑋12 , . . . , 𝑋1𝑛1 ) una muestra aleatoria de tamaño 𝑛1 𝑑𝑒 𝑋1

(𝑋11 , 𝑋12 , . . . , 𝑋1𝑛1 ) una muestra aleatoria de tamaño 𝑛2 𝑑𝑒 𝑋2

Deseamos construir un intervalo al nivel de confianza 1 − 𝛼 para la diferencia de


esperanzas 𝜇1 − 𝜇2 .

Ya sabemos cual es la distribución del promedio de variables aleatorias normales


independientes:
𝑛1
1 𝜎12
̅
𝑋1 = ∑ 𝑋1𝑖 ~𝑁 (𝜇1 , )
𝑛1 𝑛1
𝑖=1
𝑛2
1 𝜎22
𝑋̅2 = ∑ 𝑋2𝑖 ~𝑁 (𝜇2 , )
𝑛2 𝑛2
𝑖=1

Consideramos ahora la diferencia 𝑌̅ = 𝑋̅1 − 𝑋̅2 . Si 𝑋̅1 𝑦 𝑋̅2 tienen distribución


normal y son independientes, su diferencia también es normal, con esperanza igual
a la diferencia de las esperanzas y la varianza es la suma de las varianzas:
𝜎12 𝜎22
𝑋̅1 − 𝑋̅2 ~𝑁 (𝜇1 − 𝜇2 , + )
𝑛1 𝑛2

Por lo tanto:

𝑋̅1 − 𝑋̅2 − (𝜇1 − 𝜇2 )


𝑍= ~𝑁(0,1)
𝜎2 𝜎22
√ 1
𝑛1 + 𝑛2

Es decir, tiene distribución normal estandarizada.

La variable aleatoria Z cumple con todas las condiciones para servir de pivote y
construiremos nuestro intervalo en forma análoga a como hicimos en los casos
anteriores:

Comenzamos por plantear la ecuación

𝑃 (−𝑧 ≤ 𝑍 ≤ 𝑧) = 1 − 𝛼

Donde la incógnita es el numero real z.

Reemplazamos la variable aleatoria Z por su expresión y tenemos sucesivamente


𝜎 2 𝜎 2
(multiplicando por √𝑛1 + 𝑛2 y restando 𝑋̅1 − 𝑋̅2 ):
1 2

𝑋̅1 − 𝑋̅2 − (𝜇1 − 𝜇2 )


𝑃 −𝑧 ≤ ≤𝑧
𝜎2 𝜎22
√ 1
𝑛1 + 𝑛2
( )

𝜎12 𝜎22 𝜎12 𝜎22


𝑃 (−𝑧√ + ̅ ̅ ( )
≤ 𝑋1 − 𝑋2 − 𝜇1 − 𝜇2 ≤ 𝑧 √ + )
𝑛1 𝑛2 𝑛1 𝑛2

𝜎12 𝜎22 𝜎12 𝜎22


𝑃 (−(𝑋̅1 − 𝑋̅2 ) − 𝑧√ + ̅ ̅
≤ −(𝜇1 − 𝜇2 ) ≤ (𝑋1 − 𝑋2 ) + 𝑧√ + ) = 1 − 𝛼
𝑛1 𝑛2 𝑛1 𝑛2
Multiplicando todos los miembros de la desigualdad por -1 (el orden de los miembros
se invierte) llegamos a:

𝜎12 𝜎22 𝜎12 𝜎22


𝑃 (𝑋̅1 − 𝑋̅2 − 𝑧√ + ≤ 𝜇1 − 𝜇2 ≤ 𝑋̅1 − 𝑋̅2 + 𝑧√ + ) = 1 − 𝛼
𝑛1 𝑛2 𝑛1 𝑛2

Por ultimo y en consecuencia, el intervalo de confianza bilateral al nivel de


significación 1 − 𝛼 queda:

𝜎12 𝜎22 𝜎12 𝜎22


[𝑋̅1 − 𝑋̅2 − 𝑧𝛼/2 √ + , 𝑋̅1 − 𝑋̅2 + 𝑧𝛼/2 √ + ]
𝑛1 𝑛2 𝑛1 𝑛2

Por lo tanto, si 𝑋1 y 𝑋2 son dos variables aleatorias independientes normalmente


distribuidas: 𝑋1 ~𝑁(𝜇1 𝜎12 ), 𝑋2 ~𝑁(𝜇2 𝜎22 ) y suponemos que las varianzas 𝜎12 y 𝜎22 son
conocidas. Un intervalo de confianza para la diferencia 𝜇1 − 𝜇2 de nivel 1 − 𝛼 es:

𝜎12 𝜎22 𝜎12 𝜎22


̅ ̅
[𝑋1 − 𝑋2 − 𝑧𝛼/2 √ ̅ ̅
+ , 𝑋 − 𝑋2 + 𝑧𝛼/2 √ + ]
𝑛1 𝑛2 1 𝑛1 𝑛2

EJERCICIO

Se utilizan 2 maquinas para llenar botellas de plástico con detergente para


maquinas lavaplatos. Se sabe que las desviaciones estándar de volumen de llenado
son 𝜎1 = 0.10 onzas de liquido y 𝜎2 = 0.15 onzas de liquido para las 2 maquinas
respectivamente. Se toman 2 muestras aleatorias, 𝑛1 = 12 botellas de la maquina 1
y 𝑛2 = 10 botellas de la maquina 2. Los volúmenes promedio de llenado son 𝑥̅1 =
30.87 onzas de liquido y 𝑥̅ 2 = 30.68 onzas de liquido.

Asumiendo que ambas muestras provienen de distribuciones normales. Construya


un intervalo de confianza de nivel 90% para la diferencia entre las medias del
volumen de llenado.
SOLUCION.

Como 1 − 𝛼 = 0.90 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝛼 = 0.10

Por lo tanto 𝑧𝛼/2 = 𝑧0.05 = 1.65

El intervalo será

0.102 0.152 0.102 0.152


[(30.87 − 30.68) − 1.65√ + ; (30.87 − 30.68) + 1.65√ + ]
12 10 12 10

O sea [0.09837; 0.281620]

Si se conocen las desviaciones estándar y los tamaños de las muestras son iguales
(es decir 𝑛1 = 𝑛2 = 𝑛), entonces puede determinarse el tamaño requerido de la
muestra de manera tal que la longitud del intervalo sea menor que ℓ

𝜎12 𝜎22 2𝑧𝛼/2 2 2


𝐿 = 2𝑧𝛼/2 √ + ≤ℓ⟹𝑛≥( ) (𝜎1 + 𝜎22 )
𝑛1 𝑛2 ℓ

Esta foto de Autor desconocido está bajo licencia CC BY-NC


Ahora bien, abarcaremos el mismo tema de intervalos de confianza con diferencia
de medias, pero ahora con la varianza desconocida, en el cual el procedimiento de
la formula cambia.

Supongamos que tenemos dos variables aleatorias independientes normalmente


distribuidas:

𝑋1 ~𝑁(𝜇1 𝜎12 )
{ y suponemos que las varianzas 𝜎12 y 𝜎22 son desconocidas.
𝑋2 ~𝑁(𝜇2 𝜎22 )

Sean, además

(𝑋11 , 𝑋12 , . . . , 𝑋1𝑛1 ) una muestra aleatoria de tamaño 𝑛1 𝑑𝑒 𝑋1

(𝑋11 , 𝑋12 , . . . , 𝑋1𝑛1 ) una muestra aleatoria de tamaño 𝑛2 𝑑𝑒 𝑋2

Pero ahora 𝑛1 𝑜 𝑛2 no son mayores que 30

Supongamos que es razonable suponer que las varianzas desconocidas son


iguales, es decir 𝜎1 = 𝜎2 = 𝜎

Deseamos construir un intervalo al nivel de confianza 1 − 𝛼 para la diferencia de


esperanzas 𝜇1 − 𝜇2 .

Sean 𝑋̅1 𝑦 𝑋̅2 las medias muestrales y 𝑆12 𝑦 𝑆22 las varianzas muestrales. Como
𝑆12 𝑦 𝑆22 son los estimadores de la varianza común 𝜎 2 , entonces construimos un
estimador combinado de 𝜎 2 .

Este estimador es

(𝑛1 − 1)𝑆12 + (𝑛2 − 1)𝑆22


𝑆𝑝2 =
𝑛1 + 𝑛2 − 2

Se puede comprobar que es un estimador insesgado de 𝜎 2 .

Se puede probar que el estadístico

𝑋̅1 − 𝑋̅2 − (𝜇1 − 𝜇2 )


𝑇=
1 1
𝑆𝑃 √𝑛 + 𝑛
1 2
Tiene distribución Studen con 𝑛1 + 𝑛2 − 2 grados de libertad.

Por lo tanto, se plantea la ecuación:

𝑋̅1 − 𝑋̅2 − (𝜇1 − 𝜇2 )


𝑃 −𝑡𝛼 ,𝑛 + 𝑛2−2
≤ ≤ 𝑡𝛼 ,𝑛 + 𝑛2 −2
=1−𝛼
2 1 1 1 2 1
𝑆𝑃 √𝑛 + 𝑛
( 1 2 )

𝑃 (−𝑡𝛼 ,𝑛 + 𝑛2 −2
≤ 𝑇 ≤ 𝑡𝛼 ,𝑛 + 𝑛2 −2
)
2 1 2 1

Despejamos 𝜇1 − 𝜇2 y queda la expresión

1 1 1 1
𝑃 (𝑋̅1 − 𝑋̅2 −𝑡𝛼 ,𝑛 𝑆𝑃 √ + ≤ 𝜇1 − 𝜇2 ≤ ̅1 − 𝑋̅2 + 𝑡𝛼
𝑋 𝑆𝑃 √ + )
2 1 + 𝑛2 −2 𝑛1 𝑛2 ,𝑛 + 𝑛2−2
2 1 𝑛1 𝑛2

= 1−𝛼

Entonces, podemos concluir que, si 𝑋1 y 𝑋2 son dos variables aleatorias


independientes normalmente distribuidas: 𝑋1 ~𝑁(𝜇1 𝜎12 ), 𝑋2 ~𝑁(𝜇2 𝜎22 ) y suponemos
que las varianzas 𝜎12 y 𝜎22 son desconocidas e iguales, es decir 𝜎1 = 𝜎2 = 𝜎

Un intervalo de confianza para la diferencia 𝜇1 − 𝜇2 de nivel 1 − 𝛼 es

1 1 1 1
[𝑋̅1 − 𝑋̅2 −𝑡𝛼 ,𝑛 𝑆𝑃 √ + ; ̅1 − 𝑋̅2 +𝑡𝛼
𝑋 𝑆𝑃 √ + ]
2 1 + 𝑛2 −2 𝑛1 𝑛2 ,𝑛 + 𝑛2−2
2 1 𝑛1 𝑛2

Esta foto de Autor desconocido está bajo licencia CC BY-SA


2.4.3 INTERVALO DE CONFIANZA PARA LA PROPORCION

La proporción de la muestra es una estimación de la proporción de la población.


Puesto que la proporción se basa en los datos de una muestra y no en toda la
población, es improbable que la proporción de la muestra sea igual a la proporción
de la población. Para estimar mejor la proporción de la población, utilice el intervalo
de confianza.

El intervalo de confianza proporciona un rango de valores probables para la


proporción de la población. Por ejemplo, un nivel de confianza de 95% indica que si
usted toma 100 muestras aleatorias de la población, podría esperar que
aproximadamente 95 de las muestras produzcan intervalos que contengan la
proporción de población. El intervalo de confianza ayuda a evaluar la significancia
práctica de los resultados. Utilice su conocimiento especializado para determinar si
el intervalo de confianza incluye valores que tienen significancia práctica para su
situación. Si el intervalo es demasiado amplio para ser útil, considere aumentar el
tamaño de la muestra.

Un intervalo de confianza para la proporción de individuos que cumplen una


característica en una población, con un nivel de confianza 1 - α construido a partir
de una muestra de tamaño n, es:

donde es la proporción de la muestra


zα/2 es el nivel crítico para el nivel de confianza α
n es muy grande, lo que equivale a np > 5 y n(1-p) > 5

Error máximo admisible

El error máximo admisible en la estimación de la proporción utilizando el intervalo


de confianza para la proporción con un nivel de confianza 1 - α es su radio:
Cuanto mayor sea n, menor será el error cometido.

Cuanto mayor sea 1-α , mayor será zα/2 y , por tanto, también el error.

Tamaño de la muestra

Despejando n de la fórmula anterior, podemos calcular el tamaño mínimo para que


se cumplan las condiciones.

Ejemplo 1:

En un control de calidad se analizó una muestra aleatoria de 750 tornillos resultando


defectuosos 80 de ellos.

Hallar:

a) Un intervalo de confianza para la proporción de tornillos defectuosos en el


conjunto de producción con 99% de confianza.

b) ¿Cuál es el error máximo cometido en la estimación anterior?

c) Si deseamos que el error cometido, con el mismo nivel de confianza, sea la


décima parte dele apartado anterior, ¿cuál ha de ser el tamaño de la muestra?
2.4.4 INTERVALOS DE CONFIANZA PARA LA VARIANZA
Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la

siguiente propiedad de la distribución :

Consideremos dos cantiles de esta distribución que nos dejen una

probabilidad en la ``zona central'' de la distribución:

Figura: Cuantiles de la distribución .

Entonces un intervalo de confianza al nivel para la varianza de una


distribucion gaussiana (cuyos parametros desconocemos) lo obtenemos teniendo

en cuenta que existe una probabilidad de que:


Por tanto el intervalo que buscamos es

Ejemplo:

En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad,


obteniéndose en una muestra de tamaño 25 los siguientes valores:

Calcular un intervalo de confianza con para la varianza de la altura de


los individuos de la ciudad.

Solución:

Para estimar un intervalo de confianza para (varianza poblacional) el estadístico


que nos resulta útil es:
Entonces el intervalo de confianza que buscamos lo obtenemos mediante

Figura: Percentiles del 2,5% y del 97,5%

para la distribución .

Por tanto, para el valor poblacional de la desviación típica tenemos que

con una confianza del 95%, que por supuesto contiene a las estimaciones

puntuales y calculados sobre la muestra.


2.4.5 intervalos de confianza para la relación de varianzas
Las circunstancias específicas para la construcción de este intervalo son las
siguientes:

Intervalo para el cociente de dos varianzas poblacionales

Realizamos dos muestras aleatorias simples de tamaño n y m, de dichas muestras


se extraen las varianzas muestrales.

Conocemos que las poblaciones 1 y 2 para cuya razón de varianzas queremos


construir el intervalo que son Normales.

Lógicamente prefijamos un nivel de confianza 1-α

Conocemos según vimos cuando estudiamos las distribuciones muestrales


normales que por el lema de FISHER – COCHRAN

Para las dos poblaciones que tenemos se dará

Nótese que el tamaño muestral de la muestra de primera es n y la de segunda es


m dado que nos interesa la razón de varianzas y en aplicaciones de la expresión de
la F de Snedecor:
Tendremos

Arreglando el cociente

Dado que nos interesa el cociente inverso

Tendríamos que:

Donde está incluida la razón de varianza para a cuál queremos crear un intervalo.

Si hemos establecido un nivel de confianza de 1- α el intervalo para una F(m-1)(n-


1) vendría dado por las constantes L1 y L2, adoptándose el criterio simplificador,
próximo al de mayor longitud, se debe de considerar:
De manera que

Y por otra parte

Una vez determinado los valores de L1 y L2 tendriamos el intervalo

Despejando la razón que nos interesa tendríamos

Evidentemente si planteamos la diferencia entre las varianzas, cuanto más próximo


sea la razón a la unidad menor diferencia habrá entre las varianzas y lógicamente
cuando la razón esté entre estas difiera mucho de la 1, la diferencia de varianzas
será más ostensible.
2.5 Determinación del tamaño de la muestra

Todo estudio epidemiológico lleva implícito en la fase de diseño la determinación


del tamaño muestral necesario para la ejecución del mismo. El no realizar dicho
proceso, puede llevarnos a dos situaciones diferentes: primera que realicemos el
estudio sin el número adecuado de pacientes, con lo cual no podremos ser precisos
al estimar los parámetros y además no encontraremos diferencias significativas
cuando en la realidad sí existen. La segunda situación es que podríamos estudiar
un número innecesario de pacientes, lo cual lleva implícito no solo la pérdida de
tiempo e incremento de recursos innecesarios, sino que además la calidad del
estudio, dado dicho incremento, puede verse afectada en sentido negativo.

Para determinar el tamaño muestral de un estudio, debemos considerar diferentes


situaciones

Estudios para determinar parámetros

Con estos estudios pretendemos hacer inferencias a valores poblacionales


(proporciones, medias) a partir de una muestra.

A.1. Estimar una proporción: Si deseamos estimar una proporción, debemos saber:

a) El nivel de confianza o seguridad (1-α). El nivel de confianza prefijado da lugar a


un coeficiente (Zα). Para una seguridad del 95% = 1.96, para una seguridad del
99% = 2.58
b) La precisión que deseamos para nuestro estudio.
c) Una idea del valor aproximado del parámetro que queremos medir (en este caso
una proporción). Esta idea se puede obtener revisando la literatura, por estudio
pilotos previos. En caso de no tener dicha información utilizaremos el valor p = 0.5
(50%).

Ejemplo: ¿A cuántas personas tendríamos que estudiar para conocer la prevalencia


de diabetes?
Seguridad = 95%; Precisión = 3%: Proporción esperada = asumamos que puede
ser próxima al 5%; si no tuviésemos ninguna idea de dicha proporción utilizaríamos
el valor p = 0,5 (50%) que maximiza el tamaño muestral:

Donde:
• Zα 2 = 1.962 (ya que la seguridad es del 95%).
• p = proporción esperada (en este caso 5% = 0.05).
• q = 1 – p (en este caso 1 – 0.05 = 0.95).
• d = precisión (en este caso deseamos un 3%).

Si la población es finita, es decir conocemos el total de la población y deseásemos


saber cuántos del total tendremos que estudiar la respuesta seria:

Donde:
N=Total de la población.

Zα 2 = 1.962 (si la seguridad es del 95%).

p = proporción esperada (en este caso 5% = 0.05).

q = 1 – p (en este caso 1-0.05 = 0.95)

d = precisión (en este caso deseamos un 3%).


¿A cuántas personas tendría que estudiar de una población de 15.000 habitantes
para conocer la prevalencia de diabetes?

Seguridad = 95%; Precisión = 3%; proporción esperada = asumamos que puede


ser próxima al 5%; si no tuviese ninguna idea de dicha proporción utilizaríamos el
valor p = 0.5 (50%) que maximiza el tamaño muestral.

Según diferentes seguridades el coeficiente de Zα varía, así:

• Si la seguridad Zα fuese del 90% el coeficiente sería 1.645


• Si la seguridad Zα fuese del 95% el coeficiente sería 1.96
• Si la seguridad Zα fuese del 97.5% el coeficiente sería 2.24
• Si la seguridad Zα fuese del 99% el coeficiente sería 2.576

A.2. Estimar una media:

Si deseamos estimar una media: debemos saber:

El nivel de confianza o seguridad (1-α). El nivel de confianza prefijado da lugar a un


coeficiente (Zα). Para una seguridad del 95% = 1.96; para una seguridad del 99% =
2.58.

La precisión con que se desea estimar el parámetro (2 * d es la amplitud del intervalo


de confianza).

Una idea de la varianza S2 de la distribución de la variable cuantitativa que se


supone existe en la población.
Ejemplo: Si deseamos conocer la media de la glucemia basal de una población, con
una seguridad del 95 % y una precisión de ± 3 mg/dl y tenemos información por un
estudio piloto o revisión bibliográfica que la varianza es de 250 mg/dl.

Si la población es finita, como previamente se señaló, es decir conocemos el total


de la población y desearíamos saber cuántos del total tendríamos que estudiar, la
respuesta sería:

B. Estudios para contraste de hipótesis:

Estos estudios pretenden comparar si las medias o las proporciones de las muestras
son diferentes. Habitualmente el investigador pretende comparar dos tratamientos.
Para el cálculo del tamaño muestral se precisa conocer:

Magnitud de la diferencia a detectar que tenga interés clínicamente relevante. Se


pueden comparar dos proporciones o dos medias.

Tener una idea aproximada de los parámetros de la variable que se estudia


(bibliografía, estudios previos).

Seguridad del estudio (riesgo de cometer un error α)

Poder estadístico (1 - β) (riesgo de cometer un error β)

Definir si la hipótesis va a ser unilateral o bilateral.

• Bilateral: Cualquiera de los dos parámetros a comparar (medias o proporciones)


puede ser mayor o menor que el otro. No se establece dirección.
• Unilateral: Cuando se considera que uno de los parámetros debe ser mayor que
el otro, indicando por tanto una dirección de las diferencias.

La hipótesis bilateral es una hipótesis más conservadora y disminuye el riesgo de


cometer un error de tipo I (rechazar la H0 cuando en realidad es verdadera).

Donde:

• n = sujetos necesarios en cada una de las muestras


• Zα = Valor Z correspondiente al riesgo deseado
• Zβ = Valor Z correspondiente al riesgo deseado
• p1 = Valor de la proporción en el grupo de referencia, placebo, control o tratamiento
habitual.
• p2 = Valor de la proporción en el grupo del nuevo tratamiento, intervención o
técnica.
• p = Media de las dos proporciones p1 y p2

B.2. Comparación de dos medias:

Donde:

• n = sujetos necesarios en cada una de las muestras


• Zα = Valor Z correspondiente al riesgo deseado
• Zβ = Valor Z correspondiente al riesgo deseado
• S2 = Varianza de la variable cuantitativa que tiene el grupo control o de referencia.
• d = Valor mínimo de la diferencia que se desea detectar (datos cuantitativos).

Los valores Zα según la seguridad y Zβ según el poder se indican en la Tabla 2

Ejemplo de comparación de dos medias:

Deseamos utilizar un nuevo fármaco antidiabético y consideramos que sería


clínicamente eficaz si lograse un descenso de 15 mg/dl respecto al tto. Habitual con
el antidiabético estándar. Por estudios previos sabemos que la desviación típica de
la glucemia en pacientes que reciben el tratamiento habitual es de 16 mg/dl.
Aceptamos un riesgo de 0.05 y deseamos un poder estadístico de 90% para
detectar diferencias si es que existen.

Precisaremos 20 pacientes en cada grupo.


Ejemplo de comparación de dos proporciones:

Deseamos evaluar si el Tratamiento T2 es mejor que el tratamiento T1 para el alivio


del dolor para lo que diseñamos un ensayo clínico. Sabemos por datos previos que
la eficacia del fármaco habitual está alrededor del 70% y consideramos clínicamente
relevante si el nuevo fármaco alivia el dolor en un 90%. Nuestro nivel de riesgo lo
fijamos en 0.05 y deseamos un poder estadístico de un 80%.

n = 48 pacientes. En cada grupo precisamos 48 pacientes.

El tamaño muestral ajustado a las pérdidas:

En todos los estudios es preciso estimar las posibles pérdidas de pacientes por
razones diversas (pérdida de información, abandono, no respuesta…) por lo que se
debe incrementar el tamaño muestral respecto a dichas pérdidas.

El tamaño muestral ajustado a las pérdidas se puede calcular:


Muestra ajustada a las pérdidas = n (1 / 1–R)

• n = número de sujetos sin pérdidas

• R = proporción esperada de pérdidas

Así por ejemplo si en el estudio anterior esperamos tener un 15% de pérdidas el


tamaño muestral necesario seria: 48 (1 / 1-0.15) = 56 pacientes en cada grupo.
Conclusión.

Este tema para la estadística inferencial es de suma importancia, ya que de ahí


salen los parámetros fundamentales de los niveles de confianza, que nos da la
certeza de que algún evento o situación tiene una ocurrencia de que pase, y el hacer
los cálculos necesarios para conocer esas ocurrencias es de suma importancia para
sectores como lo es el industrial, el empresarial, etc.

Como un buen aprendizaje nos percatamos de definir de manera clara y breve todos
los intervalos de confianza, ya que como comentaba anteriormente, estos temas
son de suma importancia, las estimaciones son como su nombre lo dice, un estimo
de alguna situación, y eso es lo que nos encargamos de reportar y de estudiar, para
obtener valores que por medio del empirismo y la teoría ya están definidos, y
principalmente, la idea principal es que conozcamos que existe un universo del cual
dependen todas las estimaciones.

Para concluir, los intervalos de confianza son eso, intervalos entre las posibilidades
de que un evento suceda o no, demostrando que el universo de una forma se
equivoca o esta formulado de manera acertada.
Referencias
Web gib. (2020, febrero). 4.2 Características estimadores. Recuperado de
https://www.uv.es/webgid/Inferencial/42_caractersticas_estimadores.html

Colaboradores de Wikipedia. (2021, 16 febrero). Estimador. Recuperado abril de


2021, de https://es.wikipedia.org/wiki/Estimador

Sanjuán, F. J. M. (2021, 21 enero). Estimación puntual. Recuperado abril de 2021,


de https://economipedia.com/definiciones/estimacion-puntual.html

http://matematicas.unex.es/~mota/ciencias_ambientales/tema7_nuevo.pdf

Almonte, P. C. (2014, 4 septiembre). 8.4.6 Intervalo de confianza para la varianza.


Estadística Inferencial.
https://virtual.uptc.edu.co/ova/estadistica/docs/libros/ftp.bioestadistica.uma.es/libro/
node104.htm#f8-7

Estadística inferencial. Intervalo de confianza para proporciones. Ejemplos


resueltos. (2017, 24 febrero). Estadistica Inferencial.
https://calculo.cc/temas/temas_estadistica/muestreo/teoria/confi_prop.html

También podría gustarte