Estimación de Parámetros: Estadística - Unidad 5

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

Universidad Nacional de Rosario

Facultad de Ciencias Bioquímicas y Farmacéuticas


Área Estadística y Procesamiento de Datos

Estimación de parámetros
Estadística - Unidad 5

Año 2021∗

5.1. Introducción
En unidades anteriores mencionamos que uno de los propósitos fundamentales de la Estadística es usar la información
obtenida en una muestra para hacer inferencias acerca de la población de la cual proviene. Las técnicas de inferencia
estadística pueden dividirse en dos áreas principales: estimación de parámetros y pruebas de hipótesis. En
esta unidad estudiaremos cómo estimar parámetros y en las próximas unidades veremos cómo se desarrollan distintas
pruebas de hipótesis según el objetivo que se persiga.
En la unidad 3 establecimos que las poblaciones se caracterizan mediante medidas numéricas denominadas pará-
metros. En la práctica, los verdaderos valores de los parámetros suelen ser desconocidos y el objetivo de muchas
investigaciones es calcular un número que represente, en cierto sentido, una buena suposición de dicho valor, esto
es: estimar el o los parámetros desconocidos. Como veremos, las distribuciones muestrales estudiadas en la unidad
4 desempeñan un rol fundamental en el desarrollo de los procedimientos de estimación que son el objetivo de esta
unidad.
La estimación de parámetros tiene innumerables aplicaciones prácticas. Por ejemplo, podemos estar interesados en
conocer cuál es la concentración promedio de colesterol HDL en una determinada población o su variabilidad; o
bien, estimar cuál es la probabilidad de hallar en dicha población un individuo cuyo colesterol HDL supere los 55
𝑚𝑔/𝑑𝐿. En las tres situaciones mencionadas, presentamos distintos parámetros de interés que son el objetivo de
estudio. De manera general, simbolizaremos con 𝜃 al parámetro que nos interesa estimar.
Para dar respuesta a problemas como los planteados, pueden utilizarse dos formas de estimación: puntual y por
intervalo de confianza. La primera consiste en informar un único valor que brinde información respecto del
parámetro a partir de las observaciones de una muestra aleatoria, mientras que en la segunda se tendrá un par de
valores 𝑎 y 𝑏 (con 𝑎 < 𝑏), tal que el intervalo (𝑎; 𝑏) cubra al verdadero valor del parámetro, con un determinado
nivel de confianza (1 − 𝛼).
∗ Este apunte se encuentra en desarrollo. El mismo será revisado a lo largo del cuatrimestre y no está exento de presentar errores o

expresar ideas en formas que puedan ser mejoradas. Agradeceremos que nos notifiquen de los errores encontrados.

1
Estadística - FCByF Unidad 5

En esta unidad se desarrollarán los conceptos fundamentales de estimación puntual, las propiedades deseables para
un buen estimador y la construcción de intervalos de confianza para el promedio de una población normal con
variancia conocida y desconocida, para la variancia de una población normal y para una proporción poblacional
(cuando se trabaja con muestras grandes).

5.2. Estimador y estimación


Sea 𝑋 una variable aleatoria cuya distribución depende de un parámetro desconocido 𝜃 y sea (𝑋1 , 𝑋2 , … , 𝑋𝑖 , … , 𝑋𝑛 )
una muestra aleatoria.
Definición. Un estimador del parámetro 𝜃 es nueva variable aleatoria, función de las 𝑛 variables que componen
la muestra aleatoria y se simboliza 𝜃†̂ :
𝜃 ̂ = 𝑔(𝑋1 , 𝑋2 , … , 𝑋𝑖 , … , 𝑋𝑛 )

Definición. Una estimación es el valor observado del estimador luego de realizado el muestreo.
Ejemplo. Consideremos una investigación cuyo objetivo es estimar la concentración promedio de colesterol HDL
en individuos sanos (𝜃 = 𝜇𝑋 ). Un estimador que podría proponerse es la media muestral:

𝑋1 + 𝑋2 + ⋯ + 𝑋𝑖 + ⋯ + 𝑋𝑛
𝜃 ̂ = 𝜇𝑋
̂ = 𝑔(𝑋1 , 𝑋2 , … , 𝑋𝑖 , … , 𝑋𝑛 ) = = 𝑋̄
𝑛
Luego, podría tomarse una muestra de 𝑛 = 40 individuos, registrando para cada uno de ellos su concentración de
colesterol HDL (en 𝑚𝑔/𝑑𝐿):

𝑥1 = 51.9; 𝑥2 = 52.5; … ; 𝑥40 = 48.1

y a partir de dichas observaciones calcular la media muestral

𝑥̄ = 50.3 𝑚𝑔/𝑑𝐿

En este caso, decimos que 50.3 𝑚𝑔/𝑑𝐿 es una estimación de la concentración promedio de colesterol HDL en la
población de individuos sanos.
En la unidad 1 estudiamos, por ejemplo, que para hacer referencia a la posición central de un conjunto de datos
pueden utilizarse la media o la mediana muestral. Esto nos da la idea de que no existe una única función de la muestra
que sirve como estimador del parámetro de interés y surge entonces el interrogante: ¿cuál de las estimaciones se
acerca más al valor verdadero? Evidentemente, no se puede responder esta pregunta sin conocer el valor verdadero
(si lo conociéramos sería innecesario realizar una estimación del mismo). Entonces, podríamos cuestionarnos cuál
de los estimadores tiende a producir estimaciones cercanas al valor verdadero. Por esto, vamos a estudiar algunas
de las propiedades que debe tener un buen estimador, es decir: ¿qué características debe tener un estimador para
ser admisible?

5.2.1. Propiedades de un buen estimador


Se considera que un buen estimador del parámetro de interés debe verificar dos propiedades fundamentales:
Definición. Un estimador es insesgado si su valor esperado, es decir la media de su distribución muestral, es igual
al parámetro que estima.
𝐸(𝜃)̂ = 𝜃

En la unidad 4 hemos demostrado que

𝐸(𝑋)̄ = 𝜇𝑋 𝐸(ℎ(𝐴)) = 𝑝 2
𝐸(𝑆𝑋 2
) = 𝜎𝑋

Es decir, la media muestral, la frecuencia relativa y la variancia muestral son estimadores insesgados de la media
poblacional, la probabilidad de un suceso de interés y la variancia poblacional, respectivamente.
†𝜃̂ se lee como “𝜃 sombrero”. El “sombrero” indica que estamos estimando el parámetro que está debajo de él.

2
Estadística - FCByF Unidad 5

Definición. Dentro de la clase de estimadores insesgados, diremos que un estimador es consistente si, a medida
que el tamaño de la muestra aumenta, el valor del estimador se aproxima al verdadero valor del parámetro:

𝐸(𝜃)̂ = 𝜃 y 𝑉 (𝜃)̂ −−−−→ 0


𝑛→+∞

Los estimadores mencionados en la propiedad de insesgamiento, son también consistentes ya que sus variancias
tienden a cero cuando el tamaño de la muestra aumenta:
2 4
𝜎𝑋 𝑝𝑞 2𝜎𝑋
𝑉 (𝑋)̄ = 𝑉 (ℎ(𝐴)) = 2
𝑉 (𝑆𝑋 )=
𝑛 𝑛 𝑛−1

En la unidad 1, hicimos referencia a que podría calcularse la variancia de una muestra a partir de

2′ 1 𝑛
𝑆𝑋 = ∑(𝑥 − 𝑥)̄ 2
𝑛 𝑖=1 𝑖

2
pero que, sin embargo, utilizamos 𝑛 − 1 en lugar de 𝑛 en el denominador (𝑆𝑋 ). Esta elección se justifica en que la
variancia así definida cumple con la propiedad deseable de insesgamiento para un buen estimador del parámetro de
2
interés (en este caso, 𝜎𝑋 ). Como podemos ver:

2 ′ 𝑛−1 2 2′ 𝑛−1 2 𝑛−1 2 𝑛−1 2


𝑆𝑋 = 𝑆𝑋 ⇒ 𝐸(𝑆𝑋 ) = 𝐸( 𝑆𝑋 ) = 𝐸(𝑆𝑋 )= 𝜎𝑋
𝑛 𝑛 𝑛 𝑛

2
el estimador 𝑆𝑋 es sesgado y se espera que subestime al verdadero valor de variancia poblacional.

5.3. Formas de estimación


Como hemos mencionado en la introducción, existen dos formas de estimación de parámetros: estimación puntual
y por intervalo de confianza.
El objetivo de la estimación puntual es aproximar el valor del parámetro desconocido a partir de un único valor.
Los pasos a seguir son:
1. Definir el parámetro a estimar (𝜃).
2. Seleccionar un buen estimador de dicho parámetro (𝜃). ̂
3. Obtener una muestra, a partir de la cual se calculará el valor observado del estimador, la estimación.
A partir de las propiedades antes estudiadas, tenemos los siguientes estimadores puntuales para la media, la variancia
y la proporción poblacional respectivamente:

̂ = 𝑋̄
𝜇𝑋 2
𝜎̂𝑋 2
= 𝑆𝑋 𝑝̂ = ℎ

Al ser un estimador una variable aleatoria cuya distribución en el muestreo depende del parámetro desconocido
𝜃, la probabilidad de obtener una estimación que coincida con el valor del parámetro es cero (𝑃 (𝜃 ̂ = 𝜃) = 0). A
partir de una estimación puntual no podríamos saber qué tan cerca está el valor obtenido del verdadero valor del
parámetro de interés, es decir, no tenemos una medida del error que se estaría cometiendo. Una alternativa es
calcular y reportar un intervalo de valores factibles para 𝜃: una estimación por intervalo de confianza (𝐼𝐶).
La estimación por intervalos de confianza brinda un intervalo numérico que puede cubrir al verdadero valor del
parámetro con cierto grado o nivel de confianza (1 − 𝛼)‡ . Posee la ventaja de brindar una medida de la precisión
de la estimación (determinada por la semiamplitud del intervalo -a mayor amplitud, menor precisión-, también
denominada margen de error) y una medida de la confianza que tenemos en esa estimación.
Interpretación del grado de confianza. Si se extrajeran reiteradas muestras, todas del mismo tamaño 𝑛, y
para cada una de ellas se calculara el correspondiente intervalo de (1 − 𝛼) ⋅ 100 % de confianza, esperaríamos que el
(1 − 𝛼) ⋅ 100 % de los intervalos cubran al verdadero valor del parámetro y el 𝛼 ⋅ 100 % restante, no. Es por eso que
“confiamos” en que el intervalo que hemos calculado a partir de la muestra obtenida es uno de los intervalos que sí
cubren al verdadero valor de 𝜃. Esto se ilustra en la figura 5.1, donde cada línea horizontal representa un intervalo
‡ Los niveles de confianza más frecuentemente utilizados son 90 %, 95 % y 99 %, esto es 1 − 𝛼 = 0.90 ó 0.95 ó 0.99

3
Estadística - FCByF Unidad 5

calculado en base a una muestra y la línea vertical representa al valor verdadero (pero desconocido) de 𝜃. Obsérvese
que entre los intervalos ilustrados hay algunos que cubren al valor 𝜃 y otros que no lo hacen. La proporción de los
intervalos construidos que no contienen a 𝜃 es muy pequeña (𝛼).

Figura 5.1: Construcción repetida de intervalos de confianza de (1 − 𝛼) ⋅ 100 %

Los pasos para la construcción de un intervalo de confianza son:


1. Definir el parámetro a estimar (𝜃).
2. Seleccionar un buen estimador (𝜃). ̂
3. Fijar el grado de confianza (1 − 𝛼).
4. Definir una variable 𝑌 que contenga al parámetro a estimar, al estimador y cuya distribución de probabilidad
sea conocida (𝑓(𝑦)). Además, si en la expresión de 𝑓(𝑦) interviene otro parámetro, éste debe ser conocido.
5. Sobre el eje de variación de 𝑌 , elegir dos valores tales que:
𝑃 (𝑦 𝛼2 ≤ 𝑌 ≤ 𝑦1− 𝛼2 ) = 1 − 𝛼
y despejar el valor del parámetro.
6. Obtener la muestra, a partir de la cual se calcula el intervalo de confianza (𝑎; 𝑏).
7. Concluir, con un grado de confianza de 1 − 𝛼, que el intervalo (𝑎; 𝑏) cubre al valor del parámetro.

5.3.1. Estimación por 𝐼𝐶 para el promedio de una población normal con variancia
conocida
Sea 𝑋 una variable aleatoria tal que 𝑋 ∼ 𝑁 (𝜇𝑋 ; 𝜎𝑋 ) con 𝜎𝑋 conocido. Si el objetivo es realizar una estimación
mediante un intervalo de (1 − 𝛼) ⋅ 100 % de confianza para el promedio poblacional, los pasos a seguir son:
1. Definir el parámetro a estimar: 𝜃 = 𝜇𝑋
2. Seleccionar un buen estimador: 𝜃 ̂ = 𝜇𝑋
̂ = 𝑋̄
3. Fijar el grado de confianza: 1 − 𝛼.
4. Definir una variable 𝑌 que contenga al parámetro a estimar, al estimador y cuya distribución de probabilidad
sea conocida (𝑓(𝑦)). Además, si en la expresión de 𝑓(𝑦) interviene otro parámetro, éste debe ser conocido.
Como 𝑋 ∼ 𝑁 (𝜇𝑋 ; 𝜎𝑋 ), sabemos que 𝑋̄ ∼ 𝑁 (𝜇𝑋 ; √𝜎𝑋
𝑛
). Podemos pensar entonces en la variable

𝑋̄ − 𝜇𝑋
𝑍= √ ∼ 𝑁 (0; 1)
𝜎𝑋 / 𝑛
que cumple con los requisitos exigidos para 𝑌 .
5. Sobre el eje de variación de 𝑌 , elegir dos valores tales que 𝑃 (𝑦 𝛼2 ≤ 𝑌 ≤ 𝑦1− 𝛼2 ) = 1 − 𝛼:

𝑃 (𝑧 𝛼2 ≤ 𝑍 ≤ 𝑧1− 𝛼2 ) = 1 − 𝛼
𝑋̄ − 𝜇𝑋
𝑃 (𝑧 𝛼2 ≤ √ ≤ 𝑧1− 𝛼 ) = 1 − 𝛼
𝜎𝑋 / 𝑛 2

4
Estadística - FCByF Unidad 5

Despejando 𝜇𝑋

𝜎 𝜎
𝑃 (𝑧 𝛼2 √𝑋 ≤ 𝑋̄ − 𝜇𝑋 ≤ 𝑧1− 𝛼2 √𝑋 ) = 1 − 𝛼
𝑛 𝑛
𝜎 𝜎
𝑃 ( − 𝑋̄ + 𝑧 𝛼2 √ ≤ −𝜇𝑋 ≤ −𝑋̄ + 𝑧1− 𝛼2 √𝑋 ) = 1 − 𝛼
𝑋
𝑛 𝑛
𝜎 𝜎
𝑃 (𝑋̄ − 𝑧 𝛼2 √ ≥ 𝜇𝑋 ≥ 𝑋̄ − 𝑧1− 𝛼2 √ ) = 1 − 𝛼
𝑋 𝑋
𝑛 𝑛

Reordenando la escritura, se tiene

𝜎 𝜎
𝑃 (𝑋̄ − 𝑧1− 𝛼2 √𝑋 ≤ 𝜇𝑋 ≤ 𝑋̄ − 𝑧 𝛼2 √𝑋 ) = 1 − 𝛼
𝑛 𝑛

Por lo que el intervalo de confianza para 𝜇𝑋 es

𝜎 𝜎
(𝑋̄ − 𝑧1− 𝛼2 √𝑋 ; 𝑋̄ − 𝑧 𝛼2 √𝑋 )
𝑛 𝑛

Como la distribución normal estándar es simétrica respecto del valor 0, 𝑧 𝛼2 = −𝑧1− 𝛼2 , y la expresión anterior
puede escribirse:

𝜎 𝜎
(𝑋̄ − 𝑧1− 𝛼2 √𝑋 ; 𝑋̄ + 𝑧1− 𝛼2 √𝑋 )
𝑛 𝑛

o, resumidamente:
𝜎
𝑋̄ ± 𝑧1− 𝛼2 √𝑋
𝑛

6. Por último, se tomará una muestra de tamaño 𝑛 de la población de interés y se calculará el 𝐼𝐶 con la expresión
obtenida.
7. Se concluye con una confianza de (1−𝛼)⋅100 % que el intervalo (𝑋̄ −𝑧1− 𝛼2 √
𝜎𝑋
𝑛
; 𝑋̄ +𝑧1− 𝛼2 √
𝜎𝑋
𝑛
) cubre al verdadero
valor de 𝜇𝑋 .
Nótese que si la muestra es suficientemente grande, el 𝐼𝐶 hallado para 𝜇𝑋 es válido para cualquier variable aleatoria
𝑋 cuya variancia poblacional sea conocida, ya que el Teorema Central del Límite nos asegura que

𝜎
𝑋̄ −−−−→ 𝑁 (𝜇𝑋 ; √𝑋 )
𝑛→+∞ 𝑛

Ejemplo. Retomando el ejemplo anterior cuyo objetivo era estimar la concentración promedio de colesterol HDL
en individuos sanos (𝜃 = 𝜇𝑋 ). Se tenía una muestra de 𝑛 = 40 individuos y la media muestral observada resultaba
𝑥̄ = 50.3 𝑚𝑔/𝑑𝐿. Suponiendo que se conoce que 𝑋 ∼ 𝑁 (𝜇𝑋 ; 3 𝑚𝑔/𝑑𝐿), si se desea realizar una estimación con una
confianza del 95 % para 𝜇𝑋 :

𝜎
𝑥̄ ± 𝑧0.975 √𝑋
𝑛
3
50.3 ± 1.96 ⋅ √
40

(49.37; 51.23)

Se estima, con un 95 % de confianza, que el intervalo (49.37 𝑚𝑔/𝑑𝐿; 51.23 𝑚𝑔/𝑑𝐿) cubre al verdadero valor de
concentración promedio de colesterol HDL en la población de individuos sanos estudiada.

5
Estadística - FCByF Unidad 5

Observación: Como la confianza deseada 1 − 𝛼 = 0.95 ⇒ 𝛼 = 0.05 ⇒ 𝛼2 = 0.025 ⇒ 1 − 𝛼2 = 0.975. El valor


𝑧0.975 = 1.96 es el 97.5º percentil de la distribución normal estándar y se obtiene a partir de tabla.
Como hemos mencionado, se considera que el ancho del intervalo nos da idea de la precisión de la estimación. El
grado de confianza está relacionado de manera inversa con la precisión, esto es: para un tamaño de muestra fijo, a
mayor confianza se obtiene un intervalo más ancho, es decir, menos preciso, y viceversa.
Por ejemplo, si en el caso anterior se quisiera construir un intervalo con el 99 % de confianza, se debe utilizar el
percentil 𝑧0.995 = 2.576, que resultará en un mayor margen de error y, por consiguiente, en una estimación menos
precisa. Por otra parte, si quisiéramos obtener una estimación de mayor precisión que la lograda, es decir, un
intervalo más angosto, deberíamos trabajar con un menor nivel de confianza, por ejemplo, del 90 % (usando en la
fórmula 𝑧0.95 = 1.645).
Luego, el nivel de confianza y la precisión están relacionadas entre sí y se debe lograr un equilibrio entre ambos
a la hora de realizar la estimación, cuando el tamaño de la muestra se encuentra fijo. Sin embargo, en la práctica
se suele utilizar la estrategia de especificar tanto el nivel de confianza como el margen de error deseados y luego
determinar el tamaño de muestra necesario para obtener una estimación con tales características.

5.3.1.1. Cálculo de extensión de muestra


A partir de la expresión obtenida para realizar una estimación por 𝐼𝐶 para el promedio poblacional de una variable
con distribución normal y variancia conocida, si fijamos el nivel de confianza y la precisión que se desean para la
estimación, podemos calcular el tamaño de muestra que necesitamos.
Llamemos con 𝑑 al margen de error o semiamplitud del intervalo:

𝜎
𝑑 = 𝑧1− 𝛼2 √𝑋
𝑛

A partir de dicha igualdad, conociendo el valor de 𝜎𝑋 y fijando los valores de 1 − 𝛼 y 𝑑, la única incógnita restante
es el valor de 𝑛. Podemos calcular entonces la extensión de muestra necesaria para las condiciones establecidas,
despejando:

𝑧1− 𝛼2 𝜎𝑋 2
𝑛=( )
𝑑
Notemos que:
Para una precisión dada (𝑑 fijo), a mayor grado de confianza, mayor será el 𝑛 que se necesite.
Para una confianza dada (1 − 𝛼 fijo), a mayor precisión de la estimación, se requiere un mayor valor de 𝑛.
Cuanto mayor sea el desvío estándar de la variable estudiada (es decir, cuanto más heterogénea sea la pobla-
ción), estando 𝑑 y 1 − 𝛼 establecidos, mayor será el 𝑛 necesario.
Ejemplo. Si quisiéramos aumentar la precisión de la estimación que obtuvimos para el promedio de concentración
de colesterol HDL en individuos sanos, deberíamos proponer un nuevo margen de error para la estimación que
sea menor al obtenido (𝑑 = 0.9297). Propongamos un nuevo valor para la semi-amplitud de la estimación que sea
deseable (𝑑′ ) y calculemos el tamaño de muestra con el que deberíamos trabajar para tener una estimación con la
confianza y precisión deseadas.
Por ejemplo, si 𝑑′ = 0.5, el nuevo tamaño muestral (llamémoslo 𝑛′ ) será:

𝑧1− 𝛼2 𝜎𝑋 2
𝑛′ = ( )
𝑑′
1.96 ⋅ 3 2
𝑛′ = ( )
0.5
𝑛′ = 138.2976

Como el tamaño de muestra hace referencia al número de observaciones con las que vamos a trabajar, debe con-
siderarse un valor entero para 𝑛′ . En este caso, podríamos trabajar con una muestra de 138 o 139 individuos. Si

6
Estadística - FCByF Unidad 5

elegimos trabajar con 138 individuos, a un nivel de confianza fijo en 95 %, la precisión de la estimación será algo
menor a la deseada (𝑑′ = 0.5005, resultando en el intervalo será un poco más ancho), mientras que si tomamos
𝑛′ = 139 estaremos trabajando con una precisión un poco mayor a la que se pretendía (𝑑′ = 0.4987).

Cabe destacar que una característica fundamental que condiciona el tamaño de muestra con el que se trabaje, es
el costo asociado al muestreo y obtención de la información. Es por eso que muchas veces resulta prohibitivo en
términos económicos para la investigación obtener la muestra deseable para la confianza y precisión establecidas.
Por esta razón, para realizar una estimación se debe llegar a una solución de compromiso entre nivel de confianza,
precisión y tamaño muestral.

5.3.2. Estimación por 𝐼𝐶 para el promedio de una población normal con variancia
desconocida
Supongamos ahora que se tiene una variable aleatoria 𝑋 ∼ 𝑁 (𝜇𝑋 ; 𝜎𝑋 ) con 𝜎𝑋 desconocido. Para cumplir con el
objetivo de realizar una estimación mediante un intervalo de (1−𝛼)⋅100 % de confianza para el promedio poblacional,
los pasos a seguir son análogos a los descriptos en la sección anterior, pero teniendo en cuenta que al desconocer
̄
𝜎𝑋 ya no es factible trabajar con 𝑍 = 𝜎𝑋−𝜇 √𝑋 .
/ 𝑛
𝑋

Dado que para realizar una estimación se cuenta con información de una muestra aleatoria, resulta razonable
utilizar una estimación para el parámetro desconocido que no es objetivo de estimación, esto es: usar 𝑆𝑋 para darle
magnitud a la variabilidad de 𝑋.

En la unidad 4, vimos que si 𝑋 tiene distribución normal, se puede definir una estadística 𝑇 que tiene distribución
T-Student de la siguiente manera:

𝑋̄ − 𝜇𝑋
𝑇 = √ ∼ 𝑡𝑛−1
𝑆𝑋 / 𝑛

Esta estadística 𝑇 cumple los requisitos de la variable 𝑌 que mencionamos en el 4º paso necesario para la construcción
de un 𝐼𝐶: contiene al parámetro, al estimador y su distribución de probabilidad es conocida.

Se parte entonces de
𝑃 (𝑡𝑛−1; 𝛼2 ≤ 𝑇 ≤ 𝑡𝑛−1;1− 𝛼2 ) = 1 − 𝛼

Se demuestra, siguiendo el mismo procedimiento que en la sección anterior, que el 𝐼𝐶 para la media poblacional de
una población normal con variancia desconocida es:

𝑆 𝑆
(𝑋̄ − 𝑡𝑛−1;1− 𝛼2 √𝑋 ; 𝑋̄ + 𝑡𝑛−1;1− 𝛼2 √𝑋 )
𝑛 𝑛
o, resumidamente:
𝑆
𝑋̄ ± 𝑡𝑛−1;1− 𝛼2 √𝑋
𝑛

Luego, se concluye con una confianza de (1 − 𝛼) ⋅ 100 % que el intervalo (𝑋̄ − 𝑡𝑛−1;1− 𝛼2 𝑆√𝑋𝑛 ; 𝑋̄ + 𝑡𝑛−1;1− 𝛼2 𝑆√𝑋𝑛 ) cubre
al verdadero valor de 𝜇𝑋 .

Desafortunadamente, la selección del tamaño de muestra para tener una precisión deseada no es simple en este caso
como lo fue en el caso de 𝜎𝑋 conocida, ya que los grados de libertad de la distribución T-Student dependen del
valor de 𝑛 y el valor de 𝑆𝑋 depende de una muestra que aún no tendríamos. En estas situaciones, una estrategia
que puede utilizarse es proponer un valor que se considere razonable para 𝜎𝑋 (el cual puede obtenerse a partir de
investigaciones existentes para la variable que nos interesa estudiar, esto es, utilizar una medida de variabilidad
informada por otros autores, o mediante el cálculo de 𝑆𝑋 en una muestra piloto) y se calcula 𝑛 como si se tuviera
𝜎𝑋 conocido.

7
Estadística - FCByF Unidad 5

5.3.3. Estimación por 𝐼𝐶 para la variancia de una población normal


Sea 𝑋 una variable aleatoria tal que 𝑋 ∼ 𝑁 (𝜇𝑋 ; 𝜎𝑋 ). Si el objetivo es realizar una estimación mediante un intervalo
de (1 − 𝛼) ⋅ 100 % de confianza para la variancia poblacional, los pasos a seguir son:
2
1. Definir el parámetro a estimar: 𝜃 = 𝜎𝑋

2. Seleccionar un buen estimador: 𝜃 ̂ = 𝜎̂𝑋


2 2
= 𝑆𝑋
3. Fijar el grado de confianza: 1 − 𝛼.
4. Definir una variable 𝑌 que contenga al parámetro a estimar, al estimador y cuya distribución de probabilidad
2
sea conocida (𝑓(𝑦)). Como 𝑋 ∼ 𝑁 (𝜇𝑋 ; 𝜎𝑋 ), sabemos que 𝑈 = 𝑆𝑋𝜎(𝑛−1)
2 ∼ 𝜒2𝑛−1 . Esta variable 𝑈 cumple con
𝑋
los requisitos exigidos para 𝑌 .
5. Sobre el eje de variación de 𝑌 , elegir dos valores tales que 𝑃 (𝑦 𝛼2 ≤ 𝑌 ≤ 𝑦1− 𝛼2 ) = 1 − 𝛼:

𝑃 (𝜒2𝑛−1; 𝛼 ≤ 𝑈 ≤ 𝜒2𝑛−1;1− 𝛼 ) = 1 − 𝛼
2 2

2
𝑆𝑋 (𝑛 − 1)
𝑃 (𝜒2𝑛−1; 𝛼 ≤ 2
≤ 𝜒2𝑛−1;1− 𝛼 ) = 1 − 𝛼
2 𝜎𝑋 2

2
Despejando 𝜎𝑋
𝜒2𝑛−1; 𝛼 1 𝜒2𝑛−1;1− 𝛼
𝑃( 2 (𝑛 − 1)
2
≤ 2
≤ 2
2 (𝑛 − 1)
)=1−𝛼
𝑆𝑋 𝜎𝑋 𝑆𝑋

Tomando los recíprocos


2
𝑆𝑋 (𝑛 − 1) 𝑆 2 (𝑛 − 1)
𝑃( 2
2
≥ 𝜎𝑋 ≥ 𝑋2 )=1−𝛼
𝜒𝑛−1; 𝛼 𝜒𝑛−1;1− 𝛼
2 2

y reordenando los terminos, se tiene

2 2
𝑆𝑋 (𝑛 − 1) 2 𝑆𝑋 (𝑛 − 1)
𝑃( 2
≤ 𝜎 𝑋 ≤ 2
)=1−𝛼
𝜒𝑛−1;1− 𝛼 𝜒𝑛−1; 𝛼
2 2

2
Por lo que el intervalo de confianza para 𝜎𝑋 es

2 2
𝑆𝑋 (𝑛 − 1) 𝑆𝑋 (𝑛 − 1)
( 2
; 2
)
𝜒𝑛−1;1− 𝛼 𝜒𝑛−1; 𝛼
2 2

6. Por último, se tomará una muestra de tamaño 𝑛 de la población de interés y se calculará el 𝐼𝐶 con la expresión
obtenida.
2
7. Se concluye con una confianza de (1 − 𝛼) ⋅ 100 % que el intervalo hallado cubre al verdadero valor de 𝜎𝑋
Ejemplo. Si quisiéramos estimar con un 90 % de confianza la variancia de la concentración de colesterol HDL en
2
individuos sanos a partir de una muestra de 20 individuos de la cual se obtuvo 𝑆𝑋 = 9.12 (𝑚𝑔/𝑑𝐿)2 , la estimación
resulta:
2 2
𝑆𝑋 (𝑛 − 1) 𝑆𝑋 (𝑛 − 1)
( 2
; )
𝜒19;0.95 𝜒219;0.05
9.12 ⋅ 19 9.12 ⋅ 19
( ; )
30.1 10.1
(5.76; 17.16)

Se concluye, con una confianza del 90 %, que el intervalo (5.76 (𝑚𝑔/𝑑𝐿)2 ; 17.16 (𝑚𝑔/𝑑𝐿)2 ) cubre al verdadero valor
de la variancia de la concentración de colesterol HDL en individuos sanos.

8
Estadística - FCByF Unidad 5

5.3.4. Estimación por 𝐼𝐶 para una proporción poblacional (muestras grandes)


Sea 𝑝 la proporción desconocida de elementos en una determinada población que poseen cierta característica de
interés, esto es, si estudiamos la ocurrencia del suceso 𝐴, 𝑝 = 𝑃 (𝐴). Si el objetivo es realizar una estimación por
intervalo de confianza de dicho parámetro, teniendo en cuenta que un buen estimador es la frecuencia relativa, los
pasos a seguir son:
1. Definir el parámetro a estimar: 𝜃 = 𝑝
2. Seleccionar un buen estimador: 𝜃 ̂ = 𝑝̂ = ℎ
3. Fijar el grado de confianza: 1 − 𝛼.
4. Definir una variable 𝑌 que contenga al parámetro a estimar, al estimador y cuya distribución de probabilidad
sea conocida (𝑓(𝑦)). Además, si en la expresión de 𝑓(𝑦) interviene otro parámetro, éste debe ser conocido. A
partir de lo estudiado en la unidad 4 sabemos que, para muestras grandes, ℎ −−−−→ 𝑁 (𝑝; √ 𝑝𝑞 𝑛 ). Como la
𝑛→+∞
variancia de la frecuencia relativa depende de los parámetros 𝑝 y 𝑞 = 1 − 𝑝, la estrategia que utilizaremos en
este curso es reemplazar a 𝑝 y 𝑞 por los estimadores ℎ y (1 − ℎ). Podemos pensar entonces en la variable
ℎ−𝑝
𝑍= ∼ 𝑁 (0; 1)
√ ℎ(1−ℎ)
𝑛

que cumple con los requisitos exigidos para 𝑌 .


5. Sobre el eje de variación de 𝑌 , elegir dos valores tales que:

𝑃 (𝑦 𝛼2 ≤ 𝑌 ≤ 𝑦1− 𝛼2 ) = 1 − 𝛼
𝑃 (𝑧 𝛼2 ≤ 𝑍 ≤ 𝑧1− 𝛼2 ) = 1 − 𝛼
ℎ−𝑝
𝑃 (𝑧 𝛼2 ≤ ≤ 𝑧1− 𝛼2 ) = 1 − 𝛼
√ ℎ(1−ℎ)
𝑛

Despejando 𝑝

ℎ(1 − ℎ) ℎ(1 − ℎ)
𝑃 (𝑧 𝛼2 √ ≤ ℎ − 𝑝 ≤ 𝑧1− 𝛼2 √ )=1−𝛼
𝑛 𝑛
ℎ(1 − ℎ) ℎ(1 − ℎ)
𝑃 ( − ℎ + 𝑧 𝛼2 √ ≤ −𝑝 ≤ −ℎ + 𝑧1− 𝛼2 √ )=1−𝛼
𝑛 𝑛
ℎ(1 − ℎ) ℎ(1 − ℎ)
𝑃 (ℎ − 𝑧 𝛼2 √ ≥ 𝑝 ≥ ℎ − 𝑧1− 𝛼2 √ )=1−𝛼
𝑛 𝑛
Reordenando la escritura, se tiene

ℎ(1 − ℎ) ℎ(1 − ℎ)
𝑃 (ℎ − 𝑧1− 𝛼2 √ ≤ 𝑝 ≤ ℎ − 𝑧 𝛼2 √ )=1−𝛼
𝑛 𝑛
y considerando 𝑧 𝛼2 = −𝑧1− 𝛼2

ℎ(1 − ℎ) ℎ(1 − ℎ)
𝑃 (ℎ − 𝑧1− 𝛼2 √ ≤ 𝑝 ≤ ℎ + 𝑧1− 𝛼2 √ )=1−𝛼
𝑛 𝑛

Por lo que el intervalo de confianza para 𝑝 es

ℎ(1 − ℎ) ℎ(1 − ℎ)
(ℎ − 𝑧1− 𝛼2 √ ; ℎ + 𝑧1− 𝛼2 √ )
𝑛 𝑛
o, resumidamente:
ℎ(1 − ℎ)
ℎ ± 𝑧1− 𝛼2 √
𝑛

9
Estadística - FCByF Unidad 5

1. Por último, se tomará una muestra de tamaño 𝑛 de la población de interés y se calculará el 𝐼𝐶 con la expresión
obtenida. 1. Se concluye con una confianza de (1 − 𝛼) ⋅ 100 % que el intervalo (ℎ − 𝑧1− 𝛼 √ ℎ(1−ℎ)
2 𝑛 ; ℎ + 𝑧1− 𝛼 √ ℎ(1−ℎ)
2 𝑛 )
cubre al verdadero valor de 𝑝.
Ejemplo. Se desea estimar con una confianza de 99 % la probabilidad de que un individuo sano elegido al azar
tenga nivel de colesterol HDL superior a 55 𝑚𝑔/𝑑𝐿. Supongamos que en la muestra de 40 individuos, se encontró
8
que 8 individuos tenían dicha característica, esto es ℎ = 40 = 0.2. El 𝐼𝐶 para 𝑝 resulta:

ℎ(1 − ℎ)
ℎ ± 𝑧0.995 √
𝑛
0.2 ⋅ 0.8
0.2 ± 2.576 ⋅ √
40

(0.0371; 0.3629)

Se estima, con un 99 % de confianza, que el intervalo (0.0371; 0.3629) cubre a la verdadera proporción de personas
con colesterol HDL mayor a 55 𝑚𝑔/𝑑𝐿 en la población de individuos sanos estudiada.
En esta aplicación, también puede resultar de interés calcular la extensión de muestra necesaria para realizar una
estimación con determinada confianza y precisión. Si se iguala la semiamplitud del intervalo de confianza a una
medida preespecificada 𝑑 se obtiene la siguiente ecuación:

ℎ(1 − ℎ)
𝑑 = 𝑧1− 𝛼2 √
𝑛
Esta fórmula utiliza el valor de la frecuencia relativa que, antes de tener una muestra, es desconocido. En su
reemplazo se utiliza un valor que pueda considerarse adecuado para representar a la probabilidad desconocida 𝑝,
pudiendo surgir de estudios anteriores, muestras pilotos o conocimiento general sobre el tema. Otra alternativa más
conservadora consiste en aprovechar el hecho de que la función ℎ(1 − ℎ) tiene un máximo en ℎ = 0.5 y se obtendría
de este modo el mayor 𝑛 posible que garantice la precisión y confianza deseadas (recordar que no siempre es factible
conducir investigaciones con tamaños muestrales muy grandes, por lo que esta estrategia no puede aplicarse en
todos los casos). Llamando 𝑝′ al valor que se elija asignar, la extensión de muestra se calcula como:

2 ′ ′
𝑧1− 𝛼𝑝 𝑞
𝑛= 2

𝑑2

5.4. Bibliografía
Devore, J. L. (2008). Probabilidad y estadística para ingenierías y ciencias. Cengage Learning Editores.
Hines, W. W., Montgomery, D. C., & Borror, D. M. G. C. M. (1993). Probabilidad y Estadística para ingeniería
y administración. Segunda Edición. (1993) Compañía Editorial Continental S.A. México.
Meyer, P. & Campos, C. (1992). Probabilidad y aplicaciones estadísticas. Addison-Wesley Iberoamericana.
Wackerly, D., Mendenhall, W., Scheaffer, R., Romo Muñoz, J. & García Hernández, A. (2010). Estadística
matemática con aplicaciones. Cengage Learning Editores.

10

También podría gustarte