Estimación de Parámetros: Estadística - Unidad 5
Estimación de Parámetros: Estadística - Unidad 5
Estimación de Parámetros: Estadística - Unidad 5
Estimación de parámetros
Estadística - Unidad 5
Año 2021∗
5.1. Introducción
En unidades anteriores mencionamos que uno de los propósitos fundamentales de la Estadística es usar la información
obtenida en una muestra para hacer inferencias acerca de la población de la cual proviene. Las técnicas de inferencia
estadística pueden dividirse en dos áreas principales: estimación de parámetros y pruebas de hipótesis. En
esta unidad estudiaremos cómo estimar parámetros y en las próximas unidades veremos cómo se desarrollan distintas
pruebas de hipótesis según el objetivo que se persiga.
En la unidad 3 establecimos que las poblaciones se caracterizan mediante medidas numéricas denominadas pará-
metros. En la práctica, los verdaderos valores de los parámetros suelen ser desconocidos y el objetivo de muchas
investigaciones es calcular un número que represente, en cierto sentido, una buena suposición de dicho valor, esto
es: estimar el o los parámetros desconocidos. Como veremos, las distribuciones muestrales estudiadas en la unidad
4 desempeñan un rol fundamental en el desarrollo de los procedimientos de estimación que son el objetivo de esta
unidad.
La estimación de parámetros tiene innumerables aplicaciones prácticas. Por ejemplo, podemos estar interesados en
conocer cuál es la concentración promedio de colesterol HDL en una determinada población o su variabilidad; o
bien, estimar cuál es la probabilidad de hallar en dicha población un individuo cuyo colesterol HDL supere los 55
𝑚𝑔/𝑑𝐿. En las tres situaciones mencionadas, presentamos distintos parámetros de interés que son el objetivo de
estudio. De manera general, simbolizaremos con 𝜃 al parámetro que nos interesa estimar.
Para dar respuesta a problemas como los planteados, pueden utilizarse dos formas de estimación: puntual y por
intervalo de confianza. La primera consiste en informar un único valor que brinde información respecto del
parámetro a partir de las observaciones de una muestra aleatoria, mientras que en la segunda se tendrá un par de
valores 𝑎 y 𝑏 (con 𝑎 < 𝑏), tal que el intervalo (𝑎; 𝑏) cubra al verdadero valor del parámetro, con un determinado
nivel de confianza (1 − 𝛼).
∗ Este apunte se encuentra en desarrollo. El mismo será revisado a lo largo del cuatrimestre y no está exento de presentar errores o
expresar ideas en formas que puedan ser mejoradas. Agradeceremos que nos notifiquen de los errores encontrados.
1
Estadística - FCByF Unidad 5
En esta unidad se desarrollarán los conceptos fundamentales de estimación puntual, las propiedades deseables para
un buen estimador y la construcción de intervalos de confianza para el promedio de una población normal con
variancia conocida y desconocida, para la variancia de una población normal y para una proporción poblacional
(cuando se trabaja con muestras grandes).
Definición. Una estimación es el valor observado del estimador luego de realizado el muestreo.
Ejemplo. Consideremos una investigación cuyo objetivo es estimar la concentración promedio de colesterol HDL
en individuos sanos (𝜃 = 𝜇𝑋 ). Un estimador que podría proponerse es la media muestral:
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑖 + ⋯ + 𝑋𝑛
𝜃 ̂ = 𝜇𝑋
̂ = 𝑔(𝑋1 , 𝑋2 , … , 𝑋𝑖 , … , 𝑋𝑛 ) = = 𝑋̄
𝑛
Luego, podría tomarse una muestra de 𝑛 = 40 individuos, registrando para cada uno de ellos su concentración de
colesterol HDL (en 𝑚𝑔/𝑑𝐿):
𝑥̄ = 50.3 𝑚𝑔/𝑑𝐿
En este caso, decimos que 50.3 𝑚𝑔/𝑑𝐿 es una estimación de la concentración promedio de colesterol HDL en la
población de individuos sanos.
En la unidad 1 estudiamos, por ejemplo, que para hacer referencia a la posición central de un conjunto de datos
pueden utilizarse la media o la mediana muestral. Esto nos da la idea de que no existe una única función de la muestra
que sirve como estimador del parámetro de interés y surge entonces el interrogante: ¿cuál de las estimaciones se
acerca más al valor verdadero? Evidentemente, no se puede responder esta pregunta sin conocer el valor verdadero
(si lo conociéramos sería innecesario realizar una estimación del mismo). Entonces, podríamos cuestionarnos cuál
de los estimadores tiende a producir estimaciones cercanas al valor verdadero. Por esto, vamos a estudiar algunas
de las propiedades que debe tener un buen estimador, es decir: ¿qué características debe tener un estimador para
ser admisible?
𝐸(𝑋)̄ = 𝜇𝑋 𝐸(ℎ(𝐴)) = 𝑝 2
𝐸(𝑆𝑋 2
) = 𝜎𝑋
Es decir, la media muestral, la frecuencia relativa y la variancia muestral son estimadores insesgados de la media
poblacional, la probabilidad de un suceso de interés y la variancia poblacional, respectivamente.
†𝜃̂ se lee como “𝜃 sombrero”. El “sombrero” indica que estamos estimando el parámetro que está debajo de él.
2
Estadística - FCByF Unidad 5
Definición. Dentro de la clase de estimadores insesgados, diremos que un estimador es consistente si, a medida
que el tamaño de la muestra aumenta, el valor del estimador se aproxima al verdadero valor del parámetro:
Los estimadores mencionados en la propiedad de insesgamiento, son también consistentes ya que sus variancias
tienden a cero cuando el tamaño de la muestra aumenta:
2 4
𝜎𝑋 𝑝𝑞 2𝜎𝑋
𝑉 (𝑋)̄ = 𝑉 (ℎ(𝐴)) = 2
𝑉 (𝑆𝑋 )=
𝑛 𝑛 𝑛−1
En la unidad 1, hicimos referencia a que podría calcularse la variancia de una muestra a partir de
2′ 1 𝑛
𝑆𝑋 = ∑(𝑥 − 𝑥)̄ 2
𝑛 𝑖=1 𝑖
2
pero que, sin embargo, utilizamos 𝑛 − 1 en lugar de 𝑛 en el denominador (𝑆𝑋 ). Esta elección se justifica en que la
variancia así definida cumple con la propiedad deseable de insesgamiento para un buen estimador del parámetro de
2
interés (en este caso, 𝜎𝑋 ). Como podemos ver:
̂ = 𝑋̄
𝜇𝑋 2
𝜎̂𝑋 2
= 𝑆𝑋 𝑝̂ = ℎ
Al ser un estimador una variable aleatoria cuya distribución en el muestreo depende del parámetro desconocido
𝜃, la probabilidad de obtener una estimación que coincida con el valor del parámetro es cero (𝑃 (𝜃 ̂ = 𝜃) = 0). A
partir de una estimación puntual no podríamos saber qué tan cerca está el valor obtenido del verdadero valor del
parámetro de interés, es decir, no tenemos una medida del error que se estaría cometiendo. Una alternativa es
calcular y reportar un intervalo de valores factibles para 𝜃: una estimación por intervalo de confianza (𝐼𝐶).
La estimación por intervalos de confianza brinda un intervalo numérico que puede cubrir al verdadero valor del
parámetro con cierto grado o nivel de confianza (1 − 𝛼)‡ . Posee la ventaja de brindar una medida de la precisión
de la estimación (determinada por la semiamplitud del intervalo -a mayor amplitud, menor precisión-, también
denominada margen de error) y una medida de la confianza que tenemos en esa estimación.
Interpretación del grado de confianza. Si se extrajeran reiteradas muestras, todas del mismo tamaño 𝑛, y
para cada una de ellas se calculara el correspondiente intervalo de (1 − 𝛼) ⋅ 100 % de confianza, esperaríamos que el
(1 − 𝛼) ⋅ 100 % de los intervalos cubran al verdadero valor del parámetro y el 𝛼 ⋅ 100 % restante, no. Es por eso que
“confiamos” en que el intervalo que hemos calculado a partir de la muestra obtenida es uno de los intervalos que sí
cubren al verdadero valor de 𝜃. Esto se ilustra en la figura 5.1, donde cada línea horizontal representa un intervalo
‡ Los niveles de confianza más frecuentemente utilizados son 90 %, 95 % y 99 %, esto es 1 − 𝛼 = 0.90 ó 0.95 ó 0.99
3
Estadística - FCByF Unidad 5
calculado en base a una muestra y la línea vertical representa al valor verdadero (pero desconocido) de 𝜃. Obsérvese
que entre los intervalos ilustrados hay algunos que cubren al valor 𝜃 y otros que no lo hacen. La proporción de los
intervalos construidos que no contienen a 𝜃 es muy pequeña (𝛼).
5.3.1. Estimación por 𝐼𝐶 para el promedio de una población normal con variancia
conocida
Sea 𝑋 una variable aleatoria tal que 𝑋 ∼ 𝑁 (𝜇𝑋 ; 𝜎𝑋 ) con 𝜎𝑋 conocido. Si el objetivo es realizar una estimación
mediante un intervalo de (1 − 𝛼) ⋅ 100 % de confianza para el promedio poblacional, los pasos a seguir son:
1. Definir el parámetro a estimar: 𝜃 = 𝜇𝑋
2. Seleccionar un buen estimador: 𝜃 ̂ = 𝜇𝑋
̂ = 𝑋̄
3. Fijar el grado de confianza: 1 − 𝛼.
4. Definir una variable 𝑌 que contenga al parámetro a estimar, al estimador y cuya distribución de probabilidad
sea conocida (𝑓(𝑦)). Además, si en la expresión de 𝑓(𝑦) interviene otro parámetro, éste debe ser conocido.
Como 𝑋 ∼ 𝑁 (𝜇𝑋 ; 𝜎𝑋 ), sabemos que 𝑋̄ ∼ 𝑁 (𝜇𝑋 ; √𝜎𝑋
𝑛
). Podemos pensar entonces en la variable
𝑋̄ − 𝜇𝑋
𝑍= √ ∼ 𝑁 (0; 1)
𝜎𝑋 / 𝑛
que cumple con los requisitos exigidos para 𝑌 .
5. Sobre el eje de variación de 𝑌 , elegir dos valores tales que 𝑃 (𝑦 𝛼2 ≤ 𝑌 ≤ 𝑦1− 𝛼2 ) = 1 − 𝛼:
𝑃 (𝑧 𝛼2 ≤ 𝑍 ≤ 𝑧1− 𝛼2 ) = 1 − 𝛼
𝑋̄ − 𝜇𝑋
𝑃 (𝑧 𝛼2 ≤ √ ≤ 𝑧1− 𝛼 ) = 1 − 𝛼
𝜎𝑋 / 𝑛 2
4
Estadística - FCByF Unidad 5
Despejando 𝜇𝑋
𝜎 𝜎
𝑃 (𝑧 𝛼2 √𝑋 ≤ 𝑋̄ − 𝜇𝑋 ≤ 𝑧1− 𝛼2 √𝑋 ) = 1 − 𝛼
𝑛 𝑛
𝜎 𝜎
𝑃 ( − 𝑋̄ + 𝑧 𝛼2 √ ≤ −𝜇𝑋 ≤ −𝑋̄ + 𝑧1− 𝛼2 √𝑋 ) = 1 − 𝛼
𝑋
𝑛 𝑛
𝜎 𝜎
𝑃 (𝑋̄ − 𝑧 𝛼2 √ ≥ 𝜇𝑋 ≥ 𝑋̄ − 𝑧1− 𝛼2 √ ) = 1 − 𝛼
𝑋 𝑋
𝑛 𝑛
𝜎 𝜎
𝑃 (𝑋̄ − 𝑧1− 𝛼2 √𝑋 ≤ 𝜇𝑋 ≤ 𝑋̄ − 𝑧 𝛼2 √𝑋 ) = 1 − 𝛼
𝑛 𝑛
𝜎 𝜎
(𝑋̄ − 𝑧1− 𝛼2 √𝑋 ; 𝑋̄ − 𝑧 𝛼2 √𝑋 )
𝑛 𝑛
Como la distribución normal estándar es simétrica respecto del valor 0, 𝑧 𝛼2 = −𝑧1− 𝛼2 , y la expresión anterior
puede escribirse:
𝜎 𝜎
(𝑋̄ − 𝑧1− 𝛼2 √𝑋 ; 𝑋̄ + 𝑧1− 𝛼2 √𝑋 )
𝑛 𝑛
o, resumidamente:
𝜎
𝑋̄ ± 𝑧1− 𝛼2 √𝑋
𝑛
6. Por último, se tomará una muestra de tamaño 𝑛 de la población de interés y se calculará el 𝐼𝐶 con la expresión
obtenida.
7. Se concluye con una confianza de (1−𝛼)⋅100 % que el intervalo (𝑋̄ −𝑧1− 𝛼2 √
𝜎𝑋
𝑛
; 𝑋̄ +𝑧1− 𝛼2 √
𝜎𝑋
𝑛
) cubre al verdadero
valor de 𝜇𝑋 .
Nótese que si la muestra es suficientemente grande, el 𝐼𝐶 hallado para 𝜇𝑋 es válido para cualquier variable aleatoria
𝑋 cuya variancia poblacional sea conocida, ya que el Teorema Central del Límite nos asegura que
𝜎
𝑋̄ −−−−→ 𝑁 (𝜇𝑋 ; √𝑋 )
𝑛→+∞ 𝑛
Ejemplo. Retomando el ejemplo anterior cuyo objetivo era estimar la concentración promedio de colesterol HDL
en individuos sanos (𝜃 = 𝜇𝑋 ). Se tenía una muestra de 𝑛 = 40 individuos y la media muestral observada resultaba
𝑥̄ = 50.3 𝑚𝑔/𝑑𝐿. Suponiendo que se conoce que 𝑋 ∼ 𝑁 (𝜇𝑋 ; 3 𝑚𝑔/𝑑𝐿), si se desea realizar una estimación con una
confianza del 95 % para 𝜇𝑋 :
𝜎
𝑥̄ ± 𝑧0.975 √𝑋
𝑛
3
50.3 ± 1.96 ⋅ √
40
(49.37; 51.23)
Se estima, con un 95 % de confianza, que el intervalo (49.37 𝑚𝑔/𝑑𝐿; 51.23 𝑚𝑔/𝑑𝐿) cubre al verdadero valor de
concentración promedio de colesterol HDL en la población de individuos sanos estudiada.
5
Estadística - FCByF Unidad 5
𝜎
𝑑 = 𝑧1− 𝛼2 √𝑋
𝑛
A partir de dicha igualdad, conociendo el valor de 𝜎𝑋 y fijando los valores de 1 − 𝛼 y 𝑑, la única incógnita restante
es el valor de 𝑛. Podemos calcular entonces la extensión de muestra necesaria para las condiciones establecidas,
despejando:
𝑧1− 𝛼2 𝜎𝑋 2
𝑛=( )
𝑑
Notemos que:
Para una precisión dada (𝑑 fijo), a mayor grado de confianza, mayor será el 𝑛 que se necesite.
Para una confianza dada (1 − 𝛼 fijo), a mayor precisión de la estimación, se requiere un mayor valor de 𝑛.
Cuanto mayor sea el desvío estándar de la variable estudiada (es decir, cuanto más heterogénea sea la pobla-
ción), estando 𝑑 y 1 − 𝛼 establecidos, mayor será el 𝑛 necesario.
Ejemplo. Si quisiéramos aumentar la precisión de la estimación que obtuvimos para el promedio de concentración
de colesterol HDL en individuos sanos, deberíamos proponer un nuevo margen de error para la estimación que
sea menor al obtenido (𝑑 = 0.9297). Propongamos un nuevo valor para la semi-amplitud de la estimación que sea
deseable (𝑑′ ) y calculemos el tamaño de muestra con el que deberíamos trabajar para tener una estimación con la
confianza y precisión deseadas.
Por ejemplo, si 𝑑′ = 0.5, el nuevo tamaño muestral (llamémoslo 𝑛′ ) será:
𝑧1− 𝛼2 𝜎𝑋 2
𝑛′ = ( )
𝑑′
1.96 ⋅ 3 2
𝑛′ = ( )
0.5
𝑛′ = 138.2976
Como el tamaño de muestra hace referencia al número de observaciones con las que vamos a trabajar, debe con-
siderarse un valor entero para 𝑛′ . En este caso, podríamos trabajar con una muestra de 138 o 139 individuos. Si
6
Estadística - FCByF Unidad 5
elegimos trabajar con 138 individuos, a un nivel de confianza fijo en 95 %, la precisión de la estimación será algo
menor a la deseada (𝑑′ = 0.5005, resultando en el intervalo será un poco más ancho), mientras que si tomamos
𝑛′ = 139 estaremos trabajando con una precisión un poco mayor a la que se pretendía (𝑑′ = 0.4987).
Cabe destacar que una característica fundamental que condiciona el tamaño de muestra con el que se trabaje, es
el costo asociado al muestreo y obtención de la información. Es por eso que muchas veces resulta prohibitivo en
términos económicos para la investigación obtener la muestra deseable para la confianza y precisión establecidas.
Por esta razón, para realizar una estimación se debe llegar a una solución de compromiso entre nivel de confianza,
precisión y tamaño muestral.
5.3.2. Estimación por 𝐼𝐶 para el promedio de una población normal con variancia
desconocida
Supongamos ahora que se tiene una variable aleatoria 𝑋 ∼ 𝑁 (𝜇𝑋 ; 𝜎𝑋 ) con 𝜎𝑋 desconocido. Para cumplir con el
objetivo de realizar una estimación mediante un intervalo de (1−𝛼)⋅100 % de confianza para el promedio poblacional,
los pasos a seguir son análogos a los descriptos en la sección anterior, pero teniendo en cuenta que al desconocer
̄
𝜎𝑋 ya no es factible trabajar con 𝑍 = 𝜎𝑋−𝜇 √𝑋 .
/ 𝑛
𝑋
Dado que para realizar una estimación se cuenta con información de una muestra aleatoria, resulta razonable
utilizar una estimación para el parámetro desconocido que no es objetivo de estimación, esto es: usar 𝑆𝑋 para darle
magnitud a la variabilidad de 𝑋.
En la unidad 4, vimos que si 𝑋 tiene distribución normal, se puede definir una estadística 𝑇 que tiene distribución
T-Student de la siguiente manera:
𝑋̄ − 𝜇𝑋
𝑇 = √ ∼ 𝑡𝑛−1
𝑆𝑋 / 𝑛
Esta estadística 𝑇 cumple los requisitos de la variable 𝑌 que mencionamos en el 4º paso necesario para la construcción
de un 𝐼𝐶: contiene al parámetro, al estimador y su distribución de probabilidad es conocida.
Se parte entonces de
𝑃 (𝑡𝑛−1; 𝛼2 ≤ 𝑇 ≤ 𝑡𝑛−1;1− 𝛼2 ) = 1 − 𝛼
Se demuestra, siguiendo el mismo procedimiento que en la sección anterior, que el 𝐼𝐶 para la media poblacional de
una población normal con variancia desconocida es:
𝑆 𝑆
(𝑋̄ − 𝑡𝑛−1;1− 𝛼2 √𝑋 ; 𝑋̄ + 𝑡𝑛−1;1− 𝛼2 √𝑋 )
𝑛 𝑛
o, resumidamente:
𝑆
𝑋̄ ± 𝑡𝑛−1;1− 𝛼2 √𝑋
𝑛
Luego, se concluye con una confianza de (1 − 𝛼) ⋅ 100 % que el intervalo (𝑋̄ − 𝑡𝑛−1;1− 𝛼2 𝑆√𝑋𝑛 ; 𝑋̄ + 𝑡𝑛−1;1− 𝛼2 𝑆√𝑋𝑛 ) cubre
al verdadero valor de 𝜇𝑋 .
Desafortunadamente, la selección del tamaño de muestra para tener una precisión deseada no es simple en este caso
como lo fue en el caso de 𝜎𝑋 conocida, ya que los grados de libertad de la distribución T-Student dependen del
valor de 𝑛 y el valor de 𝑆𝑋 depende de una muestra que aún no tendríamos. En estas situaciones, una estrategia
que puede utilizarse es proponer un valor que se considere razonable para 𝜎𝑋 (el cual puede obtenerse a partir de
investigaciones existentes para la variable que nos interesa estudiar, esto es, utilizar una medida de variabilidad
informada por otros autores, o mediante el cálculo de 𝑆𝑋 en una muestra piloto) y se calcula 𝑛 como si se tuviera
𝜎𝑋 conocido.
7
Estadística - FCByF Unidad 5
𝑃 (𝜒2𝑛−1; 𝛼 ≤ 𝑈 ≤ 𝜒2𝑛−1;1− 𝛼 ) = 1 − 𝛼
2 2
2
𝑆𝑋 (𝑛 − 1)
𝑃 (𝜒2𝑛−1; 𝛼 ≤ 2
≤ 𝜒2𝑛−1;1− 𝛼 ) = 1 − 𝛼
2 𝜎𝑋 2
2
Despejando 𝜎𝑋
𝜒2𝑛−1; 𝛼 1 𝜒2𝑛−1;1− 𝛼
𝑃( 2 (𝑛 − 1)
2
≤ 2
≤ 2
2 (𝑛 − 1)
)=1−𝛼
𝑆𝑋 𝜎𝑋 𝑆𝑋
2 2
𝑆𝑋 (𝑛 − 1) 2 𝑆𝑋 (𝑛 − 1)
𝑃( 2
≤ 𝜎 𝑋 ≤ 2
)=1−𝛼
𝜒𝑛−1;1− 𝛼 𝜒𝑛−1; 𝛼
2 2
2
Por lo que el intervalo de confianza para 𝜎𝑋 es
2 2
𝑆𝑋 (𝑛 − 1) 𝑆𝑋 (𝑛 − 1)
( 2
; 2
)
𝜒𝑛−1;1− 𝛼 𝜒𝑛−1; 𝛼
2 2
6. Por último, se tomará una muestra de tamaño 𝑛 de la población de interés y se calculará el 𝐼𝐶 con la expresión
obtenida.
2
7. Se concluye con una confianza de (1 − 𝛼) ⋅ 100 % que el intervalo hallado cubre al verdadero valor de 𝜎𝑋
Ejemplo. Si quisiéramos estimar con un 90 % de confianza la variancia de la concentración de colesterol HDL en
2
individuos sanos a partir de una muestra de 20 individuos de la cual se obtuvo 𝑆𝑋 = 9.12 (𝑚𝑔/𝑑𝐿)2 , la estimación
resulta:
2 2
𝑆𝑋 (𝑛 − 1) 𝑆𝑋 (𝑛 − 1)
( 2
; )
𝜒19;0.95 𝜒219;0.05
9.12 ⋅ 19 9.12 ⋅ 19
( ; )
30.1 10.1
(5.76; 17.16)
Se concluye, con una confianza del 90 %, que el intervalo (5.76 (𝑚𝑔/𝑑𝐿)2 ; 17.16 (𝑚𝑔/𝑑𝐿)2 ) cubre al verdadero valor
de la variancia de la concentración de colesterol HDL en individuos sanos.
8
Estadística - FCByF Unidad 5
𝑃 (𝑦 𝛼2 ≤ 𝑌 ≤ 𝑦1− 𝛼2 ) = 1 − 𝛼
𝑃 (𝑧 𝛼2 ≤ 𝑍 ≤ 𝑧1− 𝛼2 ) = 1 − 𝛼
ℎ−𝑝
𝑃 (𝑧 𝛼2 ≤ ≤ 𝑧1− 𝛼2 ) = 1 − 𝛼
√ ℎ(1−ℎ)
𝑛
Despejando 𝑝
ℎ(1 − ℎ) ℎ(1 − ℎ)
𝑃 (𝑧 𝛼2 √ ≤ ℎ − 𝑝 ≤ 𝑧1− 𝛼2 √ )=1−𝛼
𝑛 𝑛
ℎ(1 − ℎ) ℎ(1 − ℎ)
𝑃 ( − ℎ + 𝑧 𝛼2 √ ≤ −𝑝 ≤ −ℎ + 𝑧1− 𝛼2 √ )=1−𝛼
𝑛 𝑛
ℎ(1 − ℎ) ℎ(1 − ℎ)
𝑃 (ℎ − 𝑧 𝛼2 √ ≥ 𝑝 ≥ ℎ − 𝑧1− 𝛼2 √ )=1−𝛼
𝑛 𝑛
Reordenando la escritura, se tiene
ℎ(1 − ℎ) ℎ(1 − ℎ)
𝑃 (ℎ − 𝑧1− 𝛼2 √ ≤ 𝑝 ≤ ℎ − 𝑧 𝛼2 √ )=1−𝛼
𝑛 𝑛
y considerando 𝑧 𝛼2 = −𝑧1− 𝛼2
ℎ(1 − ℎ) ℎ(1 − ℎ)
𝑃 (ℎ − 𝑧1− 𝛼2 √ ≤ 𝑝 ≤ ℎ + 𝑧1− 𝛼2 √ )=1−𝛼
𝑛 𝑛
ℎ(1 − ℎ) ℎ(1 − ℎ)
(ℎ − 𝑧1− 𝛼2 √ ; ℎ + 𝑧1− 𝛼2 √ )
𝑛 𝑛
o, resumidamente:
ℎ(1 − ℎ)
ℎ ± 𝑧1− 𝛼2 √
𝑛
9
Estadística - FCByF Unidad 5
1. Por último, se tomará una muestra de tamaño 𝑛 de la población de interés y se calculará el 𝐼𝐶 con la expresión
obtenida. 1. Se concluye con una confianza de (1 − 𝛼) ⋅ 100 % que el intervalo (ℎ − 𝑧1− 𝛼 √ ℎ(1−ℎ)
2 𝑛 ; ℎ + 𝑧1− 𝛼 √ ℎ(1−ℎ)
2 𝑛 )
cubre al verdadero valor de 𝑝.
Ejemplo. Se desea estimar con una confianza de 99 % la probabilidad de que un individuo sano elegido al azar
tenga nivel de colesterol HDL superior a 55 𝑚𝑔/𝑑𝐿. Supongamos que en la muestra de 40 individuos, se encontró
8
que 8 individuos tenían dicha característica, esto es ℎ = 40 = 0.2. El 𝐼𝐶 para 𝑝 resulta:
ℎ(1 − ℎ)
ℎ ± 𝑧0.995 √
𝑛
0.2 ⋅ 0.8
0.2 ± 2.576 ⋅ √
40
(0.0371; 0.3629)
Se estima, con un 99 % de confianza, que el intervalo (0.0371; 0.3629) cubre a la verdadera proporción de personas
con colesterol HDL mayor a 55 𝑚𝑔/𝑑𝐿 en la población de individuos sanos estudiada.
En esta aplicación, también puede resultar de interés calcular la extensión de muestra necesaria para realizar una
estimación con determinada confianza y precisión. Si se iguala la semiamplitud del intervalo de confianza a una
medida preespecificada 𝑑 se obtiene la siguiente ecuación:
ℎ(1 − ℎ)
𝑑 = 𝑧1− 𝛼2 √
𝑛
Esta fórmula utiliza el valor de la frecuencia relativa que, antes de tener una muestra, es desconocido. En su
reemplazo se utiliza un valor que pueda considerarse adecuado para representar a la probabilidad desconocida 𝑝,
pudiendo surgir de estudios anteriores, muestras pilotos o conocimiento general sobre el tema. Otra alternativa más
conservadora consiste en aprovechar el hecho de que la función ℎ(1 − ℎ) tiene un máximo en ℎ = 0.5 y se obtendría
de este modo el mayor 𝑛 posible que garantice la precisión y confianza deseadas (recordar que no siempre es factible
conducir investigaciones con tamaños muestrales muy grandes, por lo que esta estrategia no puede aplicarse en
todos los casos). Llamando 𝑝′ al valor que se elija asignar, la extensión de muestra se calcula como:
2 ′ ′
𝑧1− 𝛼𝑝 𝑞
𝑛= 2
𝑑2
5.4. Bibliografía
Devore, J. L. (2008). Probabilidad y estadística para ingenierías y ciencias. Cengage Learning Editores.
Hines, W. W., Montgomery, D. C., & Borror, D. M. G. C. M. (1993). Probabilidad y Estadística para ingeniería
y administración. Segunda Edición. (1993) Compañía Editorial Continental S.A. México.
Meyer, P. & Campos, C. (1992). Probabilidad y aplicaciones estadísticas. Addison-Wesley Iberoamericana.
Wackerly, D., Mendenhall, W., Scheaffer, R., Romo Muñoz, J. & García Hernández, A. (2010). Estadística
matemática con aplicaciones. Cengage Learning Editores.
10