Unidad 4 (1-2) - Distribuciones Muestrales
Unidad 4 (1-2) - Distribuciones Muestrales
Unidad 4 (1-2) - Distribuciones Muestrales
Inferencia Estadística
(Distribuciones muestrales)
Inferencia
Inferencia estadística
A las características numéricas de una población, como la media y la desviación estándar, se les
llama parámetros. El principal propósito de la inferencia estadística es hacer estimaciones y
pruebas de hipótesis acerca de los parámetros poblacionales usando la información que
proporciona una muestra.
A continuación se presenta una situación en las que a partir de muestras se obtiene
estimaciones de parámetros poblacionales:
Un fabricante de neumáticos elabora un nuevo modelo que tendrá mayor duración que los
actuales neumáticos de la empresa. Para estimar la duración media, en km, el fabricante
selecciona una muestra de 120 neumáticos nuevos para probarlos. De los resultados de esta
prueba se obtiene una duración media de 36 500 km. Por tanto, una estimación de la duración
media, en kms, de la población de nuevos neumáticos es 36 500 km.
Este ejemplo ilustra algunas de las razones por las que se usan muestras. Observemos que
en este ejemplo, obtener datos sobre su tiempo de duración implica usarlos hasta que se acaben.
Es claro que no es posible probar toda la población de neumáticos; una muestra es la única
manera factible de obtener los datos de duración deseados. Es importante darse cuenta de que los
resultados muestrales sólo proporcionan una estimación de los valores de las características de la
población. No se espera que la media muestral de 36 500 km sea exactamente igual al kilometraje
medio de todos los neumáticos de la población.
La razón es simple, la muestra sólo contiene una parte de la población. Con métodos de
muestreo adecuados, los resultados muestrales proporcionarán estimaciones “buenas” de los
parámetros poblacionales. Pero ¿cuán buenos puede esperarse que sean los resultados
muestrales? Afortunadamente, existen procedimientos estadísticos para responder esta pregunta.
Estimación puntual
Estimación puntual
En la siguiente tabla se presenta una muestra aleatoria simple de 30 administradores (de una población de
2500) con sus respectivos datos de sueldo anual y de participación en el programa de capacitación. La notación
x1, x2, etc., se usa para denotar el sueldo anual del primer administrador de la muestra, del segundo, etc.
∑ xi 1554420
x= = = 51814 $
n 30
2
∑ ( xi – x ) 325009260
s= = = 3348 $
n-1 29
Para estimar p, la proporción de administradores que han terminado el programa de capacitación, se usa la
proporción muestral correspondiente p. Sea x el número de administradores de la muestra que han terminado
el programa de capacitación. De acuerdo con la tabla anterior, x = 19. Por tanto, como el tamaño de la muestra es
n = 30, la proporción muestral es
x 19
p= = = 0.63
n 30
Estimación puntual
Al hacer los cálculos anteriores, se lleva a cabo el proceso estadístico conocido como estimación puntual. A la
media muestral se le conoce como el estimador puntual de la media poblacional μ, a la desviación estándar
muestral s como el estimador puntual de la desviación estándar poblacional σ y a la proporción muestral como el
estimador puntual de la proporción poblacional p. Al valor numérico obtenido de x, s, o p se les conoce como
estimaciones puntuales. Así, en la muestra aleatoria simple de 30 administradores del ejemplo que se presenta
en la tabla anterior, $ 51 814 es la estimación puntual de μ, $ 3 348 es la estimación puntual de σ y 0.63 es la
estimación puntual de p.
Supongamos que el proceso de seleccionar una muestra aleatoria simple de 30 administradores se repite una
y otra y otra vez y que cada vez se calculan los valores de x y de p.
Si se colocan en una tabla los resultados obtenidos en 500 muestras aleatorias simples, con ellos se puede
obtener las distribuciones de frecuencias y distribuciones de frecuencias relativas de los valores de las 500 x, y
con ello se puede graficar un histograma como se muestra:
Distribución muestral de x
Valor esperado de x
Como la variable aleatoria x puede tener muchos valores diferentes, suele ser de interés conocer la media de
todos los valores de x que se obtienen con diferentes muestras aleatorias simples. La media de la variable
aleatoria x es el valor esperado de x . Se puede demostrar que cuando se emplea el muestreo aleatorio simple,
E( x ) y μ son iguales.
Desviación estándar de x
Es posible demostrar que usando el muestreo aleatorio simple, la desviación estándar de x depende de si la
población es finita o infinita. Las dos fórmulas para la desviación estándar son las siguientes.
Donde:
Población finita Población infinita
x = desviación estándar de x
= desviación estándar de la
x =
N-n
N-1 ( n
) x =
n
población
n = tamaño de la muestra
N = tamaño de la población
Factor de corrección
Distribución muestral de x
Si suponemos que la diferencia entre el valor de la desviación estándar de x en el caso de poblaciones finita o
infinitas se vuelve despreciable, podemos usar la siguiente expresión simplificada:
En el ejemplo anterior se halló que la desviación estándar de los sueldos anuales en la población de los 2500
administradores era σ = 4000. En este caso la población es finita, N = 2500. Sin embargo, como el tamaño de la
muestra es 30, se tiene n/N = 30/2500 = 0.012. Como el tamaño de la muestra es menor que 5% del tamaño de
la población, se puede ignorar el factor de corrección para una población finita y usar la ecuación anterior para
calcular el error estándar.
4000
x = = = 730.30
n 30
Distribución muestral de x
Forma de la distribución muestral de x
Los resultados anteriores respecto al valor esperado y a la desviación estándar en la distribución muestral de x
son aplicables a cualquier población. El paso final en la identificación de las características de la distribución
muestral de x es determinar la forma de la distribución muestral. Se considerarán dos casos:
La población tiene distribución normal. En muchas situaciones es razonable suponer que la población de la
que se seleccionó la muestra aleatoria simple tenga distribución normal o casi normal. Cuando la población tiene
distribución normal, la distribución muestral de x está distribuida normalmente sea cual sea el tamaño de la
muestra.
La población no tiene distribución normal. Cuando la población de la que se tomó la muestra aleatoria simple
no tiene distribución normal, el teorema del límite central ayuda a determinar la forma de la distribución
muestral de x. El enunciado del teorema del límite central aplicado a la distribución muestral de x dice lo
siguiente.
Siempre que se seleccione una muestra aleatoria simple y se use el valor de la media muestral para estimar el
valor de la media poblacional μ, no se podrá esperar que la media muestral sea exactamente igual a la media
poblacional. La razón práctica por la que interesa la distribución muestral de x es que se puede usar para
proporcionar información probabilística acerca de la diferencia entre la media muestral y la media poblacional.
Distribución muestral de x
Supongamos ahora que en el ejemplo visto anteriormente, el director de personal cree que la media muestral
será una estimación aceptable de la media poblacional si la primera está a más o menos de $500 de la media
poblacional. No es posible garantizar que la media muestral esté a más o menos de $500 de la media
poblacional. Entonces hay que pensar en el requerimiento del director de personal en términos de probabilidad.
Es decir, al director de personal le interesa la interrogante siguiente: “¿Cuál es la probabilidad de que la media
muestral obtenida usando una muestra aleatoria simple de 30 administradores, se encuentre
a más o menos de $500 de la media poblacional?”
Como la media poblacional µ es $51 800, el director de personal desea saber cuál es la probabilidad de que x
esté entre $51 300 y $52 300.
Esta probabilidad corresponde al área sombreada de la distribución muestral (considerada como una
distribución normal) que aparece en la siguiente figura. Como suponemos que la distribución muestral está
distribuida normalmente y su media es $51 800 y el error estándar de la media es 730.3, se usa la tabla de
probabilidad normal estándar para hallar el área o probabilidad.
Primero se calcula el valor de z en el extremo superior de este intervalo (52 300) y se usa la tabla para hallar el
área bajo la curva a la izquierda de ese punto. Después se hace lo mismo para calcular el valor de z en el
extremo izquierdo. Finalmente, al restar la segunda área de la primera, se obtiene la probabilidad buscada.
Distribución muestral de x
Estos cálculos indican que hay una probabilidad de 0.5034 de que con una muestra aleatoria simple de 30
administradores se obtenga una media muestral x que esté a más o menos de $500 de la media poblacional.
Por tanto, la probabilidad de que la diferencia entre x y µ = $51800 sea superior a $500 es 1 - 0.5034 = 0.4966.
En otras palabras, una muestra aleatoria simple de 30 administradores tiene aproximadamente 50/50
oportunidades de tener una media muestral que no difiera de la media poblacional en más de los aceptables
$500. Quizá deba pensarse en una muestra de tamaño mayor.
Nota: Se puede demostrar que aumentando el tamaño de la muestra de 30 a por ejemplo 100 administradores, la
probabilidad de obtener una muestra aleatoria simple que esté entre los $500 de la media poblacional aumenta
de 0.5034 a 0.7888. Aquí, el punto importante es que cuando aumenta el tamaño de la muestra, el error estándar
de la media disminuye. Así, una muestra de mayor tamaño proporciona mayor probabilidad de que la media
muestral esté dentro de una distancia determinada de la media poblacional.
Distribución muestral de p
Distribución muestral de p
Valor esperado de p
El valor esperado de p, es decir, la media de todos los posibles valores de p, es igual a la proporción
poblacional p.
Donde: E( p ) = valor esperado de p
E( p ) = p p = proporción poblacional
Desviación estándar de p
N-n p(1 – p) p(1 – p)
p = p =
N-1 n n
Factor de corrección
Distribución muestral de p
Forma de la distribución muestral de p
En una muestra aleatoria simple de una población grande, el valor de x es una variable aleatoria binomial que
indica el número de los elementos de la muestra que tienen la característica de interés. Como n es una
constante, la probabilidad de x/n es la misma que la probabilidad de x, lo cual significa que la distribución
muestral de p también es una distribución de probabilidad discreta y que la probabilidad de cada x/n es la misma
que la probabilidad de x.
La distribución muestral de p se aproxima mediante una distribución normal siempre que
np 5 y n(1 - p) 5.
En las aplicaciones prácticas, cuando se requiere una estimación de la proporción poblacional, casi siempre se
encuentra que el tamaño de la muestra es suficientemente grande para poder usar la aproximación normal para
la distribución muestral de p.
El valor práctico de la distribución muestral de p es que permite obtener información probabilística acerca de la
diferencia entre la proporción muestral y la proporción poblacional.