Concepto de Distribución de Muestreo
Concepto de Distribución de Muestreo
Concepto de Distribución de Muestreo
Una distribucin de la poblacin es la distribucin de la totalidad de las medidas individuales de una poblacin, en tanto que una distribucin muestral es la distribucin de los valores individuales incluidos en una muestra. En contraste con estas distribuciones de medidas individuales, una distribucin de muestreo se refiere a la distribucin de los diferentes valores que una estadstica muestral, o estimador, podra adoptar en muchas muestras del mismo tamao. As, aunque por lo general disponemos nicamente de una muestra aleatoria o subgrupo racional, reconocemos que la estadstica muestral particular que determinamos, como la media o mediana de la muestra, no es exactamente igual al respectivo parmetro de la poblacin. Ms an, el valor de una estadstica muestral variar de una muestra a otra, a causa de la variabilidad del muestreo aleatorio, o error de muestreo. sta es la idea en la que se apoya el concepto de que toda estadstica muestral es de hecho un tipo de variable cuya distribucin de valores est representada por una distribucin de muestreo. Distribucin muestral de medias Una distribucin muestral de medias o una distribucin en el muestreo de la media se define como el conjunto de todas las medias que se pueden calcular en todas las muestras posibles que se pueden extraer, con o sin reemplazo, de una determinada poblacin. Para detectar las relaciones a que nos hemos referido, partiremos de un ejemplo con una poblacin pequea. Media Es el promedio aritmtico de las medias del conjunto de datos; ya sea de la poblacin o de la muestra.
Tambin habremos de referirnos a la media como el valor esperado de X, y se denotar con E (X). Varianza
Es el promedio de la suma de los cuadrados de las desviaciones. Se entiende por desviacin la diferencia de una media respecto a la media
Como puede verse, la varianza es una medida de dispersin. Indica, en promedio, qu tan alejados estn los datos respecto de la media. Desviacin tpica o estndar Es la raz cuadrada de la varianza.
Por simplicidad, en las expresiones anteriores se acostumbra suprimir el subndice i, as como los lmites de las sumatorias:
Objetivo: Obtener por medio de los estadgrafos (media y varianza) los parmetros poblacionales para poder determinarla distribucin que presentan los aos de las monedas de 10 centavos Hiptesis: Haciendo un muestro en la poblacin de monedas de 10C, decimos que la medias poblacionales del ao de fabricacin se distribuirn de manera normal Mtodo: Se tomaron muestras de los aos de una poblacin de monedas de 10 centavos, el muestreo se hizo con reemplazo el tamao de las muestras fue de 20 de las cuales se tomaron 8 en cada una de las muestras n = 8. La otra muestra de 20 de las cuales se tomaron 30 en cada una n = 30, de cada una de estas 20 muestras tanto de 8 como de 30 se obtuvo la media, mediana, varianza, desviacin estndar y posteriormente se analizaron los datos
El teorema del lmite central o teorema central del lmite indica que, en condiciones muy generales, si Sn es la suma de nvariables aleatorias independientes, entonces la funcin de distribucin de Sn se aproxima bien a una distribucin normal (tambin llamada distribucin gaussiana, curva de Gauss o campana de Gauss). As pues, el teorema asegura que esto ocurre cuando la suma de estas variables aleatorias e independientes es lo suficientemente grande.12
Contenido
[ocultar]
Definicin
Sea
con una media y una varianza2. El caso en el que su funcin de densidad es la distribucin se le conoce como normal estndar. Se define Sn como la suma de n variables aleatorias, independientes, idnticamente distribuidas, y con una media y varianza 2 finitas (20):
,a
de manera que, la media de Sn es n y la varianza n2, dado que son variables aleatorias independientes. Con tal de hacer ms fcil la comprensin del teorema y su posterior uso, se hace una estandarizacin de Sn como
para que la media de la nueva variable sea igual a 0 y la desviacin estndar sea igual a 1. As, las variables Znconvergern en distribucin a la distribucin normal estndar N(0,1), cuando n tienda a infinito. Como consecuencia, si (z) es la funcin de distribucin de N(0,1), para cada nmero realz:
De manera formal, normalizada y compacta el enunciado del teorema es:3 Teorema del lmite central: Sea X1, X2, ..., Xn un conjunto de variables aleatorias, independientes e idnticamente distribuidas con media y varianza 2 distinta de cero. Sea
Entonces
puesto que son equivalentes, as como encontrarlo en versiones no normalizadas como puede ser:45 Teorema (del lmite central): Sea X1, X2, ..., Xn un conjunto de variables aleatoria, independientes e idnticamente distribuidas de una distribucin con media y varianza 20. Entonces, si n es suficientemente grande, la variable aleatoria
Nota: es importante remarcar que este teorema no dice nada acerca de la distribucin de Xi, excepto la existencia de media y varianza.4 DISTRIBUCIN DE LA DIFERENCIA ENTRE DOS MEDIAS Sean X1 y X2 dos variables aleatorias con valores esperados m1 y m2 y varianzas y , respectivamente. Por ejemplo, X1 puede ser la duracin de una batera para carro de una marca, y X2 la duracin de una batera de otra marca diferente. Si los medias m1 y m2 son desconocidas, podramos estar interesados en conocer si ambas bateras tienen la misma duracin media. En forma similar, si las varianzas son desconocidas, podramos estar interesados en saber si son iguales o no. Para realizar estas inferencias, se pueden someter a pruebas idnticas diferentes bateras, controlando los factores externos, de tal forma que las diferencias se deban exclusivamente a la clase de marca probada Inicialmente estaremos interesados en verificar si ambas distribuciones tienen la misma media poblacional, es decir si m1 = m2 equivalentemente m1 - m2 = 0. Suponga que es una muestra aleatoria de tamao n1 tomada de una poblacin con media m1 y varianza , es otra muestra aleatoria de tamao n2 tomada de una poblacin con media
m2 y varianza . Si deseamos realizar alguna inferencia sobre m1 - m2, nos podemos basar en la distribucin de la diferencia de las medias muestrales. Por el TCL sabemos que tanto como se distribuyen normalmente con los siguientes parmetros: , Ahora bien, para la diferencia de las medias muestrales se tiene: Para conocer la distribucin muestral de las diferencias entre las medias se debe saber si las varianzas poblacionales son conocidas o desconocidas, y en caso de que sean desconocidas, se debe saber si son iguales o diferentes. Cada uno de estos tres casos se analizar por separado. a) Distribucin de la diferencia entre dos medias cuando las varianzas son conocidas. Si las varianzas y son conocidas, tanto como se distribuyen normalmente. Por lo tanto la distribucin de la diferencia entre las medias muestrales es normal con el valor esperado y la varianza dados anteriormente, es decir, De acuerdo con lo anterior la siguiente variable aleatoria tiene una distribucin normal estndar: Por lo tanto, con base en la expresin anterior se pueden realizar inferencias con respecto a la diferencia de medias poblacionales, bajo el supuesto de que las varianzas sean conocidas. Si adems, son iguales, la expresin anterior se puede expresar como: b) Distribucin de la diferencia entre dos medias cuando las varianzas son desconocidas pero iguales ( = = ) Cuando las varianzas son desconocidas, se debe realizar previamente una prueba estadstica para verificar si stas son iguales o diferentes. Para realizar esta prueba debemos hacer uso de la distribucin F para verificar si la relacin de varianzas es igual a uno o diferente de uno. Para cada una de las dos muestras se definen sus respectivas varianzas como: , Adems tienen distribuciones chi cuadrado con n11 y n21 grados de libertad respectivamente. Por lo tanto su suma tambin sigue otra distribucin chi cuadrado con n1+n22 grados de libertad. Es decir: Ahora bien, si Z es una variable normal (0,1) y Y tiene una distribucin chi cuadrado con n grados de libertad, entonces la variable tiene una distribucin t con n grados de libertad. Para nuestro caso la variable Z corresponde a la distribucin de la diferencia de las dos medias, con varianzas conocidas, y la variable chi cuadrado corresponde a la variable Y acabada de definir. Por lo tanto donde es un estimador ponderado de la varianza poblacional s
obtenida ponderando las varianzas poblacionales por sus respectivos grados de libertad.
c) Distribucin de la diferencia entre dos medias cuando las varianzas son desconocidas y diferentes ( ) Cuando las varianzas son diferentes se puede demostrar que la siguiente variable aleatoria T sigue una distribucin t con n grados de libertad, donde y el nmero de grados de libertad n est dado por: Ejemplo. El gerente de una refinera piensa modificar el proceso para producir gasolina a partir de petrleo crudo. El gerente har la modificacin slo si la gasolina promedio que se obtiene por este nuevo proceso (expresada como un porcentaje del crudo) aumenta su valor con respecto al proceso en uso. Con base en un experimento de laboratorio y mediante el empleo de dos muestras aleatorias de tamao 12, una para cada proceso, la cantidad de gasolina promedio del proceso en uso es de 24.6 con una desviacin estndar de 2.3, y para el proceso propuesto fue de 28.2 con una desviacin estndar de 2.7. El gerente piensa que los resultados proporcionados por los dos procesos son variables aleatorias independientes normalmente distribuidas con varianzas iguales. Con base en esta evidencia, debe adoptarse el nuevo proceso?
DISTRIBUCION DE LA VARIANZA
La varianza de las muestras sigue un proceso distinto a los de la media y proporcin. La causa es que el promedio de todas las varianzas de las muestras no coincide con la varianza de la poblacin s2. Se queda un poco por debajo. En concreto, se verifica que Hemos usado el subndice n para recordar que en la varianza se divide entre n. Si deseamos que la media de la varianza coincida con la varianza de la poblacin, tenemos que acudir a la cuasivarianza o varianza insesgada, que es similar a la varianza, pero dividiendo las sumas de cuadrados entre n-1. Su raz cuadrada es la cuasidesviacin tpica o desviacin estndar. Si se usa esta varianza, si coinciden su media y la varianza de la poblacin lo que nos indica que la cuasivarianza es un estimador insesgado, y la varianza lo es sesgado. Distribucin muestral de la varianza La suma de cuadrados de la varianza, dividida entre la varianza de la poblacin Se distribuye segn una chi-cuadrado c2 con n-1 grados de libertad