Capítulo 3 DISTRIBUCIONES MUESTRALES

Luis Guillemo Feria Barrera

Capítulo 3 DISTRIBUCIONES MUESTRALES

Luis Guillemo Feria Barrera

visibility

…

description

32 pages

link

1 file

Es el conjunto con referencia al cual se desea hacer alguna investigación determinada.

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Capítulo 3 DISTRIBUCIONES MUESTRALES 3.1 Población y Muestra Aleatoria 3.1.1 Población 3.1.2 Muestra Aleatoria 3.2 Parámetros y Estadísticos o Estadígrafos 3.2.1 Parámetros 3.2.2 Estadísticos o Estadígrafos  Media Muestral  Varianza Muestral  Desviación Estándar  Mínimo y Máximo Muestral  Rango 3.3 Distribución de Medias Muestrales con Varianza Conocida 3.3.1 Introducción 3.3.2 Esperanza y Varianza de la Media Muestral 3.3.3 Teorema Central del Límite. Ejemplos 3.3.4 Distribución Muestral de la Suma o Diferencia de dos Medias, Estadísticamente Independientes con Varianzas Conocidas. 3.3.5 Problemas 3.4 Varianza Muestral 3.4.1 Distribución Chi Cuadrado  Introducción  Definición  Notación  Teorema de la adición para la distribución Chi-Cuadrado  Grados de libertad  Observaciones  Uso de la tabla de distribución Chi-Cuadrado y de su inversa. Ejemplos. 3.4.2 Distribución de la Varianza Muestral  Introducción  Teorema. Ejemplo 3.5 Media Muestal y Varianza Desconocida 3.5.1 Distribución t de Student  Introducción  Definición  Uso de la tabla de la distribución y de su inversa. Ejemplos 3.5.2 Distribución de la Media Muestral con Varianza Desconocida 3.6 Mínimo y Máximo Muestrales 3.6.1 Teorema 1 3.6.2 Teorema 2 Página 1 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma 3.1 Población y Muestra Aleatoria 3.1.1 Población. Es el conjunto con referencia al cual se desea hacer alguna investigación determinada. El número de elementos que forman la población y que indicaremos con la letra N, se llama tamaño de la población. Recordemos que la población puede ser finita o infinita. Si el número de elementos de una población es elevado se la considera para el tratamiento estadístico, en algunos casos como infinita. 3.1.2 Muestra aleatoria. El requisito fundamental de una buena muestra es que sea representativa de la población que trata de describir. La palabra representativa es la clave de esta idea. El objetivo de los técnicos de muestreo es que cada elemento de la población tenga una oportunidad igual e independiente de ser incluido en la muestra. Estos procesos de muestreo conducen a una muestra aleatoria. Veamos aquí una definición precisa de muestra aleatoria. Definición. Sea X una variable aleatoria con función de distribución de probabilidad f(x). Sean X1, X2,…, Xn n variables aleatorias tales que: 1. Son independientes entre si. 2. Todas ellas están idénticamente distribuidas y tienen la misma función de distribución de probabilidad que X, f(x). Decimos entonces que (X1, X2,…, Xn) es una muestra aleatoria de la variable aleatoria X. 3.2 Parámetros y Estadísticos o Estadígrafos 3.2.1 Parámetros Definición Un parámetro es una caracterización numérica de la distribución de la población de manera que describe, parcial o completamente, la función de densidad de probabilidad de la característica de interés. Página 2 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Ejemplo. Cuando se especifica el parámetro de una distribución exponencial se describe de manera completa la función de densidad de probabilidad como: e  x / si x  0 f ( x; )   0 en caso contrario Una vez que se conoce el parámetro θ, puede formularse cualquier proposición probabilística de interés. Por ejemplo:  Si θ = 2 entonces P(X > 4)=  e x/2 dx = 0,1053 4 Observación. El o los parámetros inherentes a un modelo de probabilidad, son desconocidos y por tanto es imposible calcular las probabilidades deseadas. Por esta razón los parámetros se estiman en base a los llamados estadísticos o estadígrafos que, a su vez, se obtienen a partir de la información contenida en una muestra aleatoria. Antes de dar la definición de estadístico, debe notarse que un parámetro es una constante fija cuyo valor se desconoce. 3.2.2 Estadísticos o Estadígrafos Definición. Sea (X1, X2,…, Xn) una muestra aleatoria de una variable aleatoria X. Cualquier función real Y = H(X1, X2,…, Xn) de las observaciones de la muestra se llama estadístico o estadígrafo. Algunos estadísticos importantes Sea (X1, X2,…, Xn) una muestra aleatoria de la v.a. X. Definiremos algunos estadísticos importantes.  Media Muestral X= Es estadístico X toma el valor x 1 n  Xi n i=1 1 n  xi n i 1 cuando: X1 = x1, X2 =x2,…, Xn = xn En la práctica el término media muestral se aplica tanto al estadístico X como a su valor calculado x .  Varianza Muestral Página 3 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista S2  1 n ( X i  X )2  n  1 i 1 Magíster. Lic. Alicia Ledesma La razón para dividir por n-1 es que de esta forma, como veremos más adelante (cuando se estudien los procedimientos de estimación), la medida de variabilidad resultante es el mejor estimador de la varianza poblacional (desconocida).  Desviación Estándar S 1 n ( X i  X )2  n  1 i 1 Observar que la varianza muestral S2 se mide en término del cuadrado de las unidades originales de las mediciones. Así, si la varianza muestral se expresa en “kilogramos al cuadrado para datos originales en kilogramos, al extraer la raíz cuadrada positiva de S2, obtenemos la desviación estándar muestral, que regresa la medida de variabilidad a las unidades originales de las mediciones.  Mínimo Muestral  Máximo Muestral  Rango Muestral X ( m )  mín( X 1 , X 2 ,..., X n ) X ( M )  máx( X 1 , X 2 ,..., X n ) R  X ( M )  X ( m) 3.3 Distribución Muestral de Estadísticos 3.3.1 Introducción Usaremos los estadísticos para estimar los parámetros de una distribución. Dado que un estadístico es una variable aleatoria por ser una función de n variables aleatorias, tiene sentido hallar su distribución. Como ya sabemos uno de los principales objetivos de la Estadística es el aprendizaje a partir de las observaciones. La Estadística proporciona el método para poder conocer como es el fenómeno real que ha generado los datos observados y que generará los futuros. Página 4 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Supongamos por ejemplo que queremos saber cómo son los artículos fabricados mediante un determinado proceso. Para ello tendremos en cuenta un conjunto de variables medibles que sean representativas de las características de dicho artículo, por ejemplo la longitud de alguna de sus dimensiones. La longitud de los posibles artículos fabricados será una variable aleatoria, dado que todo proceso productivo siempre tiene variabilidad, ya sea grande o pequeña. Las longitudes de los distintos artículos serán, en general, distintas. Llamaremos X = longitud de un artículo genérico. X es una variable aleatoria cuya distribución desconocemos. Para poder conocer algo sobre la distribución de X tomaremos una muestra aleatoria simple de los artículos, y a partir de ella haremos un ejercicio de inducción, para extrapolar las características de la muestra a toda la población. En Estadística, este ejercicio de inducción por el cual a partir de la muestra intentamos predecir o pronosticar cómo será el resto de la población que no se ha observado se llama Inferencia estadística. Supongamos que tenemos una muestra de n = 100 artículos y hemos medido sus longitudes. Supongamos también que calculamos un conjunto de medidas características de dicha muestra: la media, la varianza, etc. ¿Los valores de la media muestral, la varianza muestra, etc. calculados a partir de los datos de la muestra, coinciden con la media poblacional, la varianza poblacional, etc. es decir con los parámetros que caracterizan la distribución? Para que coincidan necesitamos los datos necesarios (en este caso longitudes) de TODOS los elementos de la población. Por tanto no tienen que coincidir. Conclusión 1. Los valores de las medidas características que se obtienen de una muestra serán sólo una aproximación de los valores de las medidas características de la población. Nos preguntamos ahora: ¿los valores de la media muestral, la varianza muestral, etc. dependen de la muestra aleatoria utilizada? Página 5 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Efectivamente los valores obtenidos dependerán de la muestra. Será mucha casualidad que dos muestras distintas nos den exactamente la misma media muestral, la misma varianza muestral, etc. La medidas obtenidas serán más o menos similares, porque las muestras provienen de la misma población, pero no tienen porqué coincidir. Conclusión 2. Los valores obtenidos de las medidas características que se obtienen dependerán de la muestra utilizada. Muestras diferentes darán valores diferentes. Conclusión 3. De acuerdo a la conclusión 2 un estadístico tomará un valor diferente para cada muestra, diremos que obtenemos una realización diferente del estadístico. Siempre que estimemos un parámetro poblacional nos haremos preguntas tales como: 1. ¿Qué calidad tiene la estimación obtenida? 2. ¿Cuál es la magnitud de la diferencia entre el parámetro poblacional y el estadístico muestral? 3. ¿Con que muestra, por ejemplo, de dos utilizadas se obtiene un mejor estimador del parámetro poblacional? 4. ¿Cómo es la distribución de un estadístico particular? 3.3.2 Esperanza y Varianza de la Media Muestral Supongamos que (X1, X2,…,Xn) es una muestra aleatoria de la v.a. X. La media muestral de esas n observaciones será: X X 1  X 2  ...  X n n Queremos saber cual es la distribución de X , dado que se trata de una variable aleatoria y podemos hallar su distribución. 1. Calcularemos primero la esperanza matemática de X . Si llamamos E(X) = µ tendremos que E(Xi) = µ, i = 1, 2,…, n; dado que cada Xi (i = 1, 2,…, n) es una v.a. idéntica a X (por definición de muestra aleatoria). Entonces: E( X )  E (X 1  X 2  ...  X n E ( X 1 )  E ( X 2 )  ...  E ( X n ) n    n n n ) Página 6 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma 2. Calcularemos ahora la varianza de X para ver la dispersión de los distintos valores de medias muestrales, alrededor de µ. Llamaremos Var ( X )   2 por tanto Var (Xi) = σ2, i= 1, 2,…, n. Entonces:  X 2  ...  X n  n Var ( X 1 )  Var ( X 2 )  ...  Var ( X n ) n 2  2   2  n2 n n Var ( X )  Var (X ) 1 (usando propiedades de la varianza y definición de muestra aleatoria). 3.3.3 Teorema Central del Límite. Distribución de la Media Muestral Conociendo la Varianza. Ejemplos Sean:  X1, X2,…,Xn una sucesión de variables aleatorias independientes con E(Xi) = µ i y V(Xi) = (σi)2 (i = 1, 2,…,n).  X   ci X i , X variable aleatoria, ci constantes reales (i = 1, 2,…,n) n i 1  ci X i para n grande tiene distribución X   ci X i  N ( ci i ,  ci2 i2 ) Entonces: n n n n i 1 i 1 i 1 i 1 c X  c  O bien: n Z i 1 n i i i 1 c  n i 1 2 i i i para n grande tiene distribución Z  N (0,1) 2 i  N (0,1) Podemos escribir Z  n  Consideraremos como grande a “n” cuando n ≥ 30. Observación 1. Si consideramos:  todas las constantes ci = 1(i = 1, 2,…, n)   Todas las esperanzas µ i = 1 (i = 1,2,…,n) todas las varianzas (σi)2 = σ2 (i = 1,2,…,n) el enunciado del teorema se reduce a: Sean:  X1, X2,…,Xn una sucesión de variables aleatorias independientes con E(Xi) = µ y V(Xi) = σ2 (i = 1, 2,…,n). Página 7 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma  X   X i variable aleatoria n i 1 Entonces: X   X i para n grande tiene distribución X   X i ฀ N (n , n 2 ) n n i 1 i 1 O bien:  X i  n n Z i 1 n 2 X n  i 1 i  n  n para n grande tiene distribución Z  N (0,1) Podemos escribir: Z   ฀ N (0,1) n Observación 2. Como vemos este teorema trata de la normalidad aproximada de una suma de “n” variables aleatorias, donde n es grande. Aplicaremos este teorema para obtener la distribución de la media muestral. Para ello lo enunciamos en forma equivalente a la vista en segundo lugar, como sigue: Sea (X1, X2,…,Xn) una muestra aleatoria de tamaño n de una población con media μ y varianza σ2. Si n es grande, entonces: 1 n  Xi n i 1 tiene aproximadamente una distribución normal con: X media  X   desviación estándar  X   n Equivalentemente: Z X  tiene distribución aproximadamente N(0,1)  n El hecho sobresaliente de este teorema es que aún si la población original no es normal, la media estandarizada es aproximadamente normal si n es grande (n≥ 30). Ambas formas de enunciar el teorema son equivalentes, pues: Página 8 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista X  Z Z  n ( 1n )( X i )   n i 1  X Magíster. Lic. Alicia Ledesma n  i 1 n i  n  n En el siguiente cuadro resumimos lo dicho sobre la distribución de muestreo de X Distribución de la media muestral X 1. Si se selecciona una muestra aleatoria de tamaño n (n grande, n ≥ 30) de la v.a. X (con cualquier distribución) con media µ y desviación estándar σ, la distribución de muestreo de la media muestral X será aproximadamente normal con: Media:  X   Desviación Estándar:  X   n 2. Si se selecciona una muestra aleatoria de tamaño n de una v.a. con distribución normal con media µ y desviación estándar σ, la distribución de muestreo de la media muestral X tendrá exactamente distribución normal con: Media:  X   Desviación Estándar:  X   n En este caso n es grande o chico. La Fig.1 sugiere que las distribuciones muestrales de X serán aproximadamente normales para tamaños de muestra n = 25, para la mayoría de las poblaciones. Página 9 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Fig.1 Error estándar de la media El error estándar o típico de la media juega un papel fundamental en la Estadística, ya que mide la variabilidad de la distribución muestral de X ; esto es las variaciones aleatorias de la media muestral con respecto a la verdadera media µ. 1. Si las observaciones se seleccionan aleatoriamente de una población grande (infinita) o de una población finita pero con reemplazo el error estándar (o típico) de la media es  X   n Página 10 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Del error típico  X   Magíster. Lic. Alicia Ledesma  obtenemos dos conclusiones importantes: n Cuanto mayor sea el tamaño de la muestra, menor será el error estándar, entonces las variaciones aleatorias de la media muestral serán menores y puede  esperarse que ésta esté más cercana a la media de la población. Si σ es grande, indica gran variabilidad en la población, entonces es de esperar que la distribución muestral de X tenga una variación proporcional bastante grande, reflejada por un error típico grande. 2. Cuando la población es finita y se hacen las extracciones sin reposición el error estándar no es  X   sino una cantidad menor. Esto es evidente por el n hecho lógico que la desviación estándar de X debe tender a cero a medida que el tamaño muestral “n” se aproxima al tamaño poblacional “N”. En este caso el error estándar (o típico) de la media es  X   n N n . Al factor N 1 N n se N 1 lo denomina factor de corrección para una población finita (observar que siempre será un número menor que 1). Convendremos en usar ésta corrección cuando la población es finita y se hace un muestreo sin reemplazo; restringiendo más aún cuando N ≥ 20n. Como vemos es posible controlar las variaciones aleatorias haciendo variar el tamaño de la muestra. Ejemplo 1. Producción de petróleo crudo Supóngase que el número de barriles de petróleo crudo que produce un pozo diariamente es una variable aleatoria con una distribución no especificada. Si se observa la producción de 64 días, seleccionados en forma aleatoria, y si se sabe que la desviación estándar del número de barriles por día es σ = 16; determínese la probabilidad de que la media muestral se encuentre a no más de 4 barriles del verdadero valor de la producción por día. Solución n = 64; puesto que n es suficientemente grande, la distribución de X es, en forma aproximada, normal con: media=  X   Página 11 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma desviación estándar=  X  Luego la v.a. Z   16  2 n 64 X  tiene distribución aproximadamente N(0,1).  n La probabilidad pedida es: P( X   X  4)  P (4  X   X  4)  X  X  2)  P(2  Z  2)  2   (2)   (2)  0,9772  0, 0228  0,9544  P ( 2  Ejemplo 2. Las estaturas de 1000 estudiantes están distribuidas aproximadamente en forma normal con una media de 174,5 centímetros y una desviación estándar de 6,9 centímetros. Si se extraen 200 muestras aleatorias de tamaño 25 sin reemplazo de esta población, determinar: a) ¿Cuántas medias muestrales caen entre 172,5 y 175,8 centímetros? b) ¿Cuántas medias muestrales caen por debajo de 172 centímetros? Solución En este ejercicio contamos con una población finita y un muestreo sin reemplazo, por tanto agregamos el factor de corrección. P(172,5  X  175,8)  172,5  174,5 175,8  174,5 X  174,5   ) 6,9 1000  25 6, 9 1000  25 6,9 1000  25 25 1000  1 25 1000  1 25 1000  1  P(1, 47  Z  0,96)  0, 7607 a)  P( Gráficamente: Rta. (0,7607)(200) = 152 medias muestrales. b) Se calcula en forma similar que: P( X  172)  0, 0336 Gráficamente: Página 12 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Rta. (0,0336)(200) = 7 medias muestrales 3.3.4 Distribución Muestral de la Suma o la Diferencia de Dos Medias, Estadísticamente Independientes con Varianzas Conocidas Respectivamente. Si se extraen al azar muestras independientes de tamaños n1 y n2 de dos poblaciones, discretas o continuas, con medias µ 1 y µ 2 y desviaciones estándar σ1 y σ2 respectivamente, entonces las distribuciones de muestreo de X + X 1 2 y de X - X 1 2 tendrán las siguientes propiedades: 1) Las media de las distribuciones muestrales son:  X X 1 2  1   2 y  X X 1 2  1   2 2) Las varianzas de las distribuciones muestrales para la suma y la diferencia son:  X X 1  2 X X 1 2 2 2 1 2  1  2 n n 3) a) Si ambas distribuciones son normales entonces X + X 1 2 y X - X tienen distribución normal in importar que valores 1 2 tengan n1 y n2. b) Si n1 ≥ 30 y n2 ≥ 30 la aproximación normal para la distribución de X 1  X 2 es muy buena sin importar las distribuciones de las dos poblaciones. c) Si n1 < 30 y n2 < 30 la aproximación normal es razonablemente buena, excepto cuando las poblaciones no son normales. d) En el caso de aproximaciones normales, las variables aleatorias Z ( X 1  X 2 )  ( 1   2 )  12  2 2 n1 y Z n2 Tienen distribución N(0,1). Página 13 de 32 ( X 1  X 2 )  ( 1   2 )  12  2 2 n1 n2 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Ejemplo. Se extraen aleatoriamente: a) una muestra de tamaño n1 = 5 de una población normalmente distribuida con media µ 1 = 50 y desviación estándar σ1= 3, y se registra la media muestral X 1 . b) Una segunda muestra de tamaño n2 = 4, independientemente de la primera, de una población diferente que también está normalmente distribuida, con media µ 2 = 40 y desviación estándar σ2= 2 y se registra la media muestral X . 2 Hallar P( X - X 1 2 < 8,2). Solución P ( X 1  X 2  8,2)  P(  P( X 1  X 2  10 ( X 1  X 2 )  ( 1   2 ) 8,2  10 )  2 2 9 4 1  2   5 4 n n 1 2  1.08)  0,1401 2,8 3.3.5 Problemas Problema 1 Una empresa fabrica elementos con una duración que se distribuye aproximadamente en forma normal, con media de 800 horas y desviación estándar de 40 horas. Encuentre la probabilidad de que una muestra aleatoria de 16 de tales elementos tenga una vida promedio de por lo menos de 775 horas. Solución P ( X  775)  P( X  800 775  800  )  P ( Z  2,75)  0,0062 40 40 16 16 Página 14 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Problema 2 Uno de los principales fabricantes de televisores compra cables a dos compañías. Los cables de la compañía A tienen una vida media de 7,2 años con una desviación estándar de 0,8 años, mientras que los de la B tienen una vida media de 6,7 años con una desviación estándar de 0,7.Determine la probabilidad de que una muestra aleatoria de 34 tubos de la compañía A tenga una vida promedio de al menos 1 año más que la de una muestra aleatoria de 40 cables de la compañía B. Solución Datos µ A=7,2 µ B=6,7 σA=0,8 σB=0,7 nA=34 nB=40 P ( X A  X B  1)  P[ ( X A  X B )  ( A   B ) 2 A  B2  n A nB  1  (7,2  6,7) 0,8 0,7  34 40 2 2 ]  P( Z  2,84)  1  P (Z  2,84)  1  0,9977  0,0023 3.4 Varianza Muestral 3.4.1 Distribución Chi-Cuadrado Introducción La distribución Normal se usa en Estadística por dos razones fundamentales: 1. se trata de una distribución importante en si misma, ya que proporciona una descripción de gran cantidad de poblaciones. Página 15 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma 2. describe algunas distribuciones muestrales muy importante, en particular la de la media de la muestra. Por tanto la distribución Normal puede usarse para describir una población o una muestra. Por el contrario a la distribución Chi-Cuadrado (o Ji Cuadrado), solo la usaremos para describir algunas distribuciones muestrales, una de las cuales es la de la varianza muestral. Por ahora, nos será útil para determinar si una distribución muestral y otra teórica son lo suficientemente similares como para justificar la conclusión de que la población de la que se extrajo la muestra tiene una determinada distribución. Definición. Si Z1, Z2,…,Zn son variables aleatorias N(0,1) independientes, entonces decimos que: X  Z12  Z 22  ...  Z n2 Tiene una distribución Chi Cuadrado con n grados de libertad. Notación. Si X es una variable aleatoria continua con distribución Chi-Cuadrado y ν 2 grados de libertad, lo indicaremos X~  . El subíndice “ν” de la v.a. independientes de las que v.a. 2 . 2 corresponde al número de variables aleatorias 2 es suma y es lo que llamamos “grados de libertad” de la Teorema de la adición para la distribución Chi Cuadrado Si 12 y  22 son variables aleatorias independientes con distribución Chi Cuadrado con ν1 y ν2 grados de libertad, respectivamente, entonces: 2 = 2 + 2 1 2 también tiene una distribución chi-cuadrado con ν = ν1+ν2 grados de libertad. Grados de libertad Página 16 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma ¿Qué son los grados de libertad? Podemos definirlos como el número de valores que podemos elegir libremente. Por ejemplo, supongamos que estamos tratando con una muestra de tamaño 2, los valores de muestra son a y b, y sabemos que tienen una media de 18. Simbólicamente la situación es: ab  18 2 ¿Cómo podemos encontrar los valores que a y b pueden tomar en esta situación? La respuesta es que a y b pueden ser cualquier valor cuya suma entre los dos sea 36, ya que 36 dividido 2 es 18. Suponga que sabemos que a tiene el valor 10. Ahora b ya no es libre de tomar cualquier valor, sino que debe de tomar el valor 26, ya que: si a = 10 entonces 10  b  18 2 de modo que. 10+b = 36 por tanto: b = 26 La situación de este ejemplo se puede generalizar para cualquier (n) en donde dada la media de los valores sólo quedan (n-1) elementos que pueden definirse libremente y uno es función de la media y el resto de los elementos. Observaciones. 1. 2 es una v.a. por ser una función de variable aleatoria. 2. Puesto que 2 es una suma de variables aleatorias elevadas al cuadrado, su rango es el intervalo [0,+∞). 3. La forma de una distribución Chi cuadrado depende de los grados de libertad, por tanto hay un número infinito de distribuciones 4. Las distribuciones 2.  2 no son simétricas, tienen colas estrechas que se extienden a la derecha, decimos que están “sesgadas” a la derecha. 5. La media y la varianza de una v.a. con distribución Chi Cuadrado con ν grados de libertad son: Página 17 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma E(χ 2ν )  ν y Var(χ 2 )  2ν ν La siguiente figura ilustra distribuciones  2 para distintos valores de ν. La función de densidad de probabilidad de la distribución Chi Cuadrado está dada por: 1  1 (ν2)/2  x/2 e  ν Γ(ν/2) x 2 f ( x)   (x)   2 2  0 si x  0 en caso contrario donde el parámetro ν de 2 son los grados de libertad. Tener en cuenta que para ν=1 y ν=2 la función de densidad para x=0 se hace infinito: χ 2  0 y  2  0 . 1 2 Para el resto de los valores de ν, para x=0, la función vale 0. La función de densidad de probabilidad acumulada es: x x u (  2) / 2 e  u / 2 2 2 F ( x )  P(   x)    du   du    /2  2 ( / 2 )  0 0 Esta integral no tiene primitiva, se resuelve por métodos numéricos. Igualmente en este curso nos manejaremos con tablas de probabilidad. Uso de la tabla de la distribución Chi-Cuadrado. Ejemplos Veamos como usar una tabla de probabilidad acumulada para esta distribución. La tabla que puede verse en el Anexo presenta la densidad de probabilidad de una v.a. Chi Cuadrado para distintos grados de libertad (ν=1,2,…,10) y distintos valores de x (de 0 a 20 con incremento 0,2). En la fila superior están los valores de ν y en la columna de la izquierda los de x; donde se cruzan la columna de la ν buscada y la fila de la x, se encuentra el valor de la probabilidad a cumulada desde 0 a la x buscada. Página 18 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Veamos algunos ejemplos que muestran como debe usarse la tabla Chi Cuadrado que aparece en el Anexo. Ejemplos. Hallar: 1. P(  42  1,2) P(  42  1,2)  0,121901 2. P(  62  3,4) P (  62  3,4)  1  P (  62  3,4)  1  0,242777  0,757223 3. P (3,4   82  5,6) P(3,4   2  5,6)  P(  2  5,6)  P(  2  3, 4)  0,308063  0,093189)  8 8 8  0,214874 Interpolación lineal. La función chi cuadrado es continua para x>0, pero en la tabla solo se recogen algunos de sus valores (el número de valores existentes en la tabla siempre es finito), para calcular los valores no encontrados en la tabla podemos usar interpolación lineal. La interpolación lineal parte de dos puntos conocidos e la función, y los valores intermedios los determina por la recta que une estos dos puntos. Este método siempre Página 19 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma añade un cierto error al sustituir la función y=f(x) por la recta r(x) que une los dos puntos en cuestión. La expresión: y x  x1 ( y 2  y1 )  y1 x2  x1 determina la ecuación de la recta y=r(x) que pasa por los puntos (x1,y1) y (x2,y2) siendo x1<x< x2. Ejemplo. Hallar: P(  52  1,75) El valor 1,75 no está en la tabla, pero si encontramos los más próximos: 1,6<1,75<1,8 y se observa: P (  52  1,6)  0,098751 P (  52  1,8)  0,123932 sustituyendo en la expresión: y  se obtiene: y x  x1 x 2  x1 ( y 2  y1 )  y 1 1,75  1,6 (0,123932  0,098751)  0,098751  0,117637 1,8  1,6 por tanto: P(  52  1,75)  0,117637 Tabla inversa de la distribución Chi Cuadrado Página 20 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Partiendo de: P(χ 2  x)  p nos preguntamos: k ¿Para una distribución Chi Cuadrado con k grados de libertad, cual es el valor de x que deja a su izquierda una probabilidad p? En la tabla inversa tenemos en la fila superior las probabilidades P, en la columna de la izquierda los grados de libertad k, donde se cruzan la fila y la columna correspondientes, se encuentra el valor de x que deja a su izquierda una probabilidad P. Ejemplo. Hallar el valor de x tal que P (  62  x)  0,80 Consultando la tabla inversa se obtiene: x=8,558. Cálculo de la probabilidad con la tabla inversa. Ejemplo. Calcular con la tabla inversa P(  42  1,2) El valor 1,2 no figura en la tabla, pero en la fila de ν=4, tenemos: 1,064<1,2<1,649 P(χ 2  1,064)  0,10 4 además encontramos que: P(χ 2  1,649)  0, 20 4 usando la expresión de interpolación lineal: y  resulta: y  x  x1 ( y2  y1 )  y1 x2  x1 1,2  1,064 (0,2  0,1)  0,1  0,1232 1,649  1,064 por tanto: P(χ 24  1,2)  0,1232 Puede verse que hay una diferencia del orden de la tercera cifra decimal, respecto a la búsqueda directa en la tabla, esta diferencia se debe a la interpolación lineal y la relativamente gran diferencia entre x1 y x2. Página 21 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Función Gamma. En la función de densidad de probabilidad de esta distribución aparece la función gamma, que se define: (n)  (1) x  n 1 .e  x dx que es convergente para n  0 0 Algunas propiedades de esta función  (n  1)  n (n)  Si n es un entero positivo  (n  1)  n! n  1, 2, ...  Tomando (1) como la definición de (n) para n > 0, podemos generalizar la    (1)  1 (1 / 2)   función gamma para n < 0. Existen tablas de valores para la función gamma. Actualmente es útil buscar un valor de gamma en una calculadora científica. 3.4.2 Distribución de la Varianza Muestral Introducción Como definimos la varianza muestral por: S2  1 n 2  (Xi  X ) n  1 i 1 es natural esperar que se use esta v.a. como un estimador de la varianza poblacional σ2, de una distribución normal, cuando no se conoce σ2. El proceso de estimación puede considerarse como sigue: la varianza de una distribución normal se desconoce, entonces se toma una muestra aleatoria de n observaciones, se calcula la v.a. S2 y se usa este valor como un estimador de σ2. ¿Se encuentra σ2 bien estimado por S2? Una medida de la aproximación de S2 a σ2 está dada por: P(a  S2  b) sindo a y b números reales positivos. σ2 Se usa S2/σ2 como una medida de aproximación, en vez de S2-σ2, porque la distribución de S2/σ2 se obtiene fácilmente, mientras la distribución de S2-σ2 es difícil de obtener. Página 22 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Así como en el caso de una v.a. X con distribución N(μ,σ2) usamos una transformación para obtener otra v.a. Z con distribución N(0,1), cuyos valores de probabilidad se encuentran tabulados; en el caso de la v.a. S2 hacemos algo similar. La transformación, en este caso, se hace pasando a la variable: χ2  (n  1)S2 (chi - cuadrado) (1) σ2 cuyas probabilidades están tabuladas. Sin embargo, contrariamente a lo que ocurre con la distribución normal estándar; la forma de la curva que representa la f.d.p de  2 varía al cambiar el tamaño de la muestra. Debido a esta dependencia respecto al tamaño de la muestra, normalmente se usa un subíndice para identificarla. Por ejemplo, la (1) se escribiría normalmente en la forma: χ2 n 1  (n  1).S2 (2) σ2 Una forma equivalente de escribir esta ecuación es: n 2  (X i  X) i1 (3) χ2 n 1  σ2 El subíndice de  2 , que es igual al tamaño de la muestra menos uno, recordemos que son los llamados “grados de libertad”, que representaremos comúnmente por ν (nu). La expresión grados de libertad hace referencia, aquí, al número de cuadrados n independientes en el numerados de (3), es decir en  ( X i  X ) 2 . El número total de i 1 cuadrados en esta expresión es “n”, pero sólo hay “n-1” cuadrados independientes, porque una vez calculados los “n-1” primeros, el valor del último queda determinado automáticamente. Teorema. Si X1, X2,…, Xn son variables aleatorias independientes cada una con (n  1).S2 2 distribución N(μ, σ ) entonces la v.a. χ tiene una distribución chi n 1  σ2 2 cuadrado con “n-1” grados de libertad. Página 23 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Este teorema no se prueba fácilmente, se omite la demostración. sólo presentaremos un argumento empírico. Si a y b son dos constantes cualesquiera, tales que: 0≤ a ≤ b, tenemos: 2 2 (n  1) S 2 P(a   n21  b)  P[a   b]  P[a  S2  b ] (n  1) (n  1) 2 Como vemos una afirmación de tipo probabilístico respecto a  2 se puede transformar fácilmente en otra equivalente a S2. Ejemplo. Encuentre la probabilidad de que una muestra aleatoria de 25 observaciones de una población con varianza σ2=6, tenga una varianza muestral: 1. mayor que 9,1. 2. entre 3,462 y 10,745. Solución (n  1).S 2 (25  1)(9,1) 1.     36,4 2 6 2 al buscar este número en el renglón de 24 grados de libertad nos da un área a la derecha de 0,05, entonces: P( S 2  9,1)  0,05 P(3,462  S2 10,745)  P[  P(13,847  χ 224 (24).(3,462) 24.S2 (24)(10,745) ]   6 6 6  42,98)  P(χ 224  42,98)  P(χ 224  13,462)   0,99  0,05  0,94 3.5 Distribución de la Media siendo la Varianza Desconocida 3.5.1 Distribución t de Student Introducción La distribución t de Student o simplemente distribución t, surge del problema de estimar la media de una población normalmente distribuida y se desconoce la desviación típica σ, de la población. Sabemos que el estadístico X (función de una muestra aleatoria) se distribuye para n suficientemente grande, normalmente con: media  X  Página 24 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista desviación estándar  o lo que es lo mismo: Z  X   N (0,1)  X   n Magíster. Lic. Alicia Ledesma n Para calcular Z se requiere que σ sea conocida. Si σ no se conoce y tratamos con una muestra pequeña se requiere un estadístico distinto de Z. Es así que definimos: T X  S n Como vemos estamos introduciendo aquí más incertidumbre, dado que S es estimador de σ. Esto nos indica que la distribución de T será más dispersa que la de Z. T tiene distribución t de Student. Esta distribución tiene por función de densidad: ( 1)  1 x2 1 Γ( 2 ) . (1  ) 2 t (x)   π Γ( ) 2 donde el parámetro ν de tν son los grados de libertad de la distribución. Las principales características de la distribución t son: 1. Es una distribución continua. 2. E(T)=0 V (T )   para   2  2 3. La distribución tiene forma acampanada y es simétrica respecto de la media E(T)=µ=0, -∞<t<+∞. 4. La V(T) es ligeramente mayor que 1, es decir es ligeramente mayor que la de la distribución normal estandarizada. Cuando los grados de libertad son suficientemente grandes la varianza de la distribución t tiendo a 1. 5. No hay una distribución t sino una “familia” de distribuciones t; todas con la misma media 0, pero con su respectiva desviación estándar diferente de acuerdo con el tamaño de la muestra. Existe una distribución t para una muestra de tamaño 20, otra para una muestra de tamaño 22 y así sucesivamente. 6. La distribución t es más ancha y más plana en el centro que la distribución normal estándar como resultado de ello se obtiene una mayor variabilidad en las Página 25 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma medias muestrales calculadas a partir de muestras más pequeñas. sin embargo a medida que aumenta el tamaño de la muestra, la distribución t se aproxima a la distribución N(0,1). 7. Para n≥30 la distribución t tiende a la N(0,1). Gráficamente: Definición. Formalmente una variable aleatoria T con distribución t de Student se define de la forma siguiente: Sea Z una variable aleatoria con distribución N(0,1) y sea  2 una variable Chi Cuadrado con n grados de libertad, entonces: T Z (1) 2 χ n donde: X  (n  1) S 2 2 Z y    2 n Al sustituir en la fórmula (1): T X   n X  X    n n    S (n  1)S 2 S2  2 2 n 1 Por tanto: T n(X  )   S  n ( X  ) X    S S n X  con ν = n-1 grados de libertad. S n Observación aparece X porque estudiaremos con esta distribución la media muestral. Página 26 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma La distribución de densidad acumulada de la distribución t será: x F ( x )  P (t  x )   t (u )du donde: x  t (u )du no tiene primitiva  Para el cálculo de la integral anterior existen distintos tipos de tablas de esta distribución, en las que para distintos valores de ν y de x, se puede buscar su probabilidad acumulada p. Uso de tablas de la distribución t. Ejemplos En la tabla, que se encuentra en el Anexo, hay dos entradas, en la fila superior están los valores de ν y en la columna de la izquierda los de x, para x≥0, con incrementos de 0,05. Para cada valor de ν y de x correspondiente se obtiene la probabilidad acumulada expresada con 3 cifras decimales.  . Como la distribución t es simétrica alrededor de E(T)=0, tenemos Observación. Se acostumbra representar con t α el valor t por arriba del cual se encuentra un área igual a t1  t ; es decir, el valor t que deja un área de 1  α a la derecha y por tanto un área de  a la izquierda, es igual al valor t negativo que deja un área de  en la cola derecha de la distribución. Esto es: t 0,95   t 0,05 ; t 0,99   t 0,01; etc. Ejemplos. 1. Calcular: P(t9  0,25) Solución Buscando en la tabla en la columna del 9, y la fila de 0,25 se obtiene: P(t 9  0,25)  0,596 2. Hallar: P(t 6  1,45) Solución Página 27 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma P(t 6  1,45)  P(t 6  1,45)  1  P(t 6  1,45)  1  P(t 6  1,45)   1  0,901  0,099 Debemos tener en cuenta aquí que: para conocer P(t n   x) siendo x>0, teniendo en cuenta los dos principios: La suma de probabilidades acumuladas menor y mayor que x es 1 La simetría de la distribución t de Student. Por tanto: P(t n  x)  P(t n  x)  1 despejando: P(t n  x)  1  P(t n  x ) Además por simetría de la distribución t respecto al eje y, la probabilidad acumulada a la izquierda de –x es igual a la probabilidad acumulada a la derecha de x: P(t n   x)  P(t n  x) sustituyendo en la expresión anterior: P(t n   x)  1  P(t n  x) donde el valor P(t n  x) se busca en la tabla. 3. Calcular: P(t15  2,45) Se trata de calcular P(t n  x) siendo x  0 , se lo indica en la figura siguiente: Página 28 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma P(t15  2,45)  1  P(t15  2,45)  1  0,986  0,014 4. Calcular: P(t 9  1,95) Aquí se trata de calcular P(t n  x) siendo x  0 , o sea el área de la región amarilla en la siguiente figura: P(t 9  1,95)  (1) P(t 9  1,95)  0,959 (1) por la simetría de la función t de Student. 5. Calcular: P(0,75  t 25  1,25) P(0,75  t 25  1,25)  P(t 25  1,25)  P (t 25  0,75)  0,889  0,770  0,119 En la figura siguiente se esquematiza este problema: El área de la zona amarilla representa el valor de probabilidad hallado. 6. Hallar: P(t10  0,87) El valor 0,87 no se encuentra en la tabla, se observa que: 0,85<0,87<0,90 por tanto debemos aplicar interpolación lineal. Página 29 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Encontramos: P(t10  0,85)  0,792 y P(t10  0,90)  0,805 Por tanto: y  0,87  0,85 (0,805  0,792)  0,792  0,7972 0,90  0,85 Tabla inversa de la distribución t de Student Partiendo de: P (t n  x )  p nos preguntamos: ¿para una distribución t de Student con n grados de libertad, cuál es el valor de x que deja a su izquierda una probabilidad p? La siguiente figura ilustra este problema: En la tabla tenemos en la fila superior las probabilidades p, en la columna de la izquierda los grados de libertad n; donde se cruzan la fila y la columna correspondientes se encuentra el valor de x correspondiente con 6 cifras decimales. Ejemplo. Hallar x tal que: P(t 5  x)  0,85 Como puede verse en la tabla: P(t 5  x)  0,85  x  1,155768 . 3.5.2 Distribución de la Media Muestral desconociendo la Varianza Hemos visto hasta ahora la importancia que tiene la estandarización: Z X µ σ n Habitualmente: el objetivo que se persigue al recurrir a esta estandarización es determinar la probabilidad de algún valor específico X , suponiendo que la media poblacional es µ, para luego usar esta probabilidad en la toma de decisiones. Página 30 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Hasta ahora para efectuar la estandarización dispusimos de un valor de la media poblacional µ y de la desviación estándar poblacional σ. ¿Qué ocurre cuando se desconoce σ? En este caso puede usarse el estadístico muestral S, y la estandarización adoptará la forma: T X  S n Como vimos la distribución del estadístico T, recibe el nombre de distribución t de student. En este caso se usará a T para estimar a X Recordar que ν=n-1recibe el nombre de grados de libertad, y representa una medida del número de observaciones independientes en la muestra. Ejemplo Un ingeniero químico afirma que el rendimiento medio de la población de cierto proceso en lotes es 500 gramos por milímetro de materia prima. Para verificar esta afirmación toma una muestra de 25 lotes cada mes. Si el valor de t calculado cae entre –t0,05 y t0,05, queda conforme con su afirmación. ¿Qué conclusión extraería de una muestra que tiene una media de 518 gramos por milímetro y una desviación estándar de 40 gramos? Suponga que la distribución de rendimientos es aproximadamente normal. Solución De la tabla encontramos que y t 0,05 para 24 grados de libertad es de 1,711. Por tanto, el fabricante queda conforme con esta afirmación si una muestra de 25 lotes rinde un valor t entre -1,711 y 1,711. Calculando el valor de t: t X  µ 518  500   2,25 S 40 n 25 Página 31 de 32 UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Magíster. Lic. Alicia Ledesma Este es un valor muy por encima de 1,711. Si se desea obtener un valor de t con 24 grados de libertad igual o mayor a 2,25 e busca en la tabla y es aproximadamente igual a 0,02. Por tanto es probable que el fabricante concluya que el proceso produce un mejor producto del que piensa. 3.6 Mínimo y Máximo Muestrales 3.6.1 Teorema 1 Sean:    X una v.a. con f.d.p. f(x) y F.d.a. F(x). (X1, X2,…, Xn) muestra aleatoria de tamaño n de la v.a. X. X(m)=mín(X1, X2,…, Xn) el mínimo muestral. Entonces: gm(x)=n[1-F(x)]n-1.f(x) es la f.d.p. de X(m). Demost. 1. Calculamos la F.d.a. de X(m), que llamaremos Gm(x). G m (x)  P(X (m)  x)  1  P(X (m)  x)  1  P[(X1  x)  (X 2  x)  ...  (X n  x)]  (1)  1  P(X1  x).P(X 2  x)......P(X n  x)  1  [1  F(x)][1  F(x)]...[1  F(x)]  1  [1  F(x)] n donde F(x) es la F.d.a , la misma para todas las v.a. X i (i  1,2,..., n ) (1) por independencia 2. Derivando respecto de x: g m (x)  n[1  F(x)]n 1 F´(x)  n[1  F(x)] n 1.f(x ) 3.6.2 Teorema 2 Sean:    X una v.a. con f.d.p. f(x) y F.d.a. F(x). (X1, X2,…, Xn) muestra aleatoria de tamaño n de la v.a. X. X(M)=máx(X1, X2,…, Xn) el máximo muestral. Entonces: gM(x)=n[F(x)]n-1.f(x) es la f.d.p. de X(M). Demost Basarse en la demostración del Teorema 1. Página 32 de 32

Log In

Capítulo 3 DISTRIBUCIONES MUESTRALES

Related papers

Related papers

Related topics