Academia.eduAcademia.edu

Apuntes de Estudio Estadística

2017

Notas de clase en Estadística y Probabilidades

Apuntes de Estudio Estadı́stica Pablo Cristi Worm * 12 de diciembre de 2017 * Este documento corresponde a apuntes y notas de estudio. Cualquier error es responsabilidad del autor. [email protected] 1 Índice Página 1. Intruducción 4 2. Distribuciones de Frecuencia y Representaciones Gráficas 2.1. Variables Cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Variables Cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 16 3. Descripción 3.1. Medidas 3.2. Medidas 3.3. Medidas 3.4. Medidas . . . . 23 24 30 34 37 Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 41 42 46 5. Fenómenos aleatorios y Espacios de Probabilidad 5.1. Asignación de Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Propiedades de la Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 49 51 56 6. Distribución de probabilidades 6.1. Variables aleatoria discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1. Distribución de probabilidad discreta . . . . . . . . . . . . . . . . . . . 6.1.2. Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.3. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.4. Distribución de probabilidad binomial . . . . . . . . . . . . . . . . . . 6.1.5. Valor esperado y varianza de una distribución binomial . . . . . . . . 6.1.6. Distribución de probabilidad de Poisson . . . . . . . . . . . . . . . . . 6.1.7. Distribución de probabilidad hipergeométrica . . . . . . . . . . . . . . 6.2. Variables aleatoria continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1. Distribución de Probabilidad Uniforme . . . . . . . . . . . . . . . . . . 6.2.2. Distribución de Probabilidad Normal . . . . . . . . . . . . . . . . . . . 6.2.3. Función de Distribución . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.4. Aproximación normal de las probabilidades binomiales . . . . . . . . . 6.2.5. Distribución de probabilidad exponencial . . . . . . . . . . . . . . . . 6.2.6. Relación entre la distribución de Poisson y la distribución exponencial 58 59 59 60 61 62 66 67 68 71 72 73 75 77 78 80 Numérica de una Variable Estadı́stica de posición central . . . . . . . . . . . . . . de dispersión . . . . . . . . . . . . . . . . . de la forma de la distribución . . . . . . . . de asimetrı́a y curtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. Análisis bivariante: Medidas de Dependencia Estadı́stica y 4.1. Variables cualitativas: Ordinales y Nominales . . . . . . . . . 4.2. Variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . 4.3. Momentos de una variable aleatoria . . . . . . . . . . . . . . 7. Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 2 8. Técnicas de Muestreo 8.1. Muestreo aleatorio simple . . . . . . . . . 8.1.1. Población finita . . . . . . . . . . . 8.1.2. Población infinita . . . . . . . . . . 8.1.3. Distribuciones Muestrales . . . . . 8.1.4. Distribución Muestral de µ̂ . . . . 8.1.5. Distribución muestral de p̄ . . . . . 8.2. Otras técnicas probabilı́sticas de muestreo 8.2.1. Muestreo aleatorio estratificado . . 8.2.2. Muestreo por conglomerados . . . 8.2.3. Factor de expansión . . . . . . . . 8.3. Técnicas no probabilı́sticas de muestreo . 8.3.1. Muestreo de conveniencia . . . . . 8.3.2. Muestreo subjetivo . . . . . . . . . 9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 82 82 83 84 85 89 89 89 91 93 93 93 93 94 10.Anexo 105 10.1. Tabla normal estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 3 1. Intruducción La estadı́stica es la técnica que reúne datos, los analiza, los presenta y los interpreta. Muchas disciplinas adoptan la estadı́stica como herramienta para procesar, sintetizar y analizar información. En finanza, por ejemplo, el analista revisa diferentes datos financieros como la relación precio/ganancia y el rendimiento de los dividendos. Al comparar la información sobre una determinada acción con la información sobre el promedio en el mercado de acciones, el analista empieza a obtener conclusiones para saber si una determinada acción está sobre o subvaluada. En marketing, los estudio de mercado no son otra cosa que estudios estadı́sticos que resumen información sobre la demanda, el precio y el perfil de los consumidores. Los economistas suelen hacer pronósticos acerca del futuro de la economı́a o sobre algunos aspectos de la misma. Usan una variedad de información estadı́stica para hacer sus pronósticos. Por ejemplo, para pronosticar las tasas de inflación, emplean información estadı́stica sobre indicadores como el ı́ndice de precios al consumidor, la tasa de desempleo y la utilización de la capacidad de producción. Los datos Los datos son hechos, informaciones y cifras que se recogen, analizan y resumen para su presentación e interpretación. A todos los datos reunidos para un determinado estudio se les llama conjunto de datos para el estudio. Una variable es una caracterı́stica que toma valores diferentes en un conjunto de observaciones. En economı́a, por ejemplo, definimos la renta como una variable. Al hacerlo podemos estar pensando en los ingresos anuales de las familias de una región, en la que cada familia tendrá un volumen de ingresos distinto. Los valores encontrados para cada variable en cada uno de los elementos constituyen los datos. Al conjunto de mediciones obtenidas para un determinado elemento se le llama observación. El cuadro 1 muestra un ejemplo de base de datos o conjunto de datos. La primera fila muestra las variables; Paı́s, PIB, Tasa Desempleo, PISA (lectura) y Tasa de interés. Abajo de cada variable se muestran los valores para cada observación. En este caso, la unidad de análisis son los paı́ses. Cada variable tiene 10 observaciones. Escalas de medición La recolección de datos requiere alguna de las escalas de medición siguientes: nominal, ordinal, de intervalo o de razón. La escala de medición determina la cantidad de información contenida en el dato e indica la manera más apropiada de resumir y de analizar estadı́sticamente los datos. Cuando el dato de una variable es una etiqueta o un nombre que identifica un atributo de un elemento, se considera que la escala de medición es una escala nominal. Por ejemplo, la variable Paı́s, es una variable nominal. También pueden ser el sexo o el nombre de una persona o el identificador de una persona, como el RUT. Una escala de medición para una variable es ordinal si los datos muestran las propiedades de los datos nominales y además tiene sentido el orden o jerarquı́a de los datos. Por ejemplo, el resultado de la prueba PISA de lectura es un puntaje; a mayor puntaje, mejor desempeño. Este tipo de escala se común para los rankings o ı́ndices, donde se puede atribuir que un valor es mejor 4 Cuadro 1: Ejemplo Base de Datos Paı́s Canada Chile France Germany Japan Korea Mexico Spain United Kingdom United States PIB 44 23 41 47 38 34 17 34 41 56 Tasa Desempleo PISA (lectura) Tasa interés 6.9 6.2 10.4 4.6 3.4 3.6 4.3 22.1 5.3 5.3 527 459 499 509 516 517 423 496 498 497 1.5 4.5 0.8 0.5 0.3 2.3 5.9 1.7 1.9 2.1 201.1 046.2 004.7 998.6 401.0 569.5 779.9 712.6 779.4 066.0 que otro y permiten ordenar las unidades de observación. Una escala de medición para una variable es una escala de intervalo si los datos tienen las caracterı́sticas de los datos ordinales y el intervalo entre valores se expresa en términos de una unidad de medición fija. Los datos de intervalo siempre son numéricos. Por ejemplo, se pueden crear intervalos de edad que permiten clasificar los resultados, o las notas de satisfacción de un producto, donde por ejemplo, 1 y 2 son malo, 3 es regular y 4 y 5 son bueno. Una variable tiene una escala de razón si los datos tienen todas las propiedades de los datos de intervalo y la proporción entre dos valores tiene significado. Variables como distancia, altura, peso y tiempo usan la escala de razón en la medición. Esta escala requiere que se tenga el valor cero para indicar que en este punto no existe la variable. Por ejemplo, en el cuadro 1 la tasa de interés es una variable de razón. Clasificación de los datos Los datos también son clasificados en cualitativos y cuantitativos. Los datos cualitativos comprenden etiquetas o nombres que se usan para identificar un atributo de cada elemento. Éstos emplean la escala nominal o la ordinal y pueden ser numéricos o no. Los datos cuantitativos requieren valores numéricos que indiquen cuánto o cuántos. Éstos se obtienen usando las escalas de medición de intervalo o de razón. Una variable cualitativa es una variable con datos cualitativos. El análisis estadı́stico adecuado para una determinada variable depende de si la variable es cualitativa o cuantitativa. Si la variable es cualitativa, el análisis estadı́stico es bastante limitado. Tales datos se resumen contando el número de observaciones o calculando la proporción de observaciones en cada categorı́a cualitativa. Sin embargo, aun cuando para los datos cualitativos se use un código numérico, las operaciones aritméticas de adición, sustracción, multiplicación o división no tienen sentido. Por otro lado, las operaciones aritméticas sı́ tienen sentido en las variables cuantitativas. Por ejemplo, cuando se tienen variables cuantitativas, los datos se pueden sumar y luego dividir entre el número de observaciones para calcular el valor promedio. Este promedio suele ser útil y fácil de interpretar. En general hay más alternativas 5 para el análisis estadı́stico cuando se tienen datos cuantitativos. La distinción entre variables cuantitativas y cualitativas es importante desde el punto de vista estadı́stico porque las técnicas que pueden emplearse en uno u otro caso son diferentes. Existen tres formas de clasificar los datos en una base de datos. Los datos pueden ser de corte transversal y muestran una fotografı́a del momento. Por ejemplo, una encuesta de opinión a la salida del metro, refleja las preferencias de los usuarios del metro. Los datos se pueden clasificar una como una serie de tiempo. En este caso, se observa una variable a lo largo del tiempo. Por ejemplo, la evolución de la tasa de crecimiento del paı́s, o el valor de la UF es una serie de tiempo. En general, las serie de tiempo pueden medirse en dı́as, meses, trimestres, semestres y años. Una tercera clasificación es una combinación de las anteriores. Los datos de panel es un seguimiento de la misma unidad de análisis durante el tiempo. Por ejemplo, observar la evolución de la inflación en los paı́ses de la OECD por varios periodos consecutivos. La figura 1 muestra la serie de tiempo del PIB; el gráfico de la izquierda muestra el nivel del PIB expresado en millones de pesos chilenos, y el gráfico de la derecha muestra las variaciones del PIB respecto al mismo periodo del años anterior. Esta serie muestra datos trimestrales. Producto Interno Bruto Variación del PIB 1998q1 -5 15000000 20000000 PIB 25000000 Variacion del PIB r/a año anterio 0 5 10 30000000 Nivel del PIB 2002q3 2007q1 quarter 2011q3 2016q1 1998q1 2002q3 2007q1 quarter 2011q3 2016q1 Figura 1: Análisis gráfico del PIB Recolección de los datos Existen entidades que se dedican a la recolección de datos y realizan estudios de mercado y estudios de opinión. En Chile, el Centro de Estudios Públicos tiene la encuesta socioeconómica y de opinión polı́tica más importante del paı́s. Los organismos estatales también levantan información de la población. Por ejemplo el Instituto Nacional de Estadı́stica (INE) o el Banco Central. El Ministerio de Desarrollo Social lleva a cabo una de las encuestas más importantes del paı́s, la Ficha de Caracterización socioeconómica (ex Ficha de protección social y Ficha CAS). También las asociaciones gremiales recolectan datos de sus sectores. 6 Sin embargo, no siempre los datos están disponibles y es necesario recolectarlos. Una encuesta que permita conocer el perfil de todos los habitantes de un paı́s serı́a un censo. Sin embargo, este tipo de estudios es muy costoso, por lo que generalmente se realizan estudios más pequeños parte de la población. Se llama muestra a una parte de la población. Las formas en cómo se selecciona la muestra es muy importante y va a determinar el sesgo de selección del estudio. La mejor forma de seleccionar una muestra es de forma aleatoria. Cuando se trabaja con una muestra las conclusiones que se obtienen deben restringirse a ésta. Extraer conclusiones más generales, aplicables a toda la población, sólo puede hacerse de una manera limitada, siendo necesario entre otras cosas que la muestra sea representativa y que la generalización de las conclusiones se haga de una forma prudente y rigurosa. La necesidad de trabajar con muestras responde en muchas ocasiones a un ahorro en los costos de obtener de la información. Si puede obtenerse información esencial y generalizable a partir de una muestra no será preciso acceder a toda la población. Espacio muestral, Ω, es el nombre que se da al conjunto de resultados posibles de un experimento, y cada elemento de dicho conjunto se denomina punto muestral, ω. El número de puntos muestrales puede ser finito o infinito. Al lanzar una moneda al aire y ver el resultado, tenemos que Ω = {o, x}, donde o es cara y x es sello. Mientras que considerar el tiempo de espera de reacción a una variación en la tasa de interés puede ser infinito Ω = (0, ∞) = R+ . Sobre un mismo espacio muestral pueden construirse diferentes experimentos, lo que depende de la capacidad de observación, o interés, del observador. Por ejemplo, al lanzamiento de un dado, Ω = {1, 2, ..., 6}, puede añadirse y observar si sale cara impar, u observar si sale como máximo un tres, etc. Es decir, la capacidad de observación determina un conjunto de sucesos observables asociados al experimento. En ocasiones, el recurrir a las muestras no obedece a una cuestión de costos, sino a la imposibilidad de acceder a todas las observaciones. En estos casos se puede realizar un experimento. Un experimento es un estudio cientı́fico que genera datos y está caracterizado por dos componentes, el fenómeno a estudiar y el observador. En los estudios experimentales se identifica primero la variable de interés. Después se ubica otra u otras variables que son controladas para lograr datos de cómo ésta influye sobre la variable de interés. Por ejemplo, a una empresa farmacéutica le interesa realizar un experimento para saber la forma en que un medicamento afecta la presión sanguı́nea. La variable que interesa en el estudio es la presión sanguı́nea. Otra variable es la dosis del nuevo medicamento que se espera tenga un efecto causal sobre la presión sanguı́nea. Para obtener estos datos acerca del nuevo medicamento, los investigadores eligen una muestra de individuos. La dosis del medicamento se controla dando diferentes dosis a distintos grupos de individuos. Antes y después se mide la presión sanguı́nea en cada grupo. El análisis estadı́stico de los datos experimentales ayuda a determinar el efecto del nuevo medicamento sobre la presión sanguı́nea. Por otro lado, el fenómeno a estudiar puede ser determinı́stico o aleatorio. Se dice que un fenómeno es determinı́stico cuando las mismas entradas o condiciones iniciales producirán invariablemente las mismas salidas o resultados, no contemplándose la existencia de azar, o incertidumbre en el proceso modelada mediante dicho modelo. Los fenómenos determinı́sticos son muy comunes en las ciencias 7 exactas. Por ejemplo, las Leyes de Newton1 . Por el contrario, un fenómeno aleatorio o estocástico es aquel que permite una intervención del azar. Es decir, donde la explicación de un fenómeno no está descrita al cien porciento por las variables del modelo, y existe la probabilidad de que ocurra algo que no estamos midiendo. Este tipo de fenómenos ocurre con mucha frecuencia en las Ciencias Sociales, la administración, el marketing y la economı́a. Un fenómeno se dice que es aleatorio cuando cumple las siguientes condiciones, a) Puede repetirse indefinidamente, obteniéndose datos o resultados que pueden ser distintos en cada prueba o repetición, b) En cada prueba se obtiene un resultado perteneciente al conjunto de resultados posibles del experimento, c) Antes de realizar una prueba es imposible saber el resultado de la misma, lo que se denomina condición de azar, d) La frecuencia relativa de cada resultado tiende a un número fijo al aumentar el número de repeticiones del experimento, lo que se denomina regularidad estadı́stica. Observaciones atı́picas Siempre es importante revisar el conjunto de datos antes de comenzar a trabajar con este. Una observación atı́pica es un dato que es mucho más grande o mucho más pequeños que los demás y puede deberse a varias cosas. 1. Una observación atı́pica puede ser causa de un dato mal digitado, o al ingresado a la base de datos. En este caso, el dato no debe considerarse y debe clasificarse como un valor perdido o missing value. 2. Una observación atı́pica puede ser causa de una observación empı́rica que presenta un comportamiento diferente al conjunto de datos. A estas observaciones se les conoce como outliers y deben tratarse con cuidado para no sesgar la muestra. Estadı́stica Descriptiva La estadı́stica descriptiva es un conjunto de métodos cuyo objetivo es ordenar las observaciones, resumir la información disponible y obtener las medidas que describen sus caracterı́sticas. La descripción es cuantitativa y pretende ser lo más sintética posible. La estadı́stica descriptiva está presente en periódicos, revistas, informes de empresas y otras publicaciones, donde la información es resumida y presentada en una forma fácil de leer y de entender. 1 Primera ley: Todo cuerpo persevera en su estado de reposo o movimiento uniforme y rectilı́neo a no ser que sea obligado a cambiar su estado por fuerzas impresas sobre éste. Segunda ley: El cambio de movimiento es directamente proporcional a la fuerza motriz impresa y ocurre según la lı́nea recta a lo largo de la cual aquella fuerza se imprime. Tercera ley: Con toda acción ocurre siempre una reacción igual y contraria: quiere decir que las acciones mutuas de dos cuerpos siempre son iguales y dirigidas en sentido opuesto. 8 Para describir qué ocurre con los datos, se realizan una serie de cálculos cuantitativos que resumen el comportamiento de ese conjunto de datos. Cuando se está estudiando una población, estas medidas que describen las caracterı́sticas de los datos se denominan parámetros poblacionales. El valor medio de una variable en una población serı́a un parámetro, también lo es la proporción de individuos de la población que tienen una caracterı́stica. En general, daremos el nombre de estadı́stico a cualquier fórmula aplicada en la información muestral. Muchos de los estadı́sticos que se utilizan pretenden ser estimaciones de los parámetros de la población. Si sólo disponemos de una muestra, podemos calcular el valor medio de las observaciones y suponer que esa media muestral puede ser una buena aproximación al valor del parámetro, la media poblacional. 2. 2.1. Distribuciones de Frecuencia y Representaciones Gráficas Variables Cualitativas Los datos cualitativos emplean etiquetas o nombres para determinar categorı́as de elementos iguales y pueden ser ordinales o nominales. Por ejemplo el sexo o la nacionalidad. Como las observaciones de esta variable no son numéricas, no podemos calcular una media, y los valores como el mı́nimo o el máximo no tienen sentido. Las categorı́as de las variables cualitativas pueden relacionarse con valores numéricos, pero eso no las convierte en cuantitativas, puesto que el número, en su caso, no es más que una “etiqueta”, careciendo de sentido operar matemáticamente con ellos. Por ejemplo, en una base de datos el sexo de la persona encuestada se puede codificar como “1”si es mujer y “2”si es hombre, pero estos números no contienen información relevante sobre el perfil de la persona. La frecuencia es una forma común de describir datos cualitativos. Distribución de Frecuencias en variables cualitativas Una distribución de frecuencia es un resumen de datos que muestra el número (frecuencia) de elementos en cada una de las categorı́as de una variable. Para elaborar una distribución de frecuencias se cuenta el número de veces que un valor o categorı́a de la variable es observada. Por ejemplo, el cuadro 2 muestra la estadı́stica descriptiva de la variable cualitativa sexo. Por ejemplo, en el estudio número 78 del Centro de Estudios Públicos (CEP) se encuestaron a 1.464 personas, de las cuales 748 son mujeres y corresponden al 51 % de la muestra, y 716 personas son hombres y componen el 49 % de la muestra. El cuadro 2 muestra la frecuencia de la variable sexo y la figura 2 muestra un análisis gráfico de la misma variable. Cuadro 2: Frecuencia y frecuencia porcentual de la variable sexo Sexo Frecuencia Porcentaje Hombre Mujer 716 748 48.9 % 51.1 % 1,464 100 % Total 9 Figura 2: Frecuencia de la variable sexo Supongamos una variable A que puede tomar los valores a1 , a2 , a3 , ..., aI . Lo primero, es conocer cuántos individuos tienen cada caracterı́stica. Se denomina frecuencia absoluta, ni , al número de veces que se repite una de las categorı́as o valores de la variable. La distribución de frecuencias es el registro de todas las categorı́as o valores de la variable. La frecuencia relativa es la proporción del total de observaciones que corresponden a una categorı́a. Al multiplicar la frecuencia relativa por 100 se obtiene el porcentaje de cada categorı́a. f recuencia relativa = ni n donde i = 1, ..., I Cuando se trabaja con una variable de tipo ordinal (cuyas categorı́as se pueden ordenar de menor a mayor) se pueden calcular las frecuencias acumuladas. La idea de acumulación facilita conocer rápidamente el número de observaciones que están por debajo de un determinado valor o categorı́a.Se distingue entre frecuencias acumuladas absolutas y relativas. La frecuencia absoluta acumulada se define como: Ni = Σj = 1i nj donde i = 1, ..., I La frecuencia relativa acumulada se define como: 10 Fi = Σj = 1i nj Ni = n n donde i = 1, ..., I Cuadro 3: Satisfacción con la vida según la encuesta CEP Satisfaccion con la Vida Frecuencia (n) Porcentaje ( %) Porcentaje válido Porcentaje acumulado Muy insatisfecho Insatisfecho Indiferente Satisfecho Muy satisfecho Total 18 89 399 508 445 1,458 1.2 6.1 27.2 34.7 30.4 99.6 1.2 6.1 27.4 34.8 30.5 100.0 1.2 7.3 34.7 69.5 100.0 6 1,464 0.4 100.0 Perdidos Total El cuadro 3 muestra los resultado de la encuesta CEP de diciembre de 2016 a la pregunta ¿qué tan satisfecho está Ud. con su vida?. La pregunta fue efectivamente contestada por 1.458 personas y 6 personas no respondieron, lo que completa la muestra de 1.464 personas encuestadas. La primera columna muestra los valores de la variable Satisfacción con la Vida; Muy insatisfecho, Insatisfecho, Indiferente, Satisfecho y Muy satisfecho. La segunda columna, Frecuencia, muestra el número de personas que se identifica con un valor de la variable. La tercera columna muestra el porcentaje al que corresponde ese valor de la variable considerando a las personas que no respondieron la encuesta. La cuarta columna, Porcentaje válido, excluye los casos perdidos y sólo considera las respuesta válidas. La última columna, Porcentaje acumulado, muestra la suma porcentual de los valores de la variable. Por ejemplo, podemos afirmar que el 34,7 % de los encuestados está insatisfecho o es indiferente respecto a su vida. La figura 3 muestra un gráfico de barras de las frecuencias de la misma pregunta. La figura 4 muestra una gráfico de torta de la pregunta sobre satisfacción con la vida. 11 Figura 3: Gráfico de barras de la satisfacción con la vida según encuesta CEP Figura 4: Gráfico de torta de la satisfacción con la vida según encuesta CEP 12 Una medida interesante de los datos cualitativos es la moda. La moda de una distribución es el valor de la variable con mayor frecuencia. En el ejemplo de la satisfacción de la vida medida por la encuesta CEP la categorı́a “Satisfecho” es la que más se repite y alcanza un 35 % de las preferencias. En ocasiones, las distribuciones de frecuencias se pueden caracterizar en función de la moda, distinguiendo entre distribuciones con una única moda (distribuciones unimodales) y distribuciones en las que son dos o más de dos los valores que alcanzan la máxima frecuencia (distribuciones bimodales o multimodales, respectivamente). En el caso de variables cualitativas ordinales la moda no es el único estadı́stico con significado. Puesto que en las variables ordinales existe un sentido de orden en sus categorı́as, si éstas se ordenan de ‘menos’ a ‘más’ la distribución de frecuencias acumuladas tendrá una interpretación. La mediana es aquella caracterı́stica de la distribución que ocupa la posición central de la misma. Ordenados los valores de la variable (de menor a mayor), la mediana define aquel punto que deja por debajo de sı́ mismo el 50 % de la distribución. El cuadro 4 muestra la identificación polı́tica de los encuestados declarada en la encuesta CEP de diciembre de 2016. Los resultados se pueden ordenar de derecha a izquierda o de izquierda a derecha. La moda es izquierda, donde se acumula el 28 % de las preferencias. Al observar el porcentaje acumulado se observa que el 46 % de la población se identifica de “Izquierda” o de “Centro Izquierda”. Obsérvese que las categorı́as “Independientes” y “No Sabe/No Responde” representa el 65 % de las identificaciones polı́ticas. Por esta razón, esta categorı́a es tratada como un valor perdido o missing value. Esto permite concentrarse en las categorı́as partidistas. Cuadro 4: Identificación Polı́tica según la encuenta CEP Identificación Polı́tica Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Izquierda Centro Izquierda Centro Centro Derecha Derecha 141 94 94 50 92 9.6 % 6.4 % 6.4 % 3.4 % 6.3 % 28 % 18 % 18 % 10 % 18 % 28 % 46 % 64 % 74 % 92 % Subtotal 471 32.2 % 92 % 39 2.7 % 8% 510 34.8 % 100 % 954 65.2 % 1,464 100.0 % Independiente Subtotal ns/nr Total 100 % Si se quiere resaltar la distribución de frecuencias acumuladas puede emplearse un diagrama de Pareto. Éste no es más que un diagrama en barras en el que las categorı́as se ordenan de mayor a menor frecuencia, dibujando sobre las barras una lı́nea indicativa de la frecuencia acumulada hasta esa categorı́a. La gráfica se puede realizar tanto sobre variables nominales como ordinales. Por ejemplo, 13 suponga que una empresa sufre continuas paradas en su cadena de producción. Dada la importancia de las consecuencias económicas de estas paradas se decide controlar durante un mes cuáles son las razones que las ocasionan. Para ello se solicita que los operarios que anoten el tipo de percance y el tiempo que tarda en arreglarse, desde que se detecta hasta que se soluciona el problema. Las causas detectadas ası́ como su frecuencia y el tiempo de parada se reproducen en el cuadro 5. Cuadro 5: Control de producción: Diagrama de Pareto N Causa Frecuencia Tiempo de parada (en minutos) 1 2 3 4 5 6 Rotura de tornillos Rotura de arandelas Rotura o bloqueo de cintas Rotura de aros de sujeción Rotura de otras piezas Desajustes de temperatura 10 10 4 2 2 11 70 10 41 20 10 53 En total, como consecuencia de 39 paradas, se han perdido 204 minutos en un mes de trabajo. El tiempo de parada y el número de paradas se pueden analizar a partir de los correspondientes diagramas de Pareto. En la figura 5 se observa que las tres causas más frecuentes de parada son por desajuste de temperatura, por rotura de tornillos y por rotura o bloqueo de cintas, en ese orden. Estas tres causas, tal como se observa en la lı́nea continua del diagrama, representan un porcentaje alto del total de paradas, en concreto un 79,5 % de éstas, (11 + 10 + 10)/39. 40 100 Número de paradas 30 20 10 0 50 11 10 10 6,00 1,00 2,00 4 3,00 4,00 Causa de la parada Figura 5: Diagrama de Pareto 14 5,00 0 Porcentaje 50 En la figura 6 se puede observar, sin embargo, que no todas las paradas tienen igual importancia en cuanto al tiempo de interrupción. Las tres primeras causas (primera, sexta y tercera) suponen un 80,4 % del tiempo de parada, (70 + 53 + 41)/204. Si el interés de la empresa se encuentra en reducir al máximo el tiempo de parada (y no tanto el número de veces en que la producción se detiene) deberı́a centrarse en los determinantes de la rotura de tornillos, los desajustes de temperatura y la rotura o bloqueo de cintas. Tiempo de parada Porcentaje 300 200 100 100 50 70 53 0 41 20 1,00 6,00 3,00 4,00 2,00 Causa de la parada Figura 6: Diagrama de Pareto 15 5,00 0 2.2. Variables Cuantitativas Las variables de tipo cuantitativo son aquellas que toman, en lugar de categorı́as, valores numéricos que sı́ tienen sentido y con los que se pueden realizar operaciones algebraicas. Las variables cuantitativas pueden ser de escala de intervalo o de escala de cociente. Las variables cuantitativas tienen una escala de intervalo si se pueden ordenar sus valores y, además, se pueden realizar con ellos las operaciones de suma y resta. La primera caracterı́stica la comparte con las variables cualitativas ordinales, pero al contrario que en aquéllas, en la escala de intervalo puede medirse la distancia entre distintas observaciones. Permite afirmar, por ejemplo, que un individuo tiene un valor que supera en diez unidades al que toma otro individuo, o que entre dos individuos hay una diferencia de veinte unidades. Las variables con escala de cociente añaden a estas caracterı́sticas la de incorporar un origen no arbitrario. La diferencia esencial es que este segundo tipo de variable admite un cero verdadero (toneladas consumidas o número de empleados, por ejemplo, donde el cero se entiende como inexistencia) y permite el cálculo de proporciones entre los distintos valores (una observación toma un valor que es el doble que el de otra). Las variables cuantitativas pueden ser discretas o continuas. Son variables de tipo discreto si la variable toma un número finito o infinito numerable de observaciones, y del tipo continuo si toman un valor infinito no numerable. Distribución de Frecuencias en variables cuantitativas Antes de comenzar a trabajar con una base de datos siempre es bueno conocer los datos que tenemos disponible, cómo se componen y cómo se distribuyen. Para ello, las distribuciones de frecuencia nos dan una primera impresión de los datos. La idea de recuento, es decir, la idea de crear una distribución de frecuencias debe ser, como en el caso de las variables cualitativas, el primer paso del análisis. Observar los distintos valores que toma una variable, ordenarlos de menor a mayor y contar el número de veces que aparece cada valor nos dará una idea de su comportamiento. El único problema que se plantea con una variable de tipo cuantitativo es que suele tomar un número de valores mucho mayor que las posibles categorı́as de una variable cualitativa. La imagen general que se pretende dar con la distribución de frecuencias puede ser entonces poco útil, porque la información está poco resumida. El trabajo con intervalos de la variable, en lugar de cada uno de sus posibles valores, es el procedimiento normal para conseguir una imagen sintética de la distribución. Una buena forma de analizar datos cuantitativos, sobre todo cuando tenemos muchos datos, es construir intervalos. Lo recomendable es no tener más de 20 intervalos, ya que la idea es simplificar el análisis y éste pierde sentido si un intervalo contiene sólo uno o dos observaciones. Muchas veces, los intervalos se pueden construir siguiendo criterios establecidos en la literatura o de sentido común. Lo ideal es que todos los intervalos contengan el mismo ancho. El ancho del intervalo se puede determinar de la siguiente forma: 16 Intervalo = valor maximo − valor minimo n de intervalos Es importante que un dato sólo pertenezca a un intervalo. Si hablamos de tramos de ingresos, los lı́mites de éstos deben ser excluyente. Un ejemplo se muestra en la figura 7. Salario en intervalos Frecuencia Válidos Porcentaje Porcentaje válido Porcentaje acumulado Ingresos Bajo 657 70,3 70,3 Ingreso Medio 260 27,8 27,8 98,1 18 1,9 1,9 100,0 935 100,0 100,0 Ingreso Alto Total 70,3 Figura 7: Intervalos para la variable salario Las distribuciones de frecuencia relativa o frecuencia porcentual para datos cuantitativos se definen de la misma forma que para datos cualitativos. Primero debe recordar que la frecuencia relativa es el cociente, respecto al total de observaciones, de las observaciones que pertenecen a una clase. Si el número de observaciones es n, F recuencia relativa = F recuencia del intervalo n Un gráficos de barras es una de las formas más sencillas de presentar los datos. En el eje horizontal (la abscisa) se presenta el intervalo de los datos. Cada dato se representa por un punto colocado sobre este eje. 17 Figura 8: Gráfico de barra Un histograma es un gráfico muy similar al de barras, pero éste sólo puede ser usado con variables cuantitativas. En éste las barras se muestras continuas y nos permite conocer los diferentes sesgos de una distribución. La figura 2.2 muestra un ejemplo de histograma. Otra técnica de análisis exploratios de los datos es el diagrama de tallo y hoja. Éste muestra de forma simultánea el orden jerárquico y la forma de un conjunto de datos. Por ejemplo, supongamos que tenemos el puntaje de 50 alumnos de una prueba cuyo máximo puntaje es de 150 puntos. La figura 18 6 muestra los datos. Cuadro 6: Puntajes de 50 alumnos 112 73 126 82 92 115 95 84 68 100 72 92 128 104 108 76 141 119 98 85 69 76 118 132 96 91 81 113 115 94 97 86 127 134 100 102 80 98 106 106 107 73 124 83 92 81 106 75 95 119 Para construir el diagrama de tallo y hoja primero identificamos el puntaje menor y el mayor; en este caso son 68 y 141 puntos. Luego, de forma vertical armamos una escala que comienza con el primer dı́gito del menor puntaje hasta el primer dı́gito del mayor puntaje y trazamos una linea para separar el tallo de las hojas. Es decir, como el menor puntaje es 68, anotamos 6. Luego anotamos 7, 8, 9... y ası́ hasta alcanzar el 14, que es el primer dı́gito del puntaje más alto, 141. Luego, comenzamos a anotar los segundo dı́gitos de cada puntaje a la derecha de la linea. Comenzamos con la primera fila. Ordenamos los datos de menor a mayor de forma vertical. El menor puntaje en la primera fila es el 69, entonce anotamos el segundo dı́gito, el 9, a la derecha de su primer dı́gito, el 6. Luego, tenemos el 72. Anotamos su segundo dı́gito, el 2 a la derecha de su primer dı́gito, el 7, y ası́ sucesivamente. La figura 2.2 muestra la construcción del diagrama de tallo y hoja para la primera fila de datos. 6 7 8 9 10 11 12 13 14 9 2 7 7 2 Si continuamos rellenando los datos, obtenemos la tabla de la figura 2.2 19 6 7 8 9 10 11 12 13 14 9 2 6 7 7 2 6 2 1 8 3 2 2 4 8 8 4 6 3 2 8 5 7 3 1 6 0 9 4 6 1 2 2 3 5 0 1 6 5 4 5 6 9 5 8 0 8 6 5 Una vez que hemos llenado todos los datos, podemos ordenarnos de menor a mayor, como lo muestra la figura 2.2 6 7 8 9 10 11 12 13 14 8 2 0 1 0 2 4 2 1 9 3 1 2 0 3 6 4 3 1 2 2 5 7 5 2 2 4 5 8 6 3 4 6 8 6 4 5 6 9 5 5 6 9 6 6 7 7 8 8 8 Los números a la izquierda de la lı́nea vertical (6, 7, 8, 9, 10, 11, 12, 13 y 14) forman el tallo, y cada dı́gito a la derecha de la lı́nea vertical es una hoja. Por ejemplo, en la primera fila del diagrama el tallo es el 6 y la hoja los números 8 y 9. Esta fila indica que hay dos datos que tienen como primer dı́gito el 6. Las hojas indican que estos datos son 68 y 69. El diagrama que se obtiene es parecido a un histograma, cuyos intervalos son 60-69, 70-79, 80-89, etc. El diagrama de tallo y hoja tiene dos ventajas sobre el histograma. 1. El diagrama de tallo y hojas es más fácil de construir a mano. 2. En cada intervalo de clase proporciona más información que un histograma debido a que el tallo y la hoja proporcionan el dato. Los histograma, los gráfico de barras y los diagramas de tallo y hojas son estimadores no-paramétricos en cuanto no imponen ninguna estructura a los datos. Si tenemos muchas observaciones para un intervalo, podemos abrir éste. Por ejemplo, podemos crear intervalos que van de a cinco en cinco. Es decir, 60-64, 65-69, 70-74, 75-79, etc... Obviamente, esto va a cambiar la distribución de los datos. En este caso, obtendrı́amos la siguiente distribución. 20 6 7 7 8 8 9 9 10 10 11 11 12 12 13 13 14 8 2 5 0 5 1 5 0 6 2 5 4 6 2 9 3 6 1 6 2 5 0 6 3 5 7 4 3 6 1 2 3 4 2 6 2 6 2 7 4 7 4 8 8 8 9 9 8 8 1 Análisis descriptivo bivariado Muchas veces es necesario analizar cómo se comporta una variable condicionada en otra variable. En este caso, vamos a estudiar la relación que existe entre dos variable. Una tabulación cruzada, tablas de contingencia o cross tabs es un resumen de frecuencias de una variable condicionada a otra variable. Por ejemplo, a partir de los resultados de la encuesta CEP de diciembre de 2016, podemos construir una tabla de contingencia de la identificación polı́tica condicionada por los tramos de edad. Para construir una tabla de contingencia, necesitamos conocer primero la cantidad de observaciones que existen para cada categorı́a de la variable y luego las clasificamos por categorı́a. La distribución de frecuencias de las variables Edad e Identificación Polı́tica se muestran en las tablas 7 y 8 respectivamente. Cuadro 7: Frecuecia de la variable Edad Tramos de Porcentaje Frecuencia Porcentaje edad (años) acumulado 18 25 35 45 55 a 24 años a 34 años a 44 años a 54 años años o más Total 208 312 256 262 425 1,464 14.2 21.3 17.5 17.9 29 100 21 14.2 35.6 53.1 71 100 Cuadro 8: Frecuencia de la variable Identificación Polı́tica Identificacion Porcentaje Frecuencia Porcentaje Politica acumulado Derecha Centro Derecha Centro Izquierda Centro Izquierda Independiente ns/nr Total 92 50 94 94 141 993 1,464 6.3 3.4 6.4 6.4 9.6 67.8 100 6.3 9.7 16.1 22.5 32.2 100 El resultado de la construcción de la tabla de contingencia se muestra en la figura 9. Note que la suma de cada categorı́a coincide con la frecuencia de cada una de ella observada en las tablas de contingencia. Podemos concluir que a mayor edad, mayor es el número de personas que se identifica con la derecha y con la izquierda. Podrı́amos incluso concluir que a mayor edad, mayor es la radicalización ideológica, tanto en la izquierda como en la derecha. La mayor cantidad de jóvenes se identifica con la centro izquierda. En general, la identificación con la centro izquierda acumula la mayor cantidad de personas, mientras que la mayorı́a de los encuestados tiene 55 años o más. Cuadro 9: Identificación polı́tica según tramos de edad Tramos de edad (años) 18 25 35 45 55 Identificacion Politica Centro Centro Izquierda Izquierda Derecha Centro Derecha a 24 años a 34 años a 44 años a 54 años años o más 6 16 15 22 33 7 13 12 8 10 5 15 21 17 36 13 15 11 20 35 Total 92 50 94 94 22 Independiente ns/nr Total 33 31 22 20 35 144 221 175 175 277 208 312 256 262 425 141 994 1,464 Una forma gráfica de representar la relación entre dos variables cuantitativas es a través de un diagrama de dispersión. En este gráfico, cada punto representa una observación. Además se puede agregar una linea que muestre la tendencia de los datos. Por ejemplo, considere la relación entre la publicidad y las ventas de un producto. Durante los últimos tres meses, en 10 ocasiones el producto apareció en comerciales de televisión, en el fin de semana, para promover sus ventas. Ahora, el analista de marketing quieren investigar si hay relación entre el número de comerciales emitidos y las ventas en la semana siguiente. En la tabla 10 se presentan datos muestrales de las 10 semanas dando las ventas en cientos de dólares. Cuadro 10: Frecuencia del número de comerciales y las ventas Semana Número de Comerciales Ventas 1 2 3 4 5 6 7 8 9 10 2 5 1 3 4 1 5 3 4 2 50 57 41 54 54 38 63 48 59 46 En la figura 9 aparece el diagrama de dispersión y la lı́nea de tendencia de los datos de ventas y comerciales. El número de comerciales (x ) aparece en el eje horizontal y las ventas (y) en el eje vertical. En la semana 1, x = 2 y y = 50. En el diagrama de dispersión se grafica un punto con estas coordenadas. Para las otras nueve semanas se grafican puntos similares. Observe que en dos semanas sólo hubo un comercial, en otras dos semanas hubo dos comerciales, y ası́ sucesivamente. Se observa una relación positiva entre el número de comerciales y las ventas. Más ventas corresponden a más comerciales. La relación no es perfecta ya que los puntos no trazan una lı́nea recta. Sin embargo, el patrón que siguen los puntos y la lı́nea de tendencia indican que la relación es positiva. 3. Descripción Numérica de una Variable Estadı́stica De manera tradicional se distingue entre los estadı́sticos básicos que intentan describir la posición de la variable y los que miden su dispersión. También se presentan en un grupo diferenciado los estadı́sticos de forma, que describen la asimetrı́a o apuntamiento de la distribución. Mantendremos aquı́ esta distinción. Si estas medidas las calcula con los datos de una muestra, se llaman estadı́sticos muestrales. Si estas medidas las calcula con los datos de una población se llaman parámetros poblacionales. Denotaremos la variable a describir como X y a las observaciones de la misma, desde i = 1, ..., n, como 23 65 60 Ventas 55 50 45 40 35 0 1 2 3 4 5 6 Número de Comerciales Figura 9: Diagrama de dispersión entre ventas y número de comerciales Xi , donde n es el número de observaciones. 3.1. Medidas de posición central La Media Aritmética La media aritmética proporciona una medida de posición central de los datos. Si los datos son datos de una muestra, la media se denota x̄; si los datos son datos de una población, la media se denota con la letra griega µ. La media para la variable X se denota como x̄ = Pn i=1 xi n Es decir, la suma de los valores de todas las observaciones de la variable dividida por el número total de observaciones. Supongamos que tenemos cinco grupos de personas, donde el primer grupo está compuesto por x1 = 46 personas, el grupo dos x2 = 54, x3 = 42, x4 = 46 y x5 = 32. Luego, calculamos la media como Pn i=1 xi 46 + 54 + 42 + 46 + 32 = 44 n 5 Por tanto podemos concluir que, en promedio, los grupos están compuestos por 44 personas. x̄ = = Si tenemos datos de un censo y conocemos la información de toda la población, entonces la media poblacional se calcula como 24 µ= Pn i=1 xi N Propiedades de la Media 1. La suma de las desviaciones de los valores con respecto a la media es igual a cero. n X i=1 (xi − x̄) = 0 2. Si a los valores de la variable se les suma una constante (c + xi ), la media de los valores transformados se incrementa en esa cantidad. x̄c+X = Pn i=1 (c + xi ) n = Pn i=1 c + n Pn i=1 xi = nc + Pn i=1 xi n = C + x̄ 3. Si los valores de la variable se multiplican por una constante (cxi ), la media de los valores transformados es la media de la variable original multiplicada por la misma constante: x̄cX = Pn i=1 (cxi ) n = c Pn i=1 xi n = cx̄ La Media ponderada Es frecuente trabajar con la media ponderada, en la que los valores promediados son ponderados mediante un peso determinado. Si tenemos p valores distintos de la variable xi y a cada uno de ellos se le da un peso wi , la media ponderada se define como: Pp w i xi x̄w = Pi=1 p i=1 wi Si, por ejemplo, las observaciones de una variable se ponderan por sus frecuencias relativas wi = ni /n, es decir, por la importancia relativa de cada valor en la distribución, se tendrı́a (suponiendo p valores distintos) que Pp x̄w = Pi=1 p ni n xi ni i=1 n Pp Pp ni x i ni x i i=1 = i=1 = Pp n i=1 ni En ocasiones, la ponderación tiene que ver con el peso en la población de las distintas observaciones. Suponga, por ejemplo, que dispone de la renta familiar per capita mensual de tres familias pertenecientes cada una de ellas a uno de las tres comunas de una región. Las rentas son de 2.000, 2.000 y 1.000 pesos y los tamaños de los municipios son de 10.000, 20.000 y 1.000.000 de habitantes, respectivamente. Si se le pidiese estimar la renta familiar per capita media para toda la región una opción directa serı́a la siguiente: 25 2000 + 2000 + 1000 = 1666, 67 3 El inconveniente de este cálculo es que no tiene en cuenta que cada familia representa una comuna de diferente tamaño. Resultarı́a lógico utilizar una media ponderada, donde la renta de cada familia fuera representativa de todas las familias de su comuna: x̄ = 2000 ∗ 10000 + 2000 ∗ 20000 + 1000 ∗ 1000000 = 1029, 13 10000 + 20000 + 1000000 Tiene sentido ponderar, porque cada observación es representativa de un número de familias distinto. x̄ = Imagine, por ejemplo, que la información censal le permite conocer la distribución de una población en zonas rurales y urbanas (60 % y 40 %). El resultado de una muestra aleatoria simple no tiene por qué respetar esta distribución, especialmente si el tamaño muestral no es muy elevado. Una alternativa podrı́a ser ponderar las observaciones según provengan de una zona rural o urbana. Lo normal, en este caso, serı́a calcular dos medias, una con las nrural observaciones rurales y otra con las nurbana observaciones urbanas, calculando la media global como x̄ = 0, 6x̄rural + 0, 4x̄urbana La Media Geométrica La media geométrica de n observaciones se define como g= √ n x1 x2 ...xn La media geométrica debe emplearse cuando se quieren promediar porcentajes, tasas, tipos de interés, números ı́ndices, etc., es decir valores que representan variaciones acumulativas, de un perı́odo respecto al anterior. Como medida de posición central, la media geométrica es más representativa que la media aritmética cuando la variable se define como variaciones acumulativas. Veamos un ejemplo basado en tasas de variación. Supondremos que las observaciones de la variable se realizan para un individuo a lo largo del tiempo, midiéndose el valor de la variable en el momento 0, en el momento 1, ..., hasta el final del periodo, en el momento T. Dada una serie de valores de base temporal: x0 , x1 , x2 , ..., xt , la tasa de variación de un perı́odo a otro se define como xt,t−1 = xt − xt−1 xt−1 Por tanto, los valores de xt serı́an xt = (1 + xt,t−1 )xt−1 El término entre paréntesis se denomina factor de variación unitaria. La relación entre el último valor, xT , y el primero, x0 , se puede obtener si sustituimos de manera recurrente, 26 xT = (1 + x[ T, T −1] )x[T −1] = (1 + x[T, T −1] )(1 + x[T −1, T −2] )x[T −2] = ... = (1 + x[T, T −1] )(1 + x[T −1, T −2] )...(1 + x[2, 1] )(1 + x[1, 0] )x0 Si quisiéramos definir una tasa media de variación, xtmv , ésta deberı́a satisfacer la relación anterior. Luego, xT = (1 + xtmv )(1 + xtmv )...(1 + xtmv )x0 = (1 + xtmv )T x0 Por tanto, (1 + xtmv )T = (1 + x[T, T −1] )(1 + x[T −1, T −2] )...(1 + x[1, 0] ) O, en otros términos, la tasa media de variación debe ser igual a la media geométrica de los factores de variación unitarios, menos la unidad xtmv = q T (1 + x[T, T −1] )(1 + x[T −1, T −2] )...(1 + x[1, 0] ) − 1 Si conocemos todos los valores de la serie, la media geométrica la podemos calcular como xtmv = r T xT −1 x0 La Mediana La mediana es aquel valor que se sitúa en el punto medio de la distribución, cuando los valores están ordenados de menor a mayor. Cuando tiene un número impar de observaciones, la mediana es el valor del medio. Cuando la cantidad de observaciones es par, no hay un número en el medio. En este caso, se sigue una convención y la mediana es definida como el promedio de las dos observaciones del medio. Si n, el número de observaciones, es impar, siempre será inmediato detectar el valor de la mediana; bastará con localizar el valor situado en el lugar: Posición de la Mediana = n+1 2 Supongamos que disponemos de los dı́as de vacaciones que han disfrutado nueve turistas; 16, 29, 13, 15, 25, 14, 26, 17, 26. Para calcular la mediana de estas observaciones, primero deben ordenarse los valores de menor a mayo; 13, 14, 15, 16, 17, 25, 26, 26, 29. En segundo lugar, debe localizarse el valor que se sitúa en el centro de la distribución, que en este caso serı́a el valor 17, situado en el quinto lugar, que deja cuatro observaciones por debajo de él y cuatro observaciones por encima. Supongamos que tenemos diez observaciones: 13, 14, 15, 16, 17, 25, 26, 26, 29, 31. Ninguna de ellas queda ahora exactamente en el centro de la distribución. El valor 17 deja por debajo cuatro observaciones y por encima cinco, mientras que el valor 25 deja cinco por debajo y cuatro por encima. En el caso de tener un número n de observaciones par, se puede considerar que la mediana es el promedio de estos dos valores: (17 + 25)/2 = 21. En este caso, la mediana la encontramos al promediar los valores situados en las posiciones n/2 y (n/2) + 1. 27 La Moda La moda es aquel valor que presenta una mayor frecuencia. La distribución es unimodal si hay un valor cuya frecuencia es mayor que la del resto, o es multimodal si dos o más valores se repiten en igual número de veces, y ésto alcansan la máxima frecuencia. Asimetrı́a de una distribución Las distribuciones de frecuencias se pueden caracterizar por su forma, distinguiéndose bajo un criterio de simetrı́a entre distribuciones simétricas, asimétricas por la derecha y asimétricas por la izquierda. Si una distribución es simétrica, existe el mismo número de valores a la derecha que a la izquierda de la media, por tanto, el mismo número de desviaciones con signo positivo que con signo negativo. La distribución es asimétrica por la derecha si aparecen un número mayor de valores de la variable en ese lado, mientras que la asimetrı́a por la izquierda acumuları́a un número mayor de valores en el lado izquierdo de la distribución. En función de su simetrı́a o asimetrı́a en las distribuciones unimodales se verifican las siguientes relaciones. En una distribución simétrica la media, la mediana y la moda tienden a coincidir. M oda ∼ = M ediana ∼ = M edia En las distribuciones asimétricas por la derecha la relación entre los estadı́sticos es la siguiente M oda ≤ M ediana ≤ M edia Cuando la distribución es asimétrica por la izquierda se cumple que M oda ≥ M ediana ≥ M edia Percentiles Un percentil aporta información acerca de la dispersión de los datos en el intervalo que va del menor al mayor valor de los datos. En los conjuntos de datos que no tienen muchos valores repetidos, el percentil p divide a los datos en dos partes. Cerca de p por ciento de las observaciones tienen valores menores que el percentil p y aproximadamente (100 - p) por ciento de las observaciones tienen valores mayores que el percentil p. El percentil p es un valor tal que por lo menos p por ciento de las observaciones son menores o iguales que este valor y por lo menos (100 - p) por ciento de las observaciones son mayores o iguales que este valor. Los percentiles se definen sobre porcentajes del 1, 2, 3, ..., hasta el 99 por ciento. El primer percentil ocupará la posición n/100; el segundo percentil la posición 2 × n/100, y ası́ hasta el que el 99 percentil ocupará la posición 99 × n/100. 28 Formalicemos el cálculo del percentil p: 1. Se ordenan los datos de menos a mayor de forma ascendente. 2. El ı́ndice se calcula de la siguiente forma: i=  p  n 100 donde p es el percentil deseado y n es el número de observaciones. 3. Si i es un número entero, entonces el percentil p es el promedio de los valores en las posiciones i e i+1. Si i no es un número entero debe ser redondeado. El primer entero mayor que i denota la posición del percentil p. Por ejemplo, supongamos que tenemos los datos de los sueldos de 12 personas y queremos calcular el percentil 85; 3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925. Una vez ordenados los datos de mayor a menor, calculamos el ı́ndice como  p   85  n= 12 = 10,2 100 100 Dado que que 10.2 no es un número entero, debe ser redondeado hacia arriba. Luego, la posición del percentil 85 es la posición 11, es decir, 3730. i= Si queremos conocer el percentil 50, es decir, la mitad de la distribución, calculamos  50  12 = 6 100 Como 6 es un número entero, entonce el percentil 50 es el promedio de los valores de los datos que se encuentran en las posiciones 6 y 7. Es decir, (3490 + 3520)/2 = 3505. Observe que el percentil 50 coincide con la mediana. i= Cuartiles Con frecuencia es conveniente dividir los datos en cuatro partes. Ası́, cada parte contiene una cuarta parte o el 25 % de las observaciones. A estos puntos de división se les conoce como cuartiles y están definidos como Q1 = primer cuartil = percentil 25 Q2 = segundo cuartil = percentil 50 = mediana Q3 = tercer cuartil = percentil 75 Q4 = cuarto cuartil = percentil 100 Por ejemplo, como el segundo cuartil Q2 corresponde a la mediana, sabemos que (3490 + 3520)/2 = 3505. Para encontrar el primer cuartil Q1 debemos calcular 29 i=  p   25  n= 12 = 3 100 100 Como 3 es un número entero, Q1 = (3450 + 3480)/2 = 3465. Los cuartiles dividen los datos de los sueldos iniciales en cuatro partes y cada parte contiene el 25 % de las observaciones. 3310 3355 3450 3480 Q1 = 3465 3480 3490 3520 Q2 = 3505 (Mediana) 3540 3550 3650 Q3 = 3600 3730 3925 Deciles Los deciles dividen la muestra en porcentajes del 10, 20, ..., hasta el 90 por ciento. El primer decil ocupará la posición n/10. El segundo decil ocupará la posición 2 × n/10 y ası́ sucesivamente hasta que el noveno ocupa la posición 9 × n/10. 3.2. Medidas de dispersión Rango La medida de variabilidad más sencilla es el rango. Éste se define como el valor mayor - valor menos. Aunque el rango es la medida de variabilidad más fácil de calcular, rara vez se usa como única medida. La razón es que el rango se basa sólo en dos observaciones y, por tanto, los valores extremos tienen una gran influencia sobre él. Rango intercualtı́lico Esta medida no es afectada por los valores extremos ya que se calcula como la diferencia entre el tercer cuartil y el primer cuartil; Q3 − Q1 . En otras palabras, es el rango en el que se encuentra el 50 % de los datos. Varianza La varianza es una medida de variabilidad que utiliza todos los datos. La varianza está basada en la diferencia entre el valor de cada observación xi y la media, x̄. A esta diferencia se le llama desviación respecto de la media. Si se trata de una muestra, una desviación respecto de la media se escribe (xi − x̄), y si se trata de una población se escribe (xi − µ). Para calcular la varianza, estas desviaciones respecto de la media se elevan al cuadrado. Esto, devuelve sólo valores positivos2 . Las unidades al cuadrado de 2 Si sumamos todas las desviaciones respecto de la media, esto es, la de los valores que se encuentra por sobre la media y luego le restamos los valores que se encuentran por debajo de la media, entonces el resultado es cero, ya que, P por porpiedad de la media, sabemos que (xi − x̄) = 0. Una forma de solucionar esto, es elevar al cuadra el resultado de cada diferencia respecto de la meda, ya que cualquier número elevado al cuadrado, arroja un valor positivo. 30 la varianza dificultan la comprensión e interpretación intuitiva de los valores numéricos de la varianza. Lo recomendable es entender la varianza como una medida útil para comparar la variabilidad de dos o más variables. Al comparar variables, la que tiene la varianza mayor, muestra más variabilidad o dispersión de los datos. Si los datos son de una población, el promedio de estas desviaciones elevadas al cuadrado es la varianza poblacional. La varianza poblacional se denota con la letra griega σ 2 . Si en una población hay N observaciones y la media poblacional es µ, la varianza poblacional se define como 2 σ = P (xi − µ)2 N Cuando se calcula la varianza muestral, lo que interesa es estimar la varianza poblacional σ 2 . La varianza muestral se defino como (xi − x̄)2 n Si la suma de los cuadrados de las desviaciones respecto de la media se divide entre n − 1, en lugar de entre n, la varianza muestral que se obtiene constituye un estimador insesgado de la varianza poblacional. Es por ello que la varianza muestral se puede definir como 2 s = P (xi − x̄)2 n−1 La varianza es una medida de la dispersión de las observaciones con respecto a su valor medio. 2 s = P Supongamos que tenemos cinco grupos de personas como muestra el cuadro 11. Luego, la varianza del número de personas serı́a 256 (xi − µ)2 = = 51, 2 N 5 Si corresponde a la varianza poblacional, o bien 2 σ = 2 s = si corresponde a la varianza muestral. P P 256 (xi − x̄)2 = = 64 n 5−1 Propiedades de la varianza 1. La varianza no puede ser negativa al tratarse de un promedio de la suma de cuadrados. 2 s = P (xi − x̄)2 >0 n 2. Es sensible a los valores extremos. Esto quiere decir que si tenemos una observación atı́pica, la varianza va aumentar a medida que esa observación más se aleje de la mediana. 31 Cuadro 11: Varianza del número de personas en los grupos Número de personas en un grupo (xi ) Media (x̄) Desviación respecto a la media (xi − x̄) Cuadrado de la desviación respecto a la media (xi − x̄)2 46 54 42 46 32 44 44 44 44 44 2 10 -2 2 -12 4 100 4 4 144 Total n = 5 P 0 (xi − x̄) P 256 (xi − x̄)2 3. Si a los valores de una variable se les suma una constante, c + xi , la varianza de la nueva variable no se modifica s2c+x = P (c + xi − (c + x̄))2 = n P (c + xi − c − x̄)2 = n P (✁c + xi − ✁c − x̄)2 = n P (xi − x̄)2 = s2x n 4. Al multiplicar los valores de una variable por una constante, cxi , la nueva varianza se ve multiplicada por la misma cantidad elevada al cuadrado, c2 σ 2 . Esta propiedad es fácil de demostrar, teniendo en cuenta que al multiplicar por una constante, la media de la variable transformada es la media original multiplicada por la misma constante. s2cx = P (cxi − (cx̄))2 = n P [c(xi − x̄)]2 = n P c2 c2 (xi − x̄)2 = n P (xi − x̄)2 = c2 s2x n 5. La varianza puede escribirse equivalentemente de la siguiente forma s2 = x2i −µ n P Ya que X (xi − x̄)2 = X (x2i + x̄2 −2xi x̄) = X x2i +nx̄2 −2x̄ X xi = X x2i +nx̄2 −2nx̄2 = con lo que se tiene 2 s = 6. La varianza cumple que P P (xi − x̄)2 = n (xi − x̄)2 < n P P x2i − nx̄2 = n (xi − k)2 n 32 x2i − x̄2 n P para cualquier k 6= x̄ X x2i −nx̄2 Esto implica, necesariamente, que las desviaciones calculadas respecto de la media siempre serán menores que las desviaciones calculadas respecto a cualquier otro número o estadı́stico. 7. La varianza puede ponderarse por los casos, al igual que la media. Desviación estándar La desviación estándar se define como la raı́z cuadrada positiva de la varianza. √ Desviación estándar muestral = s = s2 √ Desviación estándar poblacional = σ = σ 2 En el caso de los cinco grupos de personas, la varianza muestral era s2 = 64. Luego, la desviación √ estándar seria s = 64 = 8. La desviación estándar se mide en las mismas unidades que los datos originales. Por esta razón es más fácil comparar la desviación estándar con la media y con otros estadı́sticos que se miden en las mismas unidades que los datos originales. Por ejemplo, si hablamos de sueldos, cuando nos referimos a la varianza serı́a pesos al cuadrado, pero cuando nos referimos a la desviación estándar serı́an sólo pesos. La varianza depende de la unidad de medida de la variable, por lo que, aveces, puede ser complicado compararla con otras variables. Coeficiente de variación El coeficiente de variación es un estadı́stico descriptivo que señala qué tan grande es la desviación estándar en relación con la media. La ventaja del coeficiente de variación es que es una medida relativizada, por lo que permite la fácil comparación entre diferentes variables con diferentes unidades de medida. Aun cuando dos variables pueden tener la misma unidad de medida, resulta conveniente utilizar el coeficiente de variación si toman valores muy diferentes. Por ejemplo, si se quieren comparar las rentas de dos regiones, una muy rica y otra muy pobre, podrı́a no ser adecuado comparar directamente las varianzas. La región con renta media alta tenderá a presentar una varianza más alta, por el hecho de jugar con cifras absolutas mayores que la región con rentas bajas. Una manera de relativizar este efecto es con el coeficiente de variación. Éste se calcula de la siguiente forma: CV =  s   Desviación Estándar × 100 % = × 100 % M edia x̄ En el ejemplo del número de personas, la media muestral era x̄ = 44 y la desviación estándar muestral era de s = 8. Luego, el coeficiente de variación es [(8/44) ∗ 100] % = 18,2 %. Expresado en palabras, el coeficiente de variación indica que la desviación estándar muestral es 18.2 % del valor de la media muestral. El coeficiente de variación también puede ser calculado a partir del error estándar, el cual es iguala la desviación estándar de la muestra divido en la raı́z del número total de casos seleccionados en la muestra. Esto es, 33 CV = 3.3.  s/√n x̄  × 100 % Medidas de la forma de la distribución Sesgo El sesgo indica si una distribución está balanceada hacia la izquierda, la derecha, o se concentra en el centro. Se calcula de la siguientes forma: Sesgo = X  xi − x̄ 3 n × (n − 1)(n − 2) s donde n es el número de observaciones, y s es la desviación estándar. Si la medida de sesgo es negativa, entonces la distribución está sesgada hacia la izquierda, por ejemplo -0.85. Si la media de sesgo es positiva, entonces la distribución está sesgada hacia la derecha. Si la medida de sesgo es cero, entonces la distribución no está sesgada y se dice que es una distribución simétrica. En una distribución simétrica, la media y la mediana son iguales. Si los datos están sesgados a la derecha, la media será mayor que la mediana; si los datos están sesgados a la izquierda, la media será menor que la mediana. La figura 3.3 muestra ejemplos del sesgo de una distribución y sus medidas de sesgo asociadas. Puntuaciones Z Las puntuaciones Z permiten conocer la ubicación relativa de los valores de un conjunto de datos. Las medidas de localización relativa ayudan a determinar qué tan lejos de la media se encuentra un determinado valor. A partir de la media y la desviación estándar, se puede determinar la localización relativa de cualquier observación. Suponga que tiene una muestra de n observaciones, en que los valores se denotan como x1 , x2 , ..., xn . Supongamos que la media muestral es x̄ y la desviación estándar muestral es s. Para cada valor xi existe otro valor estandarizado. Este se calcula como xi − x̄ s El punto zi puede ser interpretado como el número de desviaciones estándar a las que xi se encuentra de la media. Puntos z mayores a cero corresponden a observaciones cuyo valor es mayor a la media, y puntos z menores que cero corresponden a observaciones cuyo valor es menor a la media. Si el punto z es cero, el valor de la observación correspondiente es igual a la media. Por ejemplo, si zi = 1,2, entonces xi es 1.2 desviaciones estándar mayor que la media muestral. zi = El punto z de cualquier observación se interpreta como una medida relativa de la localización de la observación en el conjunto de datos. Por tanto, observaciones de dos conjuntos de datos distintos que 34 Figura 10: Sesgo de una distribución. tengan el mismo punto z tienen la misma localización relativa; es decir, se encuentran al mismo número de desviaciones estándar de la media. Teorema de Chebyshev El teorema de Chebyshev permite decir qué proporción de los valores que se tienen en los datos debe estar dentro de un determinado número de desviaciones estándar de la media. El teorema de Chebyshev afirma que, por lo menos 1−1/z 2 de los valores que se tienen en los datos deben encontrarse dentro de z desviaciones estándar de la media, o dentro del intervalo [x̄ − zs, x̄ + zs], donde z es cualquier valor mayor que 1. De acuerdo a este teorema, para los distintos valores de z Por lo menos el 75 % de las observaciones deben estar dentro del intervalo [x̄ − 2s, x̄ + 2s], o z = 2 desviaciones estándar de la media. Al menos el 85 % de los valores deben esta dentro del intervalo [x̄−3s, x̄+3s], o z = 3 desviaciones 35 estándar de la media. Por lo menos el 94 % de los valores deben estar dentro del intervalo [x̄ − 4s, x̄ + 4s], o z = 4 desviaciones estándar de la media. Por tanto, si se quiere definir un intervalo centrado en la media que comprenda, como mı́nimo, el 75 % de las observaciones de la variable deberá calcularse x̄ ± 2s. Si el intervalo debe comprender como mı́nimo el 89 % de las observaciones se construirá como x̄ ± s3. La ventaja de la desigualdad de Chebychev es que no precisa del conocimiento de la distribución, siendo válidos los intervalos construidos para cualquier variable. Desde el punto de vista del análisis descriptivo la desigualdad de Chebychev proporciona una nueva perspectiva al concepto de desviación estándar. Diagrama de caja Los diagramas de cajas son representaciones gráficas que muestran la mediana, los cuartiles Q1 y Q3 , el rango intercuartı́lico (Q3 − Q1 ), los valores atı́picos y los casos extremos de la variable. Son especialmente útiles cuando se trata de comparar distintas variables o el comportamiento de distintos grupos sobre una misma variable. El diagrama de caja aporta información conjunta de medidas de posición y de dispersión. Los pasos para construir un diagrama de caja son los siguiente: 1. El eje vertical corresponde a los valores de la variable. 2. Se dibuja una caja cuyos extremos se localicen en el primer y tercer cuartiles. 3. Al interior de la caja, en el punto donde se localiza la mediana, se traza una lı́nea horizontal. 4. Usando el rango intercuartı́lico, RIC = Q3 − Q1 , se localizan los lı́mites. En un diagrama de caja los lı́mites se encuentran a 1, 5(RIC) abajo del Q1 y 1, 5(RIC) arriba del Q3 . Esto es, los bordes superior e inferior del rectángulo coinciden con el tercer y primer cuartiles, respectivamente (75 y 25 percentiles). Los datos que quedan fuera de estos lı́mites se consideran observaciones atı́picas. Por tanto, con la altura del rectángulo (el 50 % de las observaciones centrales se encuentran dentro del rectángulo; un 25 % de las observaciones restantes estarán por encima y el otro 25 % por debajo). 5. Se representan en las gráficas dos lı́neas perpendiculares a los bordes del rectángulo, que llegan hasta la observación más alejada (en ambas direcciones) pero que no puede definirse como outlier (inferior a 1,5 veces el rango intercuatı́lico). Los outliers se representan con un asterisco. 6. En comparaciones entre diferentes variables o, especialmente, de la misma variable en diversos grupos, resulta interesante disponer de una referencia visual del número de observaciones implicadas (el número de individuos que forman parte de cada grupo). Esto se consigue haciendo que el área de los rectángulos sea proporcional al tamaño del grupo. En un diagrama de caja deben visualizarse la mediana, la amplitud (rango y rango intercuartı́lico) y la existencia de observaciones atı́picas y/o extremas. La figura 3.3 muestra un ejemplo. 36 wage N Válidos 935 Perdidos 0 Media 957,95 Mediana 905,00 Rango 2963 Mínimo 115 Máximo Percentiles 3078 25 668,00 50 905,00 75 1160,00 La lı́nea que señala la mediana no tiene por qué aparecer en el centro del rectángulo. Aparecerá en el medio cuando la distribución sea simétrica, mientras que si es asimétrica por la derecha aparecerá más cerca del lı́mite inferior que del superior. Al contrario ocurrirá en una distribución asimétrica por la izquierda. Si se comparan distribuciones, aquella que muestre un rectángulo de mayor amplitud corresponderá a la distribución con mayor dispersión (medida por el rango intercuartı́lico). 3.4. Medidas de asimetrı́a y curtosis Existen medidas de forma que proporcionan información numérica sobre dos caracterı́sticas de la distribución, su simetrı́a y su curtosis. La curtosis de una distribución mide, de forma numérica y sin necesidad de generar un gráfico, la concentración de las observaciones en la zona central de la variable. Recuerde que, cuando una distribución es simétrica, la media, la moda y la mediana coinciden. 37 Medida de asimetrı́a de Fisher En una distribución simétrica las observaciones de la variable tienden a situarse en igual proporción a ambos lados del valor medio. Cualquier medida que recoja alteraciones de esta situación proporcionará una cuantificación de la asimetrı́a de la distribución. Por ejemplo, el momento de orden tres con respecto a la media (m3 ) (xi − x̄)3 n muestra un promedio de las desviaciones de la variable respecto a su media. Nos interesa conocer si la mayorı́a de las observaciones está a la derecha o a la izquierda de la media. Si la diferencia respecto a la media se eleva al cuadrado, entonces se pierde el signo, pero si se eleva al cubo respetamos el signo de (xi − x̄). Si la mayorı́a de las observaciones está por sobre la media, obtendrı́amos un valor positivo, mientras que si la mayorı́a de las observaciones está por dejado de la media, se obtiene un valor negativo. m3 = P Si m3 = 0 : Distribución simétrica. Si m3 > 0 : Asimetrı́a positiva o por la derecha. Si m3 < 0 : Asimetrı́a negativa o por la izquierda. El estadı́stico de asimetrı́a de Fisher g1 se define a partir del m3 pero está normalizado, lo que permite comparar variables con diferentes escalas. g1 = m3 s3 donde s3 es la desviación estándar elevada al cubo. Por tanto: Si g1 = 0 : Distribución simétrica. Si g1 > 0 : Asimetrı́a positiva o por la derecha. Si g1 < 0 : Asimetrı́a negativa o por la izquierda. Medida de asimetrı́a de Pearson AS = x̄ − M oda s donde, Si AS = 0 : Distribución simétrica. Si AS > 0 : Asimetrı́a positiva o por la derecha. Si AS < 0 : Asimetrı́a negativa o por la izquierda. 38 Curtosis Pretenden medir hasta qué punto las observaciones de la variable se acumulan en la parte central de la distribución. Se aplican a distribuciones simétricas y unimodales. (xi − x̄)4 /n m4 = 4 4 s s donde m4 define el momento de orden cuatro respecto a la media. Los resultados se comparan con una distribución normal. Si se calcula el coeficiente de curtosis de una distribución normal el valor que se obtiene es igual a 3. Luego, Curtosis = P m4 = 3s4 Las distribuciones se califican de una manera especı́fica según este criterio. Las distribuciones parecidas a la normal se denominan mesocúrticas, las distribuciones más achatadas se denominan platicúrticas, y aquellas más puntiagudas se denominan leptocúrticas. Algunos programas estadı́sticos arrojan el siguiente coeficiente de curtosis m4 −3 s4 el que permite la comparación directa con una distribución normal. En este caso, g2 = Si g2 = 0 : Distribución mesocúrtica (normal). Si g2 > 0 : Distribución leptocúrtica (puntiaguda). Si g2 < 0 : Distribución platicúrtica (achatada). La figura 3.4 muestra un ejemplo de la distribución para la variable salario. A la izquierda se observan los estdı́sticos descriptivos de la variable. La linea sobre el histograma muestra una distribución normal, lo que permite realizar una comparación. 39 Estadísticos wage N Válidos Perdidos 935 0 Media 957,95 Mediana 905,00 Moda 1000 Desv. típ. 404,361 Asimetría 1,201 Error típ. de asimetría Curtosis Error típ. de curtosis 4. ,080 2,718 ,160 Análisis bivariante: Medidas de Dependencia Estadı́stica y Correlación En términos prácticos, el comportamiento de una sola variable no es muy relevante. Rara vez los investigadores sólo observan una variable. En cambio, lo que más interesa es el comportamiento de dos o más variables de forma conjunta, la interacción entre estas variables, o la forma en que se comporta una variable condicionada por otra variable. A esto llamamos correlación. En lenguaje cientı́fico hablado de variables independientes y variables dependiente. También se les conoce como variable explicativas y variables explicadas. La definición estadı́stica de una relación de dependencia entre dos variables (sean éstas cualitativas o cuantitativas) intenta establecer cuál es la variable (independiente) que influye en la otra (dependiente). La idea de causalidad supone algo más que la asociación entre ellas, puesto que impone una relación de dependencia entre las variables, debiendo plantear qué variable es dependiente y qué variable es independiente. Desde el punto de vista estadı́stico existen técnicas para establecer la dirección e importancia cuantitativa de la causalidad, pero su aplicación adquiere pleno sentido cuando se acompaña de algún tipo de hipótesis teórica, aunque sea al nivel puramente exploratorio de los datos. 40 4.1. Variables cualitativas: Ordinales y Nominales Distribución conjunta de variables: Tablas de contingencia Una de las mejores formas de describir la relación entre dos variables cualitativas es a través de una tabla de contingencia. Cada variable puede tomar una serie de valores mutuamente excluyentes, de manera que sobre cada individuo de la muestra puede observarse cuáles son las categorı́as a las que pertenece en cada una de las variables. La tabla de contingencia muestra todas las posibles combinaciones de las categorı́as de cada variable anotando en cada una de ellas el número de casos que pertenecen a las dos categorı́as. Supongamos dos variables Ai , donde i = 1, ..., I y Bj , con j = 1, ..., J. Sea nij el número de observaciones simultáneas que representan las caracterı́sticas i y j, la tabla de contingencia se presenta de la siguiente forma: Cuadro 12: Construcción de una tabla de contingencia B1 B2 ... B4 A1 n11 n12 ... n1j A2 n21 n22 ... n2j ... ... ... ... ... AI nI1 nI2 ... nij El tratamiento más elemental de esta información es la obtención de las distintas frecuencias. En las tablas de contingencia se muestran las frecuencias (absolutas o relativas) en las que ocurren las categorı́as de filas y columnas. i La distribución marginal muestra el total de cada una de las categorı́as de cada variable. Esto es, ni = J X nij j=1 ii La distribución de frecuencias relativa se refiere a la frecuencia relativas de cada una de las celdas respecto del total de observaciones. En este caso, el cuadrante con la posición nij debe sumar 1 o 100 %. iii Si analizamos el perfil fila, debemos poner atención a las frecuencias relativas de cada una de las celdas con respecto al total de las filas, la cual debe sumar 100 % (suma horizontal). iv Si analizamos el perfil columna, debemos poner atención a las frecuencias relativas de cada una de las celdas con respecto al total de las columnas, la cual debe sumar 100 % (suma vertical). La figura 4.1 muestra un ejemplo de tabla de contingencia entre dos variables cualitativas creada a partir de la encuesta CEP de diciembre de 2016. En las filas se muestran las categorı́as de la variables Nivel Socioeconómico (NSE) y en las columnas se muestran los tramos de edad. Al analizar los datos, el primer número corresponde al número de observaciones y la frecuencia absoluta que satisface la intersección de dos categorı́as. Por ejemplo, en el Nivel Socioeconómico Alto hay 0 (cero) personas 41 encuestadas que tienen entre 0 y 3 años de escolaridad. En el nivel socioeconómico Medio, hay 379 personas encuestadas que tienen entre 9 y 12 años de escolaridad. El segundo número corresponde al perfil fila de la frecuencia relativa. Éstos se leen de forma horizontal. Por ejemplo, en el perfil socioeconómico Alto, el 92,9 % de las personas encuestadas tiene más de 13 años de escolaridad. El tercer número corresponde al perfil columna de la frecuencia relativa. Éstos datos se leen de forma vertical. Por ejemplo, el 72,9 % de las personas encuestadas que pertenecen al nivel socioeconómico bajo tienen entre 0 y 3 años de escolaridad. Tabla de contingencia Nivel socioeconomico (Rec) * Años de escolaridad (Rec) Nivel socioeconomico (Rec) Alto Medio Recuento No sabe/ No contesta 1 Total 84 ,0% 1,2% 4,8% 92,9% 1,2% 100,0% % de Años de escolaridad (Rec) ,0% ,3% ,7% 16,2% 5,9% 5,7% 16 98 379 356 8 857 1,9% 11,4% 44,2% 41,5% ,9% 100,0% 27,1% 33,3% 61,8% 74,0% 47,1% 58,5% 43 195 230 47 8 523 8,2% 37,3% 44,0% 9,0% 1,5% 100,0% 72,9% 66,3% 37,5% 9,8% 47,1% 35,7% Recuento % de Años de escolaridad (Rec) Recuento % de Nivel socioeconomico (Rec) % de Años de escolaridad (Rec) Total Años de escolaridad (Rec) Entre 4 y 8 Entre 9 y Mas de 13 años 12 años años 1 4 78 % de Nivel socioeconomico (Rec) % de Nivel socioeconomico (Rec) Bajo Entre 0 y 3 años 0 Recuento % de Nivel socioeconomico (Rec) % de Años de escolaridad (Rec) 59 294 613 481 17 1464 4,0% 20,1% 41,9% 32,9% 1,2% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% La interpretación de los resultados de una tabla de contingencia obliga a una lectura cuidadosa de los porcentajes de filas y columnas, al ofrecer diferentes perspectivas de la misma información. 4.2. Variables cuantitativas Cuando se dispone de dos variables cuantitativas y continuas basadas en escala de intervalo o de cociente las medidas de asociación estudiadas hasta ahora suelen ser inaplicables, esencialmente porque el número de valores que toman este tipo de variable hace que carezca de sentido el cómputo de frecuencias de todas las combinaciones posibles. Aunque siempre es posible convertir estas variables cuantitativas en variables cualitativas ordinales (construyendo intervalos), resulta adecuado utilizar otro tipo de coeficientes de asociación. La forma más sencilla es analizar la correlación lineal simple entre dos variables. Ésta se trata de una medida sintética del grado de asociación lineal entre dos variables cuantitativas. Circunscrito al concepto de linealidad el calificativo de simple se opone a la idea de asociación múlti42 ple entre variables. Se analiza la relación entre dos variables, por ejemplo X e Y, sin considerar la existencia de otras variables que puedan estar relacionadas con ellas, ni la posible incidencia de las mismas en esa relación. Por ejemplo, supongamos que tanto la variable X como la variable Y varı́an cuando lo hace una tercera variable Z. La correlación entre la variable X e Y reveları́a una asociación entre estas dos variables, pero nada dirá el coeficiente de la existencia de la tercera variable, ni de su capacidad de explicar las variaciones de X e Y. Cuando se habla de una relación lineal entre dos variables se está haciendo referencia a una relación que puede representarse aproximadamente como una lı́nea recta. Denotando a las dos variables como X e Y, la existencia de una relación lineal exacta entre las dos variables podrı́a ser la siguiente: Yi = a + bXi donde Xi = 1, ..., n e Yi = 1, ..., n, y a es el intercepto de la recta en el eje de las ordenadas y b es la pendiente de la recta. Ambas son constantes que pueden tomar cualquier valor con b 6= 0. La detección de una asociación lineal entre dos variables no implica que entre ellas exista una relación causal. Entre dos variables pueden detectarse dos tipos de asociación lineal: positiva y negativa. La figura 4.2 muestra un ejemplo de correlación entre la edad y la experiencia de los trabajadores. La line roja muestra la tendencia lineal de los datos, donde se puede observar claramente una relación positiva. Esto es, a mayor edad, mayor es la experiencia de los trabajadores y viceversa. Recuerde que al analizar la correlación no asignamos causalidad, por que lo no podrı́amos concluir que la edad determina la experiencia, simplemente decimos que existe una relación entre estas dos variables. El signo del valor del parámetro b, la pendiente de la recta, reflejarı́a el sentido de la asociación (positiva o negativa) entre las dos variables. Una relación no lineal entre los datos darı́a una forma cóncava o convexa a la lı́nea de tendencia de los datos. Covarianza Sean X e Y dos variables cuantitativas. Se define la covarianza entre estas variables como Pn (xi − x̄)(yi − ȳ) σxy = i=1 N El empleo de las variables en desviaciones respecto a la media equivale a una traslación de los ejes de coordenadas, que pasan de estar centrados en el punto (0; 0) a estarlo en el punto (x̄; ȳ). Al expresar los valores de las variables en desviaciones, el centro de coordenadas se sitúa en el centro de la nube de puntos. El signo y valor de este estadı́stico depende, esencialmente, de la suma de los productos (xi − x̄)(yi − ȳ), para todas las observaciones (i = 1, ..., n). También cabe la posibilidad de que no exista una asociación clara entre las dos variables. Este serı́a el caso de una nube de puntos dispersa. Esto es, 43 Figura 11: Correlación entre la edad y la experiencia de los trabajadores si σxy > 0 : Existe una asociación lineal positiva. si σxy < 0 : Existe una asociación lineal negativa. si σxy = 0 : No existe una asociación lineal. La covarianza, como medida de asociación lineal tiene el inconveniente de estar afectada por las unidades de medida de las variables. Propiedades de la covarianza 1. La covarianza puede calcularse a partir de la siguiente equivalencia de su numerador: n X i=1 (xi − x̄)(yi − ȳ) = n X i=1 xi yi − nx̄ȳ 2. Si a la variable X se suma una constante b y a la variable Y una constante c, la covarianza entre las dos nuevas variables transformadas será igual a la covarianza original: σx+b , y+c = Pn i=1 ((xi + b) − (x̄ + b))((yi + c) − (ȳ + c)) = n Pn i=1 (xi − x̄)(yi − ȳ) n 3. Si a la variable X se multiplica una constante b y a la variable Y una constante c, la covarianza entre las dos nuevas variables transformadas será igual a la covarianza original multiplicada por las constantes bc: σbx , by = Pn i=1 ((bxi bc − bx̄))((cyi − cȳ)) = n 44 Pn i=1 (xi − x̄)(yi − ȳ) = bc · σxy n 4. La covarianza entre una variable y una constante es cero: σxy = Pn i=1 (xi − x̄)(a − ā) =0 n Coeficiente de correlación de Pearson Ya habiendo definido la correlación entre dos variables, el coeficiente de correlación de Pearson se define como: Pn (xi − x̄)(yi − ȳ) pP n ρxy = pPn i=1 2 2 i=1 (xi − x̄) i=1 (yi − ȳ) o lo que es equivalente ρxy = σxy σx σ y donde σxy es la covarianza entre las variables X e Y, σx es la desviación estándar de x, y σy es la desviación estándar de y. El coeficiente de correlación lineal entre dos variables es, por tanto, igual a su covarianza dividida por el producto de desviaciones estándar de las dos variables. El signo del coeficiente de correlación será igual al signo de la covarianza. Si entre dos variables existe una asociación lineal positiva el coeficiente de correlación será positivo. En el caso de una asociación negativa, el coeficiente de correlación será negativo. En el caso de ausencia de asociación, el coeficiente de correlación será cero. σxy > 0 ⇔ ρxy > 0 : Existe una asociación lineal positiva. σxy < 0 ⇔ ρxy < 0 : Existe una asociación lineal negativa. σxy = 0 ⇔ ρxy = 0 : No existe una asociación lineal. Al estandarizar la covarianza mediante las desviaciones estándar se suprime el problema de las unidades de medida. El valor numérico del coeficiente de correlación entre dos variables no se modifica si una (o ambas) variables se multiplica por una constante. Una de las consecuencias más importantes de esta estandarización de la covarianza es que el coeficiente de correlación de Pearson toma valores en el intervalo ?1 y 1. Los lı́mites superior o inferior se alcanzan cuando entre las dos variables se da una relación exacta. Propiedades del coeficiente de correlación 1. El valor numérico del coeficiente de correlación entre dos variables no se modifica si una (o ambas) variables se multiplica por una constante. 2. El coeficiente de correlación toma valores en el intervalo -1 y 1. Los valores máximo y mı́nimo se alcanzan cuando se da una relación lineal exacta entre las dos variables, de tipo positivo o de tipo negativo, respectivamente. 45 3. Valores del coeficiente próximos a 1 indican la existencia de una asociación positiva fuerte entre las variables; valores cercanos a -1 indican la existencia de una asociación negativa fuerte entre las variables; valores cercanos a cero señalan la ausencia de una asociación lineal. Matriz de correlaciones Es frecuente analizar la relación existente entre un conjunto de variables, de manera que estemos interesados en las correlaciones entre todos los pares posibles. Una forma de presentar estos resultados es una matriz de correlaciones, R, definida como una matriz simétrica, con la siguiente presentación:  1 ρ12 ρ13 · · ·   1 ρ23 · · ·   1 ··· R=  ..  .   ρ1k  ρ2k   ρ3k   ..  .   1 donde ρij indica la correlación entre la i-ésima y la j-ésima variable. 4.3. Momentos de una variable aleatoria Los momentos de una variable aleatoria X son los valores esperados de ciertas funciones de X. Éstos forman una colección de medidas descriptivas que pueden emplearse para caracterizar la distribución de probabilidad de X y especificarlas si todos los momentos de X son conocidos. Primer momento: La media El primer momento alrededor del cero es la media o valor esperado de la variable aleatoria y se denota por µ. La media de una variable aleatoria se considera como una cantidad numérica alrededor de la cual los valores de la variable aleatoria tienden a agruparse. Por lo tanto, la media es una medida de tendencia central. Segundo momento: La varianza El segundo momento central, alrededor de la media, recibe el nombre de varianza de la variable aleatoria. La varianza de una variable aleatoria es una medida de la dispersión de la distribución de probabilidad de esta. Tercer momento: Asimetrı́a El tercer momento central está relacionado con la asimetrı́a de la distribución de probabilidad de X. Por ejemplo, el Coeficiente de asimetrı́a de Fisher y el Coeficinte de asimetrı́a de Pearson. 46 Cuarto momento: Curtosis El cuarto momento central es una medida de qué tan puntiaguda es la distribución de probabilidad y recibe el nombre de curtosis. 5. Fenómenos aleatorios y Espacios de Probabilidad La probabilidad es una medida numérica de la posibilidad de que ocurra un evento. Los valores de probabilidad se encuentran en una escala de 0 a 1. Los valores cercanos a 0 indican que las posibilidades de que ocurra un evento son muy pocas. Los cercanos a 1 indican que es casi seguro que ocurra un evento. Otras probabilidades entre cero y uno representan distintos grados de posibilidad de que ocurra un evento. En el contexto de la probabilidad, un experimento es definido como un proceso que genera resultados definidos. En cada una de las repeticiones del experimento, habrá uno y sólo uno de los posibles resultados experimentales. Por ejemplo, el experimento “lanzar una moneda”tiene como resultado experimental “cara o sello”. Al especificar todos los resultados experimentales posibles, se está definiendo el espacio muestral de un experimento. A un resultado experimental también se le llama punto muestral para identificarlo como un elemento del espacio muestral. Si denotamos S al espacio muestral, podemos describir el experimento “lanzar una moneda al aire” como S = {Cara, Sello} Al asignar probabilidades es necesario identificar y contar los resultados experimentales. Supongamos que tenemos un experimento de pasos múltiples; lanzar dos monedas al aire. Entonces, podemos identificar todas las combinaciones posibles en el espacio muestral S = {(C, C); (C, S); (S, C); (S, S)} Por tanto, podemos identificar cuatro resultados experimentales. Un experimento se describe como una sucesión de k pasos en los que hay n1 resultados posibles en el primer paso, n2 resultados posibles en el segundo paso y ası́ sucesivamente, entonces el número total de resultados experimentales es (n1 ) (n2 ) ... (nk ). Si considera el experimento del lanzamiento de dos monedas como la sucesión de lanzar primero una moneda (n1 = 2) y después lanzar la otra (n2 = 2), siguiendo la regla de conteo (2)(2) = 4, entonces hay cuatro resultados distintos. Como ya se mostró, estos resultados son S = {(C, C); (C, S); (S, C); (S, S)}. El número de resultados experimentales de seis monedas es (2)(2)(2)(2)(2)(2) = 64, o bien 26 = 64 Un evento es la colección de puntos muestrales. La probabilidad de un evento es la suma de las probabilidades de los puntos muestrales que forman el evento. El espacio muestral S es un evento. 47 Puesto que contiene todos los resultados experimentales, su probabilidad es 1; es decir P (S) = 1. Un diagrama de árbol es una representación gráfica que permite visualizar un experimento de pasos múltiples. En la figura ?? aparece un diagrama de árbol para el experimento del lanzamiento de dos monedas. La secuencia va de arriba hacia abajo. El paso 1 corresponde al lanzamiento de la primera moneda, el paso 2 corresponde al lanzamiento de la segunda moneda. En cada paso, los resultados posibles son cara o sello. Cara Cara Sello Cara Sello Sello Otra regla de conteo útil permite contar el número de resultados experimentales cuando el experimento consiste en seleccionar n objetos de un conjunto mayor con N objetos; n ∈ N . Ésta es la regla de conteo para combinaciones. CnN = N n ! = N! n!(N − n)! donde N ! = N (N − 1)(N − 2) · · · (2)(1) y n! = n(n − 1)(n − 2) · · · (2)(1). Recuerde que por definición 0! = 1. La notación ! significa factorial ; por ejemplo, 5 factorial es 5! = (5)(4)(3)(2)(1) = 120. Por ejemplo, considere un procedimiento de control de calidad en el que un inspector selecciona al azar dos de cinco piezas para probar que no tengan defectos. En un conjunto de cinco partes, ¿cuántas combinaciones de dos partes pueden seleccionarse? Sea N = 5 y n = 2 se tiene que C25 = ! 5 5! (5)(4)(3)(2)(1) 120 = = = = 10 2!(5 − 2)! [(2)(1)][(3)(2)(1)] 12 2 De manera que hay 10 resultados posibles en este experimento de la selección aleatoria de dos partes de un conjunto de cinco. Si etiqueta dichas partes como A, B, C, D y E, las 10 combinaciones o resultados experimentales serán AB, AC, AD, AE, BC, BD, BE, CD, CE y DE. Por ejemplo: Considere la loterı́a en la que se seleccionan 6 números de un conjunto de 53 para determinar el ganador de la semana. Por regla de conteo de combinaciones se tiene que ! 53 53! = 22, 957, 480 = 6!(53 − 6) 5 48 La regla de conteo para combinaciones arroja casi 23 millones de resultados experimentales en esta loterı́a. Si una persona compra un billete de loterı́a, tiene 1 en 22.957.480 posibilidades de ganar la loterı́a. Otra regla de conteo es la permutaciones. Esta regla permite calcular el número de resultados experimentales cuando se seleccionan los n objetos de un conjunto de N objetos y el orden de selección es relevante. Los mismos n objetos seleccionados en orden diferente se consideran un resultado experimental diferente. El número de permutaciones de N objetos tomados de n en n está dado por: PnN N = n! n ! = N! (N − n)! La regla de conteo para permutaciones tiene relación estrecha con la de combinaciones; sin embargo, con el mismo número de objetos, el número de permutaciones que se obtiene en un experimento es mayor que el número de combinaciones, ya que cada selección de n objetos se ordena de n! maneras diferentes. Por ejemplo, reconsidere el proceso de control de calidad en el que un inspector selecciona 2 de 5 piezas para probar que no tienen defectos. ¿Cuántas permutaciones puede seleccionar? ! 5 5! 5! (5)(4)(3)(2)(1) 120 = = = = 20 = P25 = 2! (5 − 2)! 3! (3)(2)(1) 6 2 De manera que el experimento de seleccionar aleatoriamente dos piezas de un conjunto de cinco piezas, teniendo en cuenta el orden en que se seleccionen, tiene 20 resultados. Si las piezas se etiquetan A, B, C, D y E, las 20 permutaciones son AB, BA, AC, CA, AD, DA, AE, EA, BC, CB, BD, DB, BE, EB, CD, DC, CE, EC, DE y ED. 5.1. Asignación de Probabilidades Al asignar probabilidades a los resultados de un experimento, es necesario satisfacer requisitos básicos. Esto son: 1. La probabilidad asignada a cada resultado experimental debe estar entre 0 y 1. Si se denota con Ei el i-ésimo resultado experimental y con P (E) su probabilidad, entonces 0 ≤ P (Ei ) ≤ 1 para todo i 2. La suma de probabilidades de los resultados experimentales debe ser igual a 1. Para n resultados experiemntales decimos que: P (E1 ) + P (E2 ) + · · · + P (En ) = 1 49 Método clásico El método clásico de asignación de probabilidades es apropiado cuando todos los resultados experimentales tienen la misma posibilidad. Si existen n resultados experimentales, la probabilidad asignada a cada resultado experimental es 1/n. Al emplear este métodos se satisfacen los dos requerimientos básicos de la asignación de probabilidades. Por ejemplo, considere el experimento del lanzamiento de una moneda, los dos resultados experimentales, cara o sello, tienen la misma posibilidad. Como uno de los dos resultados igualmente posibles es cara, la probabilidad de que caiga cara es 1/2 o 0,5. Asimismo, la probabilidad de que caiga sello también es 1/2 o 0,5. Método de frecuencia relativa El método de frecuencia relativa para la asignación de probabilidades es el más conveniente cuando existen datos para estimar la proporción de veces que se presentarán los resultados si el experimento se repite muchas veces. Considere, por ejemplo, un estudio sobre los tiempos de espera en el departamento de rayos-x de un hospital pequeño. Durante 20 dı́as sucesivos un empleado registra el número de personas que están esperando el servicio a las 9:00 am. Los resultados son los siguientes. N personas que esperan N de dı́as: Resultado de ocurrencia 0 1 2 3 4 2 5 6 4 3 Total = 20 En estos datos aparece que 2 de los 20 dı́as, hubo cero pacientes esperando el servicio, 5 dı́as hubo un paciente en espera y ası́ sucesivamente. Con el método de la frecuencia relativa, la probabilidad que se le asignará al resultado experimental cero pacientes esperan el servicio será de 2/20 = 0,1. Al resultado experimental 1 paciente espera el servicio será de 5/20 = 0,25 ; a 2 pacientes esperan el servicio será de 6/20 = 0,3 ; a 3 pacientes esperan el servicio será de 4/20 = 0,2 y a 4 pacientes esperan el servicio será de 3/20 = 0,15. Método Subjetivo Este método se utiliza cuando no es posible asumir que todos los eventos son igualmente probables. En este método cada individuo asigna subjetivamente una probabilidad a la ocurrencia de un hecho. La probabilidad se traduce en el grado de confianza que se tiene acerca de que un resultado experimental ocurra. 50 Por ejemplo,, Camila y Gastón están postulando a una oferta de trabajo y le preguntan sobre su expectativa de renta. Las personas hacen una oferta tal que: E1 = su oferta es aceptada E2 = su oferta no es aceptada Camila cree que la probabilidad de que su oferta sea aceptada es de 0,8, por tanto, establece que P (E1 ) = 0, 8 y P (E2 ) = 0, 2. Por otro lado, Gastón cree que la probabilidad de que su oferta sea aceptada es de 0,6, por tanto, P (E1 ) = 0, 6 y P (E2 ) = 0, 4. Observe que la estimación de probabilidad de E1 de Gastón es más pesimista que la de Camila. El hecho de las probabilidades sean diferentes es la razón de que el método sea conocido como el método subjetivo. 5.2. Propiedades de la Probabilidad Complemento de un evento Dado un evento A, el complemento de A se define como el evento que consta de todos los puntos muestrales que no están en A. El complemento de A se denota como Ac . P (A) + P (Ac ) = 1 Luego, se cumple necesariamente que P (A) = 1 − P (Ac ) Unión de eventos La unión de A y B es el evento que contiene todos los puntos muestrales que pertenecen a A o B. La unición de denota como A ∪ B Espacio Muestral: S Evento A Evento B A∪B Intersección de eventos Dados son eventos A y B, la intersección de A y B es el evento que contiene los puntos muestrales que pertenecen tanto a A como a B. 51 Espacio Muestral: S Evento A Evento B A∩B Eventos mutuamente excluyentes Los eventos A y B son mutuamente excluyentes si, cuando un evento ocurre, el otro no puede ocurrir. Por tanto, para que A y B sean mutuamente excluyentes, se requiere que su intersección no contenga ningún punto muestral; P (A ∩ B) = 0 Espacio Muestral: S Evento A Evento B P (A ∩ B) = 0 Adición Permite determinar la probabilidad de que ocurra, al menos, uno de los dos eventos. Es decir, si A y B son evento, interesa hallar la probabilidad de que ocurra el evento A o el evento B o ambos. La adición se emplea para calcular la probabilidad de unión de los dos eventos. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Los dos primeros términos P (A) + P (B) corresponden a los puntos muestras A ∪ B. Pero como los puntos muestrales que se encuentran en la intersección A ∩ B están tanto en A como en B, cuando se calcula P (A) + P (B), los puntos A ∩ B se cuentan dos veces, luego es necesario restarlos. Por ejemplo, el gerente de recursos humanos de una empresa identificó que el 30 % de los empleados que se van antes de los 2 años de la empresa, lo hacen por estar insatisfechos con el salario, 20 % se van de la empresa por estar descontentos con el trabajo y el 12 % por estar insatisfechos con las dos cosas; el salario y el trabajo. ¿Cuál es la probabilidad de que un empleado que se vaya de la empresa en menos de dos años lo haga por estar insatisfecha con el salario, con el trabajo, o con las dos cosas? Sea S W = evento el empleado se va de la empresa por insatisfacción con el salario = evento el empleado se va de la empresa por insatisfacción con el trabajo 52 Se tiene que P (S) = 0,3, P (W ) = 0,2 y P (S ∩ W ) = 0,12. Luego, P (S ∪ W ) = P (S) + P (W ) − P (S ∩ W ) = 0,3 + 0,2 − 0,12 = 0,38 Ergo, la probabilidad de que un empleado se vaya de la empresa por el salario o por el trabajo es de 38 % En el caso de eventos mutuamente excluyentes, la suma de probabilidades se expresa como P (A ∪ B) = P (A) + P (B) Probabilidad Condicional En algunas ocaciones la probabilidad de ocurrencia de un hecho depende de que otro hecho haya ocurrido antes. Por ejemplo, un padre le dice a su hijo “si te comes toda la comida, puedes salir a jugar”. La ocurrencia del hecho “salir a jugar”depende del hecho “comerse toda la comida”. Si denotamos el hecho “salir a jugar´´ como A y el hecho “comerse toda la comidaçomo B, entonces la probabilidad condicional se denota como P (A | B). Por ejemplo, el departamento de bienestar de una universidad ha dado a conocer los resultados de una beca para estudiar Ingenierı́a Comercial. Éstos se muestran en la tabla a continuación: Hombre Mujer Total Becado No becado 288 672 36 204 324 876 Total 960 240 1200 Luego de conocer los resultados, el Frente Amplio Feminista de Mujeres protestó contra la asignación de becas ya que de los 324 becados, sólo 36 eran mujeres. El departamento de bienestar de la universidad respondió a las quejas argumentando que la asignación de becas habı́a sido aleatoria y que la cantidad de mujeres que habı́a postulado a la beca era menor a la de hombres. Sea: M M A Ac = = = = el el el el evento evento evento evento de de de de que que que que un becado sea hombre un becado sea hombre una persona gane una beca una persona no gane una beca Al dividir el número de hombres y mujeres becados y no becados por el total de postulantes, podemos concluir que: P (M P (M P (W P (W ∩ A) ∩ Ac ) ∩ A) ∩ Ac ) = = = = 288/1200 672/1200 36/1200 204/1200 = = = = 0,24 Probabilidad de que un hombre sea becado 0,56 Probabilidad de que un hombre no sea becado 0,03 Probabilidad de que una mujer sea becada 0,17 Probabilidad de que una mujer no sea becada 53 Estos valores muestran la probabilidad conjunta, es decir, la probabilidad de la intersección de dos eventos. Luego, la tabla de probabilidades conjuntas se construye como Hombre (M) Mujer (W) Total Becado (A) No becado (Ac ) 0.24 0.56 0.03 0.27 0.27 0.73 Total 0.8 0.2 1 Las probabilidades asignadas a los totales corresponde a las probabilidades de ocurrencia de cada evento por separado. A estas probabilidades también se les conoce como probabilidades marginales. Las probabilidades marginales se obtienen al sumar la probabilidad conjunta de la fila o columna. Por ejemplo, P (A) = P (M ∩ A) + P (W ∩ A) = 0,24 + 0,03 = 0,27. Se observa que el 80 % de los postulantes a la beca son hombres y el 20 % son mujeres. Luego, nos interesa conocer la probabilidad condicional de que una persona reciba la beca dado que es hombre; P (A|M ). Sólo nos interesan los becados que son hombres. Como 288 de los 960 becados son hombres las probabilidades de ganarse una beca dado que es hombre son 288/960 = 0,3. Esto es 288 288 0,24 1200 = = 0,3 P (A|M ) = = 960 960 0,8 1200 0.24 es la probabilidad conjunta de A y M, es decir, P (A ∩ M ) = 0,24, y 0.8 es la probabilidad marginal de que un becado seleccionado aleatoriamente sea hombre. Es decir P (M ) = 0,8. Por tanto, la probabilidad condicional P (A|M ) se calcula como la razón entre P (A ∩ M ) y la probabilidad marginal P (M ). P (A|M ) = 0,24 P (A ∩ M ) = = 0,3 P (M ) 0,8 De forma general, para calcular la probabilidad condicional entre A y B como P (A | B) = P (A ∩ B) P (B) o bien P (B | A) = P (A | B): P (A ∩ B) P (A) Espacio Muestral S Evento A Evento B A∩B En el ejemplo de los becados, al considerar sólo las personas becadas, ya sean estas hombres o mujeres, la probabilidad de que sean promovidas es de 0.27. Frente a la acusación de discriminación, la cuestión 54 relevante es ¿cuál es la probabilidad de que una persona sea becada dado que es hombre y cuál es la probabilidad de que sea becada dado que es mujer? Si estas probabilidades son iguales, no hay fundamentos para argumentar que se ha discriminado, ya que las oportunidades de ser promovidos son las mismas para los hombres y para las mueres. Ejemplo: ¿Cuál es la probabilidad una persona sea becada dada que es mujer? Calculamos P (A|W ). Esto es P (A|W ) = 0,03 P (A ∩ W ) = = 0,15 P (W ) 0,2 Luego, la probabilidad de que una persona sea becada dada que es mujer es 15 %, la mitad de la probabilidad de que un hombre sea becada, 30 %. Este calculo confirma el argumento de discriminación. Eventos Independientes Dos eventos son independientes si P (A | B) = P (A) o bien P (B | A) = P (B) En el ejemplo anterior, la probabilidad de se becado (evento A) le afecta o le influye el que la persona sea hombre o mujer. Es decir, la probabilidad del evento A la altera o le afecta saber que se da el evento M (ser hombre). Luego, los eventos A y W son eventos dependientes. Si la probabilidad de un evento A no cambia por la existencia del evento M, entonces los eventos A y M son eventos independientes. Multiplicación Mientras que la suma de probabilidades permite calcular la probabilidad de la unión de dos eventos, la multiplicación es útil para calcular la probabilidad de la intersección de dos eventos. La multiplicación se basa en la probabilidad condicional. P (A ∩ B) = P (B)P (A | B) o bien P (A ∩ B) = P (A)P (B | A) Por ejemplo: el 84 % de los hogares de la comuna de Santiago están suscritos El Mercurio. Si D denota el evento un hogar esta suscrito, P (D) = 0,84. Además, sabe que la probabilidad de que un hogar ya suscrito a la edición diaria se suscriba también a la edición dominical (evento S ) es de 0.75. Esto es, P (A | D) = 0,75. ¿Cuál es la probabilidad de que un hogar se suscriba a ambas, a la edición diaria y a la domincal? P (S ∩ D) = P (D)P (S | D) = 0,84(0,75) = 0,63 Luego, el 63 % de los hogares se suscriben a ambas ediciones. 55 Si dos eventos son independientes, la multiplicación entre ellos se calcula como la multiplicación de las probabilidades correspondientes. P (A ∩ B) = P (A)P (B) Note que dos eventos son independientes si P (A ∩ B) 6= P (A)P (B), entonces A y B son eventos independientes. 5.3. Teorema de Bayes El Teorema de Bayes permite corregir probabilidades cuando tenemos nueva información respecto a un evento. El teorema de Bayes es aplicable cuando los eventos para los que se quiere calcular la probabilidad revisada son mutuamente excluyentes y su unión es todo el espacio muestral. Por ejemplo: Considere una fábrica que compra piezas a dos proveedores. Sea A1 el evento la pieza proviene del proveedor 1, que corresponden al 65 % de las compras, y A2 el evento la pieza proviene del proveedor 2, que corresponden al 35 %. Por tanto, si se toma una pieza aleatoriamente, la probabilidad previa es P (A1 ) = 0,65 y P (A2 ) = 0,35 La calidad de las piezas compradas varı́a se acuerdo al proveedor. Por experiencia, sabe que la calidad de los dos proveedores es la siguiente Piezas buenas ( %) Piezas malas ( %) Proveedor 1 98 2 Proveedor 2 95 5 Si G denota el evento la pieza esta buena y B denota el evento la pieza está mala, las probabilidades condicionales son: P (G | A1 ) = 0,98 P (B | A1 ) = 0,02 P (G | A2 ) = 0,95 P (B | A2 ) = 0,05 Un análisis mediante un diagrama de árbol permite conocer los resultados experimentales de si una pieza está buena o mala. A1 G (A1 , G) A2 B G (A1 , B) (A2 , G) 56 B (A2 , B) Se observa que existen cuatro resultados experimentales. Cada resultado experimental es la intersección de dos eventos, de manera que para calcular estas probabilidades, se puede usar la multiplicación. Luego, las probabilidades para cada resultado experimental son Las probabilidades del paso 1 son probabilidades previas, y las probabilidades del paso 2 son probabilidades condicionales. Para hallar las probabilidades de cada uno de los resultados experimentales, simplemente se multiplican las probabilidades de las ramas que llevan a este resultado. Suponga ahora que las piezas se emplean en el proceso de fabricación y cada vez que se utiliza una pieza defectuosa la máquina se descompone. Dada la información de que la pieza está mala ¿cuál es la probabilidad de que sea del proveedor 1 y cual es la probabilidad de que sea del proveedor 2? Para responder a esta pregunta utilizamos el teorema de Bayes. Como B es el evento de que una pieza esté mala, lo que se busca son las probabilidades posteriores P (A1 | B) y P (A2 | B). Por probabilidad condicional sabemos que P (Ai | B) = P (Ai ∩ B) P (B) Además, sabemos que P (Ai ∩ B) = P (Ai )P (B | Ai ) Luego, para hallar P (B) se observa que B sólo puede presentarse de dos maneras (A1 ∩ B) y (A2 ∩ B). Por tanto, P (B) = P (A1 ∩ B) + P (A2 ∩ B) = P (A1 )P (B | A1 ) + P (A2 )P (B | A2 ) 57 Sustituyento P (Ai ∩B) y P (B) en P (Ai | B) se obtiene el teorema de Bayes para el caso de dos eventos. P (Ai |B) = P (Ai )P (B | Ai ) P (Ai )P (B | Ai ) + P (Aj )P (B | Aj ) Luego, P (A1 | B) = P (A1 )P (B | A1 ) P (A1 )P (B | A1 ) + P (A2 )P (B | A2 ) = 0,0130 (0,65)(0,02) = (0,65)(0,02) + (0,35)(0,05) 0,0130 + 0,0175 = 0,0130 = 0,4262 0,0305 De igual forma, P (A2 | B) = P (A2 )P (B | A2 ) P (A2 )P (B | A2 ) + P (A1 )P (B | A1 ) = (0,35)(0,05) 0,0175 = (0,65)(0,02) + (0,35)(0,05) 0,0130 + 0,0175 = 0,0175 = 0,5738 0,0305 Por tanto, dada la información de que la pieza está mala, la probabilidad de que la pieza provenga del proveedor 1 bajó a 42,62 %. De hecho, si la pieza está mala la posibilidad de que sea del proveedor 2 es mayor del 50 %; P (A2 | B = 57,38 % El siguiente cuadro resume los pasos. Ai P (Ai ) P (B | Ai ) P (Ai ∩ B) A1 0.65 0.02 0.0130 A2 0.35 P =1 0.05 0.0175 P = 0,0305 P (Ai | B) 0,0130 = 0,4262 0,0305 0,0175 = 0,5738 0,0305 P =1 De forma general, en el caso de n eventos mutuamentes excluyntes A1 , A2 , ..., An cuya unión sea todo el espacio muestral, el teorema de Bayes aplica para cualquira de las probabilidades posteriores P (Ai | B) como P (Ai | B) = 6. P (Ai )P (B | Ai ) P (A1 )P (B | A1 ) + P (A2 )P (B | A2 ) + · · · + P (An )P (B | An ) Distribución de probabilidades Un experimento probabilistico es definido como un proceso que genera resultados definidos. En cada una de las repeticiones de un experimento habrá uno, y sólo uno, de los posibles resultados experimentales. Una variable aleatoria o estocástica proporciona un medio para describir los resultados experimentales empleando valores numéricos. Una variable aleatoria puede ser discreta o continua 58 dependiente del tipo de valores numéricos que asuma. 6.1. Variables aleatoria discretas Una variable aleatoria es discreta si asume un número finito de valores o una sucesión infinita de valores que son divisibles un número finito de veces. Por ejemplo, los número naturales tal que N = 1, 2, 3, 4, 5, .... Por ejemplo, sea x una variable aleatoria que mide el número de autos que pasan por una plaza de peajes. La variable x puede tomar los valores 0, 1, 2, ... etc. Ası́, x es una variable aleatoria discreta que toma uno, y sólo uno, de los valores de esta sucesión infinita. Una variable aleatoria también puedo tomar resultados no-numétricos pero que se codifican de forma numérica. Por ejemplo, en una encuesta se le puede preguntar a las personas si conocen un producto. La respuesta puede ser si o no. La codificación de la variable se puede hacer como x = 0 si la persona responde no y x = 1 si la persona responde sı́. x es una variable aleatoria porque proporciona una descripción numérica de los resultados del experimento. 6.1.1. Distribución de probabilidad discreta La distribución de probabilidad de una variable aleatoria describe cómo se distribuyen las probabilidades entre los valores de la variable aleatoria. La distribución de probabilidad está definida por una función de probabilidad denotada por f (x). Esta función de probabilidad da la probabilidad de cada valor de la variable aleatoria. Por ejemplo: Considere las ventas de automóviles de una automotora. Durante los últimos 300 dı́as de operación, los datos de ventas muestran que hubo 57 dı́as en los que no se vendió ningún automóvil, 117 dı́as en los que se vendió 1 automóvil, 72 dı́as en los que se vendieron 2 automóviles, 42 dı́as en los que se vendieron 3 automóviles, 12 dı́as en los que se vendieron 4 automóviles y 3 dı́as en los que se vendieron 5 automóviles. Suponga que considera el experimento de seleccionar un dı́a de operación y se define la variable aleatoria de interés como x = número de automóviles vendidos en un dı́a. De acuerdo con datos del pasado, se sabe que x es una variable aleatoria discreta que puede tomar los valores 0, 1, 2, 3, 4 o 5. En la notación de funciones de probabilidad f (0) da la probabilidad de vender 0 automóviles, f (1) da la probabilidad de vender 1 automóvil, y ası́ en lo sucesivo. Como los datos del pasado indican que en 54 de 300 dı́as se vendieron 0 automóviles, a f (0) se le asigna el valor 54/300 = 0,18, lo que significa que la probabilidad de que se vendan 0 automóviles en un dı́a es 18 %. De manera similar, como en 117 de los 300 dı́as se vendió un automóvil, a f (1) se le asigna el valor 4117/300 = 0,39, que significa que la probabilidad de que se venda exactamente 1 automóvil en un dı́a es 39 %. Continuando de esta manera con los demás valores de la variable aleatoria, se obtienen los valores de f (2), f (3), f (4) y f (5). Una ventaja importante de definir una variable aleatoria y su correspondiente distribución de probabilidad es que una vez que se conoce la distribución de probabilidad, es relativamente fácil determinar la 59 x f (x) 0 1 2 3 4 5 0.18 0.39 0.24 0.14 0.04 0.01 Total 1 probabilidad de diversos eventos que pueden ser útiles para tomar decisiones. Por ejemplo, empleando la distribución de probabilidad de la automotora, se observa que el número de automóviles que es más probable vender en un dı́a es 1, ya que es f (1) = 0,39. Además se observa que la probabilidad de vender tres o más automóviles en un dı́a es f (3) + f (4) + f (5) = 0,14 + 0,04 + 0,01 = 0,19. Estas probabilidades pueden interesar para tomar decisiones estratégicas de las empresas. Al elaborar una función de probabilidad para una variable aleatoria discreta, se deben satisfacer las dos condiciones siguientes: f (x) > 0 P f (x) = 1 La forma más sencilla para describir las funciones de probabilidad es mediante la fórmula de distribuciones de probabilidad uniforme discreta, tal que: f (x) = 1 n ,donde n =número de valores que puede tomar la variable aleatoria. Por ejemplo: si en el experimento que consiste en lanzar un dado se define una variable aleatoria x como el número de puntos en la cara del dado que cae hacia arriba. En este experimento la variable aleatoria toma n = 6 valores; x = 1, 2, 3, 4, 5, 6. Por tanto, la función de probabilidad de esta variable aleatoria uniforme discreta es: f (x) = 1 6 , x = 1, 2, 3, 4, 5, 6 La probabilidad para cada evento es 1/6 y la distribución de probabilidades de la variable es la siguiente: 6.1.2. Valor esperado El valor esperado de una variable es una medida de la localización central de la variable aleatoria. Corresponde a la media. Ésta se calcula como X E[x] = µ = xf (x) donde la notación E[x] y µ se usan para denotar el valor esperado de una variable aleatoria x. Para calcular el valor esperado de una variable aleatoria discreta se multiplica cada valor de la variable 60 x f (x) 0 1 2 3 4 5 6 1/6 1/6 1/6 1/6 1/6 1/6 1/6 aleatoria por su probabilidad correspondiente f (x) y después se suman estos productos. El valor esperado es un promedio ponderado de los valores que toma la variable aleatoria. Los pesos son las probabilidades. El valor esperado no necesariamente tiene que ser un valor que pueda tomar la variable aleatoria. En el ejemplo de la automotora, el cálculo serı́a el siguiente: x f (x) xf (x) 0 1 2 3 4 5 0.18 0.39 0.24 0.14 0.04 0.01 0(0.18) = 0 1(0.39) = 0.39 2(0.24) = 0.48 3(0.14) = 0.42 4(0.04) =0.16 5(0.01) = 0.05 Total = 1.5 La suma de las entradas en la columna xf (x) indica que el valor esperado es 1.50 automóviles por dı́a. Por tanto, aunque se sabe que en un dı́a las ventas pueden ser de 0, 1, 2, 3, 4 o 5 automóviles, se prevé que, a la larga, se venderán 1.5 automóviles por dı́a. Si en un mes hay 30 dı́as de operación, el valor esperado, 1.5, se emplea para pronosticar que las ventas promedio mensuales serán de 30(1,5) = 45 automóviles. 6.1.3. Varianza La varianza permite resumir la variabilidad o dispersión en los valores de la variable aleatoria. La varianza de una variable aleatoria se calcula de la siguiente forma: V ar(x) = σ 2 = X (x − µ)2 f (x) La desviación x−µ mide qué tan lejos del valor esperado, o media µ, se encuentra un valor determinado de la variable aleatoria. Para calcular la varianza de una variable aleatoria, estas desviaciones se elevan al cuadrado y después se ponderan con el correspondiente valor de la función de probabilidad. A la suma de estas desviaciones al cuadrado, ponderadas, se le conoce como varianza. Para denotar la varianza de una variable aleatoria se usan las notaciones V ar(x) y σ 2 . 61 En el ejemplo de la automotora, la varianza es de 1.25. El cácluclo se muestra en la tabla 13. La desviación estándar, σ, se define como la raı́z cuadrada de la varianza. En el ejemplo de los automóviles √ σ = 1,25 = 1,118. La desviación estándar se mide en las mismas unidades que la variable aleatoria, σ = 1,118 automóviles, y, por tanto, suele preferirse para describir la variablididad de una variable aleatoria. La varianza σ 2 se mide en unidades al cuadrado por lo que es más dificil de interpretar. Cuadro 13: Distribución de probabilidad en la venta de autos x f (x) xf (x) 0 1 2 3 4 5 0.18 0.39 0.24 0.14 0.04 0.01 0(0.18) 1(0.39) 2(0.24) 3(0.14) 4(0.04) 5(0.01) = = = = = = 0 0.39 0.48 0.42 0.16 0.05 x−µ (x − µ)2 0 - 1.5 = -1.5 1 - 1.5 = -0.5 2 - 1.5 = 0.5 3 - 1.5 = 1.5 4 - 1.5 = 2.5 5 - 1.5 = 3.5 2.25 0.25 0.25 2.25 6.25 12.25 Total = 1.5 6.1.4. (x − µ)2 f (x) 2.25(0.18) = 0.4050 0.25(0.39) = 0.0975 0.25(0.24) = 0.06 2.25(0.14) = 0.315 6.25(0.04) = 0.25 12.25(0.01) = 0.1225 Total = 1.25 Distribución de probabilidad binomial Una distribución de probabilidades binomial es una distribución de probabilidades discreta que cuenta el número de éxitos en una secuencia de n ensayos de Bernoulli independientes entre sı́, con una probabilidad fija p de ocurrencia del éxito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser dicotómico, es decir, sólo pueden existir dos resultados. Un experimento binomial tiene cuatro propiedades: 1. El experimento consiste en una serie de n ensayos idénticos. 2. En cada ensayo hay dos resultados posibles. A uno de estos resultados se les llama éxito y al otro se le llama fracaso. 3. La probabilidad de éxito, que se denota p, no cambia de un ensayo a otro. Por ende, la probabilidad de fracaso, que se denota 1 − p, tampoco cambia de un ensayo a otro. 4. Los ensayos son independientes. En un experimento binominal, lo que interesa es el número de éxitos en n ensayos. Si x denota el número de éxitos en n ensayos, x tomará los valores 0, 1, 2, 3, ..., n. A la distribución de probabilidad de esta variable aleatoria se le llama distribución de probabilidad binomial. A la propiedad 3 se le llama supuesto de estacionariedad. Para que una variable sea estacionaria, se le exige que su distribución de probabilidades no cambie en el tiempo. Por ejemplo: Considere el experimento de lanzar 5 monedas. Suponga que lo que nos interesa es contar el número de veces que el experimento resulta en que la moneda muestra cara. La variable aleatoria 62 que interesa es x = número de caras que aparencen en cinco ensayos. En este caso, x puede tomar los valores 0, 1, 2, 3, 4, o 5. Luego se cumplen las propiedades tal que: 1. El experimento consiste en cinco ensayos idénticos; cada ensayo consiste en lanzar una moneda. 2. En cada ensayo hay dos resultados posibles; cara o sello. Se puede considerar cara como como éxito y sello como fracaso. 3. La probabilidad de éxito y la probabilidad de fracaso son iguales en todos los ensayos, donde p = 0,5 y 1 − p = 0,5. 4. Los ensayos o lanzamientos de la moneda, son independientes porque al resultado de un ensayo no le afecta lo que pase en los otros ensayos o lanzamientos. Ejemplo: Considere a un vendedor de seguros que visita a 10 familias elegidas en forma aleatoria. El resultado correspondiente de la visita a cada familia se clasifica como éxito si la familia compra un seguro y como fracaso si la familia no compra ningún seguro. Por experiencia, el vendedor sabe que la probabilidad de que una familia tomada aleatoriamente compre un seguro es 0,10. Describa el experimento en base a sus propiedades. 1. El experimento consiste en 10 ensayos idénticos; cada ensayo consiste en visitar a una familia. 2. En cada ensayo hay dos resultados posibles: la familia compra un seguro (éxito) o la familia no compra ningún seguro (fracaso). 3. Las probabilidades de que haya compra y de que no haya compra se supone que son iguales en todas las visitas, siendo p = 0,10 y 1 − p = 0,90. 4. Los ensayos son independientes porque las familias se eligen en forma aleatoria. La variable aleatoria que interesa es el número de ventas al visitar a las 10 familias. En este caso los valores que puede tomar x son 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 y 10. Ejemplo: Considere las decisiones de compra de los próximos tres clientes que entren a una tienda de ropa. De acuerdo con la experiencia, el gerente de la tienda estima que la probabilidad de que un cliente realice una compra es 0,30. ¿Cuál es la probabilidad de que dos de los próximos tres clientes realicen una compra? Un diagrama de árbol permite visualizar el experimento tiene 8 posibles resultados. Sea S el resultado que denota un éxito (el cliente compra) y F el resultado que denota un fracaso (el cliente no compra), lo que interesa son los resultados experimentales en los que haya dos éxitos en los tres ensayos. El experimento de las decisiones de compra es un experimento binomial ya que cumplen con las 4 propiedades: 63 1. Es posible describir el experimento como una serie de tres ensayos idénticos, un ensayo por cada uno de los tres clientes que llegan a la tienda. 2. Cada ensayo tiene dos posibles resultados: el cliente hace una compra (éxito) o el cliente no hace ninguna compra (fracaso). 3. La probabilidad de que el cliente haga una compra (0,30) o de que no haga una compra (0,70) se supone que es la misma para todos los clientes. Es decir, esta variable es estacionaria. 4. La decisión de comprar de cada cliente es independiente de la decisión de comprar de los otros clientes. El número de resultados experimentales en los que hay dos compras, el número de maneras en que son posibles x = 2 éxitos en n = 3 ensayos se puede calcular con la fórmula de conteo para combinaciones: ! n n! = Cxn = x!(n − x)! x C23 = 3 2 ! = 3! 6 = =3 2!(3 − 2)! 2 Luego, podemos afirmar que, en tres de los ocho resultados experimentales, hay dos éxitos, que son (S, S, F), (S, F, S) y (F, S, S). Para determinar la probabilidad de x éxitos en n ensayos, es necesario conocer también la probabilidad correspondiente a cada uno de estos resultados experimentales. Como en un experimento binomial, 64 los ensayos son independientes, para hallar la probabilidad de una determinada sucesión de éxitos y fracasos simplemente se multiplican las probabilidades correspondientes al resultado de cada ensayo. Por ejemplo, la probabilidad de que los dos primeros clientes compren y el tercero no compre, denotada por (S, S, F) está dada por pp(1 − p). Puesto que la probabilidad de compra en cualquier ensayo es 0.30, la probabilidad de que haya una compra en los dos primeros ensayos y que no haya compra en el tercer ensayo es (0,3)(0,3)(0,7) = (0,3)2 (0,7) = 0,063 = 6,3 %. Luego, Resultado experimental Probabilidad del resultado experimental (S, S, F) (S, F, S) (F, S, S) pp(1 − p) = 0,063 p(1 − p)p = 0,063 (1 − p)pp = 0,063 Observe que los tres resultados experimentales en los que hay dos éxitos tienen la misma probabilidad. Esto se cumple para toas las sucesiones de experimentos independientes. En cualquier experimento binomial todas las series de resultados de ensayos en las que hay x éxitos en n ensayos tienen la misma probabilidad de ocurrencia. De forma general: Probabilidad de resultado = px (1 − p)(1−x) Luego, la función de probabilidad binomial se calcula de la siguiente forma: ! n x f (x) = p (1 − p)n−x x donde: f (x) = probabilidad de x éxitos en n ensayos n = número de ensayos ! n x = n! x!(n − x)! p = probabilidad de un éxito en cualquier ensayo (1 − p) = probabilidad de un fracaso en cualquier ensayo Para representar que una variable aleatoria X sigue una distribución binomial de parámetros n y p, se escribe: X ∼ B(n, p) Para el ejemplo de la empresa de ropa, podemos calcular la función de probabilidad de que ningún cliente realice una compra, de que un cliente realice una compra de que dos clientes realicen una 65 compra y de que los tres clientes realicen una compra. si x = 0 → 3! (0,3)0 (0,7)3 = 0,343 0!3! si x = 1 → 3! (0,3)1 (0,7)2 = 0,441 1!2! si x = 2 → 3! (0,3)2 (0,7)3 = 0,189 2!1! 3! (0,3)3 (0,7)0 = 0,027 3!0! Gráficamente, la distribución de probabilidad la podemos representar de la siguiente forma: si x = 3 → 6.1.5. Valor esperado y varianza de una distribución binomial En el caso de que la variable aleatoria tenga una distribución binomial para la que se conoce el número de ensayos n y la probabilidad de éxito p, el valor esperado se calcula como E[x] = µ = np En el caso de que la variable aleatoria tenga una distribución binomial para la que se conoce el número de ensayos n y la probabilidad de éxito p, la varianza se calcula como V ar(x) = σ 2 = np(1 − p) Para el caso de la tienda de ropa, el valor esperado del número de clientes que realiza una compra serı́a E[x] = np = 3(0,3) = 0,9 La varianza y la desviación estándar del número de clientes que harán una compra son σ 2 = np(1 − p) = 3(0,3)(0,7) = 0,63 √ √ σ = σ 2 = 0,63 = 0,79 66 Ejemplo: Suponga que la tienda de ropa espera que 1000 clientes entren en la tienda el próximo mes. ¿Cuál es el número esperado de clientes que harán una compra?. Luego, E[x] = np = (1000)(0,30) = 300. 2 σ = np(1 − p) = 1000(0,3)(0,7) = 210 √ √ σ = σ2 = 210 = 14,49 6.1.6. Distribución de probabilidad de Poisson Esta distribución de probabilidades se utiliza para describir una variable aleatoria discreta que sucede un hecho determinado (ocurrencia) en un intervalo de tiempo o de espacio. El número de ocurrencias es una variable aleatoria discreta descrita por la distribución de probabilidades de Poisson si se satisfacen las siguientes condiciones: 1. La probabilidad de ocurrencia es la misma para cualquiera de dos intervalos de la misma magnitud. 2. La ocurrencia o no-ocurrencia en cualquier intervalo es independiente de la ocurrencia o noocurrencia en cualquier otro intervalo. El número de ocurrencias x, no tiene lı́mite superior. Ésta es una variable aleatoria discreta que toma los valores de una sucesión infinita de números tal que x ∈ [0, ∞[. Una propiedad de la distribución de Poisson es que la media y la varianza de la distribución son iguales. La función de probabilidades de Poisson se define de la siguiente forma: f (x) = E[x]x · e−E[x] x! Donde f (x) : probabilidad de x ocurrencia en un intervalo E[x] : valor esperado de x e : 2,71828 Ejemplo 1: Suponga que desea saber el número de personas que retira dinero de un cajero automático en un lapso de 15 minutos. Si es posible suponer que la probabilidad de llegada de las personas es la misma en cualquier lapso de tiempo tiempo de la misma duración y si la llegada o la no-llegada de una persona en cualquier lapso es independiente de la llega o la no-llegada de una persona en cualquier otro lapso, entonces se puede aplicar la función de probabilidad de Poisson. De la experiencia sabe que, en un lapso de 15 minutos, 10 es el número promedio de personas que retiran dinero en un cajero automático. La variable aleatoria es x = número de personas que retiran dinero en un lapso de 15 minutos. Luego, la función de probabilidad se define como f (x) = 10x e−10 x! 67 Si desea conocer la probabilidad de que lleguen exactamente 5 personas en 15 minutos, entonces x = 5 y E[x] = 10, se obtiene que 105 e−10 f (x) = = 0,0378 5! Como la media y la varianza en una distribución de Poisson son iguales, entonces σ 2 = 10 y σ = √ 10 = 3,16. Ejemplo 2: Suponga que le interesa conocer la ocurrencia de una averı́a en una autopista. Si es posible suponer que la probabilidad de que haya una averı́a es la misma en cualquier tramo de la misma longitud y que la ocurrencia o no-ocurrencia de una averı́a en un tramo es independiente de la ocurrencia o no-ocurrencia de una averı́a en cualquier otro tramo, entonces, es posible utilizar la distribución de Poisson. Estudios han mostrado que, en promedio, ocurre un averı́a cada 2 kilómetro. ¿Cuál es la probabilidad de que no haya ninguna averı́a en un tramo de 3 kilómetros? Cómo lo que nos interesa es un intervalo de 3 kilómetros, µ = (2 averias/kilometros)(3 kilometros) = 6 representa el número esperado de averı́as en un tramo de 3 kilómetros de autopista. Utilizando la ecuación de Poisson, 60 e−6 = 0,0025 f (x) = 0! Por tanto, es poco probable que no haya ninguna averı́a en este tramo de 3 kilómetros. De hecho, existe una probabilidad de 1 − 0,0025 = 0,9975 de que haya, por lo menos, una averı́a en este tramo de 3 kilómetros. Ejemplo: Suponga que desea calcular la probabilidad de que una persona retire dinero de un cajero automático en un lapso de 3 minutos. Como 10 es el número esperado de retiros de dinero en un lapso de 15 minutos, 10/15 = 2/3 es el número esperado de llegadas en un lapso de un minuto. Luego (2/3)(3 minutos) = 2 es el número esperado de personas que retiran dinero en un lapso de 3 minutos . Entonces, la probabilidad de x llegadas en un lapso de 3 minutos con µ = 2 está dada por la siguiente función de probabilidad de Poisson: 2x e−2 f (x) = x! 2x e−2 = 0,2707 1! ⋆ Tabla de probabilidad de Poisson: Tabla 7 del apéndice B f (1) = 6.1.7. Distribución de probabilidad hipergeométrica La distribución de probabilidades hipergeométrica está relacionada a la distribución binomial, pero en esta distribución los ensayos no son independientes y la probabilidad éxito varı́a de ensayo a ensayo. Sea r el número de elementos considerados como éxitos que hay en una población de tamaño N, y 68 N − r el número de elementos considerados como fracasos que hay en dicha población. La función de distribución hipergeométrica permite calcular la probabilidad de que en una muestra aleatoria de n elementos se tengan x éxitos y n − x fracasos. Para obtener este resultado, debemos tener x éxitos de los r éxitos que hay en la población y n − r fracasos de los N − r fracasos. La probabilidad de tener x éxitos en una muestra de tamaño n es: ! ! r N −r x n−x ! para 0 6 x 6 r f (x) = N n Donde f (x) n N r : : : : probabilidad de x éxitos en n ensayos número de ensayos número de elementos de la población número de elementos en la población considerados como éxitos 69 Observe que N n ! representa el número de maneras en que es posible tomar una muestra de tamaño ! r n de una población población de tamaño N ; representa el número de formas en que se toman x x ! N −r éxitos de un total de r éxitos que hay en la población, y representa el número de maneras n−x en que se puede tomar n − r fracasos de un total de N − r que hay en la población. Por ejemplo: Una empresa fabrica baterı́as que empaca en cajas de 12 unidades cada una. Asuma que un inspector selecciona al azar 3 de las 12 baterı́as. Si la caja contiene exactamente 5 baterı́as defectuosas, ¿cuál es la probabilidad de que el inspector encuentre que uno de las 3 baterı́as defectuosas?. En este caso n = 3 y N = 12. Si r = 5 baterı́as defectuosas en una caja, entonces la probabilidad de hallar x = 1 baterı́as defectuosas es ! !    5 12 − 5 5 7! 1 3−1 (5)(21) 1!(5 − 1)! 2!(7 − 2)!) !   = = 0,4773 = f (1) = 12! 220 12 3!(12 − 3)! 3 Ejemplo: Suponga que desea conocer la probabilidad de hallar, por lo menos, una baterı́a defectuosa. La probabilidad de encontrar, al menos, una baterı́as defectuosa equivale a la probabilidad de que todas las baterı́as estén en buen estado, por lo que podemos calcular la probabilidad de no encontrar ninguna baterı́a defectuosa. Esto es, ! !    5 12 − 5 5 7! 0 3−0 (1)(35) 0!(5 − 0)! 3!(7 − 3)!) !   = = 0,1591 = f (0) = 12! 220 12 3!(12 − 3)! 3 Si la probabilidad de cero baterı́as defectuosas es f (0) = 0,1591, se concluye que la probabilidad de hallar, por lo menos, una baterı́a defectuosa debe ser de 1 − 0,1591 = 0,8409. ası́, existe una probabilidad alta de hallar, por lo menos, una baterı́a defectuosa. La media y la varianza de una distribución hipergeométrica se calculan de la siguiente forma: r E[x] = µ = n N V ar(x) = σ 2 = n    r  r  N −n 1− N N N −1 En el ejemplo anterior, n = 3, r = 5 y N = 12. Por tanto, la media y la varianza del número de baterı́as defectuosas es,   r 5 =3 = 1,25 E[x] = n N 12 70        r  r  N −n 5 5 12 − 3 σ =n 1− =3 1− = 0,6 N N N −1 12 12 12 − 1 2 Luego, la desviación estándar es σ = √ 0,6 = 0,77 Nota: Considere una distribución hipergeométrica con n ensayos. Sea p = (r/N ) la probabilidad de éxito en el primer ensayo. Si el tamaño de la población es grande, el término (N-n)(N-1) de la ecuación de la varianza se aproxima a 1. Entonces, el valor esperado y la varianza se expresan como E[x] = np y σ 2 = np(1 − p). Estas expresiones son las mismas que se usan para calcular el valor esperado y la varianza en una distribución binomial. Cuando el tamaño de la población es grande, se aproxima una distribución hipergeométrica mediante una distribución binomial con n ensayos y probabilidad de éxito p = (r/N ) 6.2. Variables aleatoria continuas Es una variable que puede tomar cualquier valor numérico dentro de un intervalo o colección de intervalos. Los resultados experimentales basado en escalas de medición como tiempo, peso, distancia y temperatura pueden ser descritos por variables aleatorias continuas. Por ejemplo, considere una variable x que mide el tiempo de respuesta de un servicios de emergencias. Esta variable puede tomar cualquier valor en el intervalo x > 0. Una variable aleatoria continua puede tomar valores entre 0 6 x 6 100 si su escala de medición está en porcentaje. Por ejemplo, x puede referirse al grado de avance en la construcción de un edificio. En las variables aleatorias discretas la función de probabilidad f (x) da la probabilidad de que la variable aleatoria tome un valor determinado. En las variables aleatorias continuas, la contraparte de la función de probabilidad es la función de densidad de probabilidad, que también se denota f (x). La diferencia está en que la función de densidad de probabilidad no da probabilidades directamente. Si no que el área bajo la curva de f (x) que corresponde a un intervalo determinado proporciona la probabilidad de que la variable aleatoria tome uno de los valores de ese intervalo. De manera que cuando se calculan probabilidades de variables aleatorias continuas se calcula la probabilidad de que la variable aleatoria tome alguno de los valores dentro de un intervalo. En una variable aleatoria continua, la función de frecuencia es reemplazada por la función de densidad, f (x), la cual debe cumplir que: f (x) ≥ 0 R∞ −∞ f (x)dx =1 Si x es una variable aleatoria con una función de densidad f , entonces para cualquier a < b, la 71 probabilidad de que x caiga en el interalo (a, b) is el área bajo la función de densidad entre a y b: P (a < x < b) = Z b f (x)dx a Recuerde que, por el teorema fundamental del cálculo: P (a ≤ x ≤ b) = Z b a f (x)dx = F (x)|ba = F (b) − F (a) Diferencias entre una variable aleatoria continua y una variable aleatoria discreta: 1. La probabilidad de que una variable aleatoria tome un determinado valor, es reemplazada por la probabilidad de que una variable aleatoria tome un valor dentro de un intervalo dado. 2. La probabilidad de que una variable aleatoria continua tome un valor dentro de un determinado intervalo que va de x1 a x2 se define como el área bajo la gráfica de la función de densidad de probabilidad entre x1 y x2 . Como un solo punto es un intervalo cuyo ancho es cero, esto implica que la probabilidad de que una variable aleatoria continua tome un valor exacto, cualquiera, es cero. Esto también significa que en cualquier intervalo la probabilidad de que una variable aleatoria continua tome un valor es la misma, ya sea que se incluyan o no los extremos del intervalo. 6.2.1. Distribución de Probabilidad Uniforme Considere una variable aleatoria x que representa el tiempo de vuelo de un avión que viaja de Santiago a Concepción. Suponga que el tiempo de vuelo es cualquier valor en el intervalo de 120 minutos a 140 minutos. Dado que la variable aleatoria x toma cualquier valor en este intervalo, x es una variable aleatoria continua y no una variable aleatoria discreta. La probabilidad de que el tiempo de vuelo esté en cualquier intervalo de 1 minuto es el mismo que la probabilidad de que el tiempo de vuelo esté en cualquier otro intervalo de 1 minuto dentro del intervalo que va de 120 a 140 minutos. Como cualquier intervalo de 1 minuto es igual de probable, se dice que la variable aleatoria x tiene una distribución de probabilidad uniforme. La función de densidad de probabilidad que define la distribución uniforme de la variable aleatoria tiempo de vuelo, es ( 1/20 para 120 ≤ x ≤ 140 f (x) = 0 en cualquier otro caso Una variable aleatoria uniforme de intervalo (0,1) es un modelo para lo que nos referimos cuando decimos “escoja un número entre 0 y 1”. Cualquier número real en el intervalo es un resultado posible, y el modelo de probabilidad deberı́a tener la propiedad que que la probabilidad de x es la misma dentro del intervalo. En general, la función de densidad de probabilidad uniforme de una variable aleatoria x en un intervalo (a, b) se define como   1 para a ≤ x ≤ b b−a f (x) =  0 x<a,x>b 72 En el caso de una variable aleatoria continua, sólo se considera la probabilidad en términos de la posibilidad de que la variable aleatoria tome un valor dentro de un determinado intervalo. En el ejemplo del tiempo de vuelo, una pregunta aceptable acerca de una probabilidad es ¿Cuál es la probabilidad de que el tiempo de vuelo se encuentre entre 120 y 130 minutos? Es decir, ¿cuál es P (120 ≤ x ≤ 130)? Como el tiempo de vuelo debe estar entre 120 y 140 minutos y como se ha dicho que la probabilidad es uniforme en este intervalo, es factible decir que P (120 ≤ x ≤ 130) = 0,5. Considere el área bajo la gráfica de f (x) en el intervalo que va de 120 a 130. Esta área es rectangular y el área de un rectángulo es simplemente el ancho multiplicado por la altura. Si el ancho del intervalo es igual a 130 - 120 = 10 y la altura es igual al valor de la función de densidad de probabilidad f (x) = 1/20, se tiene, área = ancho × alto = 10(1/20) = 10/20 = 0.5. Ejemplo: Cuál es la probabilidad de un tiempo de vuelo entre 128 y 136 minutos. El ancho del intervalo es 136−128 = 8. Como la altura uniforme de f (x) = 1/20, se ve que P (128 ≤ x ≤ 136) = 8(1/20) = 0,4 La esperanza y la varianza de una variable aleatoria continua que se distribuye uniforme están dadas por (b − a)2 a+b σ2 = E[x] = 2 12 6.2.2. Distribución de Probabilidad Normal En grande rasgos, el teorema central del lı́mite establece que, si una variable aleatoria es la suma de un gran número de variable aleatoria independientes, entonces ésta se distribuye aproximadamente como una normal. La función de densidad de una distribución normal, o distribución gaussiana, está representada por: 1 2 2 f (x) = √ e−(x−µ) /2σ tal que −∞ < x < ∞ σ 2π 73 Donde, µ σ π e = = = = valor esperado de x desviación estándar 3,14159 2,71828 Si una variable x sigue una distribución normal con media µ y varianza σ 2 se denota como x ∽ N (µ, σ 2 ). El punto más alto de la curva se encuentra en la media, la cual coincide con la mediana y la moda. La media de una distribución puede ser cualquier valor; positivo, negativo o cero. El caso particular donde µ = 0 y σ = 1 es llamada distribución de probabilidad normal estándar. La distribución normal es simétrica tal que mu, f (µ − x) = f (µ + x). La desviación estándar determina qué tan plana es la curva normal. Si la desviación estándar es alta, entonces la curva es más plana y ancha, lo que corresponde a una mayor dispersión de los datos. En la figuera 6.2.2 se observan tres tipos de distribución, todas con media µ = 0. La distribución con linea continua es x ∽ N (0, 0,5), La distribución en lı́nea punteada es x ∽ N (0, 1). Y la distribución en linea discontinua es x ∽ N (0, 2). Los porcentajes de los valores que se encuentran en algunos intervalos comúnmente usados son: 1. 68.3 % de los valores de una variable aleatoria normal se encuentran más o menos una desviación estándar de la media. 2. 95.4 % de los valores de una variable aleatoria normal se encuentran más o menos dos desviaciones estándar de la media. 74 3. 99.7 % de los valores de una variable aleatoria normal se encuentran más o menos tres desviaciones estándar de la media. Distribución Normal Estándar Una variable aleatoria que tiene una distribución normal con una media cero y desviación estándar de uno tiene una distribución normal estándar. Digamos que z es una variable normalizada de x, tal que, x−µ z= σ Entonces, µ = 0 y σ = 1. La formula de la función de densidad de probabilidad normal estándar es 1 2 f (z) = √ e−z /2 2π 6.2.3. Función de Distribución Los cálculos de la probabilidad en cualquier distribución se hacen calculando el área bajo la curva de la función de densidad de probabilidad. Por tanto, para hallar la probabilidad de que una variable aleatoria normal esté dentro de un determinado intervalo, se tiene que calcular el área que se encuentra bajo la curva normal y sobre ese intervalo. Esto corresponde a calcular la función de distribución correspondiente. Suponga que una variable aleatoria x tiene una función de densidad f (x), denotamos la función de densidad como fx de distribución F (x) como Fx . Por ejemplo, suponga que x ∽ N (µ, σ 2 ) y que y = ax + b, donde a > 0. La función de distribución de y es: Fy (y) = P (ax + b ≤ y)  y−b Fy (y) = P x ≤ a   y−b Fy (y) = Fx a 75  Luego, Fy (y) = =   d y−b Fx dy a   y−b 1 fx a a Esto es el resultado general para cualquier variable aleatoria continua donde Fx sea diferenciable. Si fx es una función de densidad normal con parámetros µ y σ, tenemos que 1 √  − 1 y − b − aµ 2 aσ !2   e aσ 2π De esto, se observa que y sigue una distribución normal con parámetros aµ + b y aσ. Por tanto: Si x ∽ N (µ, σ 2 ) y y = ax + b, entonces y ∽ N (aµ + b, a2 σ 2 ). F (x) = Suponga que x ∽ N (µ, σ 2 ) y queremos encontrar P (x0 < x < x1 ) para los números x0 y x1 . Considere la variable aleatoria x µ x−µ z= = − σ σ σ Si a = 1/σ y b = −mu/σ, entonces z ∽ N (0, 1), es decir, z sigue una distribución normal estándar. Por tanto, x−µ x−µ ≤ ) Fx (x) = P ( σ σ   x−µ Fx (x) = P z ≤ σ   x−µ Fy (y) = Φ σ Luego, tenemos que P (x0 < x < x1 ) = Fx(x1 ) − F x (x0 )   x1 − µ x0 − µ = Φ −Φ σ σ Por tanto, las probabilidades para una variable aleatoria normal pueden ser evaluadas en términos de las probabilidades de una variable aleatoria normal estándar. Por ejemplo: Los puntajes en un test de inteligencia están, aproximadamente, normalmente distribuidos donde la media es µ = 100 y la desviación estándar es σ = 15. Si evaluamos el test sobre un número grande de personas, la función de distribución discreta puede ser representada por una función de distribución continua. Si una persona es seleccionada al azar, cuál es la probabilidad que su puntaje x cumpla 120 < x < 130. La probabilidad puede ser calculada utilizando la distribución de probabilidad normal estándar:   x − 100 130 − 100 120 − 100 < < P (120 < x < 130) = P 15 15 15 = P (1,33 < z < 2) 76 Donde z sigue una distribución normal estándar. Luego, por la tabla de la distribución normal estándar P (1,33 < x < 2) = Φ(2) − Φ(1,33) = 0,9772 − 0,9082 = 0,069 Por tanto, podemos concluir que, aproximadamente el 7 % de la población tendrá un puntaje en este rango. De forma general, se tiene que, si x se distribuye de forma normal con parámetros µ y σ, su función de distribución es: Z x 1 2 2 F (x) = √ e−(v−µ) /2σ dv σ 2π −∞ La función de distribución de una variable aleatoria normal estándar viene dada por: Z z Z z 1 1 1 2 −u2 /2 √ √ e du = + e−u /2 du F (z) = 2 2π −∞ 2π 0 6.2.4. Aproximación normal de las probabilidades binomiales Recuerde que un experimento binomial consiste en una serie de n ensayos idénticos e independientes, habiendo para cada ensayo dos resultados posibles, éxito o fracaso. La probabilidad de éxito en un ensayo es la misma que en cualquier otro de los ensayos y se denota p. La variable aleatoria binomial es el número de éxitos en n ensayos y lo que se quiere saber es la probabilidad de x éxitos en n ensayos. En los casos en que np ≥ 5 y n(1 − p) ≥ 5, la distribución normal proporciona una aproximación a las probabilidades binomiales que es fácil de usar. Al utilizar la aproximación normal de una distribución binomail, tenemos que p µ = np y σ = np(1 − p) Por ejemplo: Supongamos que una empresa sabe que el 10 % de sus facturas tiene algún error. Al tomar 100 facturas al azar, desea calcular la probabilidad de que 12 de estas facturas tengan algún error. Es decir, hallar la probabilidad binomial de 12 éxitos en 100 ensayos. Al aplicar la aproximación normal se tiene que µ = np = (100)(0,1) = 10 y σ = p (100)(0,1)(0,9) = 3. Sabemos que la probabilidad que tiene un solo valor de una variable aleatoria continua es cero. Por tanto, para aproximar la probabilidad binomial de 12 éxitos se calcula el área bajo la curva normal de 12 ± 5; esto es, entre 11.5 y 12.5. Al 0,5 que se suma y se resta al 12 se le conoce como factor de corrección por continuidad. Este factor se introduce debido a que se está usando una distribución continua para aproximar una distribución discreta. 77 Por tanto, P (x = 12) de una distribución binomial discreta se aproxima mediante P (11,5 ≤ x ≤ 12,5) en una distribución normal continua. Luego, tenemos que: z1 = x1 − µ 12,5 − 10,0 = = 0,83 para σ 3 x = 12,5 z0 = x0 − µ 11,5 − 10,0 = = 0,5 σ 3 x = 11,5 para Según la tabla de probabilidad normal estándar P (z ≤ 0,83) = 0,7967 y P (z ≤ 0,5) = 0,6915. Luego, 0,7967 − 0,6915 = 0,1052. En conclusión, la probabilidad normal de obtener 12 facturas erroneas en 100 ensayos al azar es de 10.52 %. 6.2.5. Distribución de probabilidad exponencial Se define como f (x) = 1 −x/µ e para x ≥ 0 , µ > 0 µ Al igual que la distribución de Poisson, la distribución de probabilidad exponencial depende de un solo parámetro µ > 0. Se aplica a variables que miden tiempo o distancia. Por ejemplo, las llegadas de automóviles a un lavado de autos, los tiempos requeridos para cargar un camión o las distancias entre dos estaciones de bencina en una carretera. Mientras mayor sea el valor esperado, más fuerte cae 78 el la función de densidad. La distribución exponencial es sesgada a la derecha. La medida del sesgo en la distribución exponencial es 2. Donde, µ = 0,5 (solida), µ = 1 (punteada) y µ = 2 (discontinua) Por ejemplo: Suponga que x representa el tiempo que se necesita para cargar un camión en un área de carga, y que este tiempo de carga sigue una distribución exponencial. Si el tiempo de carga medio o promedio es 15 minutos (µ = 15), la función de densidad de probabilidad apropiada para x es f (x) = 1 −x/15 e 15 El área bajo la curva corresponde a un intervalo de la probabilidad de que la variable aleatoria tome algún valor. Por ejemplo: La probabilidad de cargar un camión en 6 minutos o menos P (x ≤ 6) está definida como el área bajo la curva que va desde x = 0 hasta x = 6. Por ejemplo: La probabilidad de que el tiempo de carga esté entre 6 y 18 minutos P (6 ≤ x ≤ 18) corresponde al área bajo la curva desde x = 6 hasta x = 18. La probabilidad de la distribución exponencial se calcula de la siguiente forma: P (x ≤ x0 ) = 1 − e− x0/µ Esta fórmula aporta la probabilidad acumulada de obtener un valor de la variable aleatoria exponencial que sea menor o igual que algún valor especı́fico denotado por x0 . En el ejemplo del área de carga, si x = “tiempo de carga en minutos” y µ = 15 minutos, entonces P (x ≤ x0 ) = 1 − e− 79 x0/15 Por tanto, la probabilidad de cargar un camión en x0 = 6 minutos es P (x ≤ 6) = 1 − e− /15 = 0,3297 = 32,97 % 6 La distribución exponencial tiene la propiedad de que la media de la distribución y la desviación estándar de la distribución son iguales. Por tanto, la desviación estándar del tiempo que se necesita para cargar un camión es σ = 15 minutos y la varianza es σ 2 = (15)2 = 225. 6.2.6. Relación entre la distribución de Poisson y la distribución exponencial La distribución de probabilidades de Poisson permite calcular probabilidades discretas que se usa para examinar el número de ocurrencias de un evento en un determinado intervalo de tiempo o de espacio. µx e−µ f (x) = x! Si la distribución de Poisson da una descripción del número de ocurrencias por intervalo, la distribución exponencial aporta una descripción de la longitud de los intervalos entre las ocurrencias. Por ejemplo, suponga que el número de autos que llegan a un lavado durante una hora se describe mediante la distribución de probabilidad de Poisson, con una media de 10 automóviles por hora. Dado que el número promedio de llegadas es 10 autos por hora, el tiempo promedio entre las llegadas de los autos es 1 hora = 0,1 hora/auto 10 autos Luego, la distribución exponencial que describe el tiempo entre las llegadas tiene una media de µ = 0,1 por auto; la función de densidad de probabilidades exponencial es f (x) = 1 −x/0,1 e = 10e10x 0,1 80 7. Estimadores Un estimador es un estadı́stico (una función de la muestra) que resume la información de una variable aleatoria, usado para estimar un parámetro desconocido de la población. Para cada parámetro pueden existir varios estimadores diferentes. En general, escogeremos el estimador que posea mejores propiedades. El valor que un estimador proporciona se denomina estimación puntual del valor del parámetro en estudio. Las propiedades de un estimador son: 1. Sesgo: Diferencia entre la esperanza (o valor esperado) del estimador y el verdadero valor del parámetro a estimar. Es deseable que un estimador sea insesgado; su esperanza igual al parámetro que se desea estimar.   1 Pn E[x̄] = E xi n i=1 1 Pn E [ i=1 xi ] = n 1 Pn = E [xi ] n i=1 1 Pn µ = n i=1 1 = nµ n E[x̄] = µ 2. Eficiencia: un estimador es más eficiente o más preciso que otro estimador, si la varianza del primero es menor que la del segundo. var(x̄) < var(ȳ) 3. Consistencia: Si no es posible emplear estimadores de mı́nima varianza, el requisito mı́nimo deseable para un estimador es que a medida que el tamaño de la muestra crece, el valor del estimador tienda a ser el valor del parámetro. E[x̄] → x cuando var(x̄) → 0 cuando n→∞ n→∞ 4. Robustez: El estimador θ̂ será un estimador robusto del parámetro θ si la violación de los supuestos de partida en los que se basa la estimación (normalmente, atribuir a la población un determinado tipo de función de distribución que, en realidad, no es la correcta), no altera de manera significativa los resultados que éste proporciona. Para estimar el valor de un parámetro poblacional, la caracterı́stica correspondiente se calcula con los datos de la muestra, a lo que se le conoce como estadı́stico muestral. En general, se suele preferir realizar una estimación mediante un intervalo, esto es, obtener un intervalo [a, b] dentro del cual se espera esté el valor real del parámetro con un cierto nivel de confianza. Utilizar un intervalo resulta más informativo, al proporcionar información sobre el posible error de estimación, asociado con la amplitud de dicho intervalo. El nivel de confianza es la probabilidad de que a priori el verdadero valor 81 del parámetro quede contenido en el intervalo. Por ejemplo, para estimar la media poblacional µ y la desviación estándar poblacional σ de xi = los salarios anuales de los trabajadores de una empresa, con una muestra de n = 30, se tiene que: Le media P 1554420 xi = = 51814 µ̂ = n 30 La desviación estándar sP r 325,009,260 (xi − x̄)2 = = 3348 σ̂ = n−1 29 La proporción de trabajadores que ha terminado la capacitación x 19 = = 0,63 n 30 Al hacer los cálculos anteriores, se lleva a cabo el proceso estadı́stico conocido como estimación puntual. p̂ = 8. Técnicas de Muestreo “Una encuesta un método sistemático para recolectar información de una muestra de elementos con el propósito de describir cuantitativamente los atributos de una población, de la cual los elementos son miembros.” (Groves et al, 2010) En algunos casos, al realizar un estudio, es posible conocer toda la población que se requiere analizar; por ejemplo en una empresa. Sin embargo, este tipo de casos es una excepción. Por ejemplo, en un estudio de opinión a nivel nacional o regional, es necesario obtener una muestra para realizar las encuestas. La forma en que se escoja la muestra va a determinar la capacidad de estimación del estadı́stico. Un error se entiende como la desviación de los valores esperados E[x]. En el contexto de las encuestas, los errores son las desviaciones de los verdaderos valores de la población objetivo. Un estadı́stico muestral busca realizar una estimación de un parámetro poblacional. Todos los elementos de la población poseen una probabilidad de ser seleccionados conocida y diferente de 0. Las probabilidades no necesariamente son iguales. Si los elementos son seleccionados mediante procedimientos aleatorios, entonces es posible cuantificar el error de las estimaciones de los parámetros poblacionales. Por ejemplo, el error absoluto según tamaño muestra, para una población de tamaño 10.000 serı́a el siguiente: 8.1. 8.1.1. Muestreo aleatorio simple Población finita Una muestra aleatoria simple de tamaño n de una población finita de tamaño N es una muestra seleccionada de manera que cada posible muestra de tamaño n tenga la misma probabilidad de ser seleccionada. El investigador no define qué elementos entran en la muestra y cuales no. Menor sesgo de selección. n =f πi = N Por ejemplo, para seleccionar una muestra mediante MAS: 82 1. A cada elemento del marco muestral se le debe asignar un número de 1 a N . 2. Seleccionar números aleatorios desde una lista o software, los cuales, una vez ordenados, nos permitirán identificar a los elementos seleccionados. 3. En caso que se repitan los números seleccionados, se debe seleccionar más casos hasta tener n únicos casos (MAS sin reemplazo). El muestreo puede ser sin reemplazo, donde se escoge una unidad al azar y se descarta de la población, para evitar ser escogida nuevamente. O bien, puede ser un muestre con reemplazo, donde se selecciona una muestra en la que se acepten números aleatorios ya usados, y una unidad puede ser escogida más de una vez. Muestrear con reemplazo es una forma válida de identificar una muestra aleatoria simple. Sin embargo, el muestreo sin reemplazo es el procedimiento de muestreo más usado. Cuando se habla de muestreo aleatorio simple (MAS), se asumirá que el muestreo es sin reemplazo. 8.1.2. Población infinita En algunas situaciones la población o bien es infinita o tan grande que, para fines prácticos, se considera infinita. Por ejemplo, suponga que un minimarket desea obtener el perfil de sus clientes seleccionando una muestra aleatoria de los mismos y pidiéndole a cada cliente que llene un breve cuestionario. En tales situaciones, el proceso continuo de clientes que visitan el minimarket puede verse como que los clientes provienen de una población infinita. Una muestra aleatoria simple (MAS) de una población infinita es una muestra seleccionada de manera que se satisfacen dos condiciones: 1. Cada uno de los elementos seleccionados proviene de la población. 2. Cada elemento se selecciona independientemente. 83 La selección de los elementos de manera independiente evita un sesgo en la selección que dé mayores probabilidades de selección a ciertos tipos de elementos. El sesgo de selección es un error sistemático con un sentido definido y predecible, ya que no depende del azar, sino de una causa definida. Su presencia provoca falta de validez y exactitud interna del estudio, por lo que sus conclusiones son erróneas. Existen tres tipos de sesgo de selección. Estos son: Sesgo de inclusión: la probabilidad de que un sujeto se incluya en un estudio está ligada a alguno de los factores a estudiar. Muestreo por azar o sin los criterios a estudiar. Por ejemplo, selección en hospitales de sujetos de estudio de una determinada enfermedad con factores de riesgo ligados al estudio. Autoselección: la decisión de participar en relación con el objetivo de estudio. La gente se autoselecciona. Pérdidas: de unidades de estudio durante el tiempo de estudio y pueden representar determinadas caracterı́sticas condicionantes. Habrı́a un sesgo de selección, por ejemplo, si cinco clientes consecutivos que se seleccionaran fueran amigos. Es de esperar que estos clientes tengan perfiles semejantes. Dichos sesgos se evitan haciendo que la selección de un cliente no influya en la selección de cualquier otro cliente. El número de muestras aleatorias simples distintas de tamaño n que pueden seleccionarse de una población finita de tamaño N es N! CnN = n!(N − n)! Por ejemplo: si N = 2500 y n = 30 se pueden tomar 2,75 × 1069 muestras aleatorias simples distintas. ¿Cuándo es conveniente realizar un MAS? ¿Es una encuesta la mejor forma de obtener información? Una muestra disminuye la cantidad de datos que se requieren y los recursos para recolectarlos y analizarlos. Quizás es posible con trabajar con datos administrativos o registros. 8.1.3. Distribuciones Muestrales La distribución teórica de un estadı́stico (por ejemplo, la media) en todas las muestras de tamaño n posibles de obtener de una población N , permite conocer la probabilidad asociada al valor que asume el estadı́stico en una muestra determinada. Si se toman múltiples muestras aleatorias (muestras repetidas) de una variable poblacional, la distribución de la media muestral tenderá a una distribución normal. De esta forma, se puede demostrar que la media muestral es un buen estimador de la media poblacional y realizar inferencias. Suponga que al escoger otra muestra de 30 trabajadoras, diferentes a los anteriores, las estimaciones puntuales arrojan que µ̂ = 52670 y p̂ = 0,7. Es de esperar que una muestra de 30 trabajores diferentes dé resultados diferentes. Una variable aleatoria es una descripción numérica del resultado de un experimento. Si el proceso de seleccionar una muestra aleatoria simple se considera como un experimento, la media muestral µ̂ es el valor numérico del resultado de ese experimento. Entonces, como ocurre con otras variables aleatorias, 84 µ̂ tiene una media o valor esperado, una desviación estándar y una distribución de probabilidad. Como los distintos valores que toma son resultado de distintas muestras aleatorias simples, a la distribución de probabilidad de se le conoce como distribución muestral de µ̂. Conocer esta distribución muestral y sus propiedades permitirá hacer declaraciones de probabilidad de qué tan cerca está la media muestral de la media poblacional. Mediante un histograma es posible observar la forma que tomarı́a una distribución; por ejemplo si µ̂ se distribuyera de forma normal. 8.1.4. Distribución Muestral de µ̂ La media muestral es una variable aleatoria que a su distribución de probabilidad se le llama distribución muestral de µ̂. La distribución muestral de µ̂ es la distribución de probabilidad de todos los valores de la media muestral µ̂. La media de la variable aleatoria es el valor esperado de µ̂. Sea E[µ̂] el valor esperado de y µ la media de la población de la que se selecciona una muestra aleatoria simple. Se puede demostrar que cuando se emplea el muestreo aleatorio simple, E[µ̂] y µ son iguales. Usando el muestreo aleatorio simple (MAS), el valor esperado o media de la distribución muestral de es igual a la media de la población. Cuando el valor esperado de un estimador puntual es igual al parámetro poblacional, se dice que el estimador puntual es insesgado. Por tanto, E[µ̂] = µ es un estimador insesgado. Es posible demostrar que usando el muestreo aleatorio simple, la desviación estándar depende de si la población es finita o infinita. r   σ N −n √ para una población finita σ̂x̄ = N −1 n σ para una población infinita σ̂x̄ = √ n Donde σ̂x̄ σ̂ n N = = = = desviación estándar de x̄ desviación estándar de la población tamaño de la muestra tamaño de la población q −n A N N −1 se le conoce como factor de corrección para una población finita. En muchas de las situaciones prácticas de muestreo, se encuentra que aunque la población sea finita, es “grande”, mientras que el tamaño de la muestra es “pequeña”. En estos casos el factor de corrección para una población finita es casi igual a 1. Entonces, el cálculo para poblaciones infinitas es una buena aproximación a la desviación estándar de µ̂, aún cuando la población sea finita, y el tamaño de la muestra sea menor o igual a 5 % del tamaño de la población; es decir n/N ≤ 0,05. A la desviación estándar σ̂µ del estimador de µ, µ̂, también se le conoce como error estándar de la media. Aunque, de forma general, Error estándar (x) = σ̂ 2 s2 = n n En general, el término Error Estándar se refiere a la desviación estándar de un estimador puntual respecto del parámetro poblacional. El valor del error estándar de la media ayuda a determinar qué 85 tan lejos puede estar la media muestral de la media poblacional. Por ejemplo: Sea N = 2500, n = 30 y σ = 4000, se tiene que n/N = 30/2500 = 0,012. Como el tamaño de la muestra es mayor que el 5 % del tamaño de la población, se puede ignorar el factor de corrección para la población finita y calcular el error estándar como 4000 σ σx̄ = √ = √ = 730,3 n 30 El paso final en la identificación de las caracterı́sticas de la distribución muestral de µ̂ es determinar la forma de la distribución muestral. a La población tiene distribución normal: En muchas situaciones es razonable suponer que la población de la que se seleccionó la muestra aleatoria simple tenga distribución normal o casi normal. Cuando la población tiene distribución normal, la distribución muestral de µ̂ está distribuida normalmente sea cual sea el tamaño de la muestra. b La población no tiene distribución normal: Cuando la población de la que se tomó la muestra aleatoria simple no tiene distribución normal, el teorema central del lı́mite ayuda a determinar la forma de la distribución muestral de µ̂. El enunciado del teorema central del lı́mite aplicado a la distribución muestral de µ̂ dice lo siguiente. “Cuando se seleccionan muestras aleatorias simples de tamaño n de una población, la distribución muestral de la media muestral µ̂ puede aproximarse mediante una distribución normal en la medida que el tamaño de la muestra se hace grande.” En la mayorı́a de los casos, la distribución muestral de µ̂ se puede aproximar mediante una distribución normal siempre que la muestra sea de tamaño 30 o mayor; n ≥ 30. En los casos en que la población es muy sesgada o existen observaciones atı́picas, pueden necesitarse muestras de tamaño 50; n ≥ 50. Si la población es discreta, el tamaño de muestra necesario para la aproximación normal suele depender de la proporción poblacional; p. Si la población tiene una distribución normal, la distribución muestral de µ̂ estará distribuida normalmente. Por ejemplo: Si la población no tiene una distribución normal, la muestra aleatoria simple de 30 trabajadores y el teorema central del lı́mite permiten concluir que la distribución muestral de µ̂ puede aproximarse mediante una distribución normal. Por ejemplo: El gerente de recursos humanos desea conocer la probabilidad de que la media muestral obtenida usando una muestra aleatoria simple de 30 trabajadores, se encuentre a más o menos de $500 de la media poblacional. Para responder esta pregunta, asumimos que µ̂ se distribuye de forma normal. Como la media poblacional es $51.800, el gerente de personal desea saber cuál es la probabilidad de que esté entre $51.300 y $52.300. Es decir, calculamos la probabilidad de que µ̂ se encuentre en el intervalo que va de $51.300 hasta $52.300. Primero, se calcula el valor de z en el extremo superior de este intervalo ($52.300) y se usa la tabla para hallar el área bajo la curva a la izquierda de ese punto (área hacia la cola izquierda). Después, se calcula el valor de z en el extremo inferior de este intervalo ($51.300) y se usa la tabla para hallar el área bajo la curva a la izquierda de este punto (otra área hacia la cola izquierda). P (51,300 ≤ x̄ ≤ 52,300) = P (z ≤ 0,68) − P (z ≤ −0,68) 86 En µ̂ = 52,300 se tiene que z= 52300 − 51800 = 0,68 730,3 En la tabla de probabilidad normal estándar la probabilidad acumulada (área a la izquierda de z = 0.68) es 0.7517. En µ̂ = 51,300 se tiene que 51300 − 51800 z= = −0,68 730,3 El área bajo la curva a la izquierda de z = -0.68 es 0.2483. Por tanto, P (51,300 ≤ x̄ ≤ 52,300) = P (z ≤ 0,68) − P (z ≤ −0,68) = 0,7517 − 0,2483 = 0,5034. Hay una probabilidad de 0.5034 de que, con una muestra aleatoria simple de 30 trabajadores, se obtenga una media muestral µ̂ que esté a más o menos de $500 de la media poblacional. Por tanto, la probabilidad de que la diferencia entre µ̂ y µ = 51,800 sea superior a $500 es 1 − 0,5034 = 0,4966. Relación entre el tamaño de la muestra y la distribución muestral de µ̂ La media de todos los valores posibles de µ̂ es igual a la media poblacional µ independientemente del √ tamaño n de la muestra; E[µ̂] = µ. El error estándar de la media, σ̂µ = σ/ n, está relacionado con la raı́z cuadrada del tamaño de la muestra. Siempre que el tamaño de la muestra aumente, el error estándar de la media σ̂µ disminuirá. Por ejemplo: Si N = 2500, n = 30 y σ = 4000, se tiene que n/N = 30/2500 = 0,012. 4000 σ σ̂µ = √ = √ = 730,3 n 30 Si n = 100, entonces σ 4000 = 400 σ̂µ = √ = √ n 100 87 Con un error estándar más pequeño, habrá menos variación entre los valores de µ̂ y éstos tenderán a estar más cerca de la media poblacional. Como la distribución muestral es normal, su media es de $51800, el error estándar de la media es 400, se emplea la tabla de probabilidad normal estándar para hallar el área o la probabilidad. Para calcular la probabilidad de que una muestra aleatoria de 100 trabajadores que no difiera de los $500 de la media poblacional: z= 51300 − 51800 52300 − 51800 = 1,25 z = = −1,25 400 400 88 8.1.5. Distribución muestral de p̄ La proporción muestral p̄ es el estimador puntual de la porporción poblacional p. p̄ = x n Donde x es el número de elementos de la muestra que poseen la caracterı́stica de interés, y n es el tamaño de la muestra. Qué tan cerca está la proporción muestral p̄ de la proporción poblacional p. El valor esperado de p̄ es la media de todos los posibles valores de p̄ y es igual a la proporción poblacional. E[p̄] = p Como E[p̄] = p, p̄ es un estimador insesgado de de p. La desviación estándar depende de si la población es finita o infinita: r r N − n p(1 − p) para población finita σp̄ = N −1 n r p(1 − p) σp̄ = para población infinita n Si la población es finita y n/N ≤ 0,05, entonces es posible usar la formula para la población infinita. 8.2. Otras técnicas probabilı́sticas de muestreo Los elementos seleccionados de una población tienen una probabilidad conocida de ser incluidos en la muestra. La ventaja del muestreo probabilı́stico es que, por lo general, se identifica la distribución muestral del estadı́stico muestral correspondiente. Para determinar las propiedades de la distribución muestral se usa el muestreo aleatorio simple (MAS). La distribución muestral permite hacer afirmaciones probabilı́sticas acerca del error al usar los resultados muestrales para hacer inferencias acerca de la población. Se recomienda usar métodos de muestreo probabilı́stico. Si se usan estos métodos existen fórmulas para evaluar la “bondad” de los resultados muestrales en términos de la cercanı́a de los resultados a los parámetros poblacionales que se estiman. Generalmente el MAS no es viable en la recolección de datos, por lo que se introducen más elementos al diseño de la muestra, como lo son los estratos, conglomerados (clusters) y factores de expansión. Al introducir estos elementos, los cálculos en las varianzas (o errores tı́picos) difieren en comparación al MAS. Estos diseños son llamados muestras complejas. El efecto de los elementos del diseño de muestras complejas sobre los errores estándar de una proporción se puede observar a continuación. 8.2.1. Muestreo aleatorio estratificado El uso del muestreo estratificado aumenta la precisión de las estimaciones (generalmente reduce la varianza). Los elementos de la población primero se dividen en grupos, a los que se les llama estratos, de manera que cada elemento pertenezca a uno y sólo un estrato; son excluyentes entre sı́. Deben ser homogéneos dentro de si, y heterogéneos entre ellos. La variable de estratificación debe 89 estar relacionada con la variable medida. Se puede utilizar más de una variable de estratificación. No obstante ambas deben estar relacionadas con la variable de interés, pero no debiesen estar asociadas entre si. Los estratos pueden ser, por ejemplo, región, edad, tipo de industria. Una vez formados los estratos, se toma una muestra aleatoria simple de cada estrato. El valor del muestreo aleatorio estratificado depende de qué tan homogéneos sean los elementos dentro de cada estrato. Si los elementos de un estrato son homogéneos, el estrato tendrá una varianza pequeña. Con muestras relativamente pequeñas de los estratos se obtienen buenas estimaciones de las caracterı́sticas de los estratos. Si los estratos son homogéneos, el muestreo aleatorio estratificado, proporciona resultados tan precisos como los de un muestreo aleatorio simple, pero con una muestra de tamaño total menor. 90 ¿Por qué usar estratificación? 1. Queremos lograr que ciertos grupos estén incluidos en la muestra (en teorı́a, un MAS podrı́a contener sólo elementos de un sexo). 2. Precisión para subgrupos de interés (variables independientes). 3. Mejor control de gastos en torno a la recolección de datos. 4. Mayor precisión en las estimaciones obtenidas mediante medias y proporciones La asignación de casos en cada estrato puede ser de dos formas: 1. Proporcional: considera el peso relativo de los elementos en cada estrato de la población, y replica dicho valor en la muestra. 2. No proporcional: No son autoponderadas y es necesario corregir para evitar sesgo por sobre y sub representación. Afijación Igual: Mismo número de elementos en cada estrato. Afijación óptima de varianza: Disminuir casos para minimizar varianza. Afijación óptima de costos: optimización de costos de muestreo. 8.2.2. Muestreo por conglomerados Los conglomerados son agrupaciones naturales de los elementos. Al contrario de los estratos, los elementos que componen al conglomerados son heterogéneos dentro de si, y similares entre si. Si todos los conglomerados son parecidos entre si, entonces resulta razonable sólo seleccionar alguno de ellos. No se requiere un marco que incluya a todos los elementos de la población, sino que el de agrupaciones previas. Tiene un impacto negativo en el nivel de precisión; aumenta la Varianza. Por ejemplo, un estudio busca analizar el consumo de drogas en alumnos de séptimo básico. En un colegio donde 91 existen tres cursos en séptimo básico, sólo se seleccionan los alumnos de un curso, ya que se piensa que el consumo de drogas es bien heterogéneo dentro de cada curso, pero el comportamiento entre cursos es similar, por lo que uno puede reflejar la realidad del resto. Cada elemento de la población pertenece a uno y sólo un conglomerado. Se toma una muestra aleatoria simple (MAS) de los conglomerados. La muestra está formada por todos los elementos dentro de cada uno de los conglomerados que forman la muestra. El muestreo por conglomerados tiende a proporcionar mejores resultados cuando los elementos dentro de los conglomerados no son semejantes. Lo ideal es que cada conglomerado sea una representación, a pequeña escala, de la población. Si todos los conglomerados son semejantes en este aspecto, tomando en la muestra un número pequeño de conglomerados se obtendrá una buena estimación de los parámetros poblacionales. Una de las principales aplicaciones del muestro por conglomerados es el muestreo de áreas, en el que los conglomerados son las manzanas de una ciudad u otras áreas bien definidas. El muestreo por conglomerados requiere, por lo general, tamaños de muestra mayores que los requeridos en el muestreo aleatorio simple o en el muestreo aleatorio estratificado. Es posible reducir costos debido a que cuando se envı́a a un entrevistador a uno de los conglomerados de la muestra (por ejemplo, a una manzana de una ciudad), es posible obtener muchas observaciones en poco tiempo. Se justifica realizar muestreo por conglomerado con submuestreo cuando un conglomerado contiene muchos elementos o si estos son similares entre sı́. Para referirse a las unidades de muestreo de cada etapa, se suelen utilizar los siguientes términos Unidad Primaria de Muestreo (UPM) Unidad Secundaria de Muestreo (USM) Unidad Terciaria de Muestreo (UTM) .. . Unidad Última de Muestreo (UUM) La selección de las submuestras se realizan en todos los conglomerados que constituyen las UPM. Por ejemplo, esta metodologı́a es utilizada por la Encuesta de Caracterización Socioeconómica (CESEN) y la encuesta CEP, entre otras. Por ejemplo: Etapa 0: Estratificación dela muestra Etapa 1: UPM: Selección de comunas • Probabilidad proporcional al tamaño • inclusión forzosa: Criterios para incluir comunas, es decir, probabilidad de inclusión = 1 Etapa 2: USM: Selección de manzanas Etapa 3: UTM: Selección aleatoria de viviendas Etapa 4: UUM: Selección aleatoria de integrantes al interior de la vivienda 92 8.2.3. Factor de expansión Cuando se diseñan muestras complejas, estos suelen ser diseños no proporcionales, con probabilidades de selección desiguales, y donde algunos grupos responden más que otros (no respuesta, sesgo de selección por autoselección). El factor de expansión busca corregir estas desviaciones para que los elementos tengan el peso que corresponde. El factor de expansión se refiere a la cantidad de personas que un elemento representa en la población. 8.3. 8.3.1. Técnicas no probabilı́sticas de muestreo Muestreo de conveniencia La muestra se determina por conveniencia. Los elementos se incluyen en la muestra sin que haya una probabilidad previamente especificada o conocida de que sean incluidos en la muestra. Por ejemplo: Un estudio de opinión o focus group sobre un pronducto; ¿la razón para elegirlos? Los sujetos se autoseleccionan y participarán como voluntarios a un costo bajo o sin costo. Es relativamente fácil seleccionar la muestra y recoger los datos. Sin embargo, es imposible evaluar la “bondad”de la muestra en términos de su representatividad de la población. 8.3.2. Muestreo subjetivo En este método la persona que más sabe sobre un asunto selecciona elementos de la población que considera los más representativos de la población. Este método suele ser una manera relativamente fácil de seleccionar una muestra. Por ejemplo: un periodista puede seleccionar dos o tres senadores considerando que estos senadores reflejan la opinión general de todos los senadores. Sin embargo, la calidad de los resultados muestrales depende de la persona que selecciona la muestra. No siempre es posible realizar conclusiones generales sobre la población. 93 9. Ejercicios Estadı́stica Descriptiva 1. A continuación se presenta información de las ventas y los beneficios (en MM$) obtenidos por una muestra de 17 empresas de consumo masivo. Qué conclusión puede obtener respecto de la relación entre las ventas y los beneficios. Justifique su respuesta con los estadı́sticos pertinentes. Empresas SanCor Coca-Cola Knorr Quilmes Arcor Tang Carozzi Lucchetti Nescafe Danone Bimbo Maggi Omo Elite IncaKola Pepsi Lipton Ventas Beneficios 1.23 13.21 6.86 9.02 6.28 10.25 9.85 4.20 10.19 7.73 5.27 5.48 1.79 4.60 3.82 12.24 6.44 31.3 18.1 9.0 379.4 503.0 14.8 55.4 71.0 115.1 42.3 96.1 912.1 103.8 567.5 212.8 128.9 171.5 94 Respuesta: i Ventas Beneficios (xi − x̄) (yi − ȳ) (xi − x̄)2 (yi − ȳ)2 (xi − x̄)(yi − ȳ) SanCor Coca-Cola Knorr Quilmes Arcor Tang Carozzi Lucchetti Nescafe Danone Bimbo Maggi Omo Elite IncaKola Pepsi Lipton P 1.23 13.21 6.86 9.02 6.28 10.25 9.85 4.20 10.19 7.73 5.27 5.48 1.79 4.60 3.82 12.24 6.44 31.3 18.1 9.0 379.4 503.0 14.8 55.4 71.0 115.1 42.3 96.1 912.1 103.8 567.5 212.8 128.9 171.5 -5.74 6.24 -0.11 2.05 -0.69 3.28 2.88 -2.77 3.22 0.76 -1.70 -1.49 -5.18 -2.37 -3.15 5.27 -0.53 -170.59 -183.79 -192.89 177.51 301.11 -187.09 -146.49 -130.89 -86.79 -159.59 -105.79 710.21 -98.09 365.61 10.91 -72.99 -30.39 32.93 38.96 0.01 4.21 0.47 10.77 8.30 7.66 10.38 0.58 2.88 2.21 26.81 5.61 9.91 27.79 0.28 29100.35 33778.12 37205.87 31510.43 90668.29 35002.01 21458.80 17131.73 7532.20 25468.40 11191.15 504400.75 9621.30 133671.96 119.07 5327.28 923.44 978.8754325 -1147.16292 20.87731488 364.2123737 -207.2357439 -613.9795675 -422.1446263 362.3294325 -279.6112734 -121.5686851 179.6533149 -1056.962215 507.9239619 -865.8546851 -34.35280277 -384.7768028 16.05213841 189.78 994111.16 -2703.73 Ventas Media varianza Desviación estándar Covarianza Coeficiente de Correlación 6.97 11.86 3.44 Beneficios 201.89 62131.95 249.26 -168.98 -0.197 Debido a que el coeficiente de correlación entre las ventas y los beneficios es negativo, cuanto mayor sea el volumen de ventas, menor será nivel de beneficios. 95 2. A continuación se presenta dos variables, la “Tasa de desempleo” y la “Tasa impositiva”. Imagine que estos paı́ses son lo único que existen en el mundo, es decir, componen el 100 % de la población mundial. Con esta información, responda las preguntas. Paı́s Tasa de desempleo Tasa impositiva Alemania Austria Bélgica Canadá Dinamarca EEUU España Francia Grecia Holanda Irlanda Italia Japón Noruega Nueva Zelanda Portugal Suecia Suiza Reino Unido 2.6 5.6 7.3 7.9 6.4 6.6 10.6 6.4 5.5 5.2 10.4 8.4 2.4 2.7 3.3 5.8 2.4 0.8 6.0 0.8 0.4 0.9 0.5 1.0 0.4 0.5 0.9 0.6 0.9 0.6 0.6 0.3 1.0 0.5 0.5 1.1 0.4 0.5 a. Calcule la covarianza y el coeficiente de correlación entre la tasa de desempleo y la tasa de impositiva. 96 Respuesta: x̄g = ȳg = σxy = Paı́s Alemania Austria Bélgica Canadá Dinamarca EEUU España Francia Grecia Holanda Irlanda Italia Japón Noruega Nueva Zelanda Portugal Suecia Suiza Reino Unido P σx = σy = ρxy = √ N x1 x2 ...xN = √ y1 y2 ...yN P (xi − x̄)(yi − ȳ) N rP (xi − x̄)2 N rP (yi − ȳ)2 N σxy σx σy N = q Π1i=1 9xi q 19 Π1i=1 9yi 19 −0,616 19 r 145,009 = 19 r 1,154 = 19 −0,0324 = (2,7635)(0,2464) = = 4,7944 = 0,6018 = −0,0324 = 2,7635 = 0,2464 = −0,0476 Tasa de desempleo Tasa impositiva (xi − x̄) (yi − ȳ) (xi − x̄)2 (yi − ȳ)2 (xi − x̄)(yi − ȳ) 2.6 5.6 7.3 7.9 6.4 6.6 10.6 6.4 5.5 5.2 10.4 8.4 2.4 2.7 3.3 5.8 2.4 0.8 6.0 0.8 0.4 0.9 0.5 1.0 0.4 0.5 0.9 0.6 0.9 0.6 0.6 0.3 1.0 0.5 0.5 1.1 0.4 0.5 -2.2 0.8 2.5 3.1 1.6 1.8 5.8 1.6 0.7 0.4 5.6 3.6 -2.4 -2.1 -1.5 1.0 -2.4 -4.0 1.2 0.2 -0.3 0.3 -0.1 0.4 -0.2 -0.1 0.2 0.0 0.3 0.0 0.0 -0.3 0.4 -0.1 -0.2 0.5 -0.2 -0.1 4.815 0.649 6.278 9.645 2.578 3.260 33.705 2.578 0.498 0.165 31.423 13.000 5.733 4.387 2.233 1.011 5.733 15.955 1.453 0.039 0.063 0.072 0.005 0.159 0.041 0.017 0.062 0.001 0.083 0.000 0.000 0.085 0.183 0.020 0.023 0.248 0.045 0.007 -0.4349 -0.2028 0.6720 -0.2230 0.6393 -0.3644 -0.7652 0.3985 0.0199 0.1169 0.0460 0.0656 0.6987 -0.8968 0.2119 -0.1526 -1.1929 0.8460 -0.0986 145.099 1.154 -0.616 97 b. Considerando sólo el subconjunto de paı́ses europeos, calcule la covarianza y el coeficiente de correlación entre la tasa de desempleo y la tasa de impositiva. Respuesta: x̄g = √ n ȳg = √ n σxy = Paı́s Alemania Austria Bélgica Dinamarca España Francia Grecia Holanda Irlanda Italia Noruega Portugal Suecia Suiza UK P σx = σy = ρxy = x1 x2 ...xn = y1 y2 ...yn P (xi − x̄)(yi − ȳ) n−1 rP (xi − x̄)2 n−1 rP (yi − ȳ)2 n−1 σxy σx σy = q Π1i=1 5xi q 15 Π1i=1 5yi 15 = 4,8738 = 0,6637 −1,867 15 − 1 r 122,069 = 15 − 1 r 0,868 = 15 − 1 −0,1333 = (2,9528)(0,2490) = = −0,1333 = 2,9528 = 0,2490 = −0,1814 Tasa de desempleo Tasa impositiva (xi − x̄) (yi − ȳ) (xi − x̄)2 (yi − ȳ)2 (xi − x̄)(yi − ȳ) 2.6 5.6 7.3 6.4 10.6 6.4 5.5 5.2 10.4 8.4 2.7 5.8 2.4 0.8 6.0 0.8 0.4 0.9 1.0 0.5 0.9 0.6 0.9 0.6 0.6 1.0 0.5 1.1 0.4 0.5 -2.3 0.7 2.4 1.5 5.7 1.5 0.6 0.3 5.5 3.5 -2.2 0.9 -2.5 -4.1 1.1 0.1 -0.3 0.2 0.3 -0.2 0.2 0.0 0.2 -0.1 0.0 0.4 -0.2 0.4 -0.3 -0.1 5.170 0.527 5.886 2.329 32.789 2.329 0.392 0.106 30.538 12.434 4.726 0.858 6.120 16.596 1.268 0.019 0.098 0.043 0.113 0.038 0.035 0.001 0.051 0.003 0.002 0.134 0.046 0.190 0.075 0.021 -0.3100 -0.2278 0.5006 0.5133 -1.1089 0.2844 -0.0211 0.0738 -0.2965 -0.1539 -0.7964 -0.1979 -1.0794 1.1148 -0.1618 122.069 0.868 -1.867 98 c. Qué concluciones podemos extraer a partir del signo del coeficiente de correlación. Respuesta: El coeficiente de correlación de Pearson tiene signo negativo, por lo que podemos afirmar que la relación entre estas variables es negativa. Esto quiere decir que si la tasa de desempleo varı́a a la baja, la tasa impositiva varı́a al alza, o o bien, si la tasa impositiva varı́a a la baja, la tasa de desempleo varı́a al alza. El coeficiente de correlación no establece causalidad entre las variables. d. Qué conclusiones puede obtener al comparar los resultados de las preguntas 1 y 2. Respuesta: Al extraer una muestra correspondientes a los paı́ses europeos, es posible observar que la covarianza y el cofienciente de correlación aumentan. Este es, aumenta la variación conjunta de las variables, lo que implica que mejora la relación. Probabilidades 3. Una carta se extrae aleatoriamente de una baraja de 52 cartas. Denote como C, P, D y T las pintas de Corazón, Pica, Diamantes y Tréboles, y 1, 2, ...,10, 11, 12, 13 las cartas que van del as, dos, ..., diez, jota, reina, rey. Encontrar la probabilidad de que sea: a. Un as Respuesta: p(1) = P (1 ∩ C o 1 ∩ P o 1 ∩ D o 1 ∩ T ) = P (1 ∩ C) + P (1 ∩ P ) + P (1 ∩ D) + P (1 ∩ T ) 1 1 1 1 1 + + + = 52 52 52 52 13 También es posible poder llegar a este resultado si se piensa que cada pinta tiene 13 cartas y queremos escoger una de ellas. Luego, la probabilidad es 1/n, es decir 1/13 = b. Una jota de corazones Respuesta: P (11 ∩ C) = 1 52 c. Un tres de tréboles o un seis de diamantes Respuesta: P (3 ∩ T o 3 ∩ D) = P (3 ∩ T ) + P (6 ∩ D) = 99 1 1 1 + = 52 52 26 d. Un corazón Respuesta: P (C) = P (1 ∩ C o 2 ∩ C o · · · o 13 ∩ C) = 1 1 1 13 1 + + ··· + = = 52 52 52 52 4 e. Una carta de cualquier pinta excepto corazón Respuesta: P (C c ) = 1 − P (C) = 1 − 3 1 = 4 4 f. Un diez o una pica Respuesta: Puesto que 10 y P no son mutuamente excluyentes, tenemos que P (10 ∪ P ) = P (10) + P (P ) − P (10 ∩ P ) = 1 1 1 4 + − = 13 4 52 13 g. Sacar cualquier carta que no sea ni un cuatro ni un trébol. Respuesta: La probabilidad de no sacar un cuatro y no sacar un trébol puede denotarse como P (4c ∩T c ). Esto es equivalente a (4 ∪ T )c . Luego, P (4c ∩ T c ) = P [(4 ∪ T )c ] = 1 − P (4 ∪ T ) = 1 − [P (4) + P (T ) − P (4 ∩ T )]   1 1 1 9 = 1− + − = 13 4 52 13 4. El jefe de una estación de bencina sabe que el 80 % de los clientes pagan con tarjeta de crédito. ¿Cuál es la probabilidad de que los 2 siguientes clientes paguen con tarjeta? Sean: A = el evento el primer cliente paga con tarjeta de crédito B = el evento el segundo cliente paga con tarjeta de crédito El evento que interesa es A ∩ B. Es razonable pensar que A y B son eventos independientes. Por tanto, P (A ∩ B) = P (A)P (B) = (0,8)(0,8) = 0,64 5. La caja I contiene 3 bolas rojas y 2 azules y la caja II contiene 2 bolas rojas y 8 azules. Se lanza una moneda al aire. Si se obtiene cara se saca una bola de la caja I, y si se obtiene sello se saca una bola de la caja II. Hallar la probabilidad de sacar una bola roja. 100 Respuesta: Sea R el “evento sacar una bola roja” y I y II indican los eventos “escoger la caja I” y “escoger la caja II”.       2 3 1 2 1 + = P (R) = P (I)P (R | I) + P (II)P (R | II) = 2 3+2 2 2+8 5 Ejercicio: Suponga que tiene 3 urnas con bolas rojas y negras que se distribuyen de la siguientes forma. A : 3 bolas rojas y 5 bolas negras B : 2 bolas rojas y 1 bolas negra C : 2 bolas rojas y 3 bolas negras Si escogemos una bola al azar y resulta ser roja, ¿cuál es la probabilidad de que sea de la urna A? Sea: R : el evento de sacar una bola roja N : el evento de sacar una bola negra P (A | R) = = P (A)P (R | A) P (A)P (R | A) + P (B)P (R | B) + P (C)P (R | C) 1 3 1 3 1 · + 3 8 3 3 8 2 1 2 · + · 3 3 5 · = 0,26 = 26 % Variable Aleatoria Continua 6. Calcule la probabilidad de que z sea mayor o igual a 1. Respuesta: Esto es P (z ≤ 1). Según la tabla de probabilidades acumuladas en la distribución normal estándar, P (z ≤ 1) = 0,8413. 101                              7. Calcule P (−0,5 ≤ z ≤ 1,25)      Respuesta: Según la tabla de probabilidades acumuladas en la distribución normal estándar,  P (z ≤ 1,25) = 0,8944 y P (z ≤ −0,5) = 0,3085. Luego P (−0,5 ≤ z ≤ 1,25) = P (z ≤ 1,25) −      P (z ≤ −0,5) = 0,8944 − 0,3085 = 0,5859                               8. Calcule la probabilidad de que la variable aleatoria normal estándar se encuentre a no más de una desviación estándar de la media.  Respuesta: Esto es, P (−1 ≤ z ≤ 1). Según la tabla de probabilidades acumuladas en la       distribución normal estándar, P (z ≤ 1) = 0,8413 y P (z ≤ −1) = 0,1587. Luego P (−1 ≤ z ≤  1) = P (z ≤ 1) − P (z ≤ −1) = 0,8413 − 0,1587 = 0,6826 102 9. Calcule la probabilidad de tener un valor z por lo menos igual a 1.58. Respuesta: Esto es, P (z ≥ 1,58). Según la tabla de probabilidades acumuladas en la distribución normal estándar, P (z ≤ 1,58) = 0,9429. Cómo el área bajo la curva normal es 1, lo que nos interesa es 1 − P (z ≤ 1,58) = 1 − 0,9429 = 0,0571 10. Hallar un valor z tal que la probabilidad de obtener un valor z mayor sea 0.10. Respuesta: Este problema es la situación contraria a la presentada en los ejemplos anteriores, en ellos se dio el valor z y se halló la probabilidad o área correspondiente. En este ejemplo se da la probabilidad, o el área, y se pide hallar el valor correspondiente de z. La tabla de probabilidad normal estándar da el área bajo la curva a la izquierda de un determinado valor z. Se ha recibido la información de que el área en la cola superior (derecha) de la curva es 0.10. Por tanto, el área bajo la curva a la izquierda del valor desconocido de z debe ser 0.9000. Al recorrer el cuerpo de la tabla, se encuentra que 0.8997 es la probabilidad acumulada más cercana a 0.9000. El valor z más cercano a 0.9 es P (z ≤ 1,28) = 0,8997, luego, 0.10 es la probabilidad aproximada de que z sea mayor que 1.28. 103 11. suponga que se quiere calcular la probabilidad de 13 o menos facturas con errores en una muestra de 100 facturas. Respuesta: z= 13,5 − 10 = 1,17 3 En la tabla de probabilidad normal estándar se observa que el área bajo la curva normal estándar y a la izquierda de P (z ≤ 1,17) = 0,8790. Por tanto, la probabilidad de hallar, 13 o menos facturas erroneas es de un 87.9 % 12. Cuál es la probabilidad de cargar un camión entre 6 y 18 minutos. Respuesta: P (x ≤ 6) = 1 − e−6/15 = 0,3297 P (x ≤ 18) = 1 − e−18/15 = 0,6988 Luego, 0,6988 - 0,3297 = 0,3691 104 10. Anexo 10.1. Tabla normal estándar Tabla normal estándar (números positivos) z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9986 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9913 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 105 Tabla normal estándar (números negativos) z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 −3.0 −2.9 −2.8 −2.7 −2.6 −2.5 −2.4 −2.3 −2.2 −2.1 −2.0 −1.9 −1.8 −1.7 −1.6 −1.5 −1.4 −1.3 −1.2 −1.1 −1.0 −0.9 −0.8 −0.7 −0.6 −0.5 −0.4 −0.3 −0.2 −0.1 −0.0 0.0013 0.0019 0.0026 0.0035 0.0047 0.0062 0.0082 0.0107 0.0139 0.0179 0.0228 0.0287 0.0359 0.0446 0.0548 0.0668 0.0808 0.0968 0.1151 0.1357 0.1587 0.1841 0.2119 0.2420 0.2743 0.3085 0.3446 0.3821 0.4207 0.4602 0.5000 0.0013 0.0018 0.0025 0.0034 0.0045 0.0060 0.0080 0.0104 0.0136 0.0174 0.0222 0.0281 0.0351 0.0436 0.0537 0.0655 0.0793 0.0951 0.1131 0.1335 0.1562 0.1814 0.2090 0.2389 0.2709 0.3050 0.3409 0.3783 0.4168 0.4562 0.4960 0.0013 0.0018 0.0024 0.0033 0.0044 0.0059 0.0078 0.0102 0.0132 0.0170 0.0217 0.0274 0.0344 0.0427 0.0526 0.0643 0.0778 0.0934 0.1112 0.1314 0.1539 0.1788 0.2061 0.2358 0.2676 0.3015 0.3372 0.3745 0.4129 0.4522 0.4920 0.0012 0.0017 0.0023 0.0032 0.0043 0.0057 0.0075 0.0099 0.0129 0.0166 0.0212 0.0268 0.0336 0.0418 0.0516 0.0630 0.0764 0.0918 0.1093 0.1292 0.1515 0.1762 0.2033 0.2327 0.2643 0.2981 0.3336 0.3707 0.4090 0.4483 0.4880 0.0012 0.0016 0.0023 0.0031 0.0041 0.0055 0.0073 0.0096 0.0125 0.0162 0.0207 0.0262 0.0329 0.0409 0.0505 0.0618 0.0749 0.0901 0.1075 0.1271 0.1492 0.1736 0.2005 0.2296 0.2611 0.2946 0.3300 0.3669 0.4052 0.4443 0.4840 0.0011 0.0016 0.0022 0.0030 0.0040 0.0054 0.0071 0.0094 0.0122 0.0158 0.0202 0.0256 0.0322 0.0401 0.0495 0.0606 0.0735 0.0885 0.1056 0.1251 0.1469 0.1711 0.1977 0.2266 0.2578 0.2912 0.3264 0.3632 0.4013 0.4404 0.4801 0.0011 0.0015 0.0021 0.0029 0.0039 0.0052 0.0069 0.0091 0.0119 0.0154 0.0197 0.0250 0.0314 0.0392 0.0485 0.0594 0.0721 0.0869 0.1038 0.1230 0.1446 0.1685 0.1949 0.2236 0.2546 0.2877 0.3228 0.3594 0.3974 0.4364 0.4761 0.0011 0.0015 0.0021 0.0028 0.0038 0.0051 0.0068 0.0089 0.0116 0.0150 0.0192 0.0244 0.0307 0.0384 0.0475 0.0582 0.0708 0.0853 0.1020 0.1210 0.1423 0.1660 0.1922 0.2206 0.2514 0.2843 0.3192 0.3557 0.3936 0.4325 0.4721 0.0010 0.0014 0.0020 0.0027 0.0037 0.0049 0.0066 0.0087 0.0113 0.0146 0.0188 0.0239 0.0301 0.0375 0.0465 0.0571 0.0694 0.0838 0.1003 0.1190 0.1401 0.1635 0.1894 0.2177 0.2483 0.2810 0.3156 0.3520 0.3897 0.4286 0.4681 0.0010 0.0014 0.0019 0.0026 0.0036 0.0048 0.0064 0.0084 0.0110 0.0143 0.0183 0.0233 0.0294 0.0367 0.0455 0.0559 0.0681 0.0823 0.0985 0.1170 0.1379 0.1611 0.1867 0.2148 0.2451 0.2776 0.3121 0.3483 0.3859 0.4247 0.4641 106