Apuntes de Estudio Estadística

Pablo Cristi

Apuntes de Estudio Estadística

Pablo Cristi

2017

visibility

…

description

106 pages

link

1 file

Notas de clase en Estadística y Probabilidades

Apuntes de Estudio Estadı́stica Pablo Cristi Worm * 12 de diciembre de 2017 * Este documento corresponde a apuntes y notas de estudio. Cualquier error es responsabilidad del autor. [email protected] 1 Índice Página 1. Intruducción 4 2. Distribuciones de Frecuencia y Representaciones Gráficas 2.1. Variables Cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Variables Cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 16 3. Descripción 3.1. Medidas 3.2. Medidas 3.3. Medidas 3.4. Medidas . . . . 23 24 30 34 37 Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 41 42 46 5. Fenómenos aleatorios y Espacios de Probabilidad 5.1. Asignación de Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Propiedades de la Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 49 51 56 6. Distribución de probabilidades 6.1. Variables aleatoria discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1. Distribución de probabilidad discreta . . . . . . . . . . . . . . . . . . . 6.1.2. Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.3. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.4. Distribución de probabilidad binomial . . . . . . . . . . . . . . . . . . 6.1.5. Valor esperado y varianza de una distribución binomial . . . . . . . . 6.1.6. Distribución de probabilidad de Poisson . . . . . . . . . . . . . . . . . 6.1.7. Distribución de probabilidad hipergeométrica . . . . . . . . . . . . . . 6.2. Variables aleatoria continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1. Distribución de Probabilidad Uniforme . . . . . . . . . . . . . . . . . . 6.2.2. Distribución de Probabilidad Normal . . . . . . . . . . . . . . . . . . . 6.2.3. Función de Distribución . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.4. Aproximación normal de las probabilidades binomiales . . . . . . . . . 6.2.5. Distribución de probabilidad exponencial . . . . . . . . . . . . . . . . 6.2.6. Relación entre la distribución de Poisson y la distribución exponencial 58 59 59 60 61 62 66 67 68 71 72 73 75 77 78 80 Numérica de una Variable Estadı́stica de posición central . . . . . . . . . . . . . . de dispersión . . . . . . . . . . . . . . . . . de la forma de la distribución . . . . . . . . de asimetrı́a y curtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. Análisis bivariante: Medidas de Dependencia Estadı́stica y 4.1. Variables cualitativas: Ordinales y Nominales . . . . . . . . . 4.2. Variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . 4.3. Momentos de una variable aleatoria . . . . . . . . . . . . . . 7. Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 2 8. Técnicas de Muestreo 8.1. Muestreo aleatorio simple . . . . . . . . . 8.1.1. Población finita . . . . . . . . . . . 8.1.2. Población infinita . . . . . . . . . . 8.1.3. Distribuciones Muestrales . . . . . 8.1.4. Distribución Muestral de µ̂ . . . . 8.1.5. Distribución muestral de p̄ . . . . . 8.2. Otras técnicas probabilı́sticas de muestreo 8.2.1. Muestreo aleatorio estratificado . . 8.2.2. Muestreo por conglomerados . . . 8.2.3. Factor de expansión . . . . . . . . 8.3. Técnicas no probabilı́sticas de muestreo . 8.3.1. Muestreo de conveniencia . . . . . 8.3.2. Muestreo subjetivo . . . . . . . . . 9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 82 82 83 84 85 89 89 89 91 93 93 93 93 94 10.Anexo 105 10.1. Tabla normal estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 3 1. Intruducción La estadı́stica es la técnica que reúne datos, los analiza, los presenta y los interpreta. Muchas disciplinas adoptan la estadı́stica como herramienta para procesar, sintetizar y analizar información. En finanza, por ejemplo, el analista revisa diferentes datos financieros como la relación precio/ganancia y el rendimiento de los dividendos. Al comparar la información sobre una determinada acción con la información sobre el promedio en el mercado de acciones, el analista empieza a obtener conclusiones para saber si una determinada acción está sobre o subvaluada. En marketing, los estudio de mercado no son otra cosa que estudios estadı́sticos que resumen información sobre la demanda, el precio y el perfil de los consumidores. Los economistas suelen hacer pronósticos acerca del futuro de la economı́a o sobre algunos aspectos de la misma. Usan una variedad de información estadı́stica para hacer sus pronósticos. Por ejemplo, para pronosticar las tasas de inflación, emplean información estadı́stica sobre indicadores como el ı́ndice de precios al consumidor, la tasa de desempleo y la utilización de la capacidad de producción. Los datos Los datos son hechos, informaciones y cifras que se recogen, analizan y resumen para su presentación e interpretación. A todos los datos reunidos para un determinado estudio se les llama conjunto de datos para el estudio. Una variable es una caracterı́stica que toma valores diferentes en un conjunto de observaciones. En economı́a, por ejemplo, definimos la renta como una variable. Al hacerlo podemos estar pensando en los ingresos anuales de las familias de una región, en la que cada familia tendrá un volumen de ingresos distinto. Los valores encontrados para cada variable en cada uno de los elementos constituyen los datos. Al conjunto de mediciones obtenidas para un determinado elemento se le llama observación. El cuadro 1 muestra un ejemplo de base de datos o conjunto de datos. La primera fila muestra las variables; Paı́s, PIB, Tasa Desempleo, PISA (lectura) y Tasa de interés. Abajo de cada variable se muestran los valores para cada observación. En este caso, la unidad de análisis son los paı́ses. Cada variable tiene 10 observaciones. Escalas de medición La recolección de datos requiere alguna de las escalas de medición siguientes: nominal, ordinal, de intervalo o de razón. La escala de medición determina la cantidad de información contenida en el dato e indica la manera más apropiada de resumir y de analizar estadı́sticamente los datos. Cuando el dato de una variable es una etiqueta o un nombre que identifica un atributo de un elemento, se considera que la escala de medición es una escala nominal. Por ejemplo, la variable Paı́s, es una variable nominal. También pueden ser el sexo o el nombre de una persona o el identificador de una persona, como el RUT. Una escala de medición para una variable es ordinal si los datos muestran las propiedades de los datos nominales y además tiene sentido el orden o jerarquı́a de los datos. Por ejemplo, el resultado de la prueba PISA de lectura es un puntaje; a mayor puntaje, mejor desempeño. Este tipo de escala se común para los rankings o ı́ndices, donde se puede atribuir que un valor es mejor 4 Cuadro 1: Ejemplo Base de Datos Paı́s Canada Chile France Germany Japan Korea Mexico Spain United Kingdom United States PIB 44 23 41 47 38 34 17 34 41 56 Tasa Desempleo PISA (lectura) Tasa interés 6.9 6.2 10.4 4.6 3.4 3.6 4.3 22.1 5.3 5.3 527 459 499 509 516 517 423 496 498 497 1.5 4.5 0.8 0.5 0.3 2.3 5.9 1.7 1.9 2.1 201.1 046.2 004.7 998.6 401.0 569.5 779.9 712.6 779.4 066.0 que otro y permiten ordenar las unidades de observación. Una escala de medición para una variable es una escala de intervalo si los datos tienen las caracterı́sticas de los datos ordinales y el intervalo entre valores se expresa en términos de una unidad de medición fija. Los datos de intervalo siempre son numéricos. Por ejemplo, se pueden crear intervalos de edad que permiten clasificar los resultados, o las notas de satisfacción de un producto, donde por ejemplo, 1 y 2 son malo, 3 es regular y 4 y 5 son bueno. Una variable tiene una escala de razón si los datos tienen todas las propiedades de los datos de intervalo y la proporción entre dos valores tiene significado. Variables como distancia, altura, peso y tiempo usan la escala de razón en la medición. Esta escala requiere que se tenga el valor cero para indicar que en este punto no existe la variable. Por ejemplo, en el cuadro 1 la tasa de interés es una variable de razón. Clasificación de los datos Los datos también son clasificados en cualitativos y cuantitativos. Los datos cualitativos comprenden etiquetas o nombres que se usan para identificar un atributo de cada elemento. Éstos emplean la escala nominal o la ordinal y pueden ser numéricos o no. Los datos cuantitativos requieren valores numéricos que indiquen cuánto o cuántos. Éstos se obtienen usando las escalas de medición de intervalo o de razón. Una variable cualitativa es una variable con datos cualitativos. El análisis estadı́stico adecuado para una determinada variable depende de si la variable es cualitativa o cuantitativa. Si la variable es cualitativa, el análisis estadı́stico es bastante limitado. Tales datos se resumen contando el número de observaciones o calculando la proporción de observaciones en cada categorı́a cualitativa. Sin embargo, aun cuando para los datos cualitativos se use un código numérico, las operaciones aritméticas de adición, sustracción, multiplicación o división no tienen sentido. Por otro lado, las operaciones aritméticas sı́ tienen sentido en las variables cuantitativas. Por ejemplo, cuando se tienen variables cuantitativas, los datos se pueden sumar y luego dividir entre el número de observaciones para calcular el valor promedio. Este promedio suele ser útil y fácil de interpretar. En general hay más alternativas 5 para el análisis estadı́stico cuando se tienen datos cuantitativos. La distinción entre variables cuantitativas y cualitativas es importante desde el punto de vista estadı́stico porque las técnicas que pueden emplearse en uno u otro caso son diferentes. Existen tres formas de clasificar los datos en una base de datos. Los datos pueden ser de corte transversal y muestran una fotografı́a del momento. Por ejemplo, una encuesta de opinión a la salida del metro, refleja las preferencias de los usuarios del metro. Los datos se pueden clasificar una como una serie de tiempo. En este caso, se observa una variable a lo largo del tiempo. Por ejemplo, la evolución de la tasa de crecimiento del paı́s, o el valor de la UF es una serie de tiempo. En general, las serie de tiempo pueden medirse en dı́as, meses, trimestres, semestres y años. Una tercera clasificación es una combinación de las anteriores. Los datos de panel es un seguimiento de la misma unidad de análisis durante el tiempo. Por ejemplo, observar la evolución de la inflación en los paı́ses de la OECD por varios periodos consecutivos. La figura 1 muestra la serie de tiempo del PIB; el gráfico de la izquierda muestra el nivel del PIB expresado en millones de pesos chilenos, y el gráfico de la derecha muestra las variaciones del PIB respecto al mismo periodo del años anterior. Esta serie muestra datos trimestrales. Producto Interno Bruto Variación del PIB 1998q1 -5 15000000 20000000 PIB 25000000 Variacion del PIB r/a año anterio 0 5 10 30000000 Nivel del PIB 2002q3 2007q1 quarter 2011q3 2016q1 1998q1 2002q3 2007q1 quarter 2011q3 2016q1 Figura 1: Análisis gráfico del PIB Recolección de los datos Existen entidades que se dedican a la recolección de datos y realizan estudios de mercado y estudios de opinión. En Chile, el Centro de Estudios Públicos tiene la encuesta socioeconómica y de opinión polı́tica más importante del paı́s. Los organismos estatales también levantan información de la población. Por ejemplo el Instituto Nacional de Estadı́stica (INE) o el Banco Central. El Ministerio de Desarrollo Social lleva a cabo una de las encuestas más importantes del paı́s, la Ficha de Caracterización socioeconómica (ex Ficha de protección social y Ficha CAS). También las asociaciones gremiales recolectan datos de sus sectores. 6 Sin embargo, no siempre los datos están disponibles y es necesario recolectarlos. Una encuesta que permita conocer el perfil de todos los habitantes de un paı́s serı́a un censo. Sin embargo, este tipo de estudios es muy costoso, por lo que generalmente se realizan estudios más pequeños parte de la población. Se llama muestra a una parte de la población. Las formas en cómo se selecciona la muestra es muy importante y va a determinar el sesgo de selección del estudio. La mejor forma de seleccionar una muestra es de forma aleatoria. Cuando se trabaja con una muestra las conclusiones que se obtienen deben restringirse a ésta. Extraer conclusiones más generales, aplicables a toda la población, sólo puede hacerse de una manera limitada, siendo necesario entre otras cosas que la muestra sea representativa y que la generalización de las conclusiones se haga de una forma prudente y rigurosa. La necesidad de trabajar con muestras responde en muchas ocasiones a un ahorro en los costos de obtener de la información. Si puede obtenerse información esencial y generalizable a partir de una muestra no será preciso acceder a toda la población. Espacio muestral, Ω, es el nombre que se da al conjunto de resultados posibles de un experimento, y cada elemento de dicho conjunto se denomina punto muestral, ω. El número de puntos muestrales puede ser finito o infinito. Al lanzar una moneda al aire y ver el resultado, tenemos que Ω = {o, x}, donde o es cara y x es sello. Mientras que considerar el tiempo de espera de reacción a una variación en la tasa de interés puede ser infinito Ω = (0, ∞) = R+ . Sobre un mismo espacio muestral pueden construirse diferentes experimentos, lo que depende de la capacidad de observación, o interés, del observador. Por ejemplo, al lanzamiento de un dado, Ω = {1, 2, ..., 6}, puede añadirse y observar si sale cara impar, u observar si sale como máximo un tres, etc. Es decir, la capacidad de observación determina un conjunto de sucesos observables asociados al experimento. En ocasiones, el recurrir a las muestras no obedece a una cuestión de costos, sino a la imposibilidad de acceder a todas las observaciones. En estos casos se puede realizar un experimento. Un experimento es un estudio cientı́fico que genera datos y está caracterizado por dos componentes, el fenómeno a estudiar y el observador. En los estudios experimentales se identifica primero la variable de interés. Después se ubica otra u otras variables que son controladas para lograr datos de cómo ésta influye sobre la variable de interés. Por ejemplo, a una empresa farmacéutica le interesa realizar un experimento para saber la forma en que un medicamento afecta la presión sanguı́nea. La variable que interesa en el estudio es la presión sanguı́nea. Otra variable es la dosis del nuevo medicamento que se espera tenga un efecto causal sobre la presión sanguı́nea. Para obtener estos datos acerca del nuevo medicamento, los investigadores eligen una muestra de individuos. La dosis del medicamento se controla dando diferentes dosis a distintos grupos de individuos. Antes y después se mide la presión sanguı́nea en cada grupo. El análisis estadı́stico de los datos experimentales ayuda a determinar el efecto del nuevo medicamento sobre la presión sanguı́nea. Por otro lado, el fenómeno a estudiar puede ser determinı́stico o aleatorio. Se dice que un fenómeno es determinı́stico cuando las mismas entradas o condiciones iniciales producirán invariablemente las mismas salidas o resultados, no contemplándose la existencia de azar, o incertidumbre en el proceso modelada mediante dicho modelo. Los fenómenos determinı́sticos son muy comunes en las ciencias 7 exactas. Por ejemplo, las Leyes de Newton1 . Por el contrario, un fenómeno aleatorio o estocástico es aquel que permite una intervención del azar. Es decir, donde la explicación de un fenómeno no está descrita al cien porciento por las variables del modelo, y existe la probabilidad de que ocurra algo que no estamos midiendo. Este tipo de fenómenos ocurre con mucha frecuencia en las Ciencias Sociales, la administración, el marketing y la economı́a. Un fenómeno se dice que es aleatorio cuando cumple las siguientes condiciones, a) Puede repetirse indefinidamente, obteniéndose datos o resultados que pueden ser distintos en cada prueba o repetición, b) En cada prueba se obtiene un resultado perteneciente al conjunto de resultados posibles del experimento, c) Antes de realizar una prueba es imposible saber el resultado de la misma, lo que se denomina condición de azar, d) La frecuencia relativa de cada resultado tiende a un número fijo al aumentar el número de repeticiones del experimento, lo que se denomina regularidad estadı́stica. Observaciones atı́picas Siempre es importante revisar el conjunto de datos antes de comenzar a trabajar con este. Una observación atı́pica es un dato que es mucho más grande o mucho más pequeños que los demás y puede deberse a varias cosas. 1. Una observación atı́pica puede ser causa de un dato mal digitado, o al ingresado a la base de datos. En este caso, el dato no debe considerarse y debe clasificarse como un valor perdido o missing value. 2. Una observación atı́pica puede ser causa de una observación empı́rica que presenta un comportamiento diferente al conjunto de datos. A estas observaciones se les conoce como outliers y deben tratarse con cuidado para no sesgar la muestra. Estadı́stica Descriptiva La estadı́stica descriptiva es un conjunto de métodos cuyo objetivo es ordenar las observaciones, resumir la información disponible y obtener las medidas que describen sus caracterı́sticas. La descripción es cuantitativa y pretende ser lo más sintética posible. La estadı́stica descriptiva está presente en periódicos, revistas, informes de empresas y otras publicaciones, donde la información es resumida y presentada en una forma fácil de leer y de entender. 1 Primera ley: Todo cuerpo persevera en su estado de reposo o movimiento uniforme y rectilı́neo a no ser que sea obligado a cambiar su estado por fuerzas impresas sobre éste. Segunda ley: El cambio de movimiento es directamente proporcional a la fuerza motriz impresa y ocurre según la lı́nea recta a lo largo de la cual aquella fuerza se imprime. Tercera ley: Con toda acción ocurre siempre una reacción igual y contraria: quiere decir que las acciones mutuas de dos cuerpos siempre son iguales y dirigidas en sentido opuesto. 8 Para describir qué ocurre con los datos, se realizan una serie de cálculos cuantitativos que resumen el comportamiento de ese conjunto de datos. Cuando se está estudiando una población, estas medidas que describen las caracterı́sticas de los datos se denominan parámetros poblacionales. El valor medio de una variable en una población serı́a un parámetro, también lo es la proporción de individuos de la población que tienen una caracterı́stica. En general, daremos el nombre de estadı́stico a cualquier fórmula aplicada en la información muestral. Muchos de los estadı́sticos que se utilizan pretenden ser estimaciones de los parámetros de la población. Si sólo disponemos de una muestra, podemos calcular el valor medio de las observaciones y suponer que esa media muestral puede ser una buena aproximación al valor del parámetro, la media poblacional. 2. 2.1. Distribuciones de Frecuencia y Representaciones Gráficas Variables Cualitativas Los datos cualitativos emplean etiquetas o nombres para determinar categorı́as de elementos iguales y pueden ser ordinales o nominales. Por ejemplo el sexo o la nacionalidad. Como las observaciones de esta variable no son numéricas, no podemos calcular una media, y los valores como el mı́nimo o el máximo no tienen sentido. Las categorı́as de las variables cualitativas pueden relacionarse con valores numéricos, pero eso no las convierte en cuantitativas, puesto que el número, en su caso, no es más que una “etiqueta”, careciendo de sentido operar matemáticamente con ellos. Por ejemplo, en una base de datos el sexo de la persona encuestada se puede codificar como “1”si es mujer y “2”si es hombre, pero estos números no contienen información relevante sobre el perfil de la persona. La frecuencia es una forma común de describir datos cualitativos. Distribución de Frecuencias en variables cualitativas Una distribución de frecuencia es un resumen de datos que muestra el número (frecuencia) de elementos en cada una de las categorı́as de una variable. Para elaborar una distribución de frecuencias se cuenta el número de veces que un valor o categorı́a de la variable es observada. Por ejemplo, el cuadro 2 muestra la estadı́stica descriptiva de la variable cualitativa sexo. Por ejemplo, en el estudio número 78 del Centro de Estudios Públicos (CEP) se encuestaron a 1.464 personas, de las cuales 748 son mujeres y corresponden al 51 % de la muestra, y 716 personas son hombres y componen el 49 % de la muestra. El cuadro 2 muestra la frecuencia de la variable sexo y la figura 2 muestra un análisis gráfico de la misma variable. Cuadro 2: Frecuencia y frecuencia porcentual de la variable sexo Sexo Frecuencia Porcentaje Hombre Mujer 716 748 48.9 % 51.1 % 1,464 100 % Total 9 Figura 2: Frecuencia de la variable sexo Supongamos una variable A que puede tomar los valores a1 , a2 , a3 , ..., aI . Lo primero, es conocer cuántos individuos tienen cada caracterı́stica. Se denomina frecuencia absoluta, ni , al número de veces que se repite una de las categorı́as o valores de la variable. La distribución de frecuencias es el registro de todas las categorı́as o valores de la variable. La frecuencia relativa es la proporción del total de observaciones que corresponden a una categorı́a. Al multiplicar la frecuencia relativa por 100 se obtiene el porcentaje de cada categorı́a. f recuencia relativa = ni n donde i = 1, ..., I Cuando se trabaja con una variable de tipo ordinal (cuyas categorı́as se pueden ordenar de menor a mayor) se pueden calcular las frecuencias acumuladas. La idea de acumulación facilita conocer rápidamente el número de observaciones que están por debajo de un determinado valor o categorı́a.Se distingue entre frecuencias acumuladas absolutas y relativas. La frecuencia absoluta acumulada se define como: Ni = Σj = 1i nj donde i = 1, ..., I La frecuencia relativa acumulada se define como: 10 Fi = Σj = 1i nj Ni = n n donde i = 1, ..., I Cuadro 3: Satisfacción con la vida según la encuesta CEP Satisfaccion con la Vida Frecuencia (n) Porcentaje ( %) Porcentaje válido Porcentaje acumulado Muy insatisfecho Insatisfecho Indiferente Satisfecho Muy satisfecho Total 18 89 399 508 445 1,458 1.2 6.1 27.2 34.7 30.4 99.6 1.2 6.1 27.4 34.8 30.5 100.0 1.2 7.3 34.7 69.5 100.0 6 1,464 0.4 100.0 Perdidos Total El cuadro 3 muestra los resultado de la encuesta CEP de diciembre de 2016 a la pregunta ¿qué tan satisfecho está Ud. con su vida?. La pregunta fue efectivamente contestada por 1.458 personas y 6 personas no respondieron, lo que completa la muestra de 1.464 personas encuestadas. La primera columna muestra los valores de la variable Satisfacción con la Vida; Muy insatisfecho, Insatisfecho, Indiferente, Satisfecho y Muy satisfecho. La segunda columna, Frecuencia, muestra el número de personas que se identifica con un valor de la variable. La tercera columna muestra el porcentaje al que corresponde ese valor de la variable considerando a las personas que no respondieron la encuesta. La cuarta columna, Porcentaje válido, excluye los casos perdidos y sólo considera las respuesta válidas. La última columna, Porcentaje acumulado, muestra la suma porcentual de los valores de la variable. Por ejemplo, podemos afirmar que el 34,7 % de los encuestados está insatisfecho o es indiferente respecto a su vida. La figura 3 muestra un gráfico de barras de las frecuencias de la misma pregunta. La figura 4 muestra una gráfico de torta de la pregunta sobre satisfacción con la vida. 11 Figura 3: Gráfico de barras de la satisfacción con la vida según encuesta CEP Figura 4: Gráfico de torta de la satisfacción con la vida según encuesta CEP 12 Una medida interesante de los datos cualitativos es la moda. La moda de una distribución es el valor de la variable con mayor frecuencia. En el ejemplo de la satisfacción de la vida medida por la encuesta CEP la categorı́a “Satisfecho” es la que más se repite y alcanza un 35 % de las preferencias. En ocasiones, las distribuciones de frecuencias se pueden caracterizar en función de la moda, distinguiendo entre distribuciones con una única moda (distribuciones unimodales) y distribuciones en las que son dos o más de dos los valores que alcanzan la máxima frecuencia (distribuciones bimodales o multimodales, respectivamente). En el caso de variables cualitativas ordinales la moda no es el único estadı́stico con significado. Puesto que en las variables ordinales existe un sentido de orden en sus categorı́as, si éstas se ordenan de ‘menos’ a ‘más’ la distribución de frecuencias acumuladas tendrá una interpretación. La mediana es aquella caracterı́stica de la distribución que ocupa la posición central de la misma. Ordenados los valores de la variable (de menor a mayor), la mediana define aquel punto que deja por debajo de sı́ mismo el 50 % de la distribución. El cuadro 4 muestra la identificación polı́tica de los encuestados declarada en la encuesta CEP de diciembre de 2016. Los resultados se pueden ordenar de derecha a izquierda o de izquierda a derecha. La moda es izquierda, donde se acumula el 28 % de las preferencias. Al observar el porcentaje acumulado se observa que el 46 % de la población se identifica de “Izquierda” o de “Centro Izquierda”. Obsérvese que las categorı́as “Independientes” y “No Sabe/No Responde” representa el 65 % de las identificaciones polı́ticas. Por esta razón, esta categorı́a es tratada como un valor perdido o missing value. Esto permite concentrarse en las categorı́as partidistas. Cuadro 4: Identificación Polı́tica según la encuenta CEP Identificación Polı́tica Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Izquierda Centro Izquierda Centro Centro Derecha Derecha 141 94 94 50 92 9.6 % 6.4 % 6.4 % 3.4 % 6.3 % 28 % 18 % 18 % 10 % 18 % 28 % 46 % 64 % 74 % 92 % Subtotal 471 32.2 % 92 % 39 2.7 % 8% 510 34.8 % 100 % 954 65.2 % 1,464 100.0 % Independiente Subtotal ns/nr Total 100 % Si se quiere resaltar la distribución de frecuencias acumuladas puede emplearse un diagrama de Pareto. Éste no es más que un diagrama en barras en el que las categorı́as se ordenan de mayor a menor frecuencia, dibujando sobre las barras una lı́nea indicativa de la frecuencia acumulada hasta esa categorı́a. La gráfica se puede realizar tanto sobre variables nominales como ordinales. Por ejemplo, 13 suponga que una empresa sufre continuas paradas en su cadena de producción. Dada la importancia de las consecuencias económicas de estas paradas se decide controlar durante un mes cuáles son las razones que las ocasionan. Para ello se solicita que los operarios que anoten el tipo de percance y el tiempo que tarda en arreglarse, desde que se detecta hasta que se soluciona el problema. Las causas detectadas ası́ como su frecuencia y el tiempo de parada se reproducen en el cuadro 5. Cuadro 5: Control de producción: Diagrama de Pareto N Causa Frecuencia Tiempo de parada (en minutos) 1 2 3 4 5 6 Rotura de tornillos Rotura de arandelas Rotura o bloqueo de cintas Rotura de aros de sujeción Rotura de otras piezas Desajustes de temperatura 10 10 4 2 2 11 70 10 41 20 10 53 En total, como consecuencia de 39 paradas, se han perdido 204 minutos en un mes de trabajo. El tiempo de parada y el número de paradas se pueden analizar a partir de los correspondientes diagramas de Pareto. En la figura 5 se observa que las tres causas más frecuentes de parada son por desajuste de temperatura, por rotura de tornillos y por rotura o bloqueo de cintas, en ese orden. Estas tres causas, tal como se observa en la lı́nea continua del diagrama, representan un porcentaje alto del total de paradas, en concreto un 79,5 % de éstas, (11 + 10 + 10)/39. 40 100 Número de paradas 30 20 10 0 50 11 10 10 6,00 1,00 2,00 4 3,00 4,00 Causa de la parada Figura 5: Diagrama de Pareto 14 5,00 0 Porcentaje 50 En la figura 6 se puede observar, sin embargo, que no todas las paradas tienen igual importancia en cuanto al tiempo de interrupción. Las tres primeras causas (primera, sexta y tercera) suponen un 80,4 % del tiempo de parada, (70 + 53 + 41)/204. Si el interés de la empresa se encuentra en reducir al máximo el tiempo de parada (y no tanto el número de veces en que la producción se detiene) deberı́a centrarse en los determinantes de la rotura de tornillos, los desajustes de temperatura y la rotura o bloqueo de cintas. Tiempo de parada Porcentaje 300 200 100 100 50 70 53 0 41 20 1,00 6,00 3,00 4,00 2,00 Causa de la parada Figura 6: Diagrama de Pareto 15 5,00 0 2.2. Variables Cuantitativas Las variables de tipo cuantitativo son aquellas que toman, en lugar de categorı́as, valores numéricos que sı́ tienen sentido y con los que se pueden realizar operaciones algebraicas. Las variables cuantitativas pueden ser de escala de intervalo o de escala de cociente. Las variables cuantitativas tienen una escala de intervalo si se pueden ordenar sus valores y, además, se pueden realizar con ellos las operaciones de suma y resta. La primera caracterı́stica la comparte con las variables cualitativas ordinales, pero al contrario que en aquéllas, en la escala de intervalo puede medirse la distancia entre distintas observaciones. Permite afirmar, por ejemplo, que un individuo tiene un valor que supera en diez unidades al que toma otro individuo, o que entre dos individuos hay una diferencia de veinte unidades. Las variables con escala de cociente añaden a estas caracterı́sticas la de incorporar un origen no arbitrario. La diferencia esencial es que este segundo tipo de variable admite un cero verdadero (toneladas consumidas o número de empleados, por ejemplo, donde el cero se entiende como inexistencia) y permite el cálculo de proporciones entre los distintos valores (una observación toma un valor que es el doble que el de otra). Las variables cuantitativas pueden ser discretas o continuas. Son variables de tipo discreto si la variable toma un número finito o infinito numerable de observaciones, y del tipo continuo si toman un valor infinito no numerable. Distribución de Frecuencias en variables cuantitativas Antes de comenzar a trabajar con una base de datos siempre es bueno conocer los datos que tenemos disponible, cómo se componen y cómo se distribuyen. Para ello, las distribuciones de frecuencia nos dan una primera impresión de los datos. La idea de recuento, es decir, la idea de crear una distribución de frecuencias debe ser, como en el caso de las variables cualitativas, el primer paso del análisis. Observar los distintos valores que toma una variable, ordenarlos de menor a mayor y contar el número de veces que aparece cada valor nos dará una idea de su comportamiento. El único problema que se plantea con una variable de tipo cuantitativo es que suele tomar un número de valores mucho mayor que las posibles categorı́as de una variable cualitativa. La imagen general que se pretende dar con la distribución de frecuencias puede ser entonces poco útil, porque la información está poco resumida. El trabajo con intervalos de la variable, en lugar de cada uno de sus posibles valores, es el procedimiento normal para conseguir una imagen sintética de la distribución. Una buena forma de analizar datos cuantitativos, sobre todo cuando tenemos muchos datos, es construir intervalos. Lo recomendable es no tener más de 20 intervalos, ya que la idea es simplificar el análisis y éste pierde sentido si un intervalo contiene sólo uno o dos observaciones. Muchas veces, los intervalos se pueden construir siguiendo criterios establecidos en la literatura o de sentido común. Lo ideal es que todos los intervalos contengan el mismo ancho. El ancho del intervalo se puede determinar de la siguiente forma: 16 Intervalo = valor maximo − valor minimo n de intervalos Es importante que un dato sólo pertenezca a un intervalo. Si hablamos de tramos de ingresos, los lı́mites de éstos deben ser excluyente. Un ejemplo se muestra en la figura 7. Salario en intervalos Frecuencia Válidos Porcentaje Porcentaje válido Porcentaje acumulado Ingresos Bajo 657 70,3 70,3 Ingreso Medio 260 27,8 27,8 98,1 18 1,9 1,9 100,0 935 100,0 100,0 Ingreso Alto Total 70,3 Figura 7: Intervalos para la variable salario Las distribuciones de frecuencia relativa o frecuencia porcentual para datos cuantitativos se definen de la misma forma que para datos cualitativos. Primero debe recordar que la frecuencia relativa es el cociente, respecto al total de observaciones, de las observaciones que pertenecen a una clase. Si el número de observaciones es n, F recuencia relativa = F recuencia del intervalo n Un gráficos de barras es una de las formas más sencillas de presentar los datos. En el eje horizontal (la abscisa) se presenta el intervalo de los datos. Cada dato se representa por un punto colocado sobre este eje. 17 Figura 8: Gráfico de barra Un histograma es un gráfico muy similar al de barras, pero éste sólo puede ser usado con variables cuantitativas. En éste las barras se muestras continuas y nos permite conocer los diferentes sesgos de una distribución. La figura 2.2 muestra un ejemplo de histograma. Otra técnica de análisis exploratios de los datos es el diagrama de tallo y hoja. Éste muestra de forma simultánea el orden jerárquico y la forma de un conjunto de datos. Por ejemplo, supongamos que tenemos el puntaje de 50 alumnos de una prueba cuyo máximo puntaje es de 150 puntos. La figura 18 6 muestra los datos. Cuadro 6: Puntajes de 50 alumnos 112 73 126 82 92 115 95 84 68 100 72 92 128 104 108 76 141 119 98 85 69 76 118 132 96 91 81 113 115 94 97 86 127 134 100 102 80 98 106 106 107 73 124 83 92 81 106 75 95 119 Para construir el diagrama de tallo y hoja primero identificamos el puntaje menor y el mayor; en este caso son 68 y 141 puntos. Luego, de forma vertical armamos una escala que comienza con el primer dı́gito del menor puntaje hasta el primer dı́gito del mayor puntaje y trazamos una linea para separar el tallo de las hojas. Es decir, como el menor puntaje es 68, anotamos 6. Luego anotamos 7, 8, 9... y ası́ hasta alcanzar el 14, que es el primer dı́gito del puntaje más alto, 141. Luego, comenzamos a anotar los segundo dı́gitos de cada puntaje a la derecha de la linea. Comenzamos con la primera fila. Ordenamos los datos de menor a mayor de forma vertical. El menor puntaje en la primera fila es el 69, entonce anotamos el segundo dı́gito, el 9, a la derecha de su primer dı́gito, el 6. Luego, tenemos el 72. Anotamos su segundo dı́gito, el 2 a la derecha de su primer dı́gito, el 7, y ası́ sucesivamente. La figura 2.2 muestra la construcción del diagrama de tallo y hoja para la primera fila de datos. 6 7 8 9 10 11 12 13 14 9 2 7 7 2 Si continuamos rellenando los datos, obtenemos la tabla de la figura 2.2 19 6 7 8 9 10 11 12 13 14 9 2 6 7 7 2 6 2 1 8 3 2 2 4 8 8 4 6 3 2 8 5 7 3 1 6 0 9 4 6 1 2 2 3 5 0 1 6 5 4 5 6 9 5 8 0 8 6 5 Una vez que hemos llenado todos los datos, podemos ordenarnos de menor a mayor, como lo muestra la figura 2.2 6 7 8 9 10 11 12 13 14 8 2 0 1 0 2 4 2 1 9 3 1 2 0 3 6 4 3 1 2 2 5 7 5 2 2 4 5 8 6 3 4 6 8 6 4 5 6 9 5 5 6 9 6 6 7 7 8 8 8 Los números a la izquierda de la lı́nea vertical (6, 7, 8, 9, 10, 11, 12, 13 y 14) forman el tallo, y cada dı́gito a la derecha de la lı́nea vertical es una hoja. Por ejemplo, en la primera fila del diagrama el tallo es el 6 y la hoja los números 8 y 9. Esta fila indica que hay dos datos que tienen como primer dı́gito el 6. Las hojas indican que estos datos son 68 y 69. El diagrama que se obtiene es parecido a un histograma, cuyos intervalos son 60-69, 70-79, 80-89, etc. El diagrama de tallo y hoja tiene dos ventajas sobre el histograma. 1. El diagrama de tallo y hojas es más fácil de construir a mano. 2. En cada intervalo de clase proporciona más información que un histograma debido a que el tallo y la hoja proporcionan el dato. Los histograma, los gráfico de barras y los diagramas de tallo y hojas son estimadores no-paramétricos en cuanto no imponen ninguna estructura a los datos. Si tenemos muchas observaciones para un intervalo, podemos abrir éste. Por ejemplo, podemos crear intervalos que van de a cinco en cinco. Es decir, 60-64, 65-69, 70-74, 75-79, etc... Obviamente, esto va a cambiar la distribución de los datos. En este caso, obtendrı́amos la siguiente distribución. 20 6 7 7 8 8 9 9 10 10 11 11 12 12 13 13 14 8 2 5 0 5 1 5 0 6 2 5 4 6 2 9 3 6 1 6 2 5 0 6 3 5 7 4 3 6 1 2 3 4 2 6 2 6 2 7 4 7 4 8 8 8 9 9 8 8 1 Análisis descriptivo bivariado Muchas veces es necesario analizar cómo se comporta una variable condicionada en otra variable. En este caso, vamos a estudiar la relación que existe entre dos variable. Una tabulación cruzada, tablas de contingencia o cross tabs es un resumen de frecuencias de una variable condicionada a otra variable. Por ejemplo, a partir de los resultados de la encuesta CEP de diciembre de 2016, podemos construir una tabla de contingencia de la identificación polı́tica condicionada por los tramos de edad. Para construir una tabla de contingencia, necesitamos conocer primero la cantidad de observaciones que existen para cada categorı́a de la variable y luego las clasificamos por categorı́a. La distribución de frecuencias de las variables Edad e Identificación Polı́tica se muestran en las tablas 7 y 8 respectivamente. Cuadro 7: Frecuecia de la variable Edad Tramos de Porcentaje Frecuencia Porcentaje edad (años) acumulado 18 25 35 45 55 a 24 años a 34 años a 44 años a 54 años años o más Total 208 312 256 262 425 1,464 14.2 21.3 17.5 17.9 29 100 21 14.2 35.6 53.1 71 100 Cuadro 8: Frecuencia de la variable Identificación Polı́tica Identificacion Porcentaje Frecuencia Porcentaje Politica acumulado Derecha Centro Derecha Centro Izquierda Centro Izquierda Independiente ns/nr Total 92 50 94 94 141 993 1,464 6.3 3.4 6.4 6.4 9.6 67.8 100 6.3 9.7 16.1 22.5 32.2 100 El resultado de la construcción de la tabla de contingencia se muestra en la figura 9. Note que la suma de cada categorı́a coincide con la frecuencia de cada una de ella observada en las tablas de contingencia. Podemos concluir que a mayor edad, mayor es el número de personas que se identifica con la derecha y con la izquierda. Podrı́amos incluso concluir que a mayor edad, mayor es la radicalización ideológica, tanto en la izquierda como en la derecha. La mayor cantidad de jóvenes se identifica con la centro izquierda. En general, la identificación con la centro izquierda acumula la mayor cantidad de personas, mientras que la mayorı́a de los encuestados tiene 55 años o más. Cuadro 9: Identificación polı́tica según tramos de edad Tramos de edad (años) 18 25 35 45 55 Identificacion Politica Centro Centro Izquierda Izquierda Derecha Centro Derecha a 24 años a 34 años a 44 años a 54 años años o más 6 16 15 22 33 7 13 12 8 10 5 15 21 17 36 13 15 11 20 35 Total 92 50 94 94 22 Independiente ns/nr Total 33 31 22 20 35 144 221 175 175 277 208 312 256 262 425 141 994 1,464 Una forma gráfica de representar la relación entre dos variables cuantitativas es a través de un diagrama de dispersión. En este gráfico, cada punto representa una observación. Además se puede agregar una linea que muestre la tendencia de los datos. Por ejemplo, considere la relación entre la publicidad y las ventas de un producto. Durante los últimos tres meses, en 10 ocasiones el producto apareció en comerciales de televisión, en el fin de semana, para promover sus ventas. Ahora, el analista de marketing quieren investigar si hay relación entre el número de comerciales emitidos y las ventas en la semana siguiente. En la tabla 10 se presentan datos muestrales de las 10 semanas dando las ventas en cientos de dólares. Cuadro 10: Frecuencia del número de comerciales y las ventas Semana Número de Comerciales Ventas 1 2 3 4 5 6 7 8 9 10 2 5 1 3 4 1 5 3 4 2 50 57 41 54 54 38 63 48 59 46 En la figura 9 aparece el diagrama de dispersión y la lı́nea de tendencia de los datos de ventas y comerciales. El número de comerciales (x ) aparece en el eje horizontal y las ventas (y) en el eje vertical. En la semana 1, x = 2 y y = 50. En el diagrama de dispersión se grafica un punto con estas coordenadas. Para las otras nueve semanas se grafican puntos similares. Observe que en dos semanas sólo hubo un comercial, en otras dos semanas hubo dos comerciales, y ası́ sucesivamente. Se observa una relación positiva entre el número de comerciales y las ventas. Más ventas corresponden a más comerciales. La relación no es perfecta ya que los puntos no trazan una lı́nea recta. Sin embargo, el patrón que siguen los puntos y la lı́nea de tendencia indican que la relación es positiva. 3. Descripción Numérica de una Variable Estadı́stica De manera tradicional se distingue entre los estadı́sticos básicos que intentan describir la posición de la variable y los que miden su dispersión. También se presentan en un grupo diferenciado los estadı́sticos de forma, que describen la asimetrı́a o apuntamiento de la distribución. Mantendremos aquı́ esta distinción. Si estas medidas las calcula con los datos de una muestra, se llaman estadı́sticos muestrales. Si estas medidas las calcula con los datos de una población se llaman parámetros poblacionales. Denotaremos la variable a describir como X y a las observaciones de la misma, desde i = 1, ..., n, como 23 65 60 Ventas 55 50 45 40 35 0 1 2 3 4 5 6 Número de Comerciales Figura 9: Diagrama de dispersión entre ventas y número de comerciales Xi , donde n es el número de observaciones. 3.1. Medidas de posición central La Media Aritmética La media aritmética proporciona una medida de posición central de los datos. Si los datos son datos de una muestra, la media se denota x̄; si los datos son datos de una población, la media se denota con la letra griega µ. La media para la variable X se denota como x̄ = Pn i=1 xi n Es decir, la suma de los valores de todas las observaciones de la variable dividida por el número total de observaciones. Supongamos que tenemos cinco grupos de personas, donde el primer grupo está compuesto por x1 = 46 personas, el grupo dos x2 = 54, x3 = 42, x4 = 46 y x5 = 32. Luego, calculamos la media como Pn i=1 xi 46 + 54 + 42 + 46 + 32 = 44 n 5 Por tanto podemos concluir que, en promedio, los grupos están compuestos por 44 personas. x̄ = = Si tenemos datos de un censo y conocemos la información de toda la población, entonces la media poblacional se calcula como 24 µ= Pn i=1 xi N Propiedades de la Media 1. La suma de las desviaciones de los valores con respecto a la media es igual a cero. n X i=1 (xi − x̄) = 0 2. Si a los valores de la variable se les suma una constante (c + xi ), la media de los valores transformados se incrementa en esa cantidad. x̄c+X = Pn i=1 (c + xi ) n = Pn i=1 c + n Pn i=1 xi = nc + Pn i=1 xi n = C + x̄ 3. Si los valores de la variable se multiplican por una constante (cxi ), la media de los valores transformados es la media de la variable original multiplicada por la misma constante: x̄cX = Pn i=1 (cxi ) n = c Pn i=1 xi n = cx̄ La Media ponderada Es frecuente trabajar con la media ponderada, en la que los valores promediados son ponderados mediante un peso determinado. Si tenemos p valores distintos de la variable xi y a cada uno de ellos se le da un peso wi , la media ponderada se define como: Pp w i xi x̄w = Pi=1 p i=1 wi Si, por ejemplo, las observaciones de una variable se ponderan por sus frecuencias relativas wi = ni /n, es decir, por la importancia relativa de cada valor en la distribución, se tendrı́a (suponiendo p valores distintos) que Pp x̄w = Pi=1 p ni n xi ni i=1 n Pp Pp ni x i ni x i i=1 = i=1 = Pp n i=1 ni En ocasiones, la ponderación tiene que ver con el peso en la población de las distintas observaciones. Suponga, por ejemplo, que dispone de la renta familiar per capita mensual de tres familias pertenecientes cada una de ellas a uno de las tres comunas de una región. Las rentas son de 2.000, 2.000 y 1.000 pesos y los tamaños de los municipios son de 10.000, 20.000 y 1.000.000 de habitantes, respectivamente. Si se le pidiese estimar la renta familiar per capita media para toda la región una opción directa serı́a la siguiente: 25 2000 + 2000 + 1000 = 1666, 67 3 El inconveniente de este cálculo es que no tiene en cuenta que cada familia representa una comuna de diferente tamaño. Resultarı́a lógico utilizar una media ponderada, donde la renta de cada familia fuera representativa de todas las familias de su comuna: x̄ = 2000 ∗ 10000 + 2000 ∗ 20000 + 1000 ∗ 1000000 = 1029, 13 10000 + 20000 + 1000000 Tiene sentido ponderar, porque cada observación es representativa de un número de familias distinto. x̄ = Imagine, por ejemplo, que la información censal le permite conocer la distribución de una población en zonas rurales y urbanas (60 % y 40 %). El resultado de una muestra aleatoria simple no tiene por qué respetar esta distribución, especialmente si el tamaño muestral no es muy elevado. Una alternativa podrı́a ser ponderar las observaciones según provengan de una zona rural o urbana. Lo normal, en este caso, serı́a calcular dos medias, una con las nrural observaciones rurales y otra con las nurbana observaciones urbanas, calculando la media global como x̄ = 0, 6x̄rural + 0, 4x̄urbana La Media Geométrica La media geométrica de n observaciones se define como g= √ n x1 x2 ...xn La media geométrica debe emplearse cuando se quieren promediar porcentajes, tasas, tipos de interés, números ı́ndices, etc., es decir valores que representan variaciones acumulativas, de un perı́odo respecto al anterior. Como medida de posición central, la media geométrica es más representativa que la media aritmética cuando la variable se define como variaciones acumulativas. Veamos un ejemplo basado en tasas de variación. Supondremos que las observaciones de la variable se realizan para un individuo a lo largo del tiempo, midiéndose el valor de la variable en el momento 0, en el momento 1, ..., hasta el final del periodo, en el momento T. Dada una serie de valores de base temporal: x0 , x1 , x2 , ..., xt , la tasa de variación de un perı́odo a otro se define como xt,t−1 = xt − xt−1 xt−1 Por tanto, los valores de xt serı́an xt = (1 + xt,t−1 )xt−1 El término entre paréntesis se denomina factor de variación unitaria. La relación entre el último valor, xT , y el primero, x0 , se puede obtener si sustituimos de manera recurrente, 26 xT = (1 + x[ T, T −1] )x[T −1] = (1 + x[T, T −1] )(1 + x[T −1, T −2] )x[T −2] = ... = (1 + x[T, T −1] )(1 + x[T −1, T −2] )...(1 + x[2, 1] )(1 + x[1, 0] )x0 Si quisiéramos definir una tasa media de variación, xtmv , ésta deberı́a satisfacer la relación anterior. Luego, xT = (1 + xtmv )(1 + xtmv )...(1 + xtmv )x0 = (1 + xtmv )T x0 Por tanto, (1 + xtmv )T = (1 + x[T, T −1] )(1 + x[T −1, T −2] )...(1 + x[1, 0] ) O, en otros términos, la tasa media de variación debe ser igual a la media geométrica de los factores de variación unitarios, menos la unidad xtmv = q T (1 + x[T, T −1] )(1 + x[T −1, T −2] )...(1 + x[1, 0] ) − 1 Si conocemos todos los valores de la serie, la media geométrica la podemos calcular como xtmv = r T xT −1 x0 La Mediana La mediana es aquel valor que se sitúa en el punto medio de la distribución, cuando los valores están ordenados de menor a mayor. Cuando tiene un número impar de observaciones, la mediana es el valor del medio. Cuando la cantidad de observaciones es par, no hay un número en el medio. En este caso, se sigue una convención y la mediana es definida como el promedio de las dos observaciones del medio. Si n, el número de observaciones, es impar, siempre será inmediato detectar el valor de la mediana; bastará con localizar el valor situado en el lugar: Posición de la Mediana = n+1 2 Supongamos que disponemos de los dı́as de vacaciones que han disfrutado nueve turistas; 16, 29, 13, 15, 25, 14, 26, 17, 26. Para calcular la mediana de estas observaciones, primero deben ordenarse los valores de menor a mayo; 13, 14, 15, 16, 17, 25, 26, 26, 29. En segundo lugar, debe localizarse el valor que se sitúa en el centro de la distribución, que en este caso serı́a el valor 17, situado en el quinto lugar, que deja cuatro observaciones por debajo de él y cuatro observaciones por encima. Supongamos que tenemos diez observaciones: 13, 14, 15, 16, 17, 25, 26, 26, 29, 31. Ninguna de ellas queda ahora exactamente en el centro de la distribución. El valor 17 deja por debajo cuatro observaciones y por encima cinco, mientras que el valor 25 deja cinco por debajo y cuatro por encima. En el caso de tener un número n de observaciones par, se puede considerar que la mediana es el promedio de estos dos valores: (17 + 25)/2 = 21. En este caso, la mediana la encontramos al promediar los valores situados en las posiciones n/2 y (n/2) + 1. 27 La Moda La moda es aquel valor que presenta una mayor frecuencia. La distribución es unimodal si hay un valor cuya frecuencia es mayor que la del resto, o es multimodal si dos o más valores se repiten en igual número de veces, y ésto alcansan la máxima frecuencia. Asimetrı́a de una distribución Las distribuciones de frecuencias se pueden caracterizar por su forma, distinguiéndose bajo un criterio de simetrı́a entre distribuciones simétricas, asimétricas por la derecha y asimétricas por la izquierda. Si una distribución es simétrica, existe el mismo número de valores a la derecha que a la izquierda de la media, por tanto, el mismo número de desviaciones con signo positivo que con signo negativo. La distribución es asimétrica por la derecha si aparecen un número mayor de valores de la variable en ese lado, mientras que la asimetrı́a por la izquierda acumuları́a un número mayor de valores en el lado izquierdo de la distribución. En función de su simetrı́a o asimetrı́a en las distribuciones unimodales se verifican las siguientes relaciones. En una distribución simétrica la media, la mediana y la moda tienden a coincidir. M oda ∼ = M ediana ∼ = M edia En las distribuciones asimétricas por la derecha la relación entre los estadı́sticos es la siguiente M oda ≤ M ediana ≤ M edia Cuando la distribución es asimétrica por la izquierda se cumple que M oda ≥ M ediana ≥ M edia Percentiles Un percentil aporta información acerca de la dispersión de los datos en el intervalo que va del menor al mayor valor de los datos. En los conjuntos de datos que no tienen muchos valores repetidos, el percentil p divide a los datos en dos partes. Cerca de p por ciento de las observaciones tienen valores menores que el percentil p y aproximadamente (100 - p) por ciento de las observaciones tienen valores mayores que el percentil p. El percentil p es un valor tal que por lo menos p por ciento de las observaciones son menores o iguales que este valor y por lo menos (100 - p) por ciento de las observaciones son mayores o iguales que este valor. Los percentiles se definen sobre porcentajes del 1, 2, 3, ..., hasta el 99 por ciento. El primer percentil ocupará la posición n/100; el segundo percentil la posición 2 × n/100, y ası́ hasta el que el 99 percentil ocupará la posición 99 × n/100. 28 Formalicemos el cálculo del percentil p: 1. Se ordenan los datos de menos a mayor de forma ascendente. 2. El ı́ndice se calcula de la siguiente forma: i= p n 100 donde p es el percentil deseado y n es el número de observaciones. 3. Si i es un número entero, entonces el percentil p es el promedio de los valores en las posiciones i e i+1. Si i no es un número entero debe ser redondeado. El primer entero mayor que i denota la posición del percentil p. Por ejemplo, supongamos que tenemos los datos de los sueldos de 12 personas y queremos calcular el percentil 85; 3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925. Una vez ordenados los datos de mayor a menor, calculamos el ı́ndice como p 85 n= 12 = 10,2 100 100 Dado que que 10.2 no es un número entero, debe ser redondeado hacia arriba. Luego, la posición del percentil 85 es la posición 11, es decir, 3730. i= Si queremos conocer el percentil 50, es decir, la mitad de la distribución, calculamos 50 12 = 6 100 Como 6 es un número entero, entonce el percentil 50 es el promedio de los valores de los datos que se encuentran en las posiciones 6 y 7. Es decir, (3490 + 3520)/2 = 3505. Observe que el percentil 50 coincide con la mediana. i= Cuartiles Con frecuencia es conveniente dividir los datos en cuatro partes. Ası́, cada parte contiene una cuarta parte o el 25 % de las observaciones. A estos puntos de división se les conoce como cuartiles y están definidos como Q1 = primer cuartil = percentil 25 Q2 = segundo cuartil = percentil 50 = mediana Q3 = tercer cuartil = percentil 75 Q4 = cuarto cuartil = percentil 100 Por ejemplo, como el segundo cuartil Q2 corresponde a la mediana, sabemos que (3490 + 3520)/2 = 3505. Para encontrar el primer cuartil Q1 debemos calcular 29 i= p 25 n= 12 = 3 100 100 Como 3 es un número entero, Q1 = (3450 + 3480)/2 = 3465. Los cuartiles dividen los datos de los sueldos iniciales en cuatro partes y cada parte contiene el 25 % de las observaciones. 3310 3355 3450 3480 Q1 = 3465 3480 3490 3520 Q2 = 3505 (Mediana) 3540 3550 3650 Q3 = 3600 3730 3925 Deciles Los deciles dividen la muestra en porcentajes del 10, 20, ..., hasta el 90 por ciento. El primer decil ocupará la posición n/10. El segundo decil ocupará la posición 2 × n/10 y ası́ sucesivamente hasta que el noveno ocupa la posición 9 × n/10. 3.2. Medidas de dispersión Rango La medida de variabilidad más sencilla es el rango. Éste se define como el valor mayor - valor menos. Aunque el rango es la medida de variabilidad más fácil de calcular, rara vez se usa como única medida. La razón es que el rango se basa sólo en dos observaciones y, por tanto, los valores extremos tienen una gran influencia sobre él. Rango intercualtı́lico Esta medida no es afectada por los valores extremos ya que se calcula como la diferencia entre el tercer cuartil y el primer cuartil; Q3 − Q1 . En otras palabras, es el rango en el que se encuentra el 50 % de los datos. Varianza La varianza es una medida de variabilidad que utiliza todos los datos. La varianza está basada en la diferencia entre el valor de cada observación xi y la media, x̄. A esta diferencia se le llama desviación respecto de la media. Si se trata de una muestra, una desviación respecto de la media se escribe (xi − x̄), y si se trata de una población se escribe (xi − µ). Para calcular la varianza, estas desviaciones respecto de la media se elevan al cuadrado. Esto, devuelve sólo valores positivos2 . Las unidades al cuadrado de 2 Si sumamos todas las desviaciones respecto de la media, esto es, la de los valores que se encuentra por sobre la media y luego le restamos los valores que se encuentran por debajo de la media, entonces el resultado es cero, ya que, P por porpiedad de la media, sabemos que (xi − x̄) = 0. Una forma de solucionar esto, es elevar al cuadra el resultado de cada diferencia respecto de la meda, ya que cualquier número elevado al cuadrado, arroja un valor positivo. 30 la varianza dificultan la comprensión e interpretación intuitiva de los valores numéricos de la varianza. Lo recomendable es entender la varianza como una medida útil para comparar la variabilidad de dos o más variables. Al comparar variables, la que tiene la varianza mayor, muestra más variabilidad o dispersión de los datos. Si los datos son de una población, el promedio de estas desviaciones elevadas al cuadrado es la varianza poblacional. La varianza poblacional se denota con la letra griega σ 2 . Si en una población hay N observaciones y la media poblacional es µ, la varianza poblacional se define como 2 σ = P (xi − µ)2 N Cuando se calcula la varianza muestral, lo que interesa es estimar la varianza poblacional σ 2 . La varianza muestral se defino como (xi − x̄)2 n Si la suma de los cuadrados de las desviaciones respecto de la media se divide entre n − 1, en lugar de entre n, la varianza muestral que se obtiene constituye un estimador insesgado de la varianza poblacional. Es por ello que la varianza muestral se puede definir como 2 s = P (xi − x̄)2 n−1 La varianza es una medida de la dispersión de las observaciones con respecto a su valor medio. 2 s = P Supongamos que tenemos cinco grupos de personas como muestra el cuadro 11. Luego, la varianza del número de personas serı́a 256 (xi − µ)2 = = 51, 2 N 5 Si corresponde a la varianza poblacional, o bien 2 σ = 2 s = si corresponde a la varianza muestral. P P 256 (xi − x̄)2 = = 64 n 5−1 Propiedades de la varianza 1. La varianza no puede ser negativa al tratarse de un promedio de la suma de cuadrados. 2 s = P (xi − x̄)2 >0 n 2. Es sensible a los valores extremos. Esto quiere decir que si tenemos una observación atı́pica, la varianza va aumentar a medida que esa observación más se aleje de la mediana. 31 Cuadro 11: Varianza del número de personas en los grupos Número de personas en un grupo (xi ) Media (x̄) Desviación respecto a la media (xi − x̄) Cuadrado de la desviación respecto a la media (xi − x̄)2 46 54 42 46 32 44 44 44 44 44 2 10 -2 2 -12 4 100 4 4 144 Total n = 5 P 0 (xi − x̄) P 256 (xi − x̄)2 3. Si a los valores de una variable se les suma una constante, c + xi , la varianza de la nueva variable no se modifica s2c+x = P (c + xi − (c + x̄))2 = n P (c + xi − c − x̄)2 = n P (✁c + xi − ✁c − x̄)2 = n P (xi − x̄)2 = s2x n 4. Al multiplicar los valores de una variable por una constante, cxi , la nueva varianza se ve multiplicada por la misma cantidad elevada al cuadrado, c2 σ 2 . Esta propiedad es fácil de demostrar, teniendo en cuenta que al multiplicar por una constante, la media de la variable transformada es la media original multiplicada por la misma constante. s2cx = P (cxi − (cx̄))2 = n P [c(xi − x̄)]2 = n P c2 c2 (xi − x̄)2 = n P (xi − x̄)2 = c2 s2x n 5. La varianza puede escribirse equivalentemente de la siguiente forma s2 = x2i −µ n P Ya que X (xi − x̄)2 = X (x2i + x̄2 −2xi x̄) = X x2i +nx̄2 −2x̄ X xi = X x2i +nx̄2 −2nx̄2 = con lo que se tiene 2 s = 6. La varianza cumple que P P (xi − x̄)2 = n (xi − x̄)2 < n P P x2i − nx̄2 = n (xi − k)2 n 32 x2i − x̄2 n P para cualquier k 6= x̄ X x2i −nx̄2 Esto implica, necesariamente, que las desviaciones calculadas respecto de la media siempre serán menores que las desviaciones calculadas respecto a cualquier otro número o estadı́stico. 7. La varianza puede ponderarse por los casos, al igual que la media. Desviación estándar La desviación estándar se define como la raı́z cuadrada positiva de la varianza. √ Desviación estándar muestral = s = s2 √ Desviación estándar poblacional = σ = σ 2 En el caso de los cinco grupos de personas, la varianza muestral era s2 = 64. Luego, la desviación √ estándar seria s = 64 = 8. La desviación estándar se mide en las mismas unidades que los datos originales. Por esta razón es más fácil comparar la desviación estándar con la media y con otros estadı́sticos que se miden en las mismas unidades que los datos originales. Por ejemplo, si hablamos de sueldos, cuando nos referimos a la varianza serı́a pesos al cuadrado, pero cuando nos referimos a la desviación estándar serı́an sólo pesos. La varianza depende de la unidad de medida de la variable, por lo que, aveces, puede ser complicado compararla con otras variables. Coeficiente de variación El coeficiente de variación es un estadı́stico descriptivo que señala qué tan grande es la desviación estándar en relación con la media. La ventaja del coeficiente de variación es que es una medida relativizada, por lo que permite la fácil comparación entre diferentes variables con diferentes unidades de medida. Aun cuando dos variables pueden tener la misma unidad de medida, resulta conveniente utilizar el coeficiente de variación si toman valores muy diferentes. Por ejemplo, si se quieren comparar las rentas de dos regiones, una muy rica y otra muy pobre, podrı́a no ser adecuado comparar directamente las varianzas. La región con renta media alta tenderá a presentar una varianza más alta, por el hecho de jugar con cifras absolutas mayores que la región con rentas bajas. Una manera de relativizar este efecto es con el coeficiente de variación. Éste se calcula de la siguiente forma: CV = s Desviación Estándar × 100 % = × 100 % M edia x̄ En el ejemplo del número de personas, la media muestral era x̄ = 44 y la desviación estándar muestral era de s = 8. Luego, el coeficiente de variación es [(8/44) ∗ 100] % = 18,2 %. Expresado en palabras, el coeficiente de variación indica que la desviación estándar muestral es 18.2 % del valor de la media muestral. El coeficiente de variación también puede ser calculado a partir del error estándar, el cual es iguala la desviación estándar de la muestra divido en la raı́z del número total de casos seleccionados en la muestra. Esto es, 33 CV = 3.3. s/√n x̄ × 100 % Medidas de la forma de la distribución Sesgo El sesgo indica si una distribución está balanceada hacia la izquierda, la derecha, o se concentra en el centro. Se calcula de la siguientes forma: Sesgo = X xi − x̄ 3 n × (n − 1)(n − 2) s donde n es el número de observaciones, y s es la desviación estándar. Si la medida de sesgo es negativa, entonces la distribución está sesgada hacia la izquierda, por ejemplo -0.85. Si la media de sesgo es positiva, entonces la distribución está sesgada hacia la derecha. Si la medida de sesgo es cero, entonces la distribución no está sesgada y se dice que es una distribución simétrica. En una distribución simétrica, la media y la mediana son iguales. Si los datos están sesgados a la derecha, la media será mayor que la mediana; si los datos están sesgados a la izquierda, la media será menor que la mediana. La figura 3.3 muestra ejemplos del sesgo de una distribución y sus medidas de sesgo asociadas. Puntuaciones Z Las puntuaciones Z permiten conocer la ubicación relativa de los valores de un conjunto de datos. Las medidas de localización relativa ayudan a determinar qué tan lejos de la media se encuentra un determinado valor. A partir de la media y la desviación estándar, se puede determinar la localización relativa de cualquier observación. Suponga que tiene una muestra de n observaciones, en que los valores se denotan como x1 , x2 , ..., xn . Supongamos que la media muestral es x̄ y la desviación estándar muestral es s. Para cada valor xi existe otro valor estandarizado. Este se calcula como xi − x̄ s El punto zi puede ser interpretado como el número de desviaciones estándar a las que xi se encuentra de la media. Puntos z mayores a cero corresponden a observaciones cuyo valor es mayor a la media, y puntos z menores que cero corresponden a observaciones cuyo valor es menor a la media. Si el punto z es cero, el valor de la observación correspondiente es igual a la media. Por ejemplo, si zi = 1,2, entonces xi es 1.2 desviaciones estándar mayor que la media muestral. zi = El punto z de cualquier observación se interpreta como una medida relativa de la localización de la observación en el conjunto de datos. Por tanto, observaciones de dos conjuntos de datos distintos que 34 Figura 10: Sesgo de una distribución. tengan el mismo punto z tienen la misma localización relativa; es decir, se encuentran al mismo número de desviaciones estándar de la media. Teorema de Chebyshev El teorema de Chebyshev permite decir qué proporción de los valores que se tienen en los datos debe estar dentro de un determinado número de desviaciones estándar de la media. El teorema de Chebyshev afirma que, por lo menos 1−1/z 2 de los valores que se tienen en los datos deben encontrarse dentro de z desviaciones estándar de la media, o dentro del intervalo [x̄ − zs, x̄ + zs], donde z es cualquier valor mayor que 1. De acuerdo a este teorema, para los distintos valores de z Por lo menos el 75 % de las observaciones deben estar dentro del intervalo [x̄ − 2s, x̄ + 2s], o z = 2 desviaciones estándar de la media. Al menos el 85 % de los valores deben esta dentro del intervalo [x̄−3s, x̄+3s], o z = 3 desviaciones 35 estándar de la media. Por lo menos el 94 % de los valores deben estar dentro del intervalo [x̄ − 4s, x̄ + 4s], o z = 4 desviaciones estándar de la media. Por tanto, si se quiere definir un intervalo centrado en la media que comprenda, como mı́nimo, el 75 % de las observaciones de la variable deberá calcularse x̄ ± 2s. Si el intervalo debe comprender como mı́nimo el 89 % de las observaciones se construirá como x̄ ± s3. La ventaja de la desigualdad de Chebychev es que no precisa del conocimiento de la distribución, siendo válidos los intervalos construidos para cualquier variable. Desde el punto de vista del análisis descriptivo la desigualdad de Chebychev proporciona una nueva perspectiva al concepto de desviación estándar. Diagrama de caja Los diagramas de cajas son representaciones gráficas que muestran la mediana, los cuartiles Q1 y Q3 , el rango intercuartı́lico (Q3 − Q1 ), los valores atı́picos y los casos extremos de la variable. Son especialmente útiles cuando se trata de comparar distintas variables o el comportamiento de distintos grupos sobre una misma variable. El diagrama de caja aporta información conjunta de medidas de posición y de dispersión. Los pasos para construir un diagrama de caja son los siguiente: 1. El eje vertical corresponde a los valores de la variable. 2. Se dibuja una caja cuyos extremos se localicen en el primer y tercer cuartiles. 3. Al interior de la caja, en el punto donde se localiza la mediana, se traza una lı́nea horizontal. 4. Usando el rango intercuartı́lico, RIC = Q3 − Q1 , se localizan los lı́mites. En un diagrama de caja los lı́mites se encuentran a 1, 5(RIC) abajo del Q1 y 1, 5(RIC) arriba del Q3 . Esto es, los bordes superior e inferior del rectángulo coinciden con el tercer y primer cuartiles, respectivamente (75 y 25 percentiles). Los datos que quedan fuera de estos lı́mites se consideran observaciones atı́picas. Por tanto, con la altura del rectángulo (el 50 % de las observaciones centrales se encuentran dentro del rectángulo; un 25 % de las observaciones restantes estarán por encima y el otro 25 % por debajo). 5. Se representan en las gráficas dos lı́neas perpendiculares a los bordes del rectángulo, que llegan hasta la observación más alejada (en ambas direcciones) pero que no puede definirse como outlier (inferior a 1,5 veces el rango intercuatı́lico). Los outliers se representan con un asterisco. 6. En comparaciones entre diferentes variables o, especialmente, de la misma variable en diversos grupos, resulta interesante disponer de una referencia visual del número de observaciones implicadas (el número de individuos que forman parte de cada grupo). Esto se consigue haciendo que el área de los rectángulos sea proporcional al tamaño del grupo. En un diagrama de caja deben visualizarse la mediana, la amplitud (rango y rango intercuartı́lico) y la existencia de observaciones atı́picas y/o extremas. La figura 3.3 muestra un ejemplo. 36 wage N Válidos 935 Perdidos 0 Media 957,95 Mediana 905,00 Rango 2963 Mínimo 115 Máximo Percentiles 3078 25 668,00 50 905,00 75 1160,00 La lı́nea que señala la mediana no tiene por qué aparecer en el centro del rectángulo. Aparecerá en el medio cuando la distribución sea simétrica, mientras que si es asimétrica por la derecha aparecerá más cerca del lı́mite inferior que del superior. Al contrario ocurrirá en una distribución asimétrica por la izquierda. Si se comparan distribuciones, aquella que muestre un rectángulo de mayor amplitud corresponderá a la distribución con mayor dispersión (medida por el rango intercuartı́lico). 3.4. Medidas de asimetrı́a y curtosis Existen medidas de forma que proporcionan información numérica sobre dos caracterı́sticas de la distribución, su simetrı́a y su curtosis. La curtosis de una distribución mide, de forma numérica y sin necesidad de generar un gráfico, la concentración de las observaciones en la zona central de la variable. Recuerde que, cuando una distribución es simétrica, la media, la moda y la mediana coinciden. 37 Medida de asimetrı́a de Fisher En una distribución simétrica las observaciones de la variable tienden a situarse en igual proporción a ambos lados del valor medio. Cualquier medida que recoja alteraciones de esta situación proporcionará una cuantificación de la asimetrı́a de la distribución. Por ejemplo, el momento de orden tres con respecto a la media (m3 ) (xi − x̄)3 n muestra un promedio de las desviaciones de la variable respecto a su media. Nos interesa conocer si la mayorı́a de las observaciones está a la derecha o a la izquierda de la media. Si la diferencia respecto a la media se eleva al cuadrado, entonces se pierde el signo, pero si se eleva al cubo respetamos el signo de (xi − x̄). Si la mayorı́a de las observaciones está por sobre la media, obtendrı́amos un valor positivo, mientras que si la mayorı́a de las observaciones está por dejado de la media, se obtiene un valor negativo. m3 = P Si m3 = 0 : Distribución simétrica. Si m3 > 0 : Asimetrı́a positiva o por la derecha. Si m3 < 0 : Asimetrı́a negativa o por la izquierda. El estadı́stico de asimetrı́a de Fisher g1 se define a partir del m3 pero está normalizado, lo que permite comparar variables con diferentes escalas. g1 = m3 s3 donde s3 es la desviación estándar elevada al cubo. Por tanto: Si g1 = 0 : Distribución simétrica. Si g1 > 0 : Asimetrı́a positiva o por la derecha. Si g1 < 0 : Asimetrı́a negativa o por la izquierda. Medida de asimetrı́a de Pearson AS = x̄ − M oda s donde, Si AS = 0 : Distribución simétrica. Si AS > 0 : Asimetrı́a positiva o por la derecha. Si AS < 0 : Asimetrı́a negativa o por la izquierda. 38 Curtosis Pretenden medir hasta qué punto las observaciones de la variable se acumulan en la parte central de la distribución. Se aplican a distribuciones simétricas y unimodales. (xi − x̄)4 /n m4 = 4 4 s s donde m4 define el momento de orden cuatro respecto a la media. Los resultados se comparan con una distribución normal. Si se calcula el coeficiente de curtosis de una distribución normal el valor que se obtiene es igual a 3. Luego, Curtosis = P m4 = 3s4 Las distribuciones se califican de una manera especı́fica según este criterio. Las distribuciones parecidas a la normal se denominan mesocúrticas, las distribuciones más achatadas se denominan platicúrticas, y aquellas más puntiagudas se denominan leptocúrticas. Algunos programas estadı́sticos arrojan el siguiente coeficiente de curtosis m4 −3 s4 el que permite la comparación directa con una distribución normal. En este caso, g2 = Si g2 = 0 : Distribución mesocúrtica (normal). Si g2 > 0 : Distribución leptocúrtica (puntiaguda). Si g2 < 0 : Distribución platicúrtica (achatada). La figura 3.4 muestra un ejemplo de la distribución para la variable salario. A la izquierda se observan los estdı́sticos descriptivos de la variable. La linea sobre el histograma muestra una distribución normal, lo que permite realizar una comparación. 39 Estadísticos wage N Válidos Perdidos 935 0 Media 957,95 Mediana 905,00 Moda 1000 Desv. típ. 404,361 Asimetría 1,201 Error típ. de asimetría Curtosis Error típ. de curtosis 4. ,080 2,718 ,160 Análisis bivariante: Medidas de Dependencia Estadı́stica y Correlación En términos prácticos, el comportamiento de una sola variable no es muy relevante. Rara vez los investigadores sólo observan una variable. En cambio, lo que más interesa es el comportamiento de dos o más variables de forma conjunta, la interacción entre estas variables, o la forma en que se comporta una variable condicionada por otra variable. A esto llamamos correlación. En lenguaje cientı́fico hablado de variables independientes y variables dependiente. También se les conoce como variable explicativas y variables explicadas. La definición estadı́stica de una relación de dependencia entre dos variables (sean éstas cualitativas o cuantitativas) intenta establecer cuál es la variable (independiente) que influye en la otra (dependiente). La idea de causalidad supone algo más que la asociación entre ellas, puesto que impone una relación de dependencia entre las variables, debiendo plantear qué variable es dependiente y qué variable es independiente. Desde el punto de vista estadı́stico existen técnicas para establecer la dirección e importancia cuantitativa de la causalidad, pero su aplicación adquiere pleno sentido cuando se acompaña de algún tipo de hipótesis teórica, aunque sea al nivel puramente exploratorio de los datos. 40 4.1. Variables cualitativas: Ordinales y Nominales Distribución conjunta de variables: Tablas de contingencia Una de las mejores formas de describir la relación entre dos variables cualitativas es a través de una tabla de contingencia. Cada variable puede tomar una serie de valores mutuamente excluyentes, de manera que sobre cada individuo de la muestra puede observarse cuáles son las categorı́as a las que pertenece en cada una de las variables. La tabla de contingencia muestra todas las posibles combinaciones de las categorı́as de cada variable anotando en cada una de ellas el número de casos que pertenecen a las dos categorı́as. Supongamos dos variables Ai , donde i = 1, ..., I y Bj , con j = 1, ..., J. Sea nij el número de observaciones simultáneas que representan las caracterı́sticas i y j, la tabla de contingencia se presenta de la siguiente forma: Cuadro 12: Construcción de una tabla de contingencia B1 B2 ... B4 A1 n11 n12 ... n1j A2 n21 n22 ... n2j ... ... ... ... ... AI nI1 nI2 ... nij El tratamiento más elemental de esta información es la obtención de las distintas frecuencias. En las tablas de contingencia se muestran las frecuencias (absolutas o relativas) en las que ocurren las categorı́as de filas y columnas. i La distribución marginal muestra el total de cada una de las categorı́as de cada variable. Esto es, ni = J X nij j=1 ii La distribución de frecuencias relativa se refiere a la frecuencia relativas de cada una de las celdas respecto del total de observaciones. En este caso, el cuadrante con la posición nij debe sumar 1 o 100 %. iii Si analizamos el perfil fila, debemos poner atención a las frecuencias relativas de cada una de las celdas con respecto al total de las filas, la cual debe sumar 100 % (suma horizontal). iv Si analizamos el perfil columna, debemos poner atención a las frecuencias relativas de cada una de las celdas con respecto al total de las columnas, la cual debe sumar 100 % (suma vertical). La figura 4.1 muestra un ejemplo de tabla de contingencia entre dos variables cualitativas creada a partir de la encuesta CEP de diciembre de 2016. En las filas se muestran las categorı́as de la variables Nivel Socioeconómico (NSE) y en las columnas se muestran los tramos de edad. Al analizar los datos, el primer número corresponde al número de observaciones y la frecuencia absoluta que satisface la intersección de dos categorı́as. Por ejemplo, en el Nivel Socioeconómico Alto hay 0 (cero) personas 41 encuestadas que tienen entre 0 y 3 años de escolaridad. En el nivel socioeconómico Medio, hay 379 personas encuestadas que tienen entre 9 y 12 años de escolaridad. El segundo número corresponde al perfil fila de la frecuencia relativa. Éstos se leen de forma horizontal. Por ejemplo, en el perfil socioeconómico Alto, el 92,9 % de las personas encuestadas tiene más de 13 años de escolaridad. El tercer número corresponde al perfil columna de la frecuencia relativa. Éstos datos se leen de forma vertical. Por ejemplo, el 72,9 % de las personas encuestadas que pertenecen al nivel socioeconómico bajo tienen entre 0 y 3 años de escolaridad. Tabla de contingencia Nivel socioeconomico (Rec) * Años de escolaridad (Rec) Nivel socioeconomico (Rec) Alto Medio Recuento No sabe/ No contesta 1 Total 84 ,0% 1,2% 4,8% 92,9% 1,2% 100,0% % de Años de escolaridad (Rec) ,0% ,3% ,7% 16,2% 5,9% 5,7% 16 98 379 356 8 857 1,9% 11,4% 44,2% 41,5% ,9% 100,0% 27,1% 33,3% 61,8% 74,0% 47,1% 58,5% 43 195 230 47 8 523 8,2% 37,3% 44,0% 9,0% 1,5% 100,0% 72,9% 66,3% 37,5% 9,8% 47,1% 35,7% Recuento % de Años de escolaridad (Rec) Recuento % de Nivel socioeconomico (Rec) % de Años de escolaridad (Rec) Total Años de escolaridad (Rec) Entre 4 y 8 Entre 9 y Mas de 13 años 12 años años 1 4 78 % de Nivel socioeconomico (Rec) % de Nivel socioeconomico (Rec) Bajo Entre 0 y 3 años 0 Recuento % de Nivel socioeconomico (Rec) % de Años de escolaridad (Rec) 59 294 613 481 17 1464 4,0% 20,1% 41,9% 32,9% 1,2% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% La interpretación de los resultados de una tabla de contingencia obliga a una lectura cuidadosa de los porcentajes de filas y columnas, al ofrecer diferentes perspectivas de la misma información. 4.2. Variables cuantitativas Cuando se dispone de dos variables cuantitativas y continuas basadas en escala de intervalo o de cociente las medidas de asociación estudiadas hasta ahora suelen ser inaplicables, esencialmente porque el número de valores que toman este tipo de variable hace que carezca de sentido el cómputo de frecuencias de todas las combinaciones posibles. Aunque siempre es posible convertir estas variables cuantitativas en variables cualitativas ordinales (construyendo intervalos), resulta adecuado utilizar otro tipo de coeficientes de asociación. La forma más sencilla es analizar la correlación lineal simple entre dos variables. Ésta se trata de una medida sintética del grado de asociación lineal entre dos variables cuantitativas. Circunscrito al concepto de linealidad el calificativo de simple se opone a la idea de asociación múlti42 ple entre variables. Se analiza la relación entre dos variables, por ejemplo X e Y, sin considerar la existencia de otras variables que puedan estar relacionadas con ellas, ni la posible incidencia de las mismas en esa relación. Por ejemplo, supongamos que tanto la variable X como la variable Y varı́an cuando lo hace una tercera variable Z. La correlación entre la variable X e Y reveları́a una asociación entre estas dos variables, pero nada dirá el coeficiente de la existencia de la tercera variable, ni de su capacidad de explicar las variaciones de X e Y. Cuando se habla de una relación lineal entre dos variables se está haciendo referencia a una relación que puede representarse aproximadamente como una lı́nea recta. Denotando a las dos variables como X e Y, la existencia de una relación lineal exacta entre las dos variables podrı́a ser la siguiente: Yi = a + bXi donde Xi = 1, ..., n e Yi = 1, ..., n, y a es el intercepto de la recta en el eje de las ordenadas y b es la pendiente de la recta. Ambas son constantes que pueden tomar cualquier valor con b 6= 0. La detección de una asociación lineal entre dos variables no implica que entre ellas exista una relación causal. Entre dos variables pueden detectarse dos tipos de asociación lineal: positiva y negativa. La figura 4.2 muestra un ejemplo de correlación entre la edad y la experiencia de los trabajadores. La line roja muestra la tendencia lineal de los datos, donde se puede observar claramente una relación positiva. Esto es, a mayor edad, mayor es la experiencia de los trabajadores y viceversa. Recuerde que al analizar la correlación no asignamos causalidad, por que lo no podrı́amos concluir que la edad determina la experiencia, simplemente decimos que existe una relación entre estas dos variables. El signo del valor del parámetro b, la pendiente de la recta, reflejarı́a el sentido de la asociación (positiva o negativa) entre las dos variables. Una relación no lineal entre los datos darı́a una forma cóncava o convexa a la lı́nea de tendencia de los datos. Covarianza Sean X e Y dos variables cuantitativas. Se define la covarianza entre estas variables como Pn (xi − x̄)(yi − ȳ) σxy = i=1 N El empleo de las variables en desviaciones respecto a la media equivale a una traslación de los ejes de coordenadas, que pasan de estar centrados en el punto (0; 0) a estarlo en el punto (x̄; ȳ). Al expresar los valores de las variables en desviaciones, el centro de coordenadas se sitúa en el centro de la nube de puntos. El signo y valor de este estadı́stico depende, esencialmente, de la suma de los productos (xi − x̄)(yi − ȳ), para todas las observaciones (i = 1, ..., n). También cabe la posibilidad de que no exista una asociación clara entre las dos variables. Este serı́a el caso de una nube de puntos dispersa. Esto es, 43 Figura 11: Correlación entre la edad y la experiencia de los trabajadores si σxy > 0 : Existe una asociación lineal positiva. si σxy < 0 : Existe una asociación lineal negativa. si σxy = 0 : No existe una asociación lineal. La covarianza, como medida de asociación lineal tiene el inconveniente de estar afectada por las unidades de medida de las variables. Propiedades de la covarianza 1. La covarianza puede calcularse a partir de la siguiente equivalencia de su numerador: n X i=1 (xi − x̄)(yi − ȳ) = n X i=1 xi yi − nx̄ȳ 2. Si a la variable X se suma una constante b y a la variable Y una constante c, la covarianza entre las dos nuevas variables transformadas será igual a la covarianza original: σx+b , y+c = Pn i=1 ((xi + b) − (x̄ + b))((yi + c) − (ȳ + c)) = n Pn i=1 (xi − x̄)(yi − ȳ) n 3. Si a la variable X se multiplica una constante b y a la variable Y una constante c, la covarianza entre las dos nuevas variables transformadas será igual a la covarianza original multiplicada por las constantes bc: σbx , by = Pn i=1 ((bxi bc − bx̄))((cyi − cȳ)) = n 44 Pn i=1 (xi − x̄)(yi − ȳ) = bc · σxy n 4. La covarianza entre una variable y una constante es cero: σxy = Pn i=1 (xi − x̄)(a − ā) =0 n Coeficiente de correlación de Pearson Ya habiendo definido la correlación entre dos variables, el coeficiente de correlación de Pearson se define como: Pn (xi − x̄)(yi − ȳ) pP n ρxy = pPn i=1 2 2 i=1 (xi − x̄) i=1 (yi − ȳ) o lo que es equivalente ρxy = σxy σx σ y donde σxy es la covarianza entre las variables X e Y, σx es la desviación estándar de x, y σy es la desviación estándar de y. El coeficiente de correlación lineal entre dos variables es, por tanto, igual a su covarianza dividida por el producto de desviaciones estándar de las dos variables. El signo del coeficiente de correlación será igual al signo de la covarianza. Si entre dos variables existe una asociación lineal positiva el coeficiente de correlación será positivo. En el caso de una asociación negativa, el coeficiente de correlación será negativo. En el caso de ausencia de asociación, el coeficiente de correlación será cero. σxy > 0 ⇔ ρxy > 0 : Existe una asociación lineal positiva. σxy < 0 ⇔ ρxy < 0 : Existe una asociación lineal negativa. σxy = 0 ⇔ ρxy = 0 : No existe una asociación lineal. Al estandarizar la covarianza mediante las desviaciones estándar se suprime el problema de las unidades de medida. El valor numérico del coeficiente de correlación entre dos variables no se modifica si una (o ambas) variables se multiplica por una constante. Una de las consecuencias más importantes de esta estandarización de la covarianza es que el coeficiente de correlación de Pearson toma valores en el intervalo ?1 y 1. Los lı́mites superior o inferior se alcanzan cuando entre las dos variables se da una relación exacta. Propiedades del coeficiente de correlación 1. El valor numérico del coeficiente de correlación entre dos variables no se modifica si una (o ambas) variables se multiplica por una constante. 2. El coeficiente de correlación toma valores en el intervalo -1 y 1. Los valores máximo y mı́nimo se alcanzan cuando se da una relación lineal exacta entre las dos variables, de tipo positivo o de tipo negativo, respectivamente. 45 3. Valores del coeficiente próximos a 1 indican la existencia de una asociación positiva fuerte entre las variables; valores cercanos a -1 indican la existencia de una asociación negativa fuerte entre las variables; valores cercanos a cero señalan la ausencia de una asociación lineal. Matriz de correlaciones Es frecuente analizar la relación existente entre un conjunto de variables, de manera que estemos interesados en las correlaciones entre todos los pares posibles. Una forma de presentar estos resultados es una matriz de correlaciones, R, definida como una matriz simétrica, con la siguiente presentación:  1 ρ12 ρ13 · · ·   1 ρ23 · · ·   1 ··· R=  ..  .   ρ1k  ρ2k   ρ3k   ..  .   1 donde ρij indica la correlación entre la i-ésima y la j-ésima variable. 4.3. Momentos de una variable aleatoria Los momentos de una variable aleatoria X son los valores esperados de ciertas funciones de X. Éstos forman una colección de medidas descriptivas que pueden emplearse para caracterizar la distribución de probabilidad de X y especificarlas si todos los momentos de X son conocidos. Primer momento: La media El primer momento alrededor del cero es la media o valor esperado de la variable aleatoria y se denota por µ. La media de una variable aleatoria se considera como una cantidad numérica alrededor de la cual los valores de la variable aleatoria tienden a agruparse. Por lo tanto, la media es una medida de tendencia central. Segundo momento: La varianza El segundo momento central, alrededor de la media, recibe el nombre de varianza de la variable aleatoria. La varianza de una variable aleatoria es una medida de la dispersión de la distribución de probabilidad de esta. Tercer momento: Asimetrı́a El tercer momento central está relacionado con la asimetrı́a de la distribución de probabilidad de X. Por ejemplo, el Coeficiente de asimetrı́a de Fisher y el Coeficinte de asimetrı́a de Pearson. 46 Cuarto momento: Curtosis El cuarto momento central es una medida de qué tan puntiaguda es la distribución de probabilidad y recibe el nombre de curtosis. 5. Fenómenos aleatorios y Espacios de Probabilidad La probabilidad es una medida numérica de la posibilidad de que ocurra un evento. Los valores de probabilidad se encuentran en una escala de 0 a 1. Los valores cercanos a 0 indican que las posibilidades de que ocurra un evento son muy pocas. Los cercanos a 1 indican que es casi seguro que ocurra un evento. Otras probabilidades entre cero y uno representan distintos grados de posibilidad de que ocurra un evento. En el contexto de la probabilidad, un experimento es definido como un proceso que genera resultados definidos. En cada una de las repeticiones del experimento, habrá uno y sólo uno de los posibles resultados experimentales. Por ejemplo, el experimento “lanzar una moneda”tiene como resultado experimental “cara o sello”. Al especificar todos los resultados experimentales posibles, se está definiendo el espacio muestral de un experimento. A un resultado experimental también se le llama punto muestral para identificarlo como un elemento del espacio muestral. Si denotamos S al espacio muestral, podemos describir el experimento “lanzar una moneda al aire” como S = {Cara, Sello} Al asignar probabilidades es necesario identificar y contar los resultados experimentales. Supongamos que tenemos un experimento de pasos múltiples; lanzar dos monedas al aire. Entonces, podemos identificar todas las combinaciones posibles en el espacio muestral S = {(C, C); (C, S); (S, C); (S, S)} Por tanto, podemos identificar cuatro resultados experimentales. Un experimento se describe como una sucesión de k pasos en los que hay n1 resultados posibles en el primer paso, n2 resultados posibles en el segundo paso y ası́ sucesivamente, entonces el número total de resultados experimentales es (n1 ) (n2 ) ... (nk ). Si considera el experimento del lanzamiento de dos monedas como la sucesión de lanzar primero una moneda (n1 = 2) y después lanzar la otra (n2 = 2), siguiendo la regla de conteo (2)(2) = 4, entonces hay cuatro resultados distintos. Como ya se mostró, estos resultados son S = {(C, C); (C, S); (S, C); (S, S)}. El número de resultados experimentales de seis monedas es (2)(2)(2)(2)(2)(2) = 64, o bien 26 = 64 Un evento es la colección de puntos muestrales. La probabilidad de un evento es la suma de las probabilidades de los puntos muestrales que forman el evento. El espacio muestral S es un evento. 47 Puesto que contiene todos los resultados experimentales, su probabilidad es 1; es decir P (S) = 1. Un diagrama de árbol es una representación gráfica que permite visualizar un experimento de pasos múltiples. En la figura ?? aparece un diagrama de árbol para el experimento del lanzamiento de dos monedas. La secuencia va de arriba hacia abajo. El paso 1 corresponde al lanzamiento de la primera moneda, el paso 2 corresponde al lanzamiento de la segunda moneda. En cada paso, los resultados posibles son cara o sello. Cara Cara Sello Cara Sello Sello Otra regla de conteo útil permite contar el número de resultados experimentales cuando el experimento consiste en seleccionar n objetos de un conjunto mayor con N objetos; n ∈ N . Ésta es la regla de conteo para combinaciones. CnN = N n ! = N! n!(N − n)! donde N ! = N (N − 1)(N − 2) · · · (2)(1) y n! = n(n − 1)(n − 2) · · · (2)(1). Recuerde que por definición 0! = 1. La notación ! significa factorial ; por ejemplo, 5 factorial es 5! = (5)(4)(3)(2)(1) = 120. Por ejemplo, considere un procedimiento de control de calidad en el que un inspector selecciona al azar dos de cinco piezas para probar que no tengan defectos. En un conjunto de cinco partes, ¿cuántas combinaciones de dos partes pueden seleccionarse? Sea N = 5 y n = 2 se tiene que C25 = ! 5 5! (5)(4)(3)(2)(1) 120 = = = = 10 2!(5 − 2)! [(2)(1)][(3)(2)(1)] 12 2 De manera que hay 10 resultados posibles en este experimento de la selección aleatoria de dos partes de un conjunto de cinco. Si etiqueta dichas partes como A, B, C, D y E, las 10 combinaciones o resultados experimentales serán AB, AC, AD, AE, BC, BD, BE, CD, CE y DE. Por ejemplo: Considere la loterı́a en la que se seleccionan 6 números de un conjunto de 53 para determinar el ganador de la semana. Por regla de conteo de combinaciones se tiene que ! 53 53! = 22, 957, 480 = 6!(53 − 6) 5 48 La regla de conteo para combinaciones arroja casi 23 millones de resultados experimentales en esta loterı́a. Si una persona compra un billete de loterı́a, tiene 1 en 22.957.480 posibilidades de ganar la loterı́a. Otra regla de conteo es la permutaciones. Esta regla permite calcular el número de resultados experimentales cuando se seleccionan los n objetos de un conjunto de N objetos y el orden de selección es relevante. Los mismos n objetos seleccionados en orden diferente se consideran un resultado experimental diferente. El número de permutaciones de N objetos tomados de n en n está dado por: PnN N = n! n ! = N! (N − n)! La regla de conteo para permutaciones tiene relación estrecha con la de combinaciones; sin embargo, con el mismo número de objetos, el número de permutaciones que se obtiene en un experimento es mayor que el número de combinaciones, ya que cada selección de n objetos se ordena de n! maneras diferentes. Por ejemplo, reconsidere el proceso de control de calidad en el que un inspector selecciona 2 de 5 piezas para probar que no tienen defectos. ¿Cuántas permutaciones puede seleccionar? ! 5 5! 5! (5)(4)(3)(2)(1) 120 = = = = 20 = P25 = 2! (5 − 2)! 3! (3)(2)(1) 6 2 De manera que el experimento de seleccionar aleatoriamente dos piezas de un conjunto de cinco piezas, teniendo en cuenta el orden en que se seleccionen, tiene 20 resultados. Si las piezas se etiquetan A, B, C, D y E, las 20 permutaciones son AB, BA, AC, CA, AD, DA, AE, EA, BC, CB, BD, DB, BE, EB, CD, DC, CE, EC, DE y ED. 5.1. Asignación de Probabilidades Al asignar probabilidades a los resultados de un experimento, es necesario satisfacer requisitos básicos. Esto son: 1. La probabilidad asignada a cada resultado experimental debe estar entre 0 y 1. Si se denota con Ei el i-ésimo resultado experimental y con P (E) su probabilidad, entonces 0 ≤ P (Ei ) ≤ 1 para todo i 2. La suma de probabilidades de los resultados experimentales debe ser igual a 1. Para n resultados experiemntales decimos que: P (E1 ) + P (E2 ) + · · · + P (En ) = 1 49 Método clásico El método clásico de asignación de probabilidades es apropiado cuando todos los resultados experimentales tienen la misma posibilidad. Si existen n resultados experimentales, la probabilidad asignada a cada resultado experimental es 1/n. Al emplear este métodos se satisfacen los dos requerimientos básicos de la asignación de probabilidades. Por ejemplo, considere el experimento del lanzamiento de una moneda, los dos resultados experimentales, cara o sello, tienen la misma posibilidad. Como uno de los dos resultados igualmente posibles es cara, la probabilidad de que caiga cara es 1/2 o 0,5. Asimismo, la probabilidad de que caiga sello también es 1/2 o 0,5. Método de frecuencia relativa El método de frecuencia relativa para la asignación de probabilidades es el más conveniente cuando existen datos para estimar la proporción de veces que se presentarán los resultados si el experimento se repite muchas veces. Considere, por ejemplo, un estudio sobre los tiempos de espera en el departamento de rayos-x de un hospital pequeño. Durante 20 dı́as sucesivos un empleado registra el número de personas que están esperando el servicio a las 9:00 am. Los resultados son los siguientes. N personas que esperan N de dı́as: Resultado de ocurrencia 0 1 2 3 4 2 5 6 4 3 Total = 20 En estos datos aparece que 2 de los 20 dı́as, hubo cero pacientes esperando el servicio, 5 dı́as hubo un paciente en espera y ası́ sucesivamente. Con el método de la frecuencia relativa, la probabilidad que se le asignará al resultado experimental cero pacientes esperan el servicio será de 2/20 = 0,1. Al resultado experimental 1 paciente espera el servicio será de 5/20 = 0,25 ; a 2 pacientes esperan el servicio será de 6/20 = 0,3 ; a 3 pacientes esperan el servicio será de 4/20 = 0,2 y a 4 pacientes esperan el servicio será de 3/20 = 0,15. Método Subjetivo Este método se utiliza cuando no es posible asumir que todos los eventos son igualmente probables. En este método cada individuo asigna subjetivamente una probabilidad a la ocurrencia de un hecho. La probabilidad se traduce en el grado de confianza que se tiene acerca de que un resultado experimental ocurra. 50 Por ejemplo,, Camila y Gastón están postulando a una oferta de trabajo y le preguntan sobre su expectativa de renta. Las personas hacen una oferta tal que: E1 = su oferta es aceptada E2 = su oferta no es aceptada Camila cree que la probabilidad de que su oferta sea aceptada es de 0,8, por tanto, establece que P (E1 ) = 0, 8 y P (E2 ) = 0, 2. Por otro lado, Gastón cree que la probabilidad de que su oferta sea aceptada es de 0,6, por tanto, P (E1 ) = 0, 6 y P (E2 ) = 0, 4. Observe que la estimación de probabilidad de E1 de Gastón es más pesimista que la de Camila. El hecho de las probabilidades sean diferentes es la razón de que el método sea conocido como el método subjetivo. 5.2. Propiedades de la Probabilidad Complemento de un evento Dado un evento A, el complemento de A se define como el evento que consta de todos los puntos muestrales que no están en A. El complemento de A se denota como Ac . P (A) + P (Ac ) = 1 Luego, se cumple necesariamente que P (A) = 1 − P (Ac ) Unión de eventos La unión de A y B es el evento que contiene todos los puntos muestrales que pertenecen a A o B. La unición de denota como A ∪ B Espacio Muestral: S Evento A Evento B A∪B Intersección de eventos Dados son eventos A y B, la intersección de A y B es el evento que contiene los puntos muestrales que pertenecen tanto a A como a B. 51 Espacio Muestral: S Evento A Evento B A∩B Eventos mutuamente excluyentes Los eventos A y B son mutuamente excluyentes si, cuando un evento ocurre, el otro no puede ocurrir. Por tanto, para que A y B sean mutuamente excluyentes, se requiere que su intersección no contenga ningún punto muestral; P (A ∩ B) = 0 Espacio Muestral: S Evento A Evento B P (A ∩ B) = 0 Adición Permite determinar la probabilidad de que ocurra, al menos, uno de los dos eventos. Es decir, si A y B son evento, interesa hallar la probabilidad de que ocurra el evento A o el evento B o ambos. La adición se emplea para calcular la probabilidad de unión de los dos eventos. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Los dos primeros términos P (A) + P (B) corresponden a los puntos muestras A ∪ B. Pero como los puntos muestrales que se encuentran en la intersección A ∩ B están tanto en A como en B, cuando se calcula P (A) + P (B), los puntos A ∩ B se cuentan dos veces, luego es necesario restarlos. Por ejemplo, el gerente de recursos humanos de una empresa identificó que el 30 % de los empleados que se van antes de los 2 años de la empresa, lo hacen por estar insatisfechos con el salario, 20 % se van de la empresa por estar descontentos con el trabajo y el 12 % por estar insatisfechos con las dos cosas; el salario y el trabajo. ¿Cuál es la probabilidad de que un empleado que se vaya de la empresa en menos de dos años lo haga por estar insatisfecha con el salario, con el trabajo, o con las dos cosas? Sea S W = evento el empleado se va de la empresa por insatisfacción con el salario = evento el empleado se va de la empresa por insatisfacción con el trabajo 52 Se tiene que P (S) = 0,3, P (W ) = 0,2 y P (S ∩ W ) = 0,12. Luego, P (S ∪ W ) = P (S) + P (W ) − P (S ∩ W ) = 0,3 + 0,2 − 0,12 = 0,38 Ergo, la probabilidad de que un empleado se vaya de la empresa por el salario o por el trabajo es de 38 % En el caso de eventos mutuamente excluyentes, la suma de probabilidades se expresa como P (A ∪ B) = P (A) + P (B) Probabilidad Condicional En algunas ocaciones la probabilidad de ocurrencia de un hecho depende de que otro hecho haya ocurrido antes. Por ejemplo, un padre le dice a su hijo “si te comes toda la comida, puedes salir a jugar”. La ocurrencia del hecho “salir a jugar”depende del hecho “comerse toda la comida”. Si denotamos el hecho “salir a jugar´´ como A y el hecho “comerse toda la comidaçomo B, entonces la probabilidad condicional se denota como P (A | B). Por ejemplo, el departamento de bienestar de una universidad ha dado a conocer los resultados de una beca para estudiar Ingenierı́a Comercial. Éstos se muestran en la tabla a continuación: Hombre Mujer Total Becado No becado 288 672 36 204 324 876 Total 960 240 1200 Luego de conocer los resultados, el Frente Amplio Feminista de Mujeres protestó contra la asignación de becas ya que de los 324 becados, sólo 36 eran mujeres. El departamento de bienestar de la universidad respondió a las quejas argumentando que la asignación de becas habı́a sido aleatoria y que la cantidad de mujeres que habı́a postulado a la beca era menor a la de hombres. Sea: M M A Ac = = = = el el el el evento evento evento evento de de de de que que que que un becado sea hombre un becado sea hombre una persona gane una beca una persona no gane una beca Al dividir el número de hombres y mujeres becados y no becados por el total de postulantes, podemos concluir que: P (M P (M P (W P (W ∩ A) ∩ Ac ) ∩ A) ∩ Ac ) = = = = 288/1200 672/1200 36/1200 204/1200 = = = = 0,24 Probabilidad de que un hombre sea becado 0,56 Probabilidad de que un hombre no sea becado 0,03 Probabilidad de que una mujer sea becada 0,17 Probabilidad de que una mujer no sea becada 53 Estos valores muestran la probabilidad conjunta, es decir, la probabilidad de la intersección de dos eventos. Luego, la tabla de probabilidades conjuntas se construye como Hombre (M) Mujer (W) Total Becado (A) No becado (Ac ) 0.24 0.56 0.03 0.27 0.27 0.73 Total 0.8 0.2 1 Las probabilidades asignadas a los totales corresponde a las probabilidades de ocurrencia de cada evento por separado. A estas probabilidades también se les conoce como probabilidades marginales. Las probabilidades marginales se obtienen al sumar la probabilidad conjunta de la fila o columna. Por ejemplo, P (A) = P (M ∩ A) + P (W ∩ A) = 0,24 + 0,03 = 0,27. Se observa que el 80 % de los postulantes a la beca son hombres y el 20 % son mujeres. Luego, nos interesa conocer la probabilidad condicional de que una persona reciba la beca dado que es hombre; P (A|M ). Sólo nos interesan los becados que son hombres. Como 288 de los 960 becados son hombres las probabilidades de ganarse una beca dado que es hombre son 288/960 = 0,3. Esto es 288 288 0,24 1200 = = 0,3 P (A|M ) = = 960 960 0,8 1200 0.24 es la probabilidad conjunta de A y M, es decir, P (A ∩ M ) = 0,24, y 0.8 es la probabilidad marginal de que un becado seleccionado aleatoriamente sea hombre. Es decir P (M ) = 0,8. Por tanto, la probabilidad condicional P (A|M ) se calcula como la razón entre P (A ∩ M ) y la probabilidad marginal P (M ). P (A|M ) = 0,24 P (A ∩ M ) = = 0,3 P (M ) 0,8 De forma general, para calcular la probabilidad condicional entre A y B como P (A | B) = P (A ∩ B) P (B) o bien P (B | A) = P (A | B): P (A ∩ B) P (A) Espacio Muestral S Evento A Evento B A∩B En el ejemplo de los becados, al considerar sólo las personas becadas, ya sean estas hombres o mujeres, la probabilidad de que sean promovidas es de 0.27. Frente a la acusación de discriminación, la cuestión 54 relevante es ¿cuál es la probabilidad de que una persona sea becada dado que es hombre y cuál es la probabilidad de que sea becada dado que es mujer? Si estas probabilidades son iguales, no hay fundamentos para argumentar que se ha discriminado, ya que las oportunidades de ser promovidos son las mismas para los hombres y para las mueres. Ejemplo: ¿Cuál es la probabilidad una persona sea becada dada que es mujer? Calculamos P (A|W ). Esto es P (A|W ) = 0,03 P (A ∩ W ) = = 0,15 P (W ) 0,2 Luego, la probabilidad de que una persona sea becada dada que es mujer es 15 %, la mitad de la probabilidad de que un hombre sea becada, 30 %. Este calculo confirma el argumento de discriminación. Eventos Independientes Dos eventos son independientes si P (A | B) = P (A) o bien P (B | A) = P (B) En el ejemplo anterior, la probabilidad de se becado (evento A) le afecta o le influye el que la persona sea hombre o mujer. Es decir, la probabilidad del evento A la altera o le afecta saber que se da el evento M (ser hombre). Luego, los eventos A y W son eventos dependientes. Si la probabilidad de un evento A no cambia por la existencia del evento M, entonces los eventos A y M son eventos independientes. Multiplicación Mientras que la suma de probabilidades permite calcular la probabilidad de la unión de dos eventos, la multiplicación es útil para calcular la probabilidad de la intersección de dos eventos. La multiplicación se basa en la probabilidad condicional. P (A ∩ B) = P (B)P (A | B) o bien P (A ∩ B) = P (A)P (B | A) Por ejemplo: el 84 % de los hogares de la comuna de Santiago están suscritos El Mercurio. Si D denota el evento un hogar esta suscrito, P (D) = 0,84. Además, sabe que la probabilidad de que un hogar ya suscrito a la edición diaria se suscriba también a la edición dominical (evento S ) es de 0.75. Esto es, P (A | D) = 0,75. ¿Cuál es la probabilidad de que un hogar se suscriba a ambas, a la edición diaria y a la domincal? P (S ∩ D) = P (D)P (S | D) = 0,84(0,75) = 0,63 Luego, el 63 % de los hogares se suscriben a ambas ediciones. 55 Si dos eventos son independientes, la multiplicación entre ellos se calcula como la multiplicación de las probabilidades correspondientes. P (A ∩ B) = P (A)P (B) Note que dos eventos son independientes si P (A ∩ B) 6= P (A)P (B), entonces A y B son eventos independientes. 5.3. Teorema de Bayes El Teorema de Bayes permite corregir probabilidades cuando tenemos nueva información respecto a un evento. El teorema de Bayes es aplicable cuando los eventos para los que se quiere calcular la probabilidad revisada son mutuamente excluyentes y su unión es todo el espacio muestral. Por ejemplo: Considere una fábrica que compra piezas a dos proveedores. Sea A1 el evento la pieza proviene del proveedor 1, que corresponden al 65 % de las compras, y A2 el evento la pieza proviene del proveedor 2, que corresponden al 35 %. Por tanto, si se toma una pieza aleatoriamente, la probabilidad previa es P (A1 ) = 0,65 y P (A2 ) = 0,35 La calidad de las piezas compradas varı́a se acuerdo al proveedor. Por experiencia, sabe que la calidad de los dos proveedores es la siguiente Piezas buenas ( %) Piezas malas ( %) Proveedor 1 98 2 Proveedor 2 95 5 Si G denota el evento la pieza esta buena y B denota el evento la pieza está mala, las probabilidades condicionales son: P (G | A1 ) = 0,98 P (B | A1 ) = 0,02 P (G | A2 ) = 0,95 P (B | A2 ) = 0,05 Un análisis mediante un diagrama de árbol permite conocer los resultados experimentales de si una pieza está buena o mala. A1 G (A1 , G) A2 B G (A1 , B) (A2 , G) 56 B (A2 , B) Se observa que existen cuatro resultados experimentales. Cada resultado experimental es la intersección de dos eventos, de manera que para calcular estas probabilidades, se puede usar la multiplicación. Luego, las probabilidades para cada resultado experimental son Las probabilidades del paso 1 son probabilidades previas, y las probabilidades del paso 2 son probabilidades condicionales. Para hallar las probabilidades de cada uno de los resultados experimentales, simplemente se multiplican las probabilidades de las ramas que llevan a este resultado. Suponga ahora que las piezas se emplean en el proceso de fabricación y cada vez que se utiliza una pieza defectuosa la máquina se descompone. Dada la información de que la pieza está mala ¿cuál es la probabilidad de que sea del proveedor 1 y cual es la probabilidad de que sea del proveedor 2? Para responder a esta pregunta utilizamos el teorema de Bayes. Como B es el evento de que una pieza esté mala, lo que se busca son las probabilidades posteriores P (A1 | B) y P (A2 | B). Por probabilidad condicional sabemos que P (Ai | B) = P (Ai ∩ B) P (B) Además, sabemos que P (Ai ∩ B) = P (Ai )P (B | Ai ) Luego, para hallar P (B) se observa que B sólo puede presentarse de dos maneras (A1 ∩ B) y (A2 ∩ B). Por tanto, P (B) = P (A1 ∩ B) + P (A2 ∩ B) = P (A1 )P (B | A1 ) + P (A2 )P (B | A2 ) 57 Sustituyento P (Ai ∩B) y P (B) en P (Ai | B) se obtiene el teorema de Bayes para el caso de dos eventos. P (Ai |B) = P (Ai )P (B | Ai ) P (Ai )P (B | Ai ) + P (Aj )P (B | Aj ) Luego, P (A1 | B) = P (A1 )P (B | A1 ) P (A1 )P (B | A1 ) + P (A2 )P (B | A2 ) = 0,0130 (0,65)(0,02) = (0,65)(0,02) + (0,35)(0,05) 0,0130 + 0,0175 = 0,0130 = 0,4262 0,0305 De igual forma, P (A2 | B) = P (A2 )P (B | A2 ) P (A2 )P (B | A2 ) + P (A1 )P (B | A1 ) = (0,35)(0,05) 0,0175 = (0,65)(0,02) + (0,35)(0,05) 0,0130 + 0,0175 = 0,0175 = 0,5738 0,0305 Por tanto, dada la información de que la pieza está mala, la probabilidad de que la pieza provenga del proveedor 1 bajó a 42,62 %. De hecho, si la pieza está mala la posibilidad de que sea del proveedor 2 es mayor del 50 %; P (A2 | B = 57,38 % El siguiente cuadro resume los pasos. Ai P (Ai ) P (B | Ai ) P (Ai ∩ B) A1 0.65 0.02 0.0130 A2 0.35 P =1 0.05 0.0175 P = 0,0305 P (Ai | B) 0,0130 = 0,4262 0,0305 0,0175 = 0,5738 0,0305 P =1 De forma general, en el caso de n eventos mutuamentes excluyntes A1 , A2 , ..., An cuya unión sea todo el espacio muestral, el teorema de Bayes aplica para cualquira de las probabilidades posteriores P (Ai | B) como P (Ai | B) = 6. P (Ai )P (B | Ai ) P (A1 )P (B | A1 ) + P (A2 )P (B | A2 ) + · · · + P (An )P (B | An ) Distribución de probabilidades Un experimento probabilistico es definido como un proceso que genera resultados definidos. En cada una de las repeticiones de un experimento habrá uno, y sólo uno, de los posibles resultados experimentales. Una variable aleatoria o estocástica proporciona un medio para describir los resultados experimentales empleando valores numéricos. Una variable aleatoria puede ser discreta o continua 58 dependiente del tipo de valores numéricos que asuma. 6.1. Variables aleatoria discretas Una variable aleatoria es discreta si asume un número finito de valores o una sucesión infinita de valores que son divisibles un número finito de veces. Por ejemplo, los número naturales tal que N = 1, 2, 3, 4, 5, .... Por ejemplo, sea x una variable aleatoria que mide el número de autos que pasan por una plaza de peajes. La variable x puede tomar los valores 0, 1, 2, ... etc. Ası́, x es una variable aleatoria discreta que toma uno, y sólo uno, de los valores de esta sucesión infinita. Una variable aleatoria también puedo tomar resultados no-numétricos pero que se codifican de forma numérica. Por ejemplo, en una encuesta se le puede preguntar a las personas si conocen un producto. La respuesta puede ser si o no. La codificación de la variable se puede hacer como x = 0 si la persona responde no y x = 1 si la persona responde sı́. x es una variable aleatoria porque proporciona una descripción numérica de los resultados del experimento. 6.1.1. Distribución de probabilidad discreta La distribución de probabilidad de una variable aleatoria describe cómo se distribuyen las probabilidades entre los valores de la variable aleatoria. La distribución de probabilidad está definida por una función de probabilidad denotada por f (x). Esta función de probabilidad da la probabilidad de cada valor de la variable aleatoria. Por ejemplo: Considere las ventas de automóviles de una automotora. Durante los últimos 300 dı́as de operación, los datos de ventas muestran que hubo 57 dı́as en los que no se vendió ningún automóvil, 117 dı́as en los que se vendió 1 automóvil, 72 dı́as en los que se vendieron 2 automóviles, 42 dı́as en los que se vendieron 3 automóviles, 12 dı́as en los que se vendieron 4 automóviles y 3 dı́as en los que se vendieron 5 automóviles. Suponga que considera el experimento de seleccionar un dı́a de operación y se define la variable aleatoria de interés como x = número de automóviles vendidos en un dı́a. De acuerdo con datos del pasado, se sabe que x es una variable aleatoria discreta que puede tomar los valores 0, 1, 2, 3, 4 o 5. En la notación de funciones de probabilidad f (0) da la probabilidad de vender 0 automóviles, f (1) da la probabilidad de vender 1 automóvil, y ası́ en lo sucesivo. Como los datos del pasado indican que en 54 de 300 dı́as se vendieron 0 automóviles, a f (0) se le asigna el valor 54/300 = 0,18, lo que significa que la probabilidad de que se vendan 0 automóviles en un dı́a es 18 %. De manera similar, como en 117 de los 300 dı́as se vendió un automóvil, a f (1) se le asigna el valor 4117/300 = 0,39, que significa que la probabilidad de que se venda exactamente 1 automóvil en un dı́a es 39 %. Continuando de esta manera con los demás valores de la variable aleatoria, se obtienen los valores de f (2), f (3), f (4) y f (5). Una ventaja importante de definir una variable aleatoria y su correspondiente distribución de probabilidad es que una vez que se conoce la distribución de probabilidad, es relativamente fácil determinar la 59 x f (x) 0 1 2 3 4 5 0.18 0.39 0.24 0.14 0.04 0.01 Total 1 probabilidad de diversos eventos que pueden ser útiles para tomar decisiones. Por ejemplo, empleando la distribución de probabilidad de la automotora, se observa que el número de automóviles que es más probable vender en un dı́a es 1, ya que es f (1) = 0,39. Además se observa que la probabilidad de vender tres o más automóviles en un dı́a es f (3) + f (4) + f (5) = 0,14 + 0,04 + 0,01 = 0,19. Estas probabilidades pueden interesar para tomar decisiones estratégicas de las empresas. Al elaborar una función de probabilidad para una variable aleatoria discreta, se deben satisfacer las dos condiciones siguientes: f (x) > 0 P f (x) = 1 La forma más sencilla para describir las funciones de probabilidad es mediante la fórmula de distribuciones de probabilidad uniforme discreta, tal que: f (x) = 1 n ,donde n =número de valores que puede tomar la variable aleatoria. Por ejemplo: si en el experimento que consiste en lanzar un dado se define una variable aleatoria x como el número de puntos en la cara del dado que cae hacia arriba. En este experimento la variable aleatoria toma n = 6 valores; x = 1, 2, 3, 4, 5, 6. Por tanto, la función de probabilidad de esta variable aleatoria uniforme discreta es: f (x) = 1 6 , x = 1, 2, 3, 4, 5, 6 La probabilidad para cada evento es 1/6 y la distribución de probabilidades de la variable es la siguiente: 6.1.2. Valor esperado El valor esperado de una variable es una medida de la localización central de la variable aleatoria. Corresponde a la media. Ésta se calcula como X E[x] = µ = xf (x) donde la notación E[x] y µ se usan para denotar el valor esperado de una variable aleatoria x. Para calcular el valor esperado de una variable aleatoria discreta se multiplica cada valor de la variable 60 x f (x) 0 1 2 3 4 5 6 1/6 1/6 1/6 1/6 1/6 1/6 1/6 aleatoria por su probabilidad correspondiente f (x) y después se suman estos productos. El valor esperado es un promedio ponderado de los valores que toma la variable aleatoria. Los pesos son las probabilidades. El valor esperado no necesariamente tiene que ser un valor que pueda tomar la variable aleatoria. En el ejemplo de la automotora, el cálculo serı́a el siguiente: x f (x) xf (x) 0 1 2 3 4 5 0.18 0.39 0.24 0.14 0.04 0.01 0(0.18) = 0 1(0.39) = 0.39 2(0.24) = 0.48 3(0.14) = 0.42 4(0.04) =0.16 5(0.01) = 0.05 Total = 1.5 La suma de las entradas en la columna xf (x) indica que el valor esperado es 1.50 automóviles por dı́a. Por tanto, aunque se sabe que en un dı́a las ventas pueden ser de 0, 1, 2, 3, 4 o 5 automóviles, se prevé que, a la larga, se venderán 1.5 automóviles por dı́a. Si en un mes hay 30 dı́as de operación, el valor esperado, 1.5, se emplea para pronosticar que las ventas promedio mensuales serán de 30(1,5) = 45 automóviles. 6.1.3. Varianza La varianza permite resumir la variabilidad o dispersión en los valores de la variable aleatoria. La varianza de una variable aleatoria se calcula de la siguiente forma: V ar(x) = σ 2 = X (x − µ)2 f (x) La desviación x−µ mide qué tan lejos del valor esperado, o media µ, se encuentra un valor determinado de la variable aleatoria. Para calcular la varianza de una variable aleatoria, estas desviaciones se elevan al cuadrado y después se ponderan con el correspondiente valor de la función de probabilidad. A la suma de estas desviaciones al cuadrado, ponderadas, se le conoce como varianza. Para denotar la varianza de una variable aleatoria se usan las notaciones V ar(x) y σ 2 . 61 En el ejemplo de la automotora, la varianza es de 1.25. El cácluclo se muestra en la tabla 13. La desviación estándar, σ, se define como la raı́z cuadrada de la varianza. En el ejemplo de los automóviles √ σ = 1,25 = 1,118. La desviación estándar se mide en las mismas unidades que la variable aleatoria, σ = 1,118 automóviles, y, por tanto, suele preferirse para describir la variablididad de una variable aleatoria. La varianza σ 2 se mide en unidades al cuadrado por lo que es más dificil de interpretar. Cuadro 13: Distribución de probabilidad en la venta de autos x f (x) xf (x) 0 1 2 3 4 5 0.18 0.39 0.24 0.14 0.04 0.01 0(0.18) 1(0.39) 2(0.24) 3(0.14) 4(0.04) 5(0.01) = = = = = = 0 0.39 0.48 0.42 0.16 0.05 x−µ (x − µ)2 0 - 1.5 = -1.5 1 - 1.5 = -0.5 2 - 1.5 = 0.5 3 - 1.5 = 1.5 4 - 1.5 = 2.5 5 - 1.5 = 3.5 2.25 0.25 0.25 2.25 6.25 12.25 Total = 1.5 6.1.4. (x − µ)2 f (x) 2.25(0.18) = 0.4050 0.25(0.39) = 0.0975 0.25(0.24) = 0.06 2.25(0.14) = 0.315 6.25(0.04) = 0.25 12.25(0.01) = 0.1225 Total = 1.25 Distribución de probabilidad binomial Una distribución de probabilidades binomial es una distribución de probabilidades discreta que cuenta el número de éxitos en una secuencia de n ensayos de Bernoulli independientes entre sı́, con una probabilidad fija p de ocurrencia del éxito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser dicotómico, es decir, sólo pueden existir dos resultados. Un experimento binomial tiene cuatro propiedades: 1. El experimento consiste en una serie de n ensayos idénticos. 2. En cada ensayo hay dos resultados posibles. A uno de estos resultados se les llama éxito y al otro se le llama fracaso. 3. La probabilidad de éxito, que se denota p, no cambia de un ensayo a otro. Por ende, la probabilidad de fracaso, que se denota 1 − p, tampoco cambia de un ensayo a otro. 4. Los ensayos son independientes. En un experimento binominal, lo que interesa es el número de éxitos en n ensayos. Si x denota el número de éxitos en n ensayos, x tomará los valores 0, 1, 2, 3, ..., n. A la distribución de probabilidad de esta variable aleatoria se le llama distribución de probabilidad binomial. A la propiedad 3 se le llama supuesto de estacionariedad. Para que una variable sea estacionaria, se le exige que su distribución de probabilidades no cambie en el tiempo. Por ejemplo: Considere el experimento de lanzar 5 monedas. Suponga que lo que nos interesa es contar el número de veces que el experimento resulta en que la moneda muestra cara. La variable aleatoria 62 que interesa es x = número de caras que aparencen en cinco ensayos. En este caso, x puede tomar los valores 0, 1, 2, 3, 4, o 5. Luego se cumplen las propiedades tal que: 1. El experimento consiste en cinco ensayos idénticos; cada ensayo consiste en lanzar una moneda. 2. En cada ensayo hay dos resultados posibles; cara o sello. Se puede considerar cara como como éxito y sello como fracaso. 3. La probabilidad de éxito y la probabilidad de fracaso son iguales en todos los ensayos, donde p = 0,5 y 1 − p = 0,5. 4. Los ensayos o lanzamientos de la moneda, son independientes porque al resultado de un ensayo no le afecta lo que pase en los otros ensayos o lanzamientos. Ejemplo: Considere a un vendedor de seguros que visita a 10 familias elegidas en forma aleatoria. El resultado correspondiente de la visita a cada familia se clasifica como éxito si la familia compra un seguro y como fracaso si la familia no compra ningún seguro. Por experiencia, el vendedor sabe que la probabilidad de que una familia tomada aleatoriamente compre un seguro es 0,10. Describa el experimento en base a sus propiedades. 1. El experimento consiste en 10 ensayos idénticos; cada ensayo consiste en visitar a una familia. 2. En cada ensayo hay dos resultados posibles: la familia compra un seguro (éxito) o la familia no compra ningún seguro (fracaso). 3. Las probabilidades de que haya compra y de que no haya compra se supone que son iguales en todas las visitas, siendo p = 0,10 y 1 − p = 0,90. 4. Los ensayos son independientes porque las familias se eligen en forma aleatoria. La variable aleatoria que interesa es el número de ventas al visitar a las 10 familias. En este caso los valores que puede tomar x son 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 y 10. Ejemplo: Considere las decisiones de compra de los próximos tres clientes que entren a una tienda de ropa. De acuerdo con la experiencia, el gerente de la tienda estima que la probabilidad de que un cliente realice una compra es 0,30. ¿Cuál es la probabilidad de que dos de los próximos tres clientes realicen una compra? Un diagrama de árbol permite visualizar el experimento tiene 8 posibles resultados. Sea S el resultado que denota un éxito (el cliente compra) y F el resultado que denota un fracaso (el cliente no compra), lo que interesa son los resultados experimentales en los que haya dos éxitos en los tres ensayos. El experimento de las decisiones de compra es un experimento binomial ya que cumplen con las 4 propiedades: 63 1. Es posible describir el experimento como una serie de tres ensayos idénticos, un ensayo por cada uno de los tres clientes que llegan a la tienda. 2. Cada ensayo tiene dos posibles resultados: el cliente hace una compra (éxito) o el cliente no hace ninguna compra (fracaso). 3. La probabilidad de que el cliente haga una compra (0,30) o de que no haga una compra (0,70) se supone que es la misma para todos los clientes. Es decir, esta variable es estacionaria. 4. La decisión de comprar de cada cliente es independiente de la decisión de comprar de los otros clientes. El número de resultados experimentales en los que hay dos compras, el número de maneras en que son posibles x = 2 éxitos en n = 3 ensayos se puede calcular con la fórmula de conteo para combinaciones: ! n n! = Cxn = x!(n − x)! x C23 = 3 2 ! = 3! 6 = =3 2!(3 − 2)! 2 Luego, podemos afirmar que, en tres de los ocho resultados experimentales, hay dos éxitos, que son (S, S, F), (S, F, S) y (F, S, S). Para determinar la probabilidad de x éxitos en n ensayos, es necesario conocer también la probabilidad correspondiente a cada uno de estos resultados experimentales. Como en un experimento binomial, 64 los ensayos son independientes, para hallar la probabilidad de una determinada sucesión de éxitos y fracasos simplemente se multiplican las probabilidades correspondientes al resultado de cada ensayo. Por ejemplo, la probabilidad de que los dos primeros clientes compren y el tercero no compre, denotada por (S, S, F) está dada por pp(1 − p). Puesto que la probabilidad de compra en cualquier ensayo es 0.30, la probabilidad de que haya una compra en los dos primeros ensayos y que no haya compra en el tercer ensayo es (0,3)(0,3)(0,7) = (0,3)2 (0,7) = 0,063 = 6,3 %. Luego, Resultado experimental Probabilidad del resultado experimental (S, S, F) (S, F, S) (F, S, S) pp(1 − p) = 0,063 p(1 − p)p = 0,063 (1 − p)pp = 0,063 Observe que los tres resultados experimentales en los que hay dos éxitos tienen la misma probabilidad. Esto se cumple para toas las sucesiones de experimentos independientes. En cualquier experimento binomial todas las series de resultados de ensayos en las que hay x éxitos en n ensayos tienen la misma probabilidad de ocurrencia. De forma general: Probabilidad de resultado = px (1 − p)(1−x) Luego, la función de probabilidad binomial se calcula de la siguiente forma: ! n x f (x) = p (1 − p)n−x x donde: f (x) = probabilidad de x éxitos en n ensayos n = número de ensayos ! n x = n! x!(n − x)! p = probabilidad de un éxito en cualquier ensayo (1 − p) = probabilidad de un fracaso en cualquier ensayo Para representar que una variable aleatoria X sigue una distribución binomial de parámetros n y p, se escribe: X ∼ B(n, p) Para el ejemplo de la empresa de ropa, podemos calcular la función de probabilidad de que ningún cliente realice una compra, de que un cliente realice una compra de que dos clientes realicen una 65 compra y de que los tres clientes realicen una compra. si x = 0 → 3! (0,3)0 (0,7)3 = 0,343 0!3! si x = 1 → 3! (0,3)1 (0,7)2 = 0,441 1!2! si x = 2 → 3! (0,3)2 (0,7)3 = 0,189 2!1! 3! (0,3)3 (0,7)0 = 0,027 3!0! Gráficamente, la distribución de probabilidad la podemos representar de la siguiente forma: si x = 3 → 6.1.5. Valor esperado y varianza de una distribución binomial En el caso de que la variable aleatoria tenga una distribución binomial para la que se conoce el número de ensayos n y la probabilidad de éxito p, el valor esperado se calcula como E[x] = µ = np En el caso de que la variable aleatoria tenga una distribución binomial para la que se conoce el número de ensayos n y la probabilidad de éxito p, la varianza se calcula como V ar(x) = σ 2 = np(1 − p) Para el caso de la tienda de ropa, el valor esperado del número de clientes que realiza una compra serı́a E[x] = np = 3(0,3) = 0,9 La varianza y la desviación estándar del número de clientes que harán una compra son σ 2 = np(1 − p) = 3(0,3)(0,7) = 0,63 √ √ σ = σ 2 = 0,63 = 0,79 66 Ejemplo: Suponga que la tienda de ropa espera que 1000 clientes entren en la tienda el próximo mes. ¿Cuál es el número esperado de clientes que harán una compra?. Luego, E[x] = np = (1000)(0,30) = 300. 2 σ = np(1 − p) = 1000(0,3)(0,7) = 210 √ √ σ = σ2 = 210 = 14,49 6.1.6. Distribución de probabilidad de Poisson Esta distribución de probabilidades se utiliza para describir una variable aleatoria discreta que sucede un hecho determinado (ocurrencia) en un intervalo de tiempo o de espacio. El número de ocurrencias es una variable aleatoria discreta descrita por la distribución de probabilidades de Poisson si se satisfacen las siguientes condiciones: 1. La probabilidad de ocurrencia es la misma para cualquiera de dos intervalos de la misma magnitud. 2. La ocurrencia o no-ocurrencia en cualquier intervalo es independiente de la ocurrencia o noocurrencia en cualquier otro intervalo. El número de ocurrencias x, no tiene lı́mite superior. Ésta es una variable aleatoria discreta que toma los valores de una sucesión infinita de números tal que x ∈ [0, ∞[. Una propiedad de la distribución de Poisson es que la media y la varianza de la distribución son iguales. La función de probabilidades de Poisson se define de la siguiente forma: f (x) = E[x]x · e−E[x] x! Donde f (x) : probabilidad de x ocurrencia en un intervalo E[x] : valor esperado de x e : 2,71828 Ejemplo 1: Suponga que desea saber el número de personas que retira dinero de un cajero automático en un lapso de 15 minutos. Si es posible suponer que la probabilidad de llegada de las personas es la misma en cualquier lapso de tiempo tiempo de la misma duración y si la llegada o la no-llegada de una persona en cualquier lapso es independiente de la llega o la no-llegada de una persona en cualquier otro lapso, entonces se puede aplicar la función de probabilidad de Poisson. De la experiencia sabe que, en un lapso de 15 minutos, 10 es el número promedio de personas que retiran dinero en un cajero automático. La variable aleatoria es x = número de personas que retiran dinero en un lapso de 15 minutos. Luego, la función de probabilidad se define como f (x) = 10x e−10 x! 67 Si desea conocer la probabilidad de que lleguen exactamente 5 personas en 15 minutos, entonces x = 5 y E[x] = 10, se obtiene que 105 e−10 f (x) = = 0,0378 5! Como la media y la varianza en una distribución de Poisson son iguales, entonces σ 2 = 10 y σ = √ 10 = 3,16. Ejemplo 2: Suponga que le interesa conocer la ocurrencia de una averı́a en una autopista. Si es posible suponer que la probabilidad de que haya una averı́a es la misma en cualquier tramo de la misma longitud y que la ocurrencia o no-ocurrencia de una averı́a en un tramo es independiente de la ocurrencia o no-ocurrencia de una averı́a en cualquier otro tramo, entonces, es posible utilizar la distribución de Poisson. Estudios han mostrado que, en promedio, ocurre un averı́a cada 2 kilómetro. ¿Cuál es la probabilidad de que no haya ninguna averı́a en un tramo de 3 kilómetros? Cómo lo que nos interesa es un intervalo de 3 kilómetros, µ = (2 averias/kilometros)(3 kilometros) = 6 representa el número esperado de averı́as en un tramo de 3 kilómetros de autopista. Utilizando la ecuación de Poisson, 60 e−6 = 0,0025 f (x) = 0! Por tanto, es poco probable que no haya ninguna averı́a en este tramo de 3 kilómetros. De hecho, existe una probabilidad de 1 − 0,0025 = 0,9975 de que haya, por lo menos, una averı́a en este tramo de 3 kilómetros. Ejemplo: Suponga que desea calcular la probabilidad de que una persona retire dinero de un cajero automático en un lapso de 3 minutos. Como 10 es el número esperado de retiros de dinero en un lapso de 15 minutos, 10/15 = 2/3 es el número esperado de llegadas en un lapso de un minuto. Luego (2/3)(3 minutos) = 2 es el número esperado de personas que retiran dinero en un lapso de 3 minutos . Entonces, la probabilidad de x llegadas en un lapso de 3 minutos con µ = 2 está dada por la siguiente función de probabilidad de Poisson: 2x e−2 f (x) = x! 2x e−2 = 0,2707 1! ⋆ Tabla de probabilidad de Poisson: Tabla 7 del apéndice B f (1) = 6.1.7. Distribución de probabilidad hipergeométrica La distribución de probabilidades hipergeométrica está relacionada a la distribución binomial, pero en esta distribución los ensayos no son independientes y la probabilidad éxito varı́a de ensayo a ensayo. Sea r el número de elementos considerados como éxitos que hay en una población de tamaño N, y 68 N − r el número de elementos considerados como fracasos que hay en dicha población. La función de distribución hipergeométrica permite calcular la probabilidad de que en una muestra aleatoria de n elementos se tengan x éxitos y n − x fracasos. Para obtener este resultado, debemos tener x éxitos de los r éxitos que hay en la población y n − r fracasos de los N − r fracasos. La probabilidad de tener x éxitos en una muestra de tamaño n es: ! ! r N −r x n−x ! para 0 6 x 6 r f (x) = N n Donde f (x) n N r : : : : probabilidad de x éxitos en n ensayos número de ensayos número de elementos de la población número de elementos en la población considerados como éxitos 69 Observe que N n ! representa el número de maneras en que es posible tomar una muestra de tamaño ! r n de una población población de tamaño N ; representa el número de formas en que se toman x x ! N −r éxitos de un total de r éxitos que hay en la población, y representa el número de maneras n−x en que se puede tomar n − r fracasos de un total de N − r que hay en la población. Por ejemplo: Una empresa fabrica baterı́as que empaca en cajas de 12 unidades cada una. Asuma que un inspector selecciona al azar 3 de las 12 baterı́as. Si la caja contiene exactamente 5 baterı́as defectuosas, ¿cuál es la probabilidad de que el inspector encuentre que uno de las 3 baterı́as defectuosas?. En este caso n = 3 y N = 12. Si r = 5 baterı́as defectuosas en una caja, entonces la probabilidad de hallar x = 1 baterı́as defectuosas es ! ! 5 12 − 5 5 7! 1 3−1 (5)(21) 1!(5 − 1)! 2!(7 − 2)!) ! = = 0,4773 = f (1) = 12! 220 12 3!(12 − 3)! 3 Ejemplo: Suponga que desea conocer la probabilidad de hallar, por lo menos, una baterı́a defectuosa. La probabilidad de encontrar, al menos, una baterı́as defectuosa equivale a la probabilidad de que todas las baterı́as estén en buen estado, por lo que podemos calcular la probabilidad de no encontrar ninguna baterı́a defectuosa. Esto es, ! ! 5 12 − 5 5 7! 0 3−0 (1)(35) 0!(5 − 0)! 3!(7 − 3)!) ! = = 0,1591 = f (0) = 12! 220 12 3!(12 − 3)! 3 Si la probabilidad de cero baterı́as defectuosas es f (0) = 0,1591, se concluye que la probabilidad de hallar, por lo menos, una baterı́a defectuosa debe ser de 1 − 0,1591 = 0,8409. ası́, existe una probabilidad alta de hallar, por lo menos, una baterı́a defectuosa. La media y la varianza de una distribución hipergeométrica se calculan de la siguiente forma: r E[x] = µ = n N V ar(x) = σ 2 = n r r N −n 1− N N N −1 En el ejemplo anterior, n = 3, r = 5 y N = 12. Por tanto, la media y la varianza del número de baterı́as defectuosas es, r 5 =3 = 1,25 E[x] = n N 12 70 r r N −n 5 5 12 − 3 σ =n 1− =3 1− = 0,6 N N N −1 12 12 12 − 1 2 Luego, la desviación estándar es σ = √ 0,6 = 0,77 Nota: Considere una distribución hipergeométrica con n ensayos. Sea p = (r/N ) la probabilidad de éxito en el primer ensayo. Si el tamaño de la población es grande, el término (N-n)(N-1) de la ecuación de la varianza se aproxima a 1. Entonces, el valor esperado y la varianza se expresan como E[x] = np y σ 2 = np(1 − p). Estas expresiones son las mismas que se usan para calcular el valor esperado y la varianza en una distribución binomial. Cuando el tamaño de la población es grande, se aproxima una distribución hipergeométrica mediante una distribución binomial con n ensayos y probabilidad de éxito p = (r/N ) 6.2. Variables aleatoria continuas Es una variable que puede tomar cualquier valor numérico dentro de un intervalo o colección de intervalos. Los resultados experimentales basado en escalas de medición como tiempo, peso, distancia y temperatura pueden ser descritos por variables aleatorias continuas. Por ejemplo, considere una variable x que mide el tiempo de respuesta de un servicios de emergencias. Esta variable puede tomar cualquier valor en el intervalo x > 0. Una variable aleatoria continua puede tomar valores entre 0 6 x 6 100 si su escala de medición está en porcentaje. Por ejemplo, x puede referirse al grado de avance en la construcción de un edificio. En las variables aleatorias discretas la función de probabilidad f (x) da la probabilidad de que la variable aleatoria tome un valor determinado. En las variables aleatorias continuas, la contraparte de la función de probabilidad es la función de densidad de probabilidad, que también se denota f (x). La diferencia está en que la función de densidad de probabilidad no da probabilidades directamente. Si no que el área bajo la curva de f (x) que corresponde a un intervalo determinado proporciona la probabilidad de que la variable aleatoria tome uno de los valores de ese intervalo. De manera que cuando se calculan probabilidades de variables aleatorias continuas se calcula la probabilidad de que la variable aleatoria tome alguno de los valores dentro de un intervalo. En una variable aleatoria continua, la función de frecuencia es reemplazada por la función de densidad, f (x), la cual debe cumplir que: f (x) ≥ 0 R∞ −∞ f (x)dx =1 Si x es una variable aleatoria con una función de densidad f , entonces para cualquier a < b, la 71 probabilidad de que x caiga en el interalo (a, b) is el área bajo la función de densidad entre a y b: P (a < x < b) = Z b f (x)dx a Recuerde que, por el teorema fundamental del cálculo: P (a ≤ x ≤ b) = Z b a f (x)dx = F (x)|ba = F (b) − F (a) Diferencias entre una variable aleatoria continua y una variable aleatoria discreta: 1. La probabilidad de que una variable aleatoria tome un determinado valor, es reemplazada por la probabilidad de que una variable aleatoria tome un valor dentro de un intervalo dado. 2. La probabilidad de que una variable aleatoria continua tome un valor dentro de un determinado intervalo que va de x1 a x2 se define como el área bajo la gráfica de la función de densidad de probabilidad entre x1 y x2 . Como un solo punto es un intervalo cuyo ancho es cero, esto implica que la probabilidad de que una variable aleatoria continua tome un valor exacto, cualquiera, es cero. Esto también significa que en cualquier intervalo la probabilidad de que una variable aleatoria continua tome un valor es la misma, ya sea que se incluyan o no los extremos del intervalo. 6.2.1. Distribución de Probabilidad Uniforme Considere una variable aleatoria x que representa el tiempo de vuelo de un avión que viaja de Santiago a Concepción. Suponga que el tiempo de vuelo es cualquier valor en el intervalo de 120 minutos a 140 minutos. Dado que la variable aleatoria x toma cualquier valor en este intervalo, x es una variable aleatoria continua y no una variable aleatoria discreta. La probabilidad de que el tiempo de vuelo esté en cualquier intervalo de 1 minuto es el mismo que la probabilidad de que el tiempo de vuelo esté en cualquier otro intervalo de 1 minuto dentro del intervalo que va de 120 a 140 minutos. Como cualquier intervalo de 1 minuto es igual de probable, se dice que la variable aleatoria x tiene una distribución de probabilidad uniforme. La función de densidad de probabilidad que define la distribución uniforme de la variable aleatoria tiempo de vuelo, es ( 1/20 para 120 ≤ x ≤ 140 f (x) = 0 en cualquier otro caso Una variable aleatoria uniforme de intervalo (0,1) es un modelo para lo que nos referimos cuando decimos “escoja un número entre 0 y 1”. Cualquier número real en el intervalo es un resultado posible, y el modelo de probabilidad deberı́a tener la propiedad que que la probabilidad de x es la misma dentro del intervalo. En general, la función de densidad de probabilidad uniforme de una variable aleatoria x en un intervalo (a, b) se define como   1 para a ≤ x ≤ b b−a f (x) =  0 x<a,x>b 72 En el caso de una variable aleatoria continua, sólo se considera la probabilidad en términos de la posibilidad de que la variable aleatoria tome un valor dentro de un determinado intervalo. En el ejemplo del tiempo de vuelo, una pregunta aceptable acerca de una probabilidad es ¿Cuál es la probabilidad de que el tiempo de vuelo se encuentre entre 120 y 130 minutos? Es decir, ¿cuál es P (120 ≤ x ≤ 130)? Como el tiempo de vuelo debe estar entre 120 y 140 minutos y como se ha dicho que la probabilidad es uniforme en este intervalo, es factible decir que P (120 ≤ x ≤ 130) = 0,5. Considere el área bajo la gráfica de f (x) en el intervalo que va de 120 a 130. Esta área es rectangular y el área de un rectángulo es simplemente el ancho multiplicado por la altura. Si el ancho del intervalo es igual a 130 - 120 = 10 y la altura es igual al valor de la función de densidad de probabilidad f (x) = 1/20, se tiene, área = ancho × alto = 10(1/20) = 10/20 = 0.5. Ejemplo: Cuál es la probabilidad de un tiempo de vuelo entre 128 y 136 minutos. El ancho del intervalo es 136−128 = 8. Como la altura uniforme de f (x) = 1/20, se ve que P (128 ≤ x ≤ 136) = 8(1/20) = 0,4 La esperanza y la varianza de una variable aleatoria continua que se distribuye uniforme están dadas por (b − a)2 a+b σ2 = E[x] = 2 12 6.2.2. Distribución de Probabilidad Normal En grande rasgos, el teorema central del lı́mite establece que, si una variable aleatoria es la suma de un gran número de variable aleatoria independientes, entonces ésta se distribuye aproximadamente como una normal. La función de densidad de una distribución normal, o distribución gaussiana, está representada por: 1 2 2 f (x) = √ e−(x−µ) /2σ tal que −∞ < x < ∞ σ 2π 73 Donde, µ σ π e = = = = valor esperado de x desviación estándar 3,14159 2,71828 Si una variable x sigue una distribución normal con media µ y varianza σ 2 se denota como x ∽ N (µ, σ 2 ). El punto más alto de la curva se encuentra en la media, la cual coincide con la mediana y la moda. La media de una distribución puede ser cualquier valor; positivo, negativo o cero. El caso particular donde µ = 0 y σ = 1 es llamada distribución de probabilidad normal estándar. La distribución normal es simétrica tal que mu, f (µ − x) = f (µ + x). La desviación estándar determina qué tan plana es la curva normal. Si la desviación estándar es alta, entonces la curva es más plana y ancha, lo que corresponde a una mayor dispersión de los datos. En la figuera 6.2.2 se observan tres tipos de distribución, todas con media µ = 0. La distribución con linea continua es x ∽ N (0, 0,5), La distribución en lı́nea punteada es x ∽ N (0, 1). Y la distribución en linea discontinua es x ∽ N (0, 2). Los porcentajes de los valores que se encuentran en algunos intervalos comúnmente usados son: 1. 68.3 % de los valores de una variable aleatoria normal se encuentran más o menos una desviación estándar de la media. 2. 95.4 % de los valores de una variable aleatoria normal se encuentran más o menos dos desviaciones estándar de la media. 74 3. 99.7 % de los valores de una variable aleatoria normal se encuentran más o menos tres desviaciones estándar de la media. Distribución Normal Estándar Una variable aleatoria que tiene una distribución normal con una media cero y desviación estándar de uno tiene una distribución normal estándar. Digamos que z es una variable normalizada de x, tal que, x−µ z= σ Entonces, µ = 0 y σ = 1. La formula de la función de densidad de probabilidad normal estándar es 1 2 f (z) = √ e−z /2 2π 6.2.3. Función de Distribución Los cálculos de la probabilidad en cualquier distribución se hacen calculando el área bajo la curva de la función de densidad de probabilidad. Por tanto, para hallar la probabilidad de que una variable aleatoria normal esté dentro de un determinado intervalo, se tiene que calcular el área que se encuentra bajo la curva normal y sobre ese intervalo. Esto corresponde a calcular la función de distribución correspondiente. Suponga que una variable aleatoria x tiene una función de densidad f (x), denotamos la función de densidad como fx de distribución F (x) como Fx . Por ejemplo, suponga que x ∽ N (µ, σ 2 ) y que y = ax + b, donde a > 0. La función de distribución de y es: Fy (y) = P (ax + b ≤ y) y−b Fy (y) = P x ≤ a y−b Fy (y) = Fx a 75 Luego, Fy (y) = = d y−b Fx dy a y−b 1 fx a a Esto es el resultado general para cualquier variable aleatoria continua donde Fx sea diferenciable. Si fx es una función de densidad normal con parámetros µ y σ, tenemos que 1 √  − 1 y − b − aµ 2 aσ !2   e aσ 2π De esto, se observa que y sigue una distribución normal con parámetros aµ + b y aσ. Por tanto: Si x ∽ N (µ, σ 2 ) y y = ax + b, entonces y ∽ N (aµ + b, a2 σ 2 ). F (x) = Suponga que x ∽ N (µ, σ 2 ) y queremos encontrar P (x0 < x < x1 ) para los números x0 y x1 . Considere la variable aleatoria x µ x−µ z= = − σ σ σ Si a = 1/σ y b = −mu/σ, entonces z ∽ N (0, 1), es decir, z sigue una distribución normal estándar. Por tanto, x−µ x−µ ≤ ) Fx (x) = P ( σ σ x−µ Fx (x) = P z ≤ σ x−µ Fy (y) = Φ σ Luego, tenemos que P (x0 < x < x1 ) = Fx(x1 ) − F x (x0 ) x1 − µ x0 − µ = Φ −Φ σ σ Por tanto, las probabilidades para una variable aleatoria normal pueden ser evaluadas en términos de las probabilidades de una variable aleatoria normal estándar. Por ejemplo: Los puntajes en un test de inteligencia están, aproximadamente, normalmente distribuidos donde la media es µ = 100 y la desviación estándar es σ = 15. Si evaluamos el test sobre un número grande de personas, la función de distribución discreta puede ser representada por una función de distribución continua. Si una persona es seleccionada al azar, cuál es la probabilidad que su puntaje x cumpla 120 < x < 130. La probabilidad puede ser calculada utilizando la distribución de probabilidad normal estándar: x − 100 130 − 100 120 − 100 < < P (120 < x < 130) = P 15 15 15 = P (1,33 < z < 2) 76 Donde z sigue una distribución normal estándar. Luego, por la tabla de la distribución normal estándar P (1,33 < x < 2) = Φ(2) − Φ(1,33) = 0,9772 − 0,9082 = 0,069 Por tanto, podemos concluir que, aproximadamente el 7 % de la población tendrá un puntaje en este rango. De forma general, se tiene que, si x se distribuye de forma normal con parámetros µ y σ, su función de distribución es: Z x 1 2 2 F (x) = √ e−(v−µ) /2σ dv σ 2π −∞ La función de distribución de una variable aleatoria normal estándar viene dada por: Z z Z z 1 1 1 2 −u2 /2 √ √ e du = + e−u /2 du F (z) = 2 2π −∞ 2π 0 6.2.4. Aproximación normal de las probabilidades binomiales Recuerde que un experimento binomial consiste en una serie de n ensayos idénticos e independientes, habiendo para cada ensayo dos resultados posibles, éxito o fracaso. La probabilidad de éxito en un ensayo es la misma que en cualquier otro de los ensayos y se denota p. La variable aleatoria binomial es el número de éxitos en n ensayos y lo que se quiere saber es la probabilidad de x éxitos en n ensayos. En los casos en que np ≥ 5 y n(1 − p) ≥ 5, la distribución normal proporciona una aproximación a las probabilidades binomiales que es fácil de usar. Al utilizar la aproximación normal de una distribución binomail, tenemos que p µ = np y σ = np(1 − p) Por ejemplo: Supongamos que una empresa sabe que el 10 % de sus facturas tiene algún error. Al tomar 100 facturas al azar, desea calcular la probabilidad de que 12 de estas facturas tengan algún error. Es decir, hallar la probabilidad binomial de 12 éxitos en 100 ensayos. Al aplicar la aproximación normal se tiene que µ = np = (100)(0,1) = 10 y σ = p (100)(0,1)(0,9) = 3. Sabemos que la probabilidad que tiene un solo valor de una variable aleatoria continua es cero. Por tanto, para aproximar la probabilidad binomial de 12 éxitos se calcula el área bajo la curva normal de 12 ± 5; esto es, entre 11.5 y 12.5. Al 0,5 que se suma y se resta al 12 se le conoce como factor de corrección por continuidad. Este factor se introduce debido a que se está usando una distribución continua para aproximar una distribución discreta. 77 Por tanto, P (x = 12) de una distribución binomial discreta se aproxima mediante P (11,5 ≤ x ≤ 12,5) en una distribución normal continua. Luego, tenemos que: z1 = x1 − µ 12,5 − 10,0 = = 0,83 para σ 3 x = 12,5 z0 = x0 − µ 11,5 − 10,0 = = 0,5 σ 3 x = 11,5 para Según la tabla de probabilidad normal estándar P (z ≤ 0,83) = 0,7967 y P (z ≤ 0,5) = 0,6915. Luego, 0,7967 − 0,6915 = 0,1052. En conclusión, la probabilidad normal de obtener 12 facturas erroneas en 100 ensayos al azar es de 10.52 %. 6.2.5. Distribución de probabilidad exponencial Se define como f (x) = 1 −x/µ e para x ≥ 0 , µ > 0 µ Al igual que la distribución de Poisson, la distribución de probabilidad exponencial depende de un solo parámetro µ > 0. Se aplica a variables que miden tiempo o distancia. Por ejemplo, las llegadas de automóviles a un lavado de autos, los tiempos requeridos para cargar un camión o las distancias entre dos estaciones de bencina en una carretera. Mientras mayor sea el valor esperado, más fuerte cae 78 el la función de densidad. La distribución exponencial es sesgada a la derecha. La medida del sesgo en la distribución exponencial es 2. Donde, µ = 0,5 (solida), µ = 1 (punteada) y µ = 2 (discontinua) Por ejemplo: Suponga que x representa el tiempo que se necesita para cargar un camión en un área de carga, y que este tiempo de carga sigue una distribución exponencial. Si el tiempo de carga medio o promedio es 15 minutos (µ = 15), la función de densidad de probabilidad apropiada para x es f (x) = 1 −x/15 e 15 El área bajo la curva corresponde a un intervalo de la probabilidad de que la variable aleatoria tome algún valor. Por ejemplo: La probabilidad de cargar un camión en 6 minutos o menos P (x ≤ 6) está definida como el área bajo la curva que va desde x = 0 hasta x = 6. Por ejemplo: La probabilidad de que el tiempo de carga esté entre 6 y 18 minutos P (6 ≤ x ≤ 18) corresponde al área bajo la curva desde x = 6 hasta x = 18. La probabilidad de la distribución exponencial se calcula de la siguiente forma: P (x ≤ x0 ) = 1 − e− x0/µ Esta fórmula aporta la probabilidad acumulada de obtener un valor de la variable aleatoria exponencial que sea menor o igual que algún valor especı́fico denotado por x0 . En el ejemplo del área de carga, si x = “tiempo de carga en minutos” y µ = 15 minutos, entonces P (x ≤ x0 ) = 1 − e− 79 x0/15 Por tanto, la probabilidad de cargar un camión en x0 = 6 minutos es P (x ≤ 6) = 1 − e− /15 = 0,3297 = 32,97 % 6 La distribución exponencial tiene la propiedad de que la media de la distribución y la desviación estándar de la distribución son iguales. Por tanto, la desviación estándar del tiempo que se necesita para cargar un camión es σ = 15 minutos y la varianza es σ 2 = (15)2 = 225. 6.2.6. Relación entre la distribución de Poisson y la distribución exponencial La distribución de probabilidades de Poisson permite calcular probabilidades discretas que se usa para examinar el número de ocurrencias de un evento en un determinado intervalo de tiempo o de espacio. µx e−µ f (x) = x! Si la distribución de Poisson da una descripción del número de ocurrencias por intervalo, la distribución exponencial aporta una descripción de la longitud de los intervalos entre las ocurrencias. Por ejemplo, suponga que el número de autos que llegan a un lavado durante una hora se describe mediante la distribución de probabilidad de Poisson, con una media de 10 automóviles por hora. Dado que el número promedio de llegadas es 10 autos por hora, el tiempo promedio entre las llegadas de los autos es 1 hora = 0,1 hora/auto 10 autos Luego, la distribución exponencial que describe el tiempo entre las llegadas tiene una media de µ = 0,1 por auto; la función de densidad de probabilidades exponencial es f (x) = 1 −x/0,1 e = 10e10x 0,1 80 7. Estimadores Un estimador es un estadı́stico (una función de la muestra) que resume la información de una variable aleatoria, usado para estimar un parámetro desconocido de la población. Para cada parámetro pueden existir varios estimadores diferentes. En general, escogeremos el estimador que posea mejores propiedades. El valor que un estimador proporciona se denomina estimación puntual del valor del parámetro en estudio. Las propiedades de un estimador son: 1. Sesgo: Diferencia entre la esperanza (o valor esperado) del estimador y el verdadero valor del parámetro a estimar. Es deseable que un estimador sea insesgado; su esperanza igual al parámetro que se desea estimar. 1 Pn E[x̄] = E xi n i=1 1 Pn E [ i=1 xi ] = n 1 Pn = E [xi ] n i=1 1 Pn µ = n i=1 1 = nµ n E[x̄] = µ 2. Eficiencia: un estimador es más eficiente o más preciso que otro estimador, si la varianza del primero es menor que la del segundo. var(x̄) < var(ȳ) 3. Consistencia: Si no es posible emplear estimadores de mı́nima varianza, el requisito mı́nimo deseable para un estimador es que a medida que el tamaño de la muestra crece, el valor del estimador tienda a ser el valor del parámetro. E[x̄] → x cuando var(x̄) → 0 cuando n→∞ n→∞ 4. Robustez: El estimador θ̂ será un estimador robusto del parámetro θ si la violación de los supuestos de partida en los que se basa la estimación (normalmente, atribuir a la población un determinado tipo de función de distribución que, en realidad, no es la correcta), no altera de manera significativa los resultados que éste proporciona. Para estimar el valor de un parámetro poblacional, la caracterı́stica correspondiente se calcula con los datos de la muestra, a lo que se le conoce como estadı́stico muestral. En general, se suele preferir realizar una estimación mediante un intervalo, esto es, obtener un intervalo [a, b] dentro del cual se espera esté el valor real del parámetro con un cierto nivel de confianza. Utilizar un intervalo resulta más informativo, al proporcionar información sobre el posible error de estimación, asociado con la amplitud de dicho intervalo. El nivel de confianza es la probabilidad de que a priori el verdadero valor 81 del parámetro quede contenido en el intervalo. Por ejemplo, para estimar la media poblacional µ y la desviación estándar poblacional σ de xi = los salarios anuales de los trabajadores de una empresa, con una muestra de n = 30, se tiene que: Le media P 1554420 xi = = 51814 µ̂ = n 30 La desviación estándar sP r 325,009,260 (xi − x̄)2 = = 3348 σ̂ = n−1 29 La proporción de trabajadores que ha terminado la capacitación x 19 = = 0,63 n 30 Al hacer los cálculos anteriores, se lleva a cabo el proceso estadı́stico conocido como estimación puntual. p̂ = 8. Técnicas de Muestreo “Una encuesta un método sistemático para recolectar información de una muestra de elementos con el propósito de describir cuantitativamente los atributos de una población, de la cual los elementos son miembros.” (Groves et al, 2010) En algunos casos, al realizar un estudio, es posible conocer toda la población que se requiere analizar; por ejemplo en una empresa. Sin embargo, este tipo de casos es una excepción. Por ejemplo, en un estudio de opinión a nivel nacional o regional, es necesario obtener una muestra para realizar las encuestas. La forma en que se escoja la muestra va a determinar la capacidad de estimación del estadı́stico. Un error se entiende como la desviación de los valores esperados E[x]. En el contexto de las encuestas, los errores son las desviaciones de los verdaderos valores de la población objetivo. Un estadı́stico muestral busca realizar una estimación de un parámetro poblacional. Todos los elementos de la población poseen una probabilidad de ser seleccionados conocida y diferente de 0. Las probabilidades no necesariamente son iguales. Si los elementos son seleccionados mediante procedimientos aleatorios, entonces es posible cuantificar el error de las estimaciones de los parámetros poblacionales. Por ejemplo, el error absoluto según tamaño muestra, para una población de tamaño 10.000 serı́a el siguiente: 8.1. 8.1.1. Muestreo aleatorio simple Población finita Una muestra aleatoria simple de tamaño n de una población finita de tamaño N es una muestra seleccionada de manera que cada posible muestra de tamaño n tenga la misma probabilidad de ser seleccionada. El investigador no define qué elementos entran en la muestra y cuales no. Menor sesgo de selección. n =f πi = N Por ejemplo, para seleccionar una muestra mediante MAS: 82 1. A cada elemento del marco muestral se le debe asignar un número de 1 a N . 2. Seleccionar números aleatorios desde una lista o software, los cuales, una vez ordenados, nos permitirán identificar a los elementos seleccionados. 3. En caso que se repitan los números seleccionados, se debe seleccionar más casos hasta tener n únicos casos (MAS sin reemplazo). El muestreo puede ser sin reemplazo, donde se escoge una unidad al azar y se descarta de la población, para evitar ser escogida nuevamente. O bien, puede ser un muestre con reemplazo, donde se selecciona una muestra en la que se acepten números aleatorios ya usados, y una unidad puede ser escogida más de una vez. Muestrear con reemplazo es una forma válida de identificar una muestra aleatoria simple. Sin embargo, el muestreo sin reemplazo es el procedimiento de muestreo más usado. Cuando se habla de muestreo aleatorio simple (MAS), se asumirá que el muestreo es sin reemplazo. 8.1.2. Población infinita En algunas situaciones la población o bien es infinita o tan grande que, para fines prácticos, se considera infinita. Por ejemplo, suponga que un minimarket desea obtener el perfil de sus clientes seleccionando una muestra aleatoria de los mismos y pidiéndole a cada cliente que llene un breve cuestionario. En tales situaciones, el proceso continuo de clientes que visitan el minimarket puede verse como que los clientes provienen de una población infinita. Una muestra aleatoria simple (MAS) de una población infinita es una muestra seleccionada de manera que se satisfacen dos condiciones: 1. Cada uno de los elementos seleccionados proviene de la población. 2. Cada elemento se selecciona independientemente. 83 La selección de los elementos de manera independiente evita un sesgo en la selección que dé mayores probabilidades de selección a ciertos tipos de elementos. El sesgo de selección es un error sistemático con un sentido definido y predecible, ya que no depende del azar, sino de una causa definida. Su presencia provoca falta de validez y exactitud interna del estudio, por lo que sus conclusiones son erróneas. Existen tres tipos de sesgo de selección. Estos son: Sesgo de inclusión: la probabilidad de que un sujeto se incluya en un estudio está ligada a alguno de los factores a estudiar. Muestreo por azar o sin los criterios a estudiar. Por ejemplo, selección en hospitales de sujetos de estudio de una determinada enfermedad con factores de riesgo ligados al estudio. Autoselección: la decisión de participar en relación con el objetivo de estudio. La gente se autoselecciona. Pérdidas: de unidades de estudio durante el tiempo de estudio y pueden representar determinadas caracterı́sticas condicionantes. Habrı́a un sesgo de selección, por ejemplo, si cinco clientes consecutivos que se seleccionaran fueran amigos. Es de esperar que estos clientes tengan perfiles semejantes. Dichos sesgos se evitan haciendo que la selección de un cliente no influya en la selección de cualquier otro cliente. El número de muestras aleatorias simples distintas de tamaño n que pueden seleccionarse de una población finita de tamaño N es N! CnN = n!(N − n)! Por ejemplo: si N = 2500 y n = 30 se pueden tomar 2,75 × 1069 muestras aleatorias simples distintas. ¿Cuándo es conveniente realizar un MAS? ¿Es una encuesta la mejor forma de obtener información? Una muestra disminuye la cantidad de datos que se requieren y los recursos para recolectarlos y analizarlos. Quizás es posible con trabajar con datos administrativos o registros. 8.1.3. Distribuciones Muestrales La distribución teórica de un estadı́stico (por ejemplo, la media) en todas las muestras de tamaño n posibles de obtener de una población N , permite conocer la probabilidad asociada al valor que asume el estadı́stico en una muestra determinada. Si se toman múltiples muestras aleatorias (muestras repetidas) de una variable poblacional, la distribución de la media muestral tenderá a una distribución normal. De esta forma, se puede demostrar que la media muestral es un buen estimador de la media poblacional y realizar inferencias. Suponga que al escoger otra muestra de 30 trabajadoras, diferentes a los anteriores, las estimaciones puntuales arrojan que µ̂ = 52670 y p̂ = 0,7. Es de esperar que una muestra de 30 trabajores diferentes dé resultados diferentes. Una variable aleatoria es una descripción numérica del resultado de un experimento. Si el proceso de seleccionar una muestra aleatoria simple se considera como un experimento, la media muestral µ̂ es el valor numérico del resultado de ese experimento. Entonces, como ocurre con otras variables aleatorias, 84 µ̂ tiene una media o valor esperado, una desviación estándar y una distribución de probabilidad. Como los distintos valores que toma son resultado de distintas muestras aleatorias simples, a la distribución de probabilidad de se le conoce como distribución muestral de µ̂. Conocer esta distribución muestral y sus propiedades permitirá hacer declaraciones de probabilidad de qué tan cerca está la media muestral de la media poblacional. Mediante un histograma es posible observar la forma que tomarı́a una distribución; por ejemplo si µ̂ se distribuyera de forma normal. 8.1.4. Distribución Muestral de µ̂ La media muestral es una variable aleatoria que a su distribución de probabilidad se le llama distribución muestral de µ̂. La distribución muestral de µ̂ es la distribución de probabilidad de todos los valores de la media muestral µ̂. La media de la variable aleatoria es el valor esperado de µ̂. Sea E[µ̂] el valor esperado de y µ la media de la población de la que se selecciona una muestra aleatoria simple. Se puede demostrar que cuando se emplea el muestreo aleatorio simple, E[µ̂] y µ son iguales. Usando el muestreo aleatorio simple (MAS), el valor esperado o media de la distribución muestral de es igual a la media de la población. Cuando el valor esperado de un estimador puntual es igual al parámetro poblacional, se dice que el estimador puntual es insesgado. Por tanto, E[µ̂] = µ es un estimador insesgado. Es posible demostrar que usando el muestreo aleatorio simple, la desviación estándar depende de si la población es finita o infinita. r σ N −n √ para una población finita σ̂x̄ = N −1 n σ para una población infinita σ̂x̄ = √ n Donde σ̂x̄ σ̂ n N = = = = desviación estándar de x̄ desviación estándar de la población tamaño de la muestra tamaño de la población q −n A N N −1 se le conoce como factor de corrección para una población finita. En muchas de las situaciones prácticas de muestreo, se encuentra que aunque la población sea finita, es “grande”, mientras que el tamaño de la muestra es “pequeña”. En estos casos el factor de corrección para una población finita es casi igual a 1. Entonces, el cálculo para poblaciones infinitas es una buena aproximación a la desviación estándar de µ̂, aún cuando la población sea finita, y el tamaño de la muestra sea menor o igual a 5 % del tamaño de la población; es decir n/N ≤ 0,05. A la desviación estándar σ̂µ del estimador de µ, µ̂, también se le conoce como error estándar de la media. Aunque, de forma general, Error estándar (x) = σ̂ 2 s2 = n n En general, el término Error Estándar se refiere a la desviación estándar de un estimador puntual respecto del parámetro poblacional. El valor del error estándar de la media ayuda a determinar qué 85 tan lejos puede estar la media muestral de la media poblacional. Por ejemplo: Sea N = 2500, n = 30 y σ = 4000, se tiene que n/N = 30/2500 = 0,012. Como el tamaño de la muestra es mayor que el 5 % del tamaño de la población, se puede ignorar el factor de corrección para la población finita y calcular el error estándar como 4000 σ σx̄ = √ = √ = 730,3 n 30 El paso final en la identificación de las caracterı́sticas de la distribución muestral de µ̂ es determinar la forma de la distribución muestral. a La población tiene distribución normal: En muchas situaciones es razonable suponer que la población de la que se seleccionó la muestra aleatoria simple tenga distribución normal o casi normal. Cuando la población tiene distribución normal, la distribución muestral de µ̂ está distribuida normalmente sea cual sea el tamaño de la muestra. b La población no tiene distribución normal: Cuando la población de la que se tomó la muestra aleatoria simple no tiene distribución normal, el teorema central del lı́mite ayuda a determinar la forma de la distribución muestral de µ̂. El enunciado del teorema central del lı́mite aplicado a la distribución muestral de µ̂ dice lo siguiente. “Cuando se seleccionan muestras aleatorias simples de tamaño n de una población, la distribución muestral de la media muestral µ̂ puede aproximarse mediante una distribución normal en la medida que el tamaño de la muestra se hace grande.” En la mayorı́a de los casos, la distribución muestral de µ̂ se puede aproximar mediante una distribución normal siempre que la muestra sea de tamaño 30 o mayor; n ≥ 30. En los casos en que la población es muy sesgada o existen observaciones atı́picas, pueden necesitarse muestras de tamaño 50; n ≥ 50. Si la población es discreta, el tamaño de muestra necesario para la aproximación normal suele depender de la proporción poblacional; p. Si la población tiene una distribución normal, la distribución muestral de µ̂ estará distribuida normalmente. Por ejemplo: Si la población no tiene una distribución normal, la muestra aleatoria simple de 30 trabajadores y el teorema central del lı́mite permiten concluir que la distribución muestral de µ̂ puede aproximarse mediante una distribución normal. Por ejemplo: El gerente de recursos humanos desea conocer la probabilidad de que la media muestral obtenida usando una muestra aleatoria simple de 30 trabajadores, se encuentre a más o menos de $500 de la media poblacional. Para responder esta pregunta, asumimos que µ̂ se distribuye de forma normal. Como la media poblacional es $51.800, el gerente de personal desea saber cuál es la probabilidad de que esté entre $51.300 y $52.300. Es decir, calculamos la probabilidad de que µ̂ se encuentre en el intervalo que va de $51.300 hasta $52.300. Primero, se calcula el valor de z en el extremo superior de este intervalo ($52.300) y se usa la tabla para hallar el área bajo la curva a la izquierda de ese punto (área hacia la cola izquierda). Después, se calcula el valor de z en el extremo inferior de este intervalo ($51.300) y se usa la tabla para hallar el área bajo la curva a la izquierda de este punto (otra área hacia la cola izquierda). P (51,300 ≤ x̄ ≤ 52,300) = P (z ≤ 0,68) − P (z ≤ −0,68) 86 En µ̂ = 52,300 se tiene que z= 52300 − 51800 = 0,68 730,3 En la tabla de probabilidad normal estándar la probabilidad acumulada (área a la izquierda de z = 0.68) es 0.7517. En µ̂ = 51,300 se tiene que 51300 − 51800 z= = −0,68 730,3 El área bajo la curva a la izquierda de z = -0.68 es 0.2483. Por tanto, P (51,300 ≤ x̄ ≤ 52,300) = P (z ≤ 0,68) − P (z ≤ −0,68) = 0,7517 − 0,2483 = 0,5034. Hay una probabilidad de 0.5034 de que, con una muestra aleatoria simple de 30 trabajadores, se obtenga una media muestral µ̂ que esté a más o menos de $500 de la media poblacional. Por tanto, la probabilidad de que la diferencia entre µ̂ y µ = 51,800 sea superior a $500 es 1 − 0,5034 = 0,4966. Relación entre el tamaño de la muestra y la distribución muestral de µ̂ La media de todos los valores posibles de µ̂ es igual a la media poblacional µ independientemente del √ tamaño n de la muestra; E[µ̂] = µ. El error estándar de la media, σ̂µ = σ/ n, está relacionado con la raı́z cuadrada del tamaño de la muestra. Siempre que el tamaño de la muestra aumente, el error estándar de la media σ̂µ disminuirá. Por ejemplo: Si N = 2500, n = 30 y σ = 4000, se tiene que n/N = 30/2500 = 0,012. 4000 σ σ̂µ = √ = √ = 730,3 n 30 Si n = 100, entonces σ 4000 = 400 σ̂µ = √ = √ n 100 87 Con un error estándar más pequeño, habrá menos variación entre los valores de µ̂ y éstos tenderán a estar más cerca de la media poblacional. Como la distribución muestral es normal, su media es de $51800, el error estándar de la media es 400, se emplea la tabla de probabilidad normal estándar para hallar el área o la probabilidad. Para calcular la probabilidad de que una muestra aleatoria de 100 trabajadores que no difiera de los $500 de la media poblacional: z= 51300 − 51800 52300 − 51800 = 1,25 z = = −1,25 400 400 88 8.1.5. Distribución muestral de p̄ La proporción muestral p̄ es el estimador puntual de la porporción poblacional p. p̄ = x n Donde x es el número de elementos de la muestra que poseen la caracterı́stica de interés, y n es el tamaño de la muestra. Qué tan cerca está la proporción muestral p̄ de la proporción poblacional p. El valor esperado de p̄ es la media de todos los posibles valores de p̄ y es igual a la proporción poblacional. E[p̄] = p Como E[p̄] = p, p̄ es un estimador insesgado de de p. La desviación estándar depende de si la población es finita o infinita: r r N − n p(1 − p) para población finita σp̄ = N −1 n r p(1 − p) σp̄ = para población infinita n Si la población es finita y n/N ≤ 0,05, entonces es posible usar la formula para la población infinita. 8.2. Otras técnicas probabilı́sticas de muestreo Los elementos seleccionados de una población tienen una probabilidad conocida de ser incluidos en la muestra. La ventaja del muestreo probabilı́stico es que, por lo general, se identifica la distribución muestral del estadı́stico muestral correspondiente. Para determinar las propiedades de la distribución muestral se usa el muestreo aleatorio simple (MAS). La distribución muestral permite hacer afirmaciones probabilı́sticas acerca del error al usar los resultados muestrales para hacer inferencias acerca de la población. Se recomienda usar métodos de muestreo probabilı́stico. Si se usan estos métodos existen fórmulas para evaluar la “bondad” de los resultados muestrales en términos de la cercanı́a de los resultados a los parámetros poblacionales que se estiman. Generalmente el MAS no es viable en la recolección de datos, por lo que se introducen más elementos al diseño de la muestra, como lo son los estratos, conglomerados (clusters) y factores de expansión. Al introducir estos elementos, los cálculos en las varianzas (o errores tı́picos) difieren en comparación al MAS. Estos diseños son llamados muestras complejas. El efecto de los elementos del diseño de muestras complejas sobre los errores estándar de una proporción se puede observar a continuación. 8.2.1. Muestreo aleatorio estratificado El uso del muestreo estratificado aumenta la precisión de las estimaciones (generalmente reduce la varianza). Los elementos de la población primero se dividen en grupos, a los que se les llama estratos, de manera que cada elemento pertenezca a uno y sólo un estrato; son excluyentes entre sı́. Deben ser homogéneos dentro de si, y heterogéneos entre ellos. La variable de estratificación debe 89 estar relacionada con la variable medida. Se puede utilizar más de una variable de estratificación. No obstante ambas deben estar relacionadas con la variable de interés, pero no debiesen estar asociadas entre si. Los estratos pueden ser, por ejemplo, región, edad, tipo de industria. Una vez formados los estratos, se toma una muestra aleatoria simple de cada estrato. El valor del muestreo aleatorio estratificado depende de qué tan homogéneos sean los elementos dentro de cada estrato. Si los elementos de un estrato son homogéneos, el estrato tendrá una varianza pequeña. Con muestras relativamente pequeñas de los estratos se obtienen buenas estimaciones de las caracterı́sticas de los estratos. Si los estratos son homogéneos, el muestreo aleatorio estratificado, proporciona resultados tan precisos como los de un muestreo aleatorio simple, pero con una muestra de tamaño total menor. 90 ¿Por qué usar estratificación? 1. Queremos lograr que ciertos grupos estén incluidos en la muestra (en teorı́a, un MAS podrı́a contener sólo elementos de un sexo). 2. Precisión para subgrupos de interés (variables independientes). 3. Mejor control de gastos en torno a la recolección de datos. 4. Mayor precisión en las estimaciones obtenidas mediante medias y proporciones La asignación de casos en cada estrato puede ser de dos formas: 1. Proporcional: considera el peso relativo de los elementos en cada estrato de la población, y replica dicho valor en la muestra. 2. No proporcional: No son autoponderadas y es necesario corregir para evitar sesgo por sobre y sub representación. Afijación Igual: Mismo número de elementos en cada estrato. Afijación óptima de varianza: Disminuir casos para minimizar varianza. Afijación óptima de costos: optimización de costos de muestreo. 8.2.2. Muestreo por conglomerados Los conglomerados son agrupaciones naturales de los elementos. Al contrario de los estratos, los elementos que componen al conglomerados son heterogéneos dentro de si, y similares entre si. Si todos los conglomerados son parecidos entre si, entonces resulta razonable sólo seleccionar alguno de ellos. No se requiere un marco que incluya a todos los elementos de la población, sino que el de agrupaciones previas. Tiene un impacto negativo en el nivel de precisión; aumenta la Varianza. Por ejemplo, un estudio busca analizar el consumo de drogas en alumnos de séptimo básico. En un colegio donde 91 existen tres cursos en séptimo básico, sólo se seleccionan los alumnos de un curso, ya que se piensa que el consumo de drogas es bien heterogéneo dentro de cada curso, pero el comportamiento entre cursos es similar, por lo que uno puede reflejar la realidad del resto. Cada elemento de la población pertenece a uno y sólo un conglomerado. Se toma una muestra aleatoria simple (MAS) de los conglomerados. La muestra está formada por todos los elementos dentro de cada uno de los conglomerados que forman la muestra. El muestreo por conglomerados tiende a proporcionar mejores resultados cuando los elementos dentro de los conglomerados no son semejantes. Lo ideal es que cada conglomerado sea una representación, a pequeña escala, de la población. Si todos los conglomerados son semejantes en este aspecto, tomando en la muestra un número pequeño de conglomerados se obtendrá una buena estimación de los parámetros poblacionales. Una de las principales aplicaciones del muestro por conglomerados es el muestreo de áreas, en el que los conglomerados son las manzanas de una ciudad u otras áreas bien definidas. El muestreo por conglomerados requiere, por lo general, tamaños de muestra mayores que los requeridos en el muestreo aleatorio simple o en el muestreo aleatorio estratificado. Es posible reducir costos debido a que cuando se envı́a a un entrevistador a uno de los conglomerados de la muestra (por ejemplo, a una manzana de una ciudad), es posible obtener muchas observaciones en poco tiempo. Se justifica realizar muestreo por conglomerado con submuestreo cuando un conglomerado contiene muchos elementos o si estos son similares entre sı́. Para referirse a las unidades de muestreo de cada etapa, se suelen utilizar los siguientes términos Unidad Primaria de Muestreo (UPM) Unidad Secundaria de Muestreo (USM) Unidad Terciaria de Muestreo (UTM) .. . Unidad Última de Muestreo (UUM) La selección de las submuestras se realizan en todos los conglomerados que constituyen las UPM. Por ejemplo, esta metodologı́a es utilizada por la Encuesta de Caracterización Socioeconómica (CESEN) y la encuesta CEP, entre otras. Por ejemplo: Etapa 0: Estratificación dela muestra Etapa 1: UPM: Selección de comunas • Probabilidad proporcional al tamaño • inclusión forzosa: Criterios para incluir comunas, es decir, probabilidad de inclusión = 1 Etapa 2: USM: Selección de manzanas Etapa 3: UTM: Selección aleatoria de viviendas Etapa 4: UUM: Selección aleatoria de integrantes al interior de la vivienda 92 8.2.3. Factor de expansión Cuando se diseñan muestras complejas, estos suelen ser diseños no proporcionales, con probabilidades de selección desiguales, y donde algunos grupos responden más que otros (no respuesta, sesgo de selección por autoselección). El factor de expansión busca corregir estas desviaciones para que los elementos tengan el peso que corresponde. El factor de expansión se refiere a la cantidad de personas que un elemento representa en la población. 8.3. 8.3.1. Técnicas no probabilı́sticas de muestreo Muestreo de conveniencia La muestra se determina por conveniencia. Los elementos se incluyen en la muestra sin que haya una probabilidad previamente especificada o conocida de que sean incluidos en la muestra. Por ejemplo: Un estudio de opinión o focus group sobre un pronducto; ¿la razón para elegirlos? Los sujetos se autoseleccionan y participarán como voluntarios a un costo bajo o sin costo. Es relativamente fácil seleccionar la muestra y recoger los datos. Sin embargo, es imposible evaluar la “bondad”de la muestra en términos de su representatividad de la población. 8.3.2. Muestreo subjetivo En este método la persona que más sabe sobre un asunto selecciona elementos de la población que considera los más representativos de la población. Este método suele ser una manera relativamente fácil de seleccionar una muestra. Por ejemplo: un periodista puede seleccionar dos o tres senadores considerando que estos senadores reflejan la opinión general de todos los senadores. Sin embargo, la calidad de los resultados muestrales depende de la persona que selecciona la muestra. No siempre es posible realizar conclusiones generales sobre la población. 93 9. Ejercicios Estadı́stica Descriptiva 1. A continuación se presenta información de las ventas y los beneficios (en MM$) obtenidos por una muestra de 17 empresas de consumo masivo. Qué conclusión puede obtener respecto de la relación entre las ventas y los beneficios. Justifique su respuesta con los estadı́sticos pertinentes. Empresas SanCor Coca-Cola Knorr Quilmes Arcor Tang Carozzi Lucchetti Nescafe Danone Bimbo Maggi Omo Elite IncaKola Pepsi Lipton Ventas Beneficios 1.23 13.21 6.86 9.02 6.28 10.25 9.85 4.20 10.19 7.73 5.27 5.48 1.79 4.60 3.82 12.24 6.44 31.3 18.1 9.0 379.4 503.0 14.8 55.4 71.0 115.1 42.3 96.1 912.1 103.8 567.5 212.8 128.9 171.5 94 Respuesta: i Ventas Beneficios (xi − x̄) (yi − ȳ) (xi − x̄)2 (yi − ȳ)2 (xi − x̄)(yi − ȳ) SanCor Coca-Cola Knorr Quilmes Arcor Tang Carozzi Lucchetti Nescafe Danone Bimbo Maggi Omo Elite IncaKola Pepsi Lipton P 1.23 13.21 6.86 9.02 6.28 10.25 9.85 4.20 10.19 7.73 5.27 5.48 1.79 4.60 3.82 12.24 6.44 31.3 18.1 9.0 379.4 503.0 14.8 55.4 71.0 115.1 42.3 96.1 912.1 103.8 567.5 212.8 128.9 171.5 -5.74 6.24 -0.11 2.05 -0.69 3.28 2.88 -2.77 3.22 0.76 -1.70 -1.49 -5.18 -2.37 -3.15 5.27 -0.53 -170.59 -183.79 -192.89 177.51 301.11 -187.09 -146.49 -130.89 -86.79 -159.59 -105.79 710.21 -98.09 365.61 10.91 -72.99 -30.39 32.93 38.96 0.01 4.21 0.47 10.77 8.30 7.66 10.38 0.58 2.88 2.21 26.81 5.61 9.91 27.79 0.28 29100.35 33778.12 37205.87 31510.43 90668.29 35002.01 21458.80 17131.73 7532.20 25468.40 11191.15 504400.75 9621.30 133671.96 119.07 5327.28 923.44 978.8754325 -1147.16292 20.87731488 364.2123737 -207.2357439 -613.9795675 -422.1446263 362.3294325 -279.6112734 -121.5686851 179.6533149 -1056.962215 507.9239619 -865.8546851 -34.35280277 -384.7768028 16.05213841 189.78 994111.16 -2703.73 Ventas Media varianza Desviación estándar Covarianza Coeficiente de Correlación 6.97 11.86 3.44 Beneficios 201.89 62131.95 249.26 -168.98 -0.197 Debido a que el coeficiente de correlación entre las ventas y los beneficios es negativo, cuanto mayor sea el volumen de ventas, menor será nivel de beneficios. 95 2. A continuación se presenta dos variables, la “Tasa de desempleo” y la “Tasa impositiva”. Imagine que estos paı́ses son lo único que existen en el mundo, es decir, componen el 100 % de la población mundial. Con esta información, responda las preguntas. Paı́s Tasa de desempleo Tasa impositiva Alemania Austria Bélgica Canadá Dinamarca EEUU España Francia Grecia Holanda Irlanda Italia Japón Noruega Nueva Zelanda Portugal Suecia Suiza Reino Unido 2.6 5.6 7.3 7.9 6.4 6.6 10.6 6.4 5.5 5.2 10.4 8.4 2.4 2.7 3.3 5.8 2.4 0.8 6.0 0.8 0.4 0.9 0.5 1.0 0.4 0.5 0.9 0.6 0.9 0.6 0.6 0.3 1.0 0.5 0.5 1.1 0.4 0.5 a. Calcule la covarianza y el coeficiente de correlación entre la tasa de desempleo y la tasa de impositiva. 96 Respuesta: x̄g = ȳg = σxy = Paı́s Alemania Austria Bélgica Canadá Dinamarca EEUU España Francia Grecia Holanda Irlanda Italia Japón Noruega Nueva Zelanda Portugal Suecia Suiza Reino Unido P σx = σy = ρxy = √ N x1 x2 ...xN = √ y1 y2 ...yN P (xi − x̄)(yi − ȳ) N rP (xi − x̄)2 N rP (yi − ȳ)2 N σxy σx σy N = q Π1i=1 9xi q 19 Π1i=1 9yi 19 −0,616 19 r 145,009 = 19 r 1,154 = 19 −0,0324 = (2,7635)(0,2464) = = 4,7944 = 0,6018 = −0,0324 = 2,7635 = 0,2464 = −0,0476 Tasa de desempleo Tasa impositiva (xi − x̄) (yi − ȳ) (xi − x̄)2 (yi − ȳ)2 (xi − x̄)(yi − ȳ) 2.6 5.6 7.3 7.9 6.4 6.6 10.6 6.4 5.5 5.2 10.4 8.4 2.4 2.7 3.3 5.8 2.4 0.8 6.0 0.8 0.4 0.9 0.5 1.0 0.4 0.5 0.9 0.6 0.9 0.6 0.6 0.3 1.0 0.5 0.5 1.1 0.4 0.5 -2.2 0.8 2.5 3.1 1.6 1.8 5.8 1.6 0.7 0.4 5.6 3.6 -2.4 -2.1 -1.5 1.0 -2.4 -4.0 1.2 0.2 -0.3 0.3 -0.1 0.4 -0.2 -0.1 0.2 0.0 0.3 0.0 0.0 -0.3 0.4 -0.1 -0.2 0.5 -0.2 -0.1 4.815 0.649 6.278 9.645 2.578 3.260 33.705 2.578 0.498 0.165 31.423 13.000 5.733 4.387 2.233 1.011 5.733 15.955 1.453 0.039 0.063 0.072 0.005 0.159 0.041 0.017 0.062 0.001 0.083 0.000 0.000 0.085 0.183 0.020 0.023 0.248 0.045 0.007 -0.4349 -0.2028 0.6720 -0.2230 0.6393 -0.3644 -0.7652 0.3985 0.0199 0.1169 0.0460 0.0656 0.6987 -0.8968 0.2119 -0.1526 -1.1929 0.8460 -0.0986 145.099 1.154 -0.616 97 b. Considerando sólo el subconjunto de paı́ses europeos, calcule la covarianza y el coeficiente de correlación entre la tasa de desempleo y la tasa de impositiva. Respuesta: x̄g = √ n ȳg = √ n σxy = Paı́s Alemania Austria Bélgica Dinamarca España Francia Grecia Holanda Irlanda Italia Noruega Portugal Suecia Suiza UK P σx = σy = ρxy = x1 x2 ...xn = y1 y2 ...yn P (xi − x̄)(yi − ȳ) n−1 rP (xi − x̄)2 n−1 rP (yi − ȳ)2 n−1 σxy σx σy = q Π1i=1 5xi q 15 Π1i=1 5yi 15 = 4,8738 = 0,6637 −1,867 15 − 1 r 122,069 = 15 − 1 r 0,868 = 15 − 1 −0,1333 = (2,9528)(0,2490) = = −0,1333 = 2,9528 = 0,2490 = −0,1814 Tasa de desempleo Tasa impositiva (xi − x̄) (yi − ȳ) (xi − x̄)2 (yi − ȳ)2 (xi − x̄)(yi − ȳ) 2.6 5.6 7.3 6.4 10.6 6.4 5.5 5.2 10.4 8.4 2.7 5.8 2.4 0.8 6.0 0.8 0.4 0.9 1.0 0.5 0.9 0.6 0.9 0.6 0.6 1.0 0.5 1.1 0.4 0.5 -2.3 0.7 2.4 1.5 5.7 1.5 0.6 0.3 5.5 3.5 -2.2 0.9 -2.5 -4.1 1.1 0.1 -0.3 0.2 0.3 -0.2 0.2 0.0 0.2 -0.1 0.0 0.4 -0.2 0.4 -0.3 -0.1 5.170 0.527 5.886 2.329 32.789 2.329 0.392 0.106 30.538 12.434 4.726 0.858 6.120 16.596 1.268 0.019 0.098 0.043 0.113 0.038 0.035 0.001 0.051 0.003 0.002 0.134 0.046 0.190 0.075 0.021 -0.3100 -0.2278 0.5006 0.5133 -1.1089 0.2844 -0.0211 0.0738 -0.2965 -0.1539 -0.7964 -0.1979 -1.0794 1.1148 -0.1618 122.069 0.868 -1.867 98 c. Qué concluciones podemos extraer a partir del signo del coeficiente de correlación. Respuesta: El coeficiente de correlación de Pearson tiene signo negativo, por lo que podemos afirmar que la relación entre estas variables es negativa. Esto quiere decir que si la tasa de desempleo varı́a a la baja, la tasa impositiva varı́a al alza, o o bien, si la tasa impositiva varı́a a la baja, la tasa de desempleo varı́a al alza. El coeficiente de correlación no establece causalidad entre las variables. d. Qué conclusiones puede obtener al comparar los resultados de las preguntas 1 y 2. Respuesta: Al extraer una muestra correspondientes a los paı́ses europeos, es posible observar que la covarianza y el cofienciente de correlación aumentan. Este es, aumenta la variación conjunta de las variables, lo que implica que mejora la relación. Probabilidades 3. Una carta se extrae aleatoriamente de una baraja de 52 cartas. Denote como C, P, D y T las pintas de Corazón, Pica, Diamantes y Tréboles, y 1, 2, ...,10, 11, 12, 13 las cartas que van del as, dos, ..., diez, jota, reina, rey. Encontrar la probabilidad de que sea: a. Un as Respuesta: p(1) = P (1 ∩ C o 1 ∩ P o 1 ∩ D o 1 ∩ T ) = P (1 ∩ C) + P (1 ∩ P ) + P (1 ∩ D) + P (1 ∩ T ) 1 1 1 1 1 + + + = 52 52 52 52 13 También es posible poder llegar a este resultado si se piensa que cada pinta tiene 13 cartas y queremos escoger una de ellas. Luego, la probabilidad es 1/n, es decir 1/13 = b. Una jota de corazones Respuesta: P (11 ∩ C) = 1 52 c. Un tres de tréboles o un seis de diamantes Respuesta: P (3 ∩ T o 3 ∩ D) = P (3 ∩ T ) + P (6 ∩ D) = 99 1 1 1 + = 52 52 26 d. Un corazón Respuesta: P (C) = P (1 ∩ C o 2 ∩ C o · · · o 13 ∩ C) = 1 1 1 13 1 + + ··· + = = 52 52 52 52 4 e. Una carta de cualquier pinta excepto corazón Respuesta: P (C c ) = 1 − P (C) = 1 − 3 1 = 4 4 f. Un diez o una pica Respuesta: Puesto que 10 y P no son mutuamente excluyentes, tenemos que P (10 ∪ P ) = P (10) + P (P ) − P (10 ∩ P ) = 1 1 1 4 + − = 13 4 52 13 g. Sacar cualquier carta que no sea ni un cuatro ni un trébol. Respuesta: La probabilidad de no sacar un cuatro y no sacar un trébol puede denotarse como P (4c ∩T c ). Esto es equivalente a (4 ∪ T )c . Luego, P (4c ∩ T c ) = P [(4 ∪ T )c ] = 1 − P (4 ∪ T ) = 1 − [P (4) + P (T ) − P (4 ∩ T )] 1 1 1 9 = 1− + − = 13 4 52 13 4. El jefe de una estación de bencina sabe que el 80 % de los clientes pagan con tarjeta de crédito. ¿Cuál es la probabilidad de que los 2 siguientes clientes paguen con tarjeta? Sean: A = el evento el primer cliente paga con tarjeta de crédito B = el evento el segundo cliente paga con tarjeta de crédito El evento que interesa es A ∩ B. Es razonable pensar que A y B son eventos independientes. Por tanto, P (A ∩ B) = P (A)P (B) = (0,8)(0,8) = 0,64 5. La caja I contiene 3 bolas rojas y 2 azules y la caja II contiene 2 bolas rojas y 8 azules. Se lanza una moneda al aire. Si se obtiene cara se saca una bola de la caja I, y si se obtiene sello se saca una bola de la caja II. Hallar la probabilidad de sacar una bola roja. 100 Respuesta: Sea R el “evento sacar una bola roja” y I y II indican los eventos “escoger la caja I” y “escoger la caja II”. 2 3 1 2 1 + = P (R) = P (I)P (R | I) + P (II)P (R | II) = 2 3+2 2 2+8 5 Ejercicio: Suponga que tiene 3 urnas con bolas rojas y negras que se distribuyen de la siguientes forma. A : 3 bolas rojas y 5 bolas negras B : 2 bolas rojas y 1 bolas negra C : 2 bolas rojas y 3 bolas negras Si escogemos una bola al azar y resulta ser roja, ¿cuál es la probabilidad de que sea de la urna A? Sea: R : el evento de sacar una bola roja N : el evento de sacar una bola negra P (A | R) = = P (A)P (R | A) P (A)P (R | A) + P (B)P (R | B) + P (C)P (R | C) 1 3 1 3 1 · + 3 8 3 3 8 2 1 2 · + · 3 3 5 · = 0,26 = 26 % Variable Aleatoria Continua 6. Calcule la probabilidad de que z sea mayor o igual a 1. Respuesta: Esto es P (z ≤ 1). Según la tabla de probabilidades acumuladas en la distribución normal estándar, P (z ≤ 1) = 0,8413. 101                              7. Calcule P (−0,5 ≤ z ≤ 1,25)      Respuesta: Según la tabla de probabilidades acumuladas en la distribución normal estándar,  P (z ≤ 1,25) = 0,8944 y P (z ≤ −0,5) = 0,3085. Luego P (−0,5 ≤ z ≤ 1,25) = P (z ≤ 1,25) −      P (z ≤ −0,5) = 0,8944 − 0,3085 = 0,5859                               8. Calcule la probabilidad de que la variable aleatoria normal estándar se encuentre a no más de una desviación estándar de la media.  Respuesta: Esto es, P (−1 ≤ z ≤ 1). Según la tabla de probabilidades acumuladas en la       distribución normal estándar, P (z ≤ 1) = 0,8413 y P (z ≤ −1) = 0,1587. Luego P (−1 ≤ z ≤  1) = P (z ≤ 1) − P (z ≤ −1) = 0,8413 − 0,1587 = 0,6826 102 9. Calcule la probabilidad de tener un valor z por lo menos igual a 1.58. Respuesta: Esto es, P (z ≥ 1,58). Según la tabla de probabilidades acumuladas en la distribución normal estándar, P (z ≤ 1,58) = 0,9429. Cómo el área bajo la curva normal es 1, lo que nos interesa es 1 − P (z ≤ 1,58) = 1 − 0,9429 = 0,0571 10. Hallar un valor z tal que la probabilidad de obtener un valor z mayor sea 0.10. Respuesta: Este problema es la situación contraria a la presentada en los ejemplos anteriores, en ellos se dio el valor z y se halló la probabilidad o área correspondiente. En este ejemplo se da la probabilidad, o el área, y se pide hallar el valor correspondiente de z. La tabla de probabilidad normal estándar da el área bajo la curva a la izquierda de un determinado valor z. Se ha recibido la información de que el área en la cola superior (derecha) de la curva es 0.10. Por tanto, el área bajo la curva a la izquierda del valor desconocido de z debe ser 0.9000. Al recorrer el cuerpo de la tabla, se encuentra que 0.8997 es la probabilidad acumulada más cercana a 0.9000. El valor z más cercano a 0.9 es P (z ≤ 1,28) = 0,8997, luego, 0.10 es la probabilidad aproximada de que z sea mayor que 1.28. 103 11. suponga que se quiere calcular la probabilidad de 13 o menos facturas con errores en una muestra de 100 facturas. Respuesta: z= 13,5 − 10 = 1,17 3 En la tabla de probabilidad normal estándar se observa que el área bajo la curva normal estándar y a la izquierda de P (z ≤ 1,17) = 0,8790. Por tanto, la probabilidad de hallar, 13 o menos facturas erroneas es de un 87.9 % 12. Cuál es la probabilidad de cargar un camión entre 6 y 18 minutos. Respuesta: P (x ≤ 6) = 1 − e−6/15 = 0,3297 P (x ≤ 18) = 1 − e−18/15 = 0,6988 Luego, 0,6988 - 0,3297 = 0,3691 104 10. Anexo 10.1. Tabla normal estándar Tabla normal estándar (números positivos) z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9986 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9913 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 105 Tabla normal estándar (números negativos) z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 −3.0 −2.9 −2.8 −2.7 −2.6 −2.5 −2.4 −2.3 −2.2 −2.1 −2.0 −1.9 −1.8 −1.7 −1.6 −1.5 −1.4 −1.3 −1.2 −1.1 −1.0 −0.9 −0.8 −0.7 −0.6 −0.5 −0.4 −0.3 −0.2 −0.1 −0.0 0.0013 0.0019 0.0026 0.0035 0.0047 0.0062 0.0082 0.0107 0.0139 0.0179 0.0228 0.0287 0.0359 0.0446 0.0548 0.0668 0.0808 0.0968 0.1151 0.1357 0.1587 0.1841 0.2119 0.2420 0.2743 0.3085 0.3446 0.3821 0.4207 0.4602 0.5000 0.0013 0.0018 0.0025 0.0034 0.0045 0.0060 0.0080 0.0104 0.0136 0.0174 0.0222 0.0281 0.0351 0.0436 0.0537 0.0655 0.0793 0.0951 0.1131 0.1335 0.1562 0.1814 0.2090 0.2389 0.2709 0.3050 0.3409 0.3783 0.4168 0.4562 0.4960 0.0013 0.0018 0.0024 0.0033 0.0044 0.0059 0.0078 0.0102 0.0132 0.0170 0.0217 0.0274 0.0344 0.0427 0.0526 0.0643 0.0778 0.0934 0.1112 0.1314 0.1539 0.1788 0.2061 0.2358 0.2676 0.3015 0.3372 0.3745 0.4129 0.4522 0.4920 0.0012 0.0017 0.0023 0.0032 0.0043 0.0057 0.0075 0.0099 0.0129 0.0166 0.0212 0.0268 0.0336 0.0418 0.0516 0.0630 0.0764 0.0918 0.1093 0.1292 0.1515 0.1762 0.2033 0.2327 0.2643 0.2981 0.3336 0.3707 0.4090 0.4483 0.4880 0.0012 0.0016 0.0023 0.0031 0.0041 0.0055 0.0073 0.0096 0.0125 0.0162 0.0207 0.0262 0.0329 0.0409 0.0505 0.0618 0.0749 0.0901 0.1075 0.1271 0.1492 0.1736 0.2005 0.2296 0.2611 0.2946 0.3300 0.3669 0.4052 0.4443 0.4840 0.0011 0.0016 0.0022 0.0030 0.0040 0.0054 0.0071 0.0094 0.0122 0.0158 0.0202 0.0256 0.0322 0.0401 0.0495 0.0606 0.0735 0.0885 0.1056 0.1251 0.1469 0.1711 0.1977 0.2266 0.2578 0.2912 0.3264 0.3632 0.4013 0.4404 0.4801 0.0011 0.0015 0.0021 0.0029 0.0039 0.0052 0.0069 0.0091 0.0119 0.0154 0.0197 0.0250 0.0314 0.0392 0.0485 0.0594 0.0721 0.0869 0.1038 0.1230 0.1446 0.1685 0.1949 0.2236 0.2546 0.2877 0.3228 0.3594 0.3974 0.4364 0.4761 0.0011 0.0015 0.0021 0.0028 0.0038 0.0051 0.0068 0.0089 0.0116 0.0150 0.0192 0.0244 0.0307 0.0384 0.0475 0.0582 0.0708 0.0853 0.1020 0.1210 0.1423 0.1660 0.1922 0.2206 0.2514 0.2843 0.3192 0.3557 0.3936 0.4325 0.4721 0.0010 0.0014 0.0020 0.0027 0.0037 0.0049 0.0066 0.0087 0.0113 0.0146 0.0188 0.0239 0.0301 0.0375 0.0465 0.0571 0.0694 0.0838 0.1003 0.1190 0.1401 0.1635 0.1894 0.2177 0.2483 0.2810 0.3156 0.3520 0.3897 0.4286 0.4681 0.0010 0.0014 0.0019 0.0026 0.0036 0.0048 0.0064 0.0084 0.0110 0.0143 0.0183 0.0233 0.0294 0.0367 0.0455 0.0559 0.0681 0.0823 0.0985 0.1170 0.1379 0.1611 0.1867 0.2148 0.2451 0.2776 0.3121 0.3483 0.3859 0.4247 0.4641 106

Log In

Apuntes de Estudio Estadística

Related papers

Related topics