Apuntes de Estudio
Estadı́stica
Pablo Cristi Worm
*
12 de diciembre de 2017
*
Este documento corresponde a apuntes y notas de estudio. Cualquier error es responsabilidad del autor.
[email protected]
1
Índice
Página
1. Intruducción
4
2. Distribuciones de Frecuencia y Representaciones Gráficas
2.1. Variables Cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Variables Cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
9
16
3. Descripción
3.1. Medidas
3.2. Medidas
3.3. Medidas
3.4. Medidas
.
.
.
.
23
24
30
34
37
Correlación
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
40
41
42
46
5. Fenómenos aleatorios y Espacios de Probabilidad
5.1. Asignación de Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. Propiedades de la Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
49
51
56
6. Distribución de probabilidades
6.1. Variables aleatoria discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.1. Distribución de probabilidad discreta . . . . . . . . . . . . . . . . . . .
6.1.2. Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.3. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.4. Distribución de probabilidad binomial . . . . . . . . . . . . . . . . . .
6.1.5. Valor esperado y varianza de una distribución binomial . . . . . . . .
6.1.6. Distribución de probabilidad de Poisson . . . . . . . . . . . . . . . . .
6.1.7. Distribución de probabilidad hipergeométrica . . . . . . . . . . . . . .
6.2. Variables aleatoria continuas . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.1. Distribución de Probabilidad Uniforme . . . . . . . . . . . . . . . . . .
6.2.2. Distribución de Probabilidad Normal . . . . . . . . . . . . . . . . . . .
6.2.3. Función de Distribución . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.4. Aproximación normal de las probabilidades binomiales . . . . . . . . .
6.2.5. Distribución de probabilidad exponencial . . . . . . . . . . . . . . . .
6.2.6. Relación entre la distribución de Poisson y la distribución exponencial
58
59
59
60
61
62
66
67
68
71
72
73
75
77
78
80
Numérica de una Variable Estadı́stica
de posición central . . . . . . . . . . . . . .
de dispersión . . . . . . . . . . . . . . . . .
de la forma de la distribución . . . . . . . .
de asimetrı́a y curtosis . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4. Análisis bivariante: Medidas de Dependencia Estadı́stica y
4.1. Variables cualitativas: Ordinales y Nominales . . . . . . . . .
4.2. Variables cuantitativas . . . . . . . . . . . . . . . . . . . . . .
4.3. Momentos de una variable aleatoria . . . . . . . . . . . . . .
7. Estimadores
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
81
2
8. Técnicas de Muestreo
8.1. Muestreo aleatorio simple . . . . . . . . .
8.1.1. Población finita . . . . . . . . . . .
8.1.2. Población infinita . . . . . . . . . .
8.1.3. Distribuciones Muestrales . . . . .
8.1.4. Distribución Muestral de µ̂ . . . .
8.1.5. Distribución muestral de p̄ . . . . .
8.2. Otras técnicas probabilı́sticas de muestreo
8.2.1. Muestreo aleatorio estratificado . .
8.2.2. Muestreo por conglomerados . . .
8.2.3. Factor de expansión . . . . . . . .
8.3. Técnicas no probabilı́sticas de muestreo .
8.3.1. Muestreo de conveniencia . . . . .
8.3.2. Muestreo subjetivo . . . . . . . . .
9. Ejercicios
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
82
82
82
83
84
85
89
89
89
91
93
93
93
93
94
10.Anexo
105
10.1. Tabla normal estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3
1.
Intruducción
La estadı́stica es la técnica que reúne datos, los analiza, los presenta y los interpreta. Muchas disciplinas adoptan la estadı́stica como herramienta para procesar, sintetizar y analizar información. En
finanza, por ejemplo, el analista revisa diferentes datos financieros como la relación precio/ganancia
y el rendimiento de los dividendos. Al comparar la información sobre una determinada acción con la
información sobre el promedio en el mercado de acciones, el analista empieza a obtener conclusiones
para saber si una determinada acción está sobre o subvaluada. En marketing, los estudio de mercado
no son otra cosa que estudios estadı́sticos que resumen información sobre la demanda, el precio y el
perfil de los consumidores. Los economistas suelen hacer pronósticos acerca del futuro de la economı́a
o sobre algunos aspectos de la misma. Usan una variedad de información estadı́stica para hacer sus
pronósticos. Por ejemplo, para pronosticar las tasas de inflación, emplean información estadı́stica sobre indicadores como el ı́ndice de precios al consumidor, la tasa de desempleo y la utilización de la
capacidad de producción.
Los datos
Los datos son hechos, informaciones y cifras que se recogen, analizan y resumen para su presentación
e interpretación. A todos los datos reunidos para un determinado estudio se les llama conjunto de
datos para el estudio. Una variable es una caracterı́stica que toma valores diferentes en un conjunto
de observaciones. En economı́a, por ejemplo, definimos la renta como una variable. Al hacerlo podemos
estar pensando en los ingresos anuales de las familias de una región, en la que cada familia tendrá un
volumen de ingresos distinto. Los valores encontrados para cada variable en cada uno de los elementos
constituyen los datos. Al conjunto de mediciones obtenidas para un determinado elemento se le llama
observación. El cuadro 1 muestra un ejemplo de base de datos o conjunto de datos. La primera fila
muestra las variables; Paı́s, PIB, Tasa Desempleo, PISA (lectura) y Tasa de interés. Abajo de cada
variable se muestran los valores para cada observación. En este caso, la unidad de análisis son los
paı́ses. Cada variable tiene 10 observaciones.
Escalas de medición
La recolección de datos requiere alguna de las escalas de medición siguientes: nominal, ordinal,
de intervalo o de razón. La escala de medición determina la cantidad de información contenida en el
dato e indica la manera más apropiada de resumir y de analizar estadı́sticamente los datos. Cuando
el dato de una variable es una etiqueta o un nombre que identifica un atributo de un elemento, se
considera que la escala de medición es una escala nominal. Por ejemplo, la variable Paı́s, es una
variable nominal. También pueden ser el sexo o el nombre de una persona o el identificador de una
persona, como el RUT. Una escala de medición para una variable es ordinal si los datos muestran
las propiedades de los datos nominales y además tiene sentido el orden o jerarquı́a de los datos. Por
ejemplo, el resultado de la prueba PISA de lectura es un puntaje; a mayor puntaje, mejor desempeño.
Este tipo de escala se común para los rankings o ı́ndices, donde se puede atribuir que un valor es mejor
4
Cuadro 1: Ejemplo Base de Datos
Paı́s
Canada
Chile
France
Germany
Japan
Korea
Mexico
Spain
United Kingdom
United States
PIB
44
23
41
47
38
34
17
34
41
56
Tasa
Desempleo
PISA
(lectura)
Tasa
interés
6.9
6.2
10.4
4.6
3.4
3.6
4.3
22.1
5.3
5.3
527
459
499
509
516
517
423
496
498
497
1.5
4.5
0.8
0.5
0.3
2.3
5.9
1.7
1.9
2.1
201.1
046.2
004.7
998.6
401.0
569.5
779.9
712.6
779.4
066.0
que otro y permiten ordenar las unidades de observación. Una escala de medición para una variable
es una escala de intervalo si los datos tienen las caracterı́sticas de los datos ordinales y el intervalo
entre valores se expresa en términos de una unidad de medición fija. Los datos de intervalo siempre
son numéricos. Por ejemplo, se pueden crear intervalos de edad que permiten clasificar los resultados,
o las notas de satisfacción de un producto, donde por ejemplo, 1 y 2 son malo, 3 es regular y 4 y 5 son
bueno. Una variable tiene una escala de razón si los datos tienen todas las propiedades de los datos
de intervalo y la proporción entre dos valores tiene significado. Variables como distancia, altura, peso
y tiempo usan la escala de razón en la medición. Esta escala requiere que se tenga el valor cero para
indicar que en este punto no existe la variable. Por ejemplo, en el cuadro 1 la tasa de interés es una
variable de razón.
Clasificación de los datos
Los datos también son clasificados en cualitativos y cuantitativos. Los datos cualitativos comprenden etiquetas o nombres que se usan para identificar un atributo de cada elemento. Éstos emplean
la escala nominal o la ordinal y pueden ser numéricos o no. Los datos cuantitativos requieren valores
numéricos que indiquen cuánto o cuántos. Éstos se obtienen usando las escalas de medición de intervalo
o de razón. Una variable cualitativa es una variable con datos cualitativos. El análisis estadı́stico
adecuado para una determinada variable depende de si la variable es cualitativa o cuantitativa. Si la
variable es cualitativa, el análisis estadı́stico es bastante limitado. Tales datos se resumen contando el
número de observaciones o calculando la proporción de observaciones en cada categorı́a cualitativa. Sin
embargo, aun cuando para los datos cualitativos se use un código numérico, las operaciones aritméticas de adición, sustracción, multiplicación o división no tienen sentido. Por otro lado, las operaciones
aritméticas sı́ tienen sentido en las variables cuantitativas. Por ejemplo, cuando se tienen variables
cuantitativas, los datos se pueden sumar y luego dividir entre el número de observaciones para calcular
el valor promedio. Este promedio suele ser útil y fácil de interpretar. En general hay más alternativas
5
para el análisis estadı́stico cuando se tienen datos cuantitativos. La distinción entre variables cuantitativas y cualitativas es importante desde el punto de vista estadı́stico porque las técnicas que pueden
emplearse en uno u otro caso son diferentes.
Existen tres formas de clasificar los datos en una base de datos. Los datos pueden ser de corte
transversal y muestran una fotografı́a del momento. Por ejemplo, una encuesta de opinión a la salida
del metro, refleja las preferencias de los usuarios del metro. Los datos se pueden clasificar una como
una serie de tiempo. En este caso, se observa una variable a lo largo del tiempo. Por ejemplo, la
evolución de la tasa de crecimiento del paı́s, o el valor de la UF es una serie de tiempo. En general, las
serie de tiempo pueden medirse en dı́as, meses, trimestres, semestres y años. Una tercera clasificación
es una combinación de las anteriores. Los datos de panel es un seguimiento de la misma unidad
de análisis durante el tiempo. Por ejemplo, observar la evolución de la inflación en los paı́ses de la
OECD por varios periodos consecutivos. La figura 1 muestra la serie de tiempo del PIB; el gráfico de
la izquierda muestra el nivel del PIB expresado en millones de pesos chilenos, y el gráfico de la derecha
muestra las variaciones del PIB respecto al mismo periodo del años anterior. Esta serie muestra datos
trimestrales.
Producto Interno Bruto
Variación del PIB
1998q1
-5
15000000
20000000
PIB
25000000
Variacion del PIB r/a año anterio
0
5
10
30000000
Nivel del PIB
2002q3
2007q1
quarter
2011q3
2016q1
1998q1
2002q3
2007q1
quarter
2011q3
2016q1
Figura 1: Análisis gráfico del PIB
Recolección de los datos
Existen entidades que se dedican a la recolección de datos y realizan estudios de mercado y estudios
de opinión. En Chile, el Centro de Estudios Públicos tiene la encuesta socioeconómica y de opinión
polı́tica más importante del paı́s. Los organismos estatales también levantan información de la población. Por ejemplo el Instituto Nacional de Estadı́stica (INE) o el Banco Central. El Ministerio de
Desarrollo Social lleva a cabo una de las encuestas más importantes del paı́s, la Ficha de Caracterización socioeconómica (ex Ficha de protección social y Ficha CAS). También las asociaciones gremiales
recolectan datos de sus sectores.
6
Sin embargo, no siempre los datos están disponibles y es necesario recolectarlos. Una encuesta que
permita conocer el perfil de todos los habitantes de un paı́s serı́a un censo. Sin embargo, este tipo de
estudios es muy costoso, por lo que generalmente se realizan estudios más pequeños parte de la población. Se llama muestra a una parte de la población. Las formas en cómo se selecciona la muestra es
muy importante y va a determinar el sesgo de selección del estudio. La mejor forma de seleccionar una
muestra es de forma aleatoria. Cuando se trabaja con una muestra las conclusiones que se obtienen deben restringirse a ésta. Extraer conclusiones más generales, aplicables a toda la población, sólo puede
hacerse de una manera limitada, siendo necesario entre otras cosas que la muestra sea representativa
y que la generalización de las conclusiones se haga de una forma prudente y rigurosa. La necesidad
de trabajar con muestras responde en muchas ocasiones a un ahorro en los costos de obtener de la
información. Si puede obtenerse información esencial y generalizable a partir de una muestra no será
preciso acceder a toda la población.
Espacio muestral, Ω, es el nombre que se da al conjunto de resultados posibles de un experimento,
y cada elemento de dicho conjunto se denomina punto muestral, ω. El número de puntos muestrales
puede ser finito o infinito. Al lanzar una moneda al aire y ver el resultado, tenemos que Ω = {o, x},
donde o es cara y x es sello. Mientras que considerar el tiempo de espera de reacción a una variación
en la tasa de interés puede ser infinito Ω = (0, ∞) = R+ . Sobre un mismo espacio muestral pueden
construirse diferentes experimentos, lo que depende de la capacidad de observación, o interés, del
observador. Por ejemplo, al lanzamiento de un dado, Ω = {1, 2, ..., 6}, puede añadirse y observar si
sale cara impar, u observar si sale como máximo un tres, etc. Es decir, la capacidad de observación
determina un conjunto de sucesos observables asociados al experimento.
En ocasiones, el recurrir a las muestras no obedece a una cuestión de costos, sino a la imposibilidad de
acceder a todas las observaciones. En estos casos se puede realizar un experimento. Un experimento
es un estudio cientı́fico que genera datos y está caracterizado por dos componentes, el fenómeno a
estudiar y el observador. En los estudios experimentales se identifica primero la variable de interés. Después se ubica otra u otras variables que son controladas para lograr datos de cómo ésta
influye sobre la variable de interés. Por ejemplo, a una empresa farmacéutica le interesa realizar un
experimento para saber la forma en que un medicamento afecta la presión sanguı́nea. La variable
que interesa en el estudio es la presión sanguı́nea. Otra variable es la dosis del nuevo medicamento
que se espera tenga un efecto causal sobre la presión sanguı́nea. Para obtener estos datos acerca del
nuevo medicamento, los investigadores eligen una muestra de individuos. La dosis del medicamento se
controla dando diferentes dosis a distintos grupos de individuos. Antes y después se mide la presión
sanguı́nea en cada grupo. El análisis estadı́stico de los datos experimentales ayuda a determinar el
efecto del nuevo medicamento sobre la presión sanguı́nea.
Por otro lado, el fenómeno a estudiar puede ser determinı́stico o aleatorio. Se dice que un fenómeno
es determinı́stico cuando las mismas entradas o condiciones iniciales producirán invariablemente las
mismas salidas o resultados, no contemplándose la existencia de azar, o incertidumbre en el proceso
modelada mediante dicho modelo. Los fenómenos determinı́sticos son muy comunes en las ciencias
7
exactas. Por ejemplo, las Leyes de Newton1 . Por el contrario, un fenómeno aleatorio o estocástico es
aquel que permite una intervención del azar. Es decir, donde la explicación de un fenómeno no está
descrita al cien porciento por las variables del modelo, y existe la probabilidad de que ocurra algo que
no estamos midiendo. Este tipo de fenómenos ocurre con mucha frecuencia en las Ciencias Sociales,
la administración, el marketing y la economı́a. Un fenómeno se dice que es aleatorio cuando cumple
las siguientes condiciones,
a) Puede repetirse indefinidamente, obteniéndose datos o resultados que pueden ser distintos en cada
prueba o repetición,
b) En cada prueba se obtiene un resultado perteneciente al conjunto de resultados posibles del experimento,
c) Antes de realizar una prueba es imposible saber el resultado de la misma, lo que se denomina
condición de azar,
d) La frecuencia relativa de cada resultado tiende a un número fijo al aumentar el número de repeticiones del experimento, lo que se denomina regularidad estadı́stica.
Observaciones atı́picas
Siempre es importante revisar el conjunto de datos antes de comenzar a trabajar con este. Una observación atı́pica es un dato que es mucho más grande o mucho más pequeños que los demás y puede
deberse a varias cosas.
1. Una observación atı́pica puede ser causa de un dato mal digitado, o al ingresado a la base de
datos. En este caso, el dato no debe considerarse y debe clasificarse como un valor perdido o
missing value.
2. Una observación atı́pica puede ser causa de una observación empı́rica que presenta un comportamiento diferente al conjunto de datos. A estas observaciones se les conoce como outliers y deben
tratarse con cuidado para no sesgar la muestra.
Estadı́stica Descriptiva
La estadı́stica descriptiva es un conjunto de métodos cuyo objetivo es ordenar las observaciones, resumir la información disponible y obtener las medidas que describen sus caracterı́sticas. La descripción
es cuantitativa y pretende ser lo más sintética posible. La estadı́stica descriptiva está presente en
periódicos, revistas, informes de empresas y otras publicaciones, donde la información es resumida y
presentada en una forma fácil de leer y de entender.
1
Primera ley: Todo cuerpo persevera en su estado de reposo o movimiento uniforme y rectilı́neo a no ser que sea
obligado a cambiar su estado por fuerzas impresas sobre éste.
Segunda ley: El cambio de movimiento es directamente proporcional a la fuerza motriz impresa y ocurre según la lı́nea
recta a lo largo de la cual aquella fuerza se imprime.
Tercera ley: Con toda acción ocurre siempre una reacción igual y contraria: quiere decir que las acciones mutuas de dos
cuerpos siempre son iguales y dirigidas en sentido opuesto.
8
Para describir qué ocurre con los datos, se realizan una serie de cálculos cuantitativos que resumen el
comportamiento de ese conjunto de datos. Cuando se está estudiando una población, estas medidas
que describen las caracterı́sticas de los datos se denominan parámetros poblacionales. El valor
medio de una variable en una población serı́a un parámetro, también lo es la proporción de individuos de la población que tienen una caracterı́stica. En general, daremos el nombre de estadı́stico
a cualquier fórmula aplicada en la información muestral. Muchos de los estadı́sticos que se utilizan
pretenden ser estimaciones de los parámetros de la población. Si sólo disponemos de una muestra,
podemos calcular el valor medio de las observaciones y suponer que esa media muestral puede ser
una buena aproximación al valor del parámetro, la media poblacional.
2.
2.1.
Distribuciones de Frecuencia y Representaciones Gráficas
Variables Cualitativas
Los datos cualitativos emplean etiquetas o nombres para determinar categorı́as de elementos iguales
y pueden ser ordinales o nominales. Por ejemplo el sexo o la nacionalidad. Como las observaciones de
esta variable no son numéricas, no podemos calcular una media, y los valores como el mı́nimo o el
máximo no tienen sentido. Las categorı́as de las variables cualitativas pueden relacionarse con valores
numéricos, pero eso no las convierte en cuantitativas, puesto que el número, en su caso, no es más que
una “etiqueta”, careciendo de sentido operar matemáticamente con ellos. Por ejemplo, en una base de
datos el sexo de la persona encuestada se puede codificar como “1”si es mujer y “2”si es hombre, pero
estos números no contienen información relevante sobre el perfil de la persona. La frecuencia es una
forma común de describir datos cualitativos.
Distribución de Frecuencias en variables cualitativas
Una distribución de frecuencia es un resumen de datos que muestra el número (frecuencia) de elementos en cada una de las categorı́as de una variable. Para elaborar una distribución de frecuencias
se cuenta el número de veces que un valor o categorı́a de la variable es observada. Por ejemplo, el
cuadro 2 muestra la estadı́stica descriptiva de la variable cualitativa sexo. Por ejemplo, en el estudio
número 78 del Centro de Estudios Públicos (CEP) se encuestaron a 1.464 personas, de las cuales 748
son mujeres y corresponden al 51 % de la muestra, y 716 personas son hombres y componen el 49 %
de la muestra. El cuadro 2 muestra la frecuencia de la variable sexo y la figura 2 muestra un análisis
gráfico de la misma variable.
Cuadro 2: Frecuencia y frecuencia porcentual de la variable sexo
Sexo
Frecuencia
Porcentaje
Hombre
Mujer
716
748
48.9 %
51.1 %
1,464
100 %
Total
9
Figura 2: Frecuencia de la variable sexo
Supongamos una variable A que puede tomar los valores a1 , a2 , a3 , ..., aI . Lo primero, es conocer
cuántos individuos tienen cada caracterı́stica. Se denomina frecuencia absoluta, ni , al número de
veces que se repite una de las categorı́as o valores de la variable. La distribución de frecuencias es
el registro de todas las categorı́as o valores de la variable. La frecuencia relativa es la proporción
del total de observaciones que corresponden a una categorı́a. Al multiplicar la frecuencia relativa por
100 se obtiene el porcentaje de cada categorı́a.
f recuencia relativa =
ni
n
donde i = 1, ..., I
Cuando se trabaja con una variable de tipo ordinal (cuyas categorı́as se pueden ordenar de menor
a mayor) se pueden calcular las frecuencias acumuladas. La idea de acumulación facilita conocer
rápidamente el número de observaciones que están por debajo de un determinado valor o categorı́a.Se
distingue entre frecuencias acumuladas absolutas y relativas. La frecuencia absoluta acumulada
se define como:
Ni = Σj = 1i nj
donde i = 1, ..., I
La frecuencia relativa acumulada se define como:
10
Fi =
Σj = 1i nj
Ni
=
n
n
donde i = 1, ..., I
Cuadro 3: Satisfacción con la vida según la encuesta CEP
Satisfaccion
con la Vida
Frecuencia
(n)
Porcentaje
( %)
Porcentaje
válido
Porcentaje
acumulado
Muy insatisfecho
Insatisfecho
Indiferente
Satisfecho
Muy satisfecho
Total
18
89
399
508
445
1,458
1.2
6.1
27.2
34.7
30.4
99.6
1.2
6.1
27.4
34.8
30.5
100.0
1.2
7.3
34.7
69.5
100.0
6
1,464
0.4
100.0
Perdidos
Total
El cuadro 3 muestra los resultado de la encuesta CEP de diciembre de 2016 a la pregunta ¿qué tan
satisfecho está Ud. con su vida?. La pregunta fue efectivamente contestada por 1.458 personas y 6 personas no respondieron, lo que completa la muestra de 1.464 personas encuestadas. La primera columna
muestra los valores de la variable Satisfacción con la Vida; Muy insatisfecho, Insatisfecho, Indiferente,
Satisfecho y Muy satisfecho. La segunda columna, Frecuencia, muestra el número de personas que se
identifica con un valor de la variable. La tercera columna muestra el porcentaje al que corresponde ese
valor de la variable considerando a las personas que no respondieron la encuesta. La cuarta columna,
Porcentaje válido, excluye los casos perdidos y sólo considera las respuesta válidas. La última columna,
Porcentaje acumulado, muestra la suma porcentual de los valores de la variable. Por ejemplo, podemos
afirmar que el 34,7 % de los encuestados está insatisfecho o es indiferente respecto a su vida. La figura
3 muestra un gráfico de barras de las frecuencias de la misma pregunta. La figura 4 muestra una
gráfico de torta de la pregunta sobre satisfacción con la vida.
11
Figura 3: Gráfico de barras de la satisfacción con la vida según encuesta CEP
Figura 4: Gráfico de torta de la satisfacción con la vida según encuesta CEP
12
Una medida interesante de los datos cualitativos es la moda. La moda de una distribución es el valor
de la variable con mayor frecuencia. En el ejemplo de la satisfacción de la vida medida por la encuesta
CEP la categorı́a “Satisfecho” es la que más se repite y alcanza un 35 % de las preferencias. En ocasiones, las distribuciones de frecuencias se pueden caracterizar en función de la moda, distinguiendo
entre distribuciones con una única moda (distribuciones unimodales) y distribuciones en las que
son dos o más de dos los valores que alcanzan la máxima frecuencia (distribuciones bimodales o
multimodales, respectivamente).
En el caso de variables cualitativas ordinales la moda no es el único estadı́stico con significado. Puesto
que en las variables ordinales existe un sentido de orden en sus categorı́as, si éstas se ordenan de
‘menos’ a ‘más’ la distribución de frecuencias acumuladas tendrá una interpretación. La mediana
es aquella caracterı́stica de la distribución que ocupa la posición central de la misma. Ordenados los
valores de la variable (de menor a mayor), la mediana define aquel punto que deja por debajo de sı́
mismo el 50 % de la distribución. El cuadro 4 muestra la identificación polı́tica de los encuestados
declarada en la encuesta CEP de diciembre de 2016. Los resultados se pueden ordenar de derecha
a izquierda o de izquierda a derecha. La moda es izquierda, donde se acumula el 28 % de las preferencias. Al observar el porcentaje acumulado se observa que el 46 % de la población se identifica
de “Izquierda” o de “Centro Izquierda”. Obsérvese que las categorı́as “Independientes” y “No Sabe/No Responde” representa el 65 % de las identificaciones polı́ticas. Por esta razón, esta categorı́a es
tratada como un valor perdido o missing value. Esto permite concentrarse en las categorı́as partidistas.
Cuadro 4: Identificación Polı́tica según la encuenta CEP
Identificación
Polı́tica
Frecuencia
Porcentaje
Porcentaje
válido
Porcentaje
acumulado
Izquierda
Centro Izquierda
Centro
Centro Derecha
Derecha
141
94
94
50
92
9.6 %
6.4 %
6.4 %
3.4 %
6.3 %
28 %
18 %
18 %
10 %
18 %
28 %
46 %
64 %
74 %
92 %
Subtotal
471
32.2 %
92 %
39
2.7 %
8%
510
34.8 %
100 %
954
65.2 %
1,464
100.0 %
Independiente
Subtotal
ns/nr
Total
100 %
Si se quiere resaltar la distribución de frecuencias acumuladas puede emplearse un diagrama de
Pareto. Éste no es más que un diagrama en barras en el que las categorı́as se ordenan de mayor a
menor frecuencia, dibujando sobre las barras una lı́nea indicativa de la frecuencia acumulada hasta esa
categorı́a. La gráfica se puede realizar tanto sobre variables nominales como ordinales. Por ejemplo,
13
suponga que una empresa sufre continuas paradas en su cadena de producción. Dada la importancia
de las consecuencias económicas de estas paradas se decide controlar durante un mes cuáles son las
razones que las ocasionan. Para ello se solicita que los operarios que anoten el tipo de percance y el
tiempo que tarda en arreglarse, desde que se detecta hasta que se soluciona el problema. Las causas
detectadas ası́ como su frecuencia y el tiempo de parada se reproducen en el cuadro 5.
Cuadro 5: Control de producción: Diagrama de Pareto
N
Causa
Frecuencia
Tiempo de parada
(en minutos)
1
2
3
4
5
6
Rotura de tornillos
Rotura de arandelas
Rotura o bloqueo de cintas
Rotura de aros de sujeción
Rotura de otras piezas
Desajustes de temperatura
10
10
4
2
2
11
70
10
41
20
10
53
En total, como consecuencia de 39 paradas, se han perdido 204 minutos en un mes de trabajo. El tiempo de parada y el número de paradas se pueden analizar a partir de los correspondientes diagramas
de Pareto. En la figura 5 se observa que las tres causas más frecuentes de parada son por desajuste de
temperatura, por rotura de tornillos y por rotura o bloqueo de cintas, en ese orden. Estas tres causas,
tal como se observa en la lı́nea continua del diagrama, representan un porcentaje alto del total de
paradas, en concreto un 79,5 % de éstas, (11 + 10 + 10)/39.
40
100
Número de paradas
30
20
10
0
50
11
10
10
6,00
1,00
2,00
4
3,00
4,00
Causa de la parada
Figura 5: Diagrama de Pareto
14
5,00
0
Porcentaje
50
En la figura 6 se puede observar, sin embargo, que no todas las paradas tienen igual importancia en
cuanto al tiempo de interrupción. Las tres primeras causas (primera, sexta y tercera) suponen un
80,4 % del tiempo de parada, (70 + 53 + 41)/204. Si el interés de la empresa se encuentra en reducir al
máximo el tiempo de parada (y no tanto el número de veces en que la producción se detiene) deberı́a
centrarse en los determinantes de la rotura de tornillos, los desajustes de temperatura y la rotura o
bloqueo de cintas.
Tiempo de parada
Porcentaje
300
200
100
100
50
70
53
0
41
20
1,00
6,00
3,00
4,00
2,00
Causa de la parada
Figura 6: Diagrama de Pareto
15
5,00
0
2.2.
Variables Cuantitativas
Las variables de tipo cuantitativo son aquellas que toman, en lugar de categorı́as, valores numéricos
que sı́ tienen sentido y con los que se pueden realizar operaciones algebraicas.
Las variables cuantitativas pueden ser de escala de intervalo o de escala de cociente. Las variables
cuantitativas tienen una escala de intervalo si se pueden ordenar sus valores y, además, se pueden
realizar con ellos las operaciones de suma y resta. La primera caracterı́stica la comparte con las variables cualitativas ordinales, pero al contrario que en aquéllas, en la escala de intervalo puede medirse
la distancia entre distintas observaciones. Permite afirmar, por ejemplo, que un individuo tiene un
valor que supera en diez unidades al que toma otro individuo, o que entre dos individuos hay una
diferencia de veinte unidades. Las variables con escala de cociente añaden a estas caracterı́sticas
la de incorporar un origen no arbitrario. La diferencia esencial es que este segundo tipo de variable
admite un cero verdadero (toneladas consumidas o número de empleados, por ejemplo, donde el cero
se entiende como inexistencia) y permite el cálculo de proporciones entre los distintos valores (una
observación toma un valor que es el doble que el de otra).
Las variables cuantitativas pueden ser discretas o continuas. Son variables de tipo discreto si la
variable toma un número finito o infinito numerable de observaciones, y del tipo continuo si toman
un valor infinito no numerable.
Distribución de Frecuencias en variables cuantitativas
Antes de comenzar a trabajar con una base de datos siempre es bueno conocer los datos que tenemos
disponible, cómo se componen y cómo se distribuyen. Para ello, las distribuciones de frecuencia nos
dan una primera impresión de los datos. La idea de recuento, es decir, la idea de crear una distribución de frecuencias debe ser, como en el caso de las variables cualitativas, el primer paso del análisis.
Observar los distintos valores que toma una variable, ordenarlos de menor a mayor y contar el número
de veces que aparece cada valor nos dará una idea de su comportamiento. El único problema que se
plantea con una variable de tipo cuantitativo es que suele tomar un número de valores mucho mayor
que las posibles categorı́as de una variable cualitativa. La imagen general que se pretende dar con la
distribución de frecuencias puede ser entonces poco útil, porque la información está poco resumida. El
trabajo con intervalos de la variable, en lugar de cada uno de sus posibles valores, es el procedimiento
normal para conseguir una imagen sintética de la distribución.
Una buena forma de analizar datos cuantitativos, sobre todo cuando tenemos muchos datos, es construir intervalos. Lo recomendable es no tener más de 20 intervalos, ya que la idea es simplificar el
análisis y éste pierde sentido si un intervalo contiene sólo uno o dos observaciones. Muchas veces, los
intervalos se pueden construir siguiendo criterios establecidos en la literatura o de sentido común. Lo
ideal es que todos los intervalos contengan el mismo ancho. El ancho del intervalo se puede determinar
de la siguiente forma:
16
Intervalo =
valor maximo − valor minimo
n de intervalos
Es importante que un dato sólo pertenezca a un intervalo. Si hablamos de tramos de ingresos, los
lı́mites de éstos deben ser excluyente. Un ejemplo se muestra en la figura 7.
Salario en intervalos
Frecuencia
Válidos
Porcentaje
Porcentaje
válido
Porcentaje
acumulado
Ingresos Bajo
657
70,3
70,3
Ingreso Medio
260
27,8
27,8
98,1
18
1,9
1,9
100,0
935
100,0
100,0
Ingreso Alto
Total
70,3
Figura 7: Intervalos para la variable salario
Las distribuciones de frecuencia relativa o frecuencia porcentual para datos cuantitativos se definen
de la misma forma que para datos cualitativos. Primero debe recordar que la frecuencia relativa es
el cociente, respecto al total de observaciones, de las observaciones que pertenecen a una clase. Si el
número de observaciones es n,
F recuencia relativa =
F recuencia del intervalo
n
Un gráficos de barras es una de las formas más sencillas de presentar los datos. En el eje horizontal
(la abscisa) se presenta el intervalo de los datos. Cada dato se representa por un punto colocado sobre
este eje.
17
Figura 8: Gráfico de barra
Un histograma es un gráfico muy similar al de barras, pero éste sólo puede ser usado con variables
cuantitativas. En éste las barras se muestras continuas y nos permite conocer los diferentes sesgos de
una distribución. La figura 2.2 muestra un ejemplo de histograma.
Otra técnica de análisis exploratios de los datos es el diagrama de tallo y hoja. Éste muestra de
forma simultánea el orden jerárquico y la forma de un conjunto de datos. Por ejemplo, supongamos
que tenemos el puntaje de 50 alumnos de una prueba cuyo máximo puntaje es de 150 puntos. La figura
18
6 muestra los datos.
Cuadro 6: Puntajes de 50 alumnos
112
73
126
82
92
115
95
84
68
100
72
92
128
104
108
76
141
119
98
85
69
76
118
132
96
91
81
113
115
94
97
86
127
134
100
102
80
98
106
106
107
73
124
83
92
81
106
75
95
119
Para construir el diagrama de tallo y hoja primero identificamos el puntaje menor y el mayor; en este
caso son 68 y 141 puntos. Luego, de forma vertical armamos una escala que comienza con el primer
dı́gito del menor puntaje hasta el primer dı́gito del mayor puntaje y trazamos una linea para separar
el tallo de las hojas. Es decir, como el menor puntaje es 68, anotamos 6. Luego anotamos 7, 8, 9...
y ası́ hasta alcanzar el 14, que es el primer dı́gito del puntaje más alto, 141. Luego, comenzamos a
anotar los segundo dı́gitos de cada puntaje a la derecha de la linea. Comenzamos con la primera fila.
Ordenamos los datos de menor a mayor de forma vertical. El menor puntaje en la primera fila es el
69, entonce anotamos el segundo dı́gito, el 9, a la derecha de su primer dı́gito, el 6. Luego, tenemos el
72. Anotamos su segundo dı́gito, el 2 a la derecha de su primer dı́gito, el 7, y ası́ sucesivamente. La
figura 2.2 muestra la construcción del diagrama de tallo y hoja para la primera fila de datos.
6
7
8
9
10
11
12
13
14
9
2
7
7
2
Si continuamos rellenando los datos, obtenemos la tabla de la figura 2.2
19
6
7
8
9
10
11
12
13
14
9
2
6
7
7
2
6
2
1
8
3
2
2
4
8
8
4
6
3
2
8
5
7
3
1
6
0
9
4
6
1
2
2
3
5
0
1
6
5
4
5
6
9
5
8
0
8
6
5
Una vez que hemos llenado todos los datos, podemos ordenarnos de menor a mayor, como lo muestra
la figura 2.2
6
7
8
9
10
11
12
13
14
8
2
0
1
0
2
4
2
1
9
3
1
2
0
3
6
4
3
1
2
2
5
7
5
2
2
4
5
8
6
3
4
6
8
6
4
5
6
9
5
5
6
9
6
6
7
7
8
8
8
Los números a la izquierda de la lı́nea vertical (6, 7, 8, 9, 10, 11, 12, 13 y 14) forman el tallo, y cada
dı́gito a la derecha de la lı́nea vertical es una hoja. Por ejemplo, en la primera fila del diagrama el
tallo es el 6 y la hoja los números 8 y 9. Esta fila indica que hay dos datos que tienen como primer
dı́gito el 6. Las hojas indican que estos datos son 68 y 69.
El diagrama que se obtiene es parecido a un histograma, cuyos intervalos son 60-69, 70-79, 80-89, etc.
El diagrama de tallo y hoja tiene dos ventajas sobre el histograma.
1. El diagrama de tallo y hojas es más fácil de construir a mano.
2. En cada intervalo de clase proporciona más información que un histograma debido a que el tallo
y la hoja proporcionan el dato.
Los histograma, los gráfico de barras y los diagramas de tallo y hojas son estimadores no-paramétricos
en cuanto no imponen ninguna estructura a los datos. Si tenemos muchas observaciones para un
intervalo, podemos abrir éste. Por ejemplo, podemos crear intervalos que van de a cinco en cinco. Es
decir, 60-64, 65-69, 70-74, 75-79, etc... Obviamente, esto va a cambiar la distribución de los datos. En
este caso, obtendrı́amos la siguiente distribución.
20
6
7
7
8
8
9
9
10
10
11
11
12
12
13
13
14
8
2
5
0
5
1
5
0
6
2
5
4
6
2
9
3
6
1
6
2
5
0
6
3
5
7
4
3
6
1
2
3
4
2
6
2
6
2
7
4
7
4
8
8
8
9
9
8
8
1
Análisis descriptivo bivariado
Muchas veces es necesario analizar cómo se comporta una variable condicionada en otra variable. En
este caso, vamos a estudiar la relación que existe entre dos variable.
Una tabulación cruzada, tablas de contingencia o cross tabs es un resumen de frecuencias
de una variable condicionada a otra variable. Por ejemplo, a partir de los resultados de la encuesta
CEP de diciembre de 2016, podemos construir una tabla de contingencia de la identificación polı́tica
condicionada por los tramos de edad. Para construir una tabla de contingencia, necesitamos conocer
primero la cantidad de observaciones que existen para cada categorı́a de la variable y luego las clasificamos por categorı́a. La distribución de frecuencias de las variables Edad e Identificación Polı́tica se
muestran en las tablas 7 y 8 respectivamente.
Cuadro 7: Frecuecia de la variable Edad
Tramos de
Porcentaje
Frecuencia Porcentaje
edad (años)
acumulado
18
25
35
45
55
a 24 años
a 34 años
a 44 años
a 54 años
años o más
Total
208
312
256
262
425
1,464
14.2
21.3
17.5
17.9
29
100
21
14.2
35.6
53.1
71
100
Cuadro 8: Frecuencia de la variable Identificación Polı́tica
Identificacion
Porcentaje
Frecuencia Porcentaje
Politica
acumulado
Derecha
Centro Derecha
Centro
Izquierda
Centro Izquierda
Independiente ns/nr
Total
92
50
94
94
141
993
1,464
6.3
3.4
6.4
6.4
9.6
67.8
100
6.3
9.7
16.1
22.5
32.2
100
El resultado de la construcción de la tabla de contingencia se muestra en la figura 9. Note que la suma
de cada categorı́a coincide con la frecuencia de cada una de ella observada en las tablas de contingencia. Podemos concluir que a mayor edad, mayor es el número de personas que se identifica con la
derecha y con la izquierda. Podrı́amos incluso concluir que a mayor edad, mayor es la radicalización
ideológica, tanto en la izquierda como en la derecha. La mayor cantidad de jóvenes se identifica con
la centro izquierda. En general, la identificación con la centro izquierda acumula la mayor cantidad de
personas, mientras que la mayorı́a de los encuestados tiene 55 años o más.
Cuadro 9: Identificación polı́tica según tramos de edad
Tramos de
edad (años)
18
25
35
45
55
Identificacion Politica
Centro
Centro
Izquierda
Izquierda
Derecha
Centro
Derecha
a 24 años
a 34 años
a 44 años
a 54 años
años o más
6
16
15
22
33
7
13
12
8
10
5
15
21
17
36
13
15
11
20
35
Total
92
50
94
94
22
Independiente
ns/nr
Total
33
31
22
20
35
144
221
175
175
277
208
312
256
262
425
141
994
1,464
Una forma gráfica de representar la relación entre dos variables cuantitativas es a través de un diagrama de dispersión. En este gráfico, cada punto representa una observación. Además se puede
agregar una linea que muestre la tendencia de los datos. Por ejemplo, considere la relación entre la
publicidad y las ventas de un producto. Durante los últimos tres meses, en 10 ocasiones el producto
apareció en comerciales de televisión, en el fin de semana, para promover sus ventas. Ahora, el analista
de marketing quieren investigar si hay relación entre el número de comerciales emitidos y las ventas en
la semana siguiente. En la tabla 10 se presentan datos muestrales de las 10 semanas dando las ventas
en cientos de dólares.
Cuadro 10: Frecuencia del número de comerciales y las ventas
Semana
Número de
Comerciales
Ventas
1
2
3
4
5
6
7
8
9
10
2
5
1
3
4
1
5
3
4
2
50
57
41
54
54
38
63
48
59
46
En la figura 9 aparece el diagrama de dispersión y la lı́nea de tendencia de los datos de ventas y
comerciales. El número de comerciales (x ) aparece en el eje horizontal y las ventas (y) en el eje
vertical. En la semana 1, x = 2 y y = 50. En el diagrama de dispersión se grafica un punto con estas
coordenadas. Para las otras nueve semanas se grafican puntos similares. Observe que en dos semanas
sólo hubo un comercial, en otras dos semanas hubo dos comerciales, y ası́ sucesivamente.
Se observa una relación positiva entre el número de comerciales y las ventas. Más ventas corresponden
a más comerciales. La relación no es perfecta ya que los puntos no trazan una lı́nea recta. Sin embargo,
el patrón que siguen los puntos y la lı́nea de tendencia indican que la relación es positiva.
3.
Descripción Numérica de una Variable Estadı́stica
De manera tradicional se distingue entre los estadı́sticos básicos que intentan describir la posición de
la variable y los que miden su dispersión. También se presentan en un grupo diferenciado los estadı́sticos de forma, que describen la asimetrı́a o apuntamiento de la distribución. Mantendremos aquı́ esta
distinción. Si estas medidas las calcula con los datos de una muestra, se llaman estadı́sticos muestrales. Si estas medidas las calcula con los datos de una población se llaman parámetros poblacionales.
Denotaremos la variable a describir como X y a las observaciones de la misma, desde i = 1, ..., n, como
23
65
60
Ventas
55
50
45
40
35
0
1
2
3
4
5
6
Número de Comerciales
Figura 9: Diagrama de dispersión entre ventas y número de comerciales
Xi , donde n es el número de observaciones.
3.1.
Medidas de posición central
La Media Aritmética
La media aritmética proporciona una medida de posición central de los datos. Si los datos son datos
de una muestra, la media se denota x̄; si los datos son datos de una población, la media se denota con
la letra griega µ. La media para la variable X se denota como
x̄ =
Pn
i=1 xi
n
Es decir, la suma de los valores de todas las observaciones de la variable dividida por el número total
de observaciones.
Supongamos que tenemos cinco grupos de personas, donde el primer grupo está compuesto por x1 = 46
personas, el grupo dos x2 = 54, x3 = 42, x4 = 46 y x5 = 32. Luego, calculamos la media como
Pn
i=1 xi
46 + 54 + 42 + 46 + 32
= 44
n
5
Por tanto podemos concluir que, en promedio, los grupos están compuestos por 44 personas.
x̄ =
=
Si tenemos datos de un censo y conocemos la información de toda la población, entonces la media
poblacional se calcula como
24
µ=
Pn
i=1 xi
N
Propiedades de la Media
1. La suma de las desviaciones de los valores con respecto a la media es igual a cero.
n
X
i=1
(xi − x̄) = 0
2. Si a los valores de la variable se les suma una constante (c + xi ), la media de los valores transformados se incrementa en esa cantidad.
x̄c+X =
Pn
i=1 (c
+ xi )
n
=
Pn
i=1 c
+
n
Pn
i=1 xi
=
nc +
Pn
i=1 xi
n
= C + x̄
3. Si los valores de la variable se multiplican por una constante (cxi ), la media de los valores
transformados es la media de la variable original multiplicada por la misma constante:
x̄cX =
Pn
i=1 (cxi )
n
=
c
Pn
i=1 xi
n
= cx̄
La Media ponderada
Es frecuente trabajar con la media ponderada, en la que los valores promediados son ponderados
mediante un peso determinado. Si tenemos p valores distintos de la variable xi y a cada uno de ellos
se le da un peso wi , la media ponderada se define como:
Pp
w i xi
x̄w = Pi=1
p
i=1 wi
Si, por ejemplo, las observaciones de una variable se ponderan por sus frecuencias relativas wi = ni /n,
es decir, por la importancia relativa de cada valor en la distribución, se tendrı́a (suponiendo p valores
distintos) que
Pp
x̄w = Pi=1
p
ni
n xi
ni
i=1 n
Pp
Pp
ni x i
ni x i
i=1
= i=1
= Pp
n
i=1 ni
En ocasiones, la ponderación tiene que ver con el peso en la población de las distintas observaciones.
Suponga, por ejemplo, que dispone de la renta familiar per capita mensual de tres familias pertenecientes cada una de ellas a uno de las tres comunas de una región. Las rentas son de 2.000, 2.000 y
1.000 pesos y los tamaños de los municipios son de 10.000, 20.000 y 1.000.000 de habitantes, respectivamente. Si se le pidiese estimar la renta familiar per capita media para toda la región una opción
directa serı́a la siguiente:
25
2000 + 2000 + 1000
= 1666, 67
3
El inconveniente de este cálculo es que no tiene en cuenta que cada familia representa una comuna
de diferente tamaño. Resultarı́a lógico utilizar una media ponderada, donde la renta de cada familia
fuera representativa de todas las familias de su comuna:
x̄ =
2000 ∗ 10000 + 2000 ∗ 20000 + 1000 ∗ 1000000
= 1029, 13
10000 + 20000 + 1000000
Tiene sentido ponderar, porque cada observación es representativa de un número de familias distinto.
x̄ =
Imagine, por ejemplo, que la información censal le permite conocer la distribución de una población en
zonas rurales y urbanas (60 % y 40 %). El resultado de una muestra aleatoria simple no tiene por qué
respetar esta distribución, especialmente si el tamaño muestral no es muy elevado. Una alternativa
podrı́a ser ponderar las observaciones según provengan de una zona rural o urbana. Lo normal, en
este caso, serı́a calcular dos medias, una con las nrural observaciones rurales y otra con las nurbana
observaciones urbanas, calculando la media global como
x̄ = 0, 6x̄rural + 0, 4x̄urbana
La Media Geométrica
La media geométrica de n observaciones se define como
g=
√
n
x1 x2 ...xn
La media geométrica debe emplearse cuando se quieren promediar porcentajes, tasas, tipos de interés,
números ı́ndices, etc., es decir valores que representan variaciones acumulativas, de un perı́odo respecto
al anterior. Como medida de posición central, la media geométrica es más representativa que la media
aritmética cuando la variable se define como variaciones acumulativas.
Veamos un ejemplo basado en tasas de variación. Supondremos que las observaciones de la variable
se realizan para un individuo a lo largo del tiempo, midiéndose el valor de la variable en el momento
0, en el momento 1, ..., hasta el final del periodo, en el momento T. Dada una serie de valores de base
temporal: x0 , x1 , x2 , ..., xt , la tasa de variación de un perı́odo a otro se define como
xt,t−1 =
xt − xt−1
xt−1
Por tanto, los valores de xt serı́an
xt = (1 + xt,t−1 )xt−1
El término entre paréntesis se denomina factor de variación unitaria.
La relación entre el último valor, xT , y el primero, x0 , se puede obtener si sustituimos de manera
recurrente,
26
xT = (1 + x[ T, T −1] )x[T −1] = (1 + x[T, T −1] )(1 + x[T −1, T −2] )x[T −2] = ...
= (1 + x[T, T −1] )(1 + x[T −1, T −2] )...(1 + x[2, 1] )(1 + x[1, 0] )x0
Si quisiéramos definir una tasa media de variación, xtmv , ésta deberı́a satisfacer la relación anterior.
Luego,
xT = (1 + xtmv )(1 + xtmv )...(1 + xtmv )x0 = (1 + xtmv )T x0
Por tanto,
(1 + xtmv )T = (1 + x[T, T −1] )(1 + x[T −1, T −2] )...(1 + x[1, 0] )
O, en otros términos, la tasa media de variación debe ser igual a la media geométrica de los factores
de variación unitarios, menos la unidad
xtmv =
q
T
(1 + x[T, T −1] )(1 + x[T −1, T −2] )...(1 + x[1, 0] ) − 1
Si conocemos todos los valores de la serie, la media geométrica la podemos calcular como
xtmv =
r
T
xT
−1
x0
La Mediana
La mediana es aquel valor que se sitúa en el punto medio de la distribución, cuando los valores están
ordenados de menor a mayor. Cuando tiene un número impar de observaciones, la mediana es el valor
del medio. Cuando la cantidad de observaciones es par, no hay un número en el medio. En este caso,
se sigue una convención y la mediana es definida como el promedio de las dos observaciones del medio.
Si n, el número de observaciones, es impar, siempre será inmediato detectar el valor de la mediana;
bastará con localizar el valor situado en el lugar:
Posición de la Mediana =
n+1
2
Supongamos que disponemos de los dı́as de vacaciones que han disfrutado nueve turistas; 16, 29, 13,
15, 25, 14, 26, 17, 26. Para calcular la mediana de estas observaciones, primero deben ordenarse los
valores de menor a mayo; 13, 14, 15, 16, 17, 25, 26, 26, 29. En segundo lugar, debe localizarse el valor
que se sitúa en el centro de la distribución, que en este caso serı́a el valor 17, situado en el quinto
lugar, que deja cuatro observaciones por debajo de él y cuatro observaciones por encima.
Supongamos que tenemos diez observaciones: 13, 14, 15, 16, 17, 25, 26, 26, 29, 31. Ninguna de ellas
queda ahora exactamente en el centro de la distribución. El valor 17 deja por debajo cuatro observaciones y por encima cinco, mientras que el valor 25 deja cinco por debajo y cuatro por encima. En el
caso de tener un número n de observaciones par, se puede considerar que la mediana es el promedio de
estos dos valores: (17 + 25)/2 = 21. En este caso, la mediana la encontramos al promediar los valores
situados en las posiciones n/2 y (n/2) + 1.
27
La Moda
La moda es aquel valor que presenta una mayor frecuencia. La distribución es unimodal si hay un
valor cuya frecuencia es mayor que la del resto, o es multimodal si dos o más valores se repiten en
igual número de veces, y ésto alcansan la máxima frecuencia.
Asimetrı́a de una distribución
Las distribuciones de frecuencias se pueden caracterizar por su forma, distinguiéndose bajo un criterio
de simetrı́a entre distribuciones simétricas, asimétricas por la derecha y asimétricas por la izquierda.
Si una distribución es simétrica, existe el mismo número de valores a la derecha que a la izquierda de
la media, por tanto, el mismo número de desviaciones con signo positivo que con signo negativo. La
distribución es asimétrica por la derecha si aparecen un número mayor de valores de la variable en ese
lado, mientras que la asimetrı́a por la izquierda acumuları́a un número mayor de valores en el lado
izquierdo de la distribución.
En función de su simetrı́a o asimetrı́a en las distribuciones unimodales se verifican las siguientes
relaciones. En una distribución simétrica la media, la mediana y la moda tienden a coincidir.
M oda ∼
= M ediana ∼
= M edia
En las distribuciones asimétricas por la derecha la relación entre los estadı́sticos es la siguiente
M oda ≤ M ediana ≤ M edia
Cuando la distribución es asimétrica por la izquierda se cumple que
M oda ≥ M ediana ≥ M edia
Percentiles
Un percentil aporta información acerca de la dispersión de los datos en el intervalo que va del menor
al mayor valor de los datos. En los conjuntos de datos que no tienen muchos valores repetidos, el
percentil p divide a los datos en dos partes. Cerca de p por ciento de las observaciones tienen valores
menores que el percentil p y aproximadamente (100 - p) por ciento de las observaciones tienen valores
mayores que el percentil p.
El percentil p es un valor tal que por lo menos p por ciento de las observaciones son menores o
iguales que este valor y por lo menos (100 - p) por ciento de las observaciones son mayores o iguales
que este valor.
Los percentiles se definen sobre porcentajes del 1, 2, 3, ..., hasta el 99 por ciento. El primer percentil
ocupará la posición n/100; el segundo percentil la posición 2 × n/100, y ası́ hasta el que el 99 percentil
ocupará la posición 99 × n/100.
28
Formalicemos el cálculo del percentil p:
1. Se ordenan los datos de menos a mayor de forma ascendente.
2. El ı́ndice se calcula de la siguiente forma:
i=
p
n
100
donde p es el percentil deseado y n es el número de observaciones.
3. Si i es un número entero, entonces el percentil p es el promedio de los valores en las posiciones
i e i+1. Si i no es un número entero debe ser redondeado. El primer entero mayor que i denota
la posición del percentil p.
Por ejemplo, supongamos que tenemos los datos de los sueldos de 12 personas y queremos calcular el
percentil 85; 3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925. Una vez ordenados los
datos de mayor a menor, calculamos el ı́ndice como
p
85
n=
12 = 10,2
100
100
Dado que que 10.2 no es un número entero, debe ser redondeado hacia arriba. Luego, la posición del
percentil 85 es la posición 11, es decir, 3730.
i=
Si queremos conocer el percentil 50, es decir, la mitad de la distribución, calculamos
50
12 = 6
100
Como 6 es un número entero, entonce el percentil 50 es el promedio de los valores de los datos que
se encuentran en las posiciones 6 y 7. Es decir, (3490 + 3520)/2 = 3505. Observe que el percentil 50
coincide con la mediana.
i=
Cuartiles
Con frecuencia es conveniente dividir los datos en cuatro partes. Ası́, cada parte contiene una cuarta
parte o el 25 % de las observaciones. A estos puntos de división se les conoce como cuartiles y están
definidos como
Q1 = primer cuartil = percentil 25
Q2 = segundo cuartil = percentil 50 = mediana
Q3 = tercer cuartil = percentil 75
Q4 = cuarto cuartil = percentil 100
Por ejemplo, como el segundo cuartil Q2 corresponde a la mediana, sabemos que (3490 + 3520)/2 =
3505. Para encontrar el primer cuartil Q1 debemos calcular
29
i=
p
25
n=
12 = 3
100
100
Como 3 es un número entero, Q1 = (3450 + 3480)/2 = 3465.
Los cuartiles dividen los datos de los sueldos iniciales en cuatro partes y cada parte contiene el 25 %
de las observaciones.
3310
3355
3450 3480
Q1 = 3465
3480
3490 3520
Q2 = 3505
(Mediana)
3540
3550 3650
Q3 = 3600
3730
3925
Deciles
Los deciles dividen la muestra en porcentajes del 10, 20, ..., hasta el 90 por ciento. El primer decil
ocupará la posición n/10. El segundo decil ocupará la posición 2 × n/10 y ası́ sucesivamente hasta que
el noveno ocupa la posición 9 × n/10.
3.2.
Medidas de dispersión
Rango
La medida de variabilidad más sencilla es el rango. Éste se define como el valor mayor - valor menos.
Aunque el rango es la medida de variabilidad más fácil de calcular, rara vez se usa como única medida.
La razón es que el rango se basa sólo en dos observaciones y, por tanto, los valores extremos tienen
una gran influencia sobre él.
Rango intercualtı́lico
Esta medida no es afectada por los valores extremos ya que se calcula como la diferencia entre el tercer
cuartil y el primer cuartil; Q3 − Q1 . En otras palabras, es el rango en el que se encuentra el 50 % de
los datos.
Varianza
La varianza es una medida de variabilidad que utiliza todos los datos. La varianza está basada en la
diferencia entre el valor de cada observación xi y la media, x̄. A esta diferencia se le llama desviación
respecto de la media. Si se trata de una muestra, una desviación respecto de la media se escribe (xi − x̄),
y si se trata de una población se escribe (xi − µ). Para calcular la varianza, estas desviaciones respecto
de la media se elevan al cuadrado. Esto, devuelve sólo valores positivos2 . Las unidades al cuadrado de
2
Si sumamos todas las desviaciones respecto de la media, esto es, la de los valores que se encuentra por sobre la
media y luego le restamos los valores que se encuentran por debajo de la media, entonces el resultado es cero, ya que,
P
por porpiedad de la media, sabemos que (xi − x̄) = 0. Una forma de solucionar esto, es elevar al cuadra el resultado
de cada diferencia respecto de la meda, ya que cualquier número elevado al cuadrado, arroja un valor positivo.
30
la varianza dificultan la comprensión e interpretación intuitiva de los valores numéricos de la varianza.
Lo recomendable es entender la varianza como una medida útil para comparar la variabilidad de dos
o más variables. Al comparar variables, la que tiene la varianza mayor, muestra más variabilidad o
dispersión de los datos.
Si los datos son de una población, el promedio de estas desviaciones elevadas al cuadrado es la varianza
poblacional. La varianza poblacional se denota con la letra griega σ 2 . Si en una población hay N
observaciones y la media poblacional es µ, la varianza poblacional se define como
2
σ =
P
(xi − µ)2
N
Cuando se calcula la varianza muestral, lo que interesa es estimar la varianza poblacional σ 2 . La
varianza muestral se defino como
(xi − x̄)2
n
Si la suma de los cuadrados de las desviaciones respecto de la media se divide entre n − 1, en lugar
de entre n, la varianza muestral que se obtiene constituye un estimador insesgado de la varianza
poblacional. Es por ello que la varianza muestral se puede definir como
2
s =
P
(xi − x̄)2
n−1
La varianza es una medida de la dispersión de las observaciones con respecto a su valor medio.
2
s =
P
Supongamos que tenemos cinco grupos de personas como muestra el cuadro 11. Luego, la varianza del
número de personas serı́a
256
(xi − µ)2
=
= 51, 2
N
5
Si corresponde a la varianza poblacional, o bien
2
σ =
2
s =
si corresponde a la varianza muestral.
P
P
256
(xi − x̄)2
=
= 64
n
5−1
Propiedades de la varianza
1. La varianza no puede ser negativa al tratarse de un promedio de la suma de cuadrados.
2
s =
P
(xi − x̄)2
>0
n
2. Es sensible a los valores extremos. Esto quiere decir que si tenemos una observación atı́pica, la
varianza va aumentar a medida que esa observación más se aleje de la mediana.
31
Cuadro 11: Varianza del número de personas en los grupos
Número de personas
en un grupo
(xi )
Media
(x̄)
Desviación respecto
a la media
(xi − x̄)
Cuadrado de la desviación
respecto a la media
(xi − x̄)2
46
54
42
46
32
44
44
44
44
44
2
10
-2
2
-12
4
100
4
4
144
Total n = 5
P
0
(xi − x̄)
P
256
(xi − x̄)2
3. Si a los valores de una variable se les suma una constante, c + xi , la varianza de la nueva variable
no se modifica
s2c+x
=
P
(c + xi − (c + x̄))2
=
n
P
(c + xi − c − x̄)2
=
n
P
(✁c + xi − ✁c − x̄)2
=
n
P
(xi − x̄)2
= s2x
n
4. Al multiplicar los valores de una variable por una constante, cxi , la nueva varianza se ve multiplicada por la misma cantidad elevada al cuadrado, c2 σ 2 . Esta propiedad es fácil de demostrar,
teniendo en cuenta que al multiplicar por una constante, la media de la variable transformada
es la media original multiplicada por la misma constante.
s2cx
=
P
(cxi − (cx̄))2
=
n
P
[c(xi − x̄)]2
=
n
P
c2
c2 (xi − x̄)2
=
n
P
(xi − x̄)2
= c2 s2x
n
5. La varianza puede escribirse equivalentemente de la siguiente forma
s2 =
x2i
−µ
n
P
Ya que
X
(xi − x̄)2 =
X
(x2i + x̄2 −2xi x̄) =
X
x2i +nx̄2 −2x̄
X
xi =
X
x2i +nx̄2 −2nx̄2 =
con lo que se tiene
2
s =
6. La varianza cumple que
P
P
(xi − x̄)2
=
n
(xi − x̄)2
<
n
P
P
x2i − nx̄2
=
n
(xi − k)2
n
32
x2i
− x̄2
n
P
para cualquier k 6= x̄
X
x2i −nx̄2
Esto implica, necesariamente, que las desviaciones calculadas respecto de la media siempre serán
menores que las desviaciones calculadas respecto a cualquier otro número o estadı́stico.
7. La varianza puede ponderarse por los casos, al igual que la media.
Desviación estándar
La desviación estándar se define como la raı́z cuadrada positiva de la varianza.
√
Desviación estándar muestral = s = s2
√
Desviación estándar poblacional = σ = σ 2
En el caso de los cinco grupos de personas, la varianza muestral era s2 = 64. Luego, la desviación
√
estándar seria s = 64 = 8.
La desviación estándar se mide en las mismas unidades que los datos originales. Por esta razón es más
fácil comparar la desviación estándar con la media y con otros estadı́sticos que se miden en las mismas
unidades que los datos originales. Por ejemplo, si hablamos de sueldos, cuando nos referimos a la
varianza serı́a pesos al cuadrado, pero cuando nos referimos a la desviación estándar serı́an sólo pesos.
La varianza depende de la unidad de medida de la variable, por lo que, aveces, puede ser complicado
compararla con otras variables.
Coeficiente de variación
El coeficiente de variación es un estadı́stico descriptivo que señala qué tan grande es la desviación
estándar en relación con la media. La ventaja del coeficiente de variación es que es una medida relativizada, por lo que permite la fácil comparación entre diferentes variables con diferentes unidades
de medida. Aun cuando dos variables pueden tener la misma unidad de medida, resulta conveniente
utilizar el coeficiente de variación si toman valores muy diferentes. Por ejemplo, si se quieren comparar
las rentas de dos regiones, una muy rica y otra muy pobre, podrı́a no ser adecuado comparar directamente las varianzas. La región con renta media alta tenderá a presentar una varianza más alta, por el
hecho de jugar con cifras absolutas mayores que la región con rentas bajas. Una manera de relativizar
este efecto es con el coeficiente de variación. Éste se calcula de la siguiente forma:
CV =
s
Desviación Estándar
× 100 % =
× 100 %
M edia
x̄
En el ejemplo del número de personas, la media muestral era x̄ = 44 y la desviación estándar muestral
era de s = 8. Luego, el coeficiente de variación es [(8/44) ∗ 100] % = 18,2 %. Expresado en palabras,
el coeficiente de variación indica que la desviación estándar muestral es 18.2 % del valor de la media
muestral.
El coeficiente de variación también puede ser calculado a partir del error estándar, el cual es iguala
la desviación estándar de la muestra divido en la raı́z del número total de casos seleccionados en la
muestra. Esto es,
33
CV =
3.3.
s/√n
x̄
× 100 %
Medidas de la forma de la distribución
Sesgo
El sesgo indica si una distribución está balanceada hacia la izquierda, la derecha, o se concentra en el
centro. Se calcula de la siguientes forma:
Sesgo =
X xi − x̄ 3
n
×
(n − 1)(n − 2)
s
donde n es el número de observaciones, y s es la desviación estándar.
Si la medida de sesgo es negativa, entonces la distribución está sesgada hacia la izquierda, por ejemplo
-0.85. Si la media de sesgo es positiva, entonces la distribución está sesgada hacia la derecha. Si la
medida de sesgo es cero, entonces la distribución no está sesgada y se dice que es una distribución
simétrica. En una distribución simétrica, la media y la mediana son iguales. Si los datos están
sesgados a la derecha, la media será mayor que la mediana; si los datos están sesgados a la izquierda,
la media será menor que la mediana. La figura 3.3 muestra ejemplos del sesgo de una distribución y
sus medidas de sesgo asociadas.
Puntuaciones Z
Las puntuaciones Z permiten conocer la ubicación relativa de los valores de un conjunto de datos.
Las medidas de localización relativa ayudan a determinar qué tan lejos de la media se encuentra un
determinado valor.
A partir de la media y la desviación estándar, se puede determinar la localización relativa de cualquier
observación. Suponga que tiene una muestra de n observaciones, en que los valores se denotan como
x1 , x2 , ..., xn . Supongamos que la media muestral es x̄ y la desviación estándar muestral es s. Para
cada valor xi existe otro valor estandarizado. Este se calcula como
xi − x̄
s
El punto zi puede ser interpretado como el número de desviaciones estándar a las que xi se encuentra
de la media. Puntos z mayores a cero corresponden a observaciones cuyo valor es mayor a la media, y
puntos z menores que cero corresponden a observaciones cuyo valor es menor a la media. Si el punto
z es cero, el valor de la observación correspondiente es igual a la media. Por ejemplo, si zi = 1,2,
entonces xi es 1.2 desviaciones estándar mayor que la media muestral.
zi =
El punto z de cualquier observación se interpreta como una medida relativa de la localización de la
observación en el conjunto de datos. Por tanto, observaciones de dos conjuntos de datos distintos que
34
Figura 10: Sesgo de una distribución.
tengan el mismo punto z tienen la misma localización relativa; es decir, se encuentran al mismo número
de desviaciones estándar de la media.
Teorema de Chebyshev
El teorema de Chebyshev permite decir qué proporción de los valores que se tienen en los datos debe
estar dentro de un determinado número de desviaciones estándar de la media. El teorema de Chebyshev afirma que, por lo menos 1−1/z 2 de los valores que se tienen en los datos deben encontrarse dentro
de z desviaciones estándar de la media, o dentro del intervalo [x̄ − zs, x̄ + zs], donde z es cualquier
valor mayor que 1.
De acuerdo a este teorema, para los distintos valores de z
Por lo menos el 75 % de las observaciones deben estar dentro del intervalo [x̄ − 2s, x̄ + 2s], o
z = 2 desviaciones estándar de la media.
Al menos el 85 % de los valores deben esta dentro del intervalo [x̄−3s, x̄+3s], o z = 3 desviaciones
35
estándar de la media.
Por lo menos el 94 % de los valores deben estar dentro del intervalo [x̄ − 4s, x̄ + 4s], o z = 4
desviaciones estándar de la media.
Por tanto, si se quiere definir un intervalo centrado en la media que comprenda, como mı́nimo, el
75 % de las observaciones de la variable deberá calcularse x̄ ± 2s. Si el intervalo debe comprender
como mı́nimo el 89 % de las observaciones se construirá como x̄ ± s3. La ventaja de la desigualdad
de Chebychev es que no precisa del conocimiento de la distribución, siendo válidos los intervalos
construidos para cualquier variable. Desde el punto de vista del análisis descriptivo la desigualdad de
Chebychev proporciona una nueva perspectiva al concepto de desviación estándar.
Diagrama de caja
Los diagramas de cajas son representaciones gráficas que muestran la mediana, los cuartiles Q1 y
Q3 , el rango intercuartı́lico (Q3 − Q1 ), los valores atı́picos y los casos extremos de la variable. Son
especialmente útiles cuando se trata de comparar distintas variables o el comportamiento de distintos
grupos sobre una misma variable. El diagrama de caja aporta información conjunta de medidas de
posición y de dispersión. Los pasos para construir un diagrama de caja son los siguiente:
1. El eje vertical corresponde a los valores de la variable.
2. Se dibuja una caja cuyos extremos se localicen en el primer y tercer cuartiles.
3. Al interior de la caja, en el punto donde se localiza la mediana, se traza una lı́nea horizontal.
4. Usando el rango intercuartı́lico, RIC = Q3 − Q1 , se localizan los lı́mites. En un diagrama de caja
los lı́mites se encuentran a 1, 5(RIC) abajo del Q1 y 1, 5(RIC) arriba del Q3 . Esto es, los bordes
superior e inferior del rectángulo coinciden con el tercer y primer cuartiles, respectivamente (75 y
25 percentiles). Los datos que quedan fuera de estos lı́mites se consideran observaciones atı́picas.
Por tanto, con la altura del rectángulo (el 50 % de las observaciones centrales se encuentran
dentro del rectángulo; un 25 % de las observaciones restantes estarán por encima y el otro 25 %
por debajo).
5. Se representan en las gráficas dos lı́neas perpendiculares a los bordes del rectángulo, que llegan
hasta la observación más alejada (en ambas direcciones) pero que no puede definirse como outlier
(inferior a 1,5 veces el rango intercuatı́lico). Los outliers se representan con un asterisco.
6. En comparaciones entre diferentes variables o, especialmente, de la misma variable en diversos
grupos, resulta interesante disponer de una referencia visual del número de observaciones implicadas (el número de individuos que forman parte de cada grupo). Esto se consigue haciendo que
el área de los rectángulos sea proporcional al tamaño del grupo.
En un diagrama de caja deben visualizarse la mediana, la amplitud (rango y rango intercuartı́lico) y
la existencia de observaciones atı́picas y/o extremas. La figura 3.3 muestra un ejemplo.
36
wage
N
Válidos
935
Perdidos
0
Media
957,95
Mediana
905,00
Rango
2963
Mínimo
115
Máximo
Percentiles
3078
25
668,00
50
905,00
75
1160,00
La lı́nea que señala la mediana no tiene por qué aparecer en el centro del rectángulo. Aparecerá en
el medio cuando la distribución sea simétrica, mientras que si es asimétrica por la derecha aparecerá
más cerca del lı́mite inferior que del superior. Al contrario ocurrirá en una distribución asimétrica por
la izquierda. Si se comparan distribuciones, aquella que muestre un rectángulo de mayor amplitud
corresponderá a la distribución con mayor dispersión (medida por el rango intercuartı́lico).
3.4.
Medidas de asimetrı́a y curtosis
Existen medidas de forma que proporcionan información numérica sobre dos caracterı́sticas de la
distribución, su simetrı́a y su curtosis. La curtosis de una distribución mide, de forma numérica
y sin necesidad de generar un gráfico, la concentración de las observaciones en la zona central de la
variable. Recuerde que, cuando una distribución es simétrica, la media, la moda y la mediana coinciden.
37
Medida de asimetrı́a de Fisher
En una distribución simétrica las observaciones de la variable tienden a situarse en igual proporción a
ambos lados del valor medio. Cualquier medida que recoja alteraciones de esta situación proporcionará
una cuantificación de la asimetrı́a de la distribución. Por ejemplo, el momento de orden tres con
respecto a la media (m3 )
(xi − x̄)3
n
muestra un promedio de las desviaciones de la variable respecto a su media. Nos interesa conocer si la
mayorı́a de las observaciones está a la derecha o a la izquierda de la media. Si la diferencia respecto
a la media se eleva al cuadrado, entonces se pierde el signo, pero si se eleva al cubo respetamos el
signo de (xi − x̄). Si la mayorı́a de las observaciones está por sobre la media, obtendrı́amos un valor
positivo, mientras que si la mayorı́a de las observaciones está por dejado de la media, se obtiene un
valor negativo.
m3 =
P
Si m3 = 0 : Distribución simétrica.
Si m3 > 0 : Asimetrı́a positiva o por la derecha.
Si m3 < 0 : Asimetrı́a negativa o por la izquierda.
El estadı́stico de asimetrı́a de Fisher g1 se define a partir del m3 pero está normalizado, lo que permite
comparar variables con diferentes escalas.
g1 =
m3
s3
donde s3 es la desviación estándar elevada al cubo. Por tanto:
Si g1 = 0 : Distribución simétrica.
Si g1 > 0 : Asimetrı́a positiva o por la derecha.
Si g1 < 0 : Asimetrı́a negativa o por la izquierda.
Medida de asimetrı́a de Pearson
AS =
x̄ − M oda
s
donde,
Si AS = 0 : Distribución simétrica.
Si AS > 0 : Asimetrı́a positiva o por la derecha.
Si AS < 0 : Asimetrı́a negativa o por la izquierda.
38
Curtosis
Pretenden medir hasta qué punto las observaciones de la variable se acumulan en la parte central de
la distribución. Se aplican a distribuciones simétricas y unimodales.
(xi − x̄)4 /n
m4
= 4
4
s
s
donde m4 define el momento de orden cuatro respecto a la media.
Los resultados se comparan con una distribución normal. Si se calcula el coeficiente de curtosis de una
distribución normal el valor que se obtiene es igual a 3. Luego,
Curtosis =
P
m4 = 3s4
Las distribuciones se califican de una manera especı́fica según este criterio. Las distribuciones parecidas a la normal se denominan mesocúrticas, las distribuciones más achatadas se denominan
platicúrticas, y aquellas más puntiagudas se denominan leptocúrticas.
Algunos programas estadı́sticos arrojan el siguiente coeficiente de curtosis
m4
−3
s4
el que permite la comparación directa con una distribución normal. En este caso,
g2 =
Si g2 = 0 : Distribución mesocúrtica (normal).
Si g2 > 0 : Distribución leptocúrtica (puntiaguda).
Si g2 < 0 : Distribución platicúrtica (achatada).
La figura 3.4 muestra un ejemplo de la distribución para la variable salario. A la izquierda se observan
los estdı́sticos descriptivos de la variable. La linea sobre el histograma muestra una distribución normal,
lo que permite realizar una comparación.
39
Estadísticos
wage
N
Válidos
Perdidos
935
0
Media
957,95
Mediana
905,00
Moda
1000
Desv. típ.
404,361
Asimetría
1,201
Error típ. de asimetría
Curtosis
Error típ. de curtosis
4.
,080
2,718
,160
Análisis bivariante: Medidas de Dependencia Estadı́stica y Correlación
En términos prácticos, el comportamiento de una sola variable no es muy relevante. Rara vez los investigadores sólo observan una variable. En cambio, lo que más interesa es el comportamiento de dos
o más variables de forma conjunta, la interacción entre estas variables, o la forma en que se comporta
una variable condicionada por otra variable. A esto llamamos correlación.
En lenguaje cientı́fico hablado de variables independientes y variables dependiente. También se les
conoce como variable explicativas y variables explicadas. La definición estadı́stica de una relación de
dependencia entre dos variables (sean éstas cualitativas o cuantitativas) intenta establecer cuál es la
variable (independiente) que influye en la otra (dependiente). La idea de causalidad supone algo
más que la asociación entre ellas, puesto que impone una relación de dependencia entre las variables,
debiendo plantear qué variable es dependiente y qué variable es independiente. Desde el punto de vista
estadı́stico existen técnicas para establecer la dirección e importancia cuantitativa de la causalidad,
pero su aplicación adquiere pleno sentido cuando se acompaña de algún tipo de hipótesis teórica,
aunque sea al nivel puramente exploratorio de los datos.
40
4.1.
Variables cualitativas: Ordinales y Nominales
Distribución conjunta de variables: Tablas de contingencia
Una de las mejores formas de describir la relación entre dos variables cualitativas es a través de
una tabla de contingencia. Cada variable puede tomar una serie de valores mutuamente excluyentes,
de manera que sobre cada individuo de la muestra puede observarse cuáles son las categorı́as a las
que pertenece en cada una de las variables. La tabla de contingencia muestra todas las posibles
combinaciones de las categorı́as de cada variable anotando en cada una de ellas el número de casos que
pertenecen a las dos categorı́as. Supongamos dos variables Ai , donde i = 1, ..., I y Bj , con j = 1, ..., J.
Sea nij el número de observaciones simultáneas que representan las caracterı́sticas i y j, la tabla de
contingencia se presenta de la siguiente forma:
Cuadro 12: Construcción de una tabla de contingencia
B1 B2 ... B4
A1
n11
n12
...
n1j
A2
n21
n22
...
n2j
...
...
...
...
...
AI
nI1
nI2
...
nij
El tratamiento más elemental de esta información es la obtención de las distintas frecuencias. En
las tablas de contingencia se muestran las frecuencias (absolutas o relativas) en las que ocurren las
categorı́as de filas y columnas.
i La distribución marginal muestra el total de cada una de las categorı́as de cada variable. Esto
es,
ni =
J
X
nij
j=1
ii La distribución de frecuencias relativa se refiere a la frecuencia relativas de cada una de las
celdas respecto del total de observaciones. En este caso, el cuadrante con la posición nij debe
sumar 1 o 100 %.
iii Si analizamos el perfil fila, debemos poner atención a las frecuencias relativas de cada una de
las celdas con respecto al total de las filas, la cual debe sumar 100 % (suma horizontal).
iv Si analizamos el perfil columna, debemos poner atención a las frecuencias relativas de cada
una de las celdas con respecto al total de las columnas, la cual debe sumar 100 % (suma vertical).
La figura 4.1 muestra un ejemplo de tabla de contingencia entre dos variables cualitativas creada a
partir de la encuesta CEP de diciembre de 2016. En las filas se muestran las categorı́as de la variables
Nivel Socioeconómico (NSE) y en las columnas se muestran los tramos de edad. Al analizar los datos,
el primer número corresponde al número de observaciones y la frecuencia absoluta que satisface la
intersección de dos categorı́as. Por ejemplo, en el Nivel Socioeconómico Alto hay 0 (cero) personas
41
encuestadas que tienen entre 0 y 3 años de escolaridad. En el nivel socioeconómico Medio, hay 379
personas encuestadas que tienen entre 9 y 12 años de escolaridad. El segundo número corresponde
al perfil fila de la frecuencia relativa. Éstos se leen de forma horizontal. Por ejemplo, en el perfil
socioeconómico Alto, el 92,9 % de las personas encuestadas tiene más de 13 años de escolaridad. El
tercer número corresponde al perfil columna de la frecuencia relativa. Éstos datos se leen de forma
vertical. Por ejemplo, el 72,9 % de las personas encuestadas que pertenecen al nivel socioeconómico
bajo tienen entre 0 y 3 años de escolaridad.
Tabla de contingencia Nivel socioeconomico (Rec) * Años de escolaridad (Rec)
Nivel socioeconomico
(Rec)
Alto
Medio
Recuento
No sabe/ No
contesta
1
Total
84
,0%
1,2%
4,8%
92,9%
1,2%
100,0%
% de Años de
escolaridad (Rec)
,0%
,3%
,7%
16,2%
5,9%
5,7%
16
98
379
356
8
857
1,9%
11,4%
44,2%
41,5%
,9%
100,0%
27,1%
33,3%
61,8%
74,0%
47,1%
58,5%
43
195
230
47
8
523
8,2%
37,3%
44,0%
9,0%
1,5%
100,0%
72,9%
66,3%
37,5%
9,8%
47,1%
35,7%
Recuento
% de Años de
escolaridad (Rec)
Recuento
% de Nivel
socioeconomico (Rec)
% de Años de
escolaridad (Rec)
Total
Años de escolaridad (Rec)
Entre 4 y 8
Entre 9 y
Mas de 13
años
12 años
años
1
4
78
% de Nivel
socioeconomico (Rec)
% de Nivel
socioeconomico (Rec)
Bajo
Entre 0 y 3
años
0
Recuento
% de Nivel
socioeconomico (Rec)
% de Años de
escolaridad (Rec)
59
294
613
481
17
1464
4,0%
20,1%
41,9%
32,9%
1,2%
100,0%
100,0%
100,0%
100,0%
100,0%
100,0%
100,0%
La interpretación de los resultados de una tabla de contingencia obliga a una lectura cuidadosa de los
porcentajes de filas y columnas, al ofrecer diferentes perspectivas de la misma información.
4.2.
Variables cuantitativas
Cuando se dispone de dos variables cuantitativas y continuas basadas en escala de intervalo o de
cociente las medidas de asociación estudiadas hasta ahora suelen ser inaplicables, esencialmente porque el número de valores que toman este tipo de variable hace que carezca de sentido el cómputo de
frecuencias de todas las combinaciones posibles. Aunque siempre es posible convertir estas variables
cuantitativas en variables cualitativas ordinales (construyendo intervalos), resulta adecuado utilizar
otro tipo de coeficientes de asociación.
La forma más sencilla es analizar la correlación lineal simple entre dos variables. Ésta se trata de una
medida sintética del grado de asociación lineal entre dos variables cuantitativas.
Circunscrito al concepto de linealidad el calificativo de simple se opone a la idea de asociación múlti42
ple entre variables. Se analiza la relación entre dos variables, por ejemplo X e Y, sin considerar la
existencia de otras variables que puedan estar relacionadas con ellas, ni la posible incidencia de las
mismas en esa relación. Por ejemplo, supongamos que tanto la variable X como la variable Y varı́an
cuando lo hace una tercera variable Z. La correlación entre la variable X e Y reveları́a una asociación
entre estas dos variables, pero nada dirá el coeficiente de la existencia de la tercera variable, ni de su
capacidad de explicar las variaciones de X e Y.
Cuando se habla de una relación lineal entre dos variables se está haciendo referencia a una relación
que puede representarse aproximadamente como una lı́nea recta. Denotando a las dos variables como
X e Y, la existencia de una relación lineal exacta entre las dos variables podrı́a ser la siguiente:
Yi = a + bXi
donde Xi = 1, ..., n e Yi = 1, ..., n, y a es el intercepto de la recta en el eje de las ordenadas y b es la
pendiente de la recta. Ambas son constantes que pueden tomar cualquier valor con b 6= 0.
La detección de una asociación lineal entre dos variables no implica que entre ellas exista una
relación causal.
Entre dos variables pueden detectarse dos tipos de asociación lineal: positiva y negativa. La figura
4.2 muestra un ejemplo de correlación entre la edad y la experiencia de los trabajadores. La line roja
muestra la tendencia lineal de los datos, donde se puede observar claramente una relación positiva.
Esto es, a mayor edad, mayor es la experiencia de los trabajadores y viceversa. Recuerde que al analizar
la correlación no asignamos causalidad, por que lo no podrı́amos concluir que la edad determina la
experiencia, simplemente decimos que existe una relación entre estas dos variables. El signo del valor
del parámetro b, la pendiente de la recta, reflejarı́a el sentido de la asociación (positiva o negativa)
entre las dos variables.
Una relación no lineal entre los datos darı́a una forma cóncava o convexa a la lı́nea de tendencia de
los datos.
Covarianza
Sean X e Y dos variables cuantitativas. Se define la covarianza entre estas variables como
Pn
(xi − x̄)(yi − ȳ)
σxy = i=1
N
El empleo de las variables en desviaciones respecto a la media equivale a una traslación de los ejes de
coordenadas, que pasan de estar centrados en el punto (0; 0) a estarlo en el punto (x̄; ȳ). Al expresar
los valores de las variables en desviaciones, el centro de coordenadas se sitúa en el centro de la nube
de puntos.
El signo y valor de este estadı́stico depende, esencialmente, de la suma de los productos (xi − x̄)(yi − ȳ),
para todas las observaciones (i = 1, ..., n). También cabe la posibilidad de que no exista una asociación
clara entre las dos variables. Este serı́a el caso de una nube de puntos dispersa. Esto es,
43
Figura 11: Correlación entre la edad y la experiencia de los trabajadores
si σxy > 0 : Existe una asociación lineal positiva.
si σxy < 0 : Existe una asociación lineal negativa.
si σxy = 0 : No existe una asociación lineal.
La covarianza, como medida de asociación lineal tiene el inconveniente de estar afectada por las
unidades de medida de las variables.
Propiedades de la covarianza
1. La covarianza puede calcularse a partir de la siguiente equivalencia de su numerador:
n
X
i=1
(xi − x̄)(yi − ȳ) =
n
X
i=1
xi yi − nx̄ȳ
2. Si a la variable X se suma una constante b y a la variable Y una constante c, la covarianza entre
las dos nuevas variables transformadas será igual a la covarianza original:
σx+b , y+c =
Pn
i=1 ((xi
+ b) − (x̄ + b))((yi + c) − (ȳ + c))
=
n
Pn
i=1 (xi
− x̄)(yi − ȳ)
n
3. Si a la variable X se multiplica una constante b y a la variable Y una constante c, la covarianza
entre las dos nuevas variables transformadas será igual a la covarianza original multiplicada por
las constantes bc:
σbx , by =
Pn
i=1 ((bxi
bc
− bx̄))((cyi − cȳ))
=
n
44
Pn
i=1 (xi
− x̄)(yi − ȳ)
= bc · σxy
n
4. La covarianza entre una variable y una constante es cero:
σxy =
Pn
i=1 (xi
− x̄)(a − ā)
=0
n
Coeficiente de correlación de Pearson
Ya habiendo definido la correlación entre dos variables, el coeficiente de correlación de Pearson
se define como:
Pn
(xi − x̄)(yi − ȳ)
pP n
ρxy = pPn i=1
2
2
i=1 (xi − x̄)
i=1 (yi − ȳ)
o lo que es equivalente
ρxy =
σxy
σx σ y
donde σxy es la covarianza entre las variables X e Y, σx es la desviación estándar de x, y σy es la
desviación estándar de y. El coeficiente de correlación lineal entre dos variables es, por tanto, igual a
su covarianza dividida por el producto de desviaciones estándar de las dos variables.
El signo del coeficiente de correlación será igual al signo de la covarianza. Si entre dos variables existe
una asociación lineal positiva el coeficiente de correlación será positivo. En el caso de una asociación
negativa, el coeficiente de correlación será negativo. En el caso de ausencia de asociación, el coeficiente
de correlación será cero.
σxy > 0 ⇔ ρxy > 0 : Existe una asociación lineal positiva.
σxy < 0 ⇔ ρxy < 0 : Existe una asociación lineal negativa.
σxy = 0 ⇔ ρxy = 0 : No existe una asociación lineal.
Al estandarizar la covarianza mediante las desviaciones estándar se suprime el problema de las unidades
de medida. El valor numérico del coeficiente de correlación entre dos variables no se modifica si una (o
ambas) variables se multiplica por una constante. Una de las consecuencias más importantes de esta
estandarización de la covarianza es que el coeficiente de correlación de Pearson toma valores en
el intervalo ?1 y 1. Los lı́mites superior o inferior se alcanzan cuando entre las dos variables se da una
relación exacta.
Propiedades del coeficiente de correlación
1. El valor numérico del coeficiente de correlación entre dos variables no se modifica si una (o
ambas) variables se multiplica por una constante.
2. El coeficiente de correlación toma valores en el intervalo -1 y 1. Los valores máximo y mı́nimo
se alcanzan cuando se da una relación lineal exacta entre las dos variables, de tipo positivo o de
tipo negativo, respectivamente.
45
3. Valores del coeficiente próximos a 1 indican la existencia de una asociación positiva fuerte entre
las variables; valores cercanos a -1 indican la existencia de una asociación negativa fuerte entre
las variables; valores cercanos a cero señalan la ausencia de una asociación lineal.
Matriz de correlaciones
Es frecuente analizar la relación existente entre un conjunto de variables, de manera que estemos
interesados en las correlaciones entre todos los pares posibles. Una forma de presentar estos resultados
es una matriz de correlaciones, R, definida como una matriz simétrica, con la siguiente presentación:
1 ρ12 ρ13 · · ·
1 ρ23 · · ·
1 ···
R=
..
.
ρ1k
ρ2k
ρ3k
..
.
1
donde ρij indica la correlación entre la i-ésima y la j-ésima variable.
4.3.
Momentos de una variable aleatoria
Los momentos de una variable aleatoria X son los valores esperados de ciertas funciones de X. Éstos
forman una colección de medidas descriptivas que pueden emplearse para caracterizar la distribución
de probabilidad de X y especificarlas si todos los momentos de X son conocidos.
Primer momento: La media
El primer momento alrededor del cero es la media o valor esperado de la variable aleatoria y se denota
por µ.
La media de una variable aleatoria se considera como una cantidad numérica alrededor de la cual los
valores de la variable aleatoria tienden a agruparse. Por lo tanto, la media es una medida de tendencia
central.
Segundo momento: La varianza
El segundo momento central, alrededor de la media, recibe el nombre de varianza de la variable
aleatoria. La varianza de una variable aleatoria es una medida de la dispersión de la distribución de
probabilidad de esta.
Tercer momento: Asimetrı́a
El tercer momento central está relacionado con la asimetrı́a de la distribución de probabilidad de X.
Por ejemplo, el Coeficiente de asimetrı́a de Fisher y el Coeficinte de asimetrı́a de Pearson.
46
Cuarto momento: Curtosis
El cuarto momento central es una medida de qué tan puntiaguda es la distribución de probabilidad y
recibe el nombre de curtosis.
5.
Fenómenos aleatorios y Espacios de Probabilidad
La probabilidad es una medida numérica de la posibilidad de que ocurra un evento. Los valores de
probabilidad se encuentran en una escala de 0 a 1. Los valores cercanos a 0 indican que las posibilidades de que ocurra un evento son muy pocas. Los cercanos a 1 indican que es casi seguro que ocurra
un evento. Otras probabilidades entre cero y uno representan distintos grados de posibilidad de que
ocurra un evento.
En el contexto de la probabilidad, un experimento es definido como un proceso que genera resultados definidos. En cada una de las repeticiones del experimento, habrá uno y sólo uno de los posibles
resultados experimentales. Por ejemplo, el experimento “lanzar una moneda”tiene como resultado
experimental “cara o sello”. Al especificar todos los resultados experimentales posibles, se está definiendo el espacio muestral de un experimento. A un resultado experimental también se le llama
punto muestral para identificarlo como un elemento del espacio muestral. Si denotamos S al espacio
muestral, podemos describir el experimento “lanzar una moneda al aire” como
S = {Cara, Sello}
Al asignar probabilidades es necesario identificar y contar los resultados experimentales. Supongamos
que tenemos un experimento de pasos múltiples; lanzar dos monedas al aire. Entonces, podemos
identificar todas las combinaciones posibles en el espacio muestral
S = {(C, C); (C, S); (S, C); (S, S)}
Por tanto, podemos identificar cuatro resultados experimentales.
Un experimento se describe como una sucesión de k pasos en los que hay n1 resultados posibles en el
primer paso, n2 resultados posibles en el segundo paso y ası́ sucesivamente, entonces el número total
de resultados experimentales es (n1 ) (n2 ) ... (nk ).
Si considera el experimento del lanzamiento de dos monedas como la sucesión de lanzar primero una
moneda (n1 = 2) y después lanzar la otra (n2 = 2), siguiendo la regla de conteo (2)(2) = 4, entonces hay
cuatro resultados distintos. Como ya se mostró, estos resultados son S = {(C, C); (C, S); (S, C); (S, S)}.
El número de resultados experimentales de seis monedas es (2)(2)(2)(2)(2)(2) = 64, o bien 26 = 64
Un evento es la colección de puntos muestrales. La probabilidad de un evento es la suma de las
probabilidades de los puntos muestrales que forman el evento. El espacio muestral S es un evento.
47
Puesto que contiene todos los resultados experimentales, su probabilidad es 1; es decir P (S) = 1.
Un diagrama de árbol es una representación gráfica que permite visualizar un experimento de pasos
múltiples. En la figura ?? aparece un diagrama de árbol para el experimento del lanzamiento de dos
monedas. La secuencia va de arriba hacia abajo. El paso 1 corresponde al lanzamiento de la primera
moneda, el paso 2 corresponde al lanzamiento de la segunda moneda. En cada paso, los resultados
posibles son cara o sello.
Cara
Cara
Sello
Cara
Sello
Sello
Otra regla de conteo útil permite contar el número de resultados experimentales cuando el experimento
consiste en seleccionar n objetos de un conjunto mayor con N objetos; n ∈ N . Ésta es la regla de
conteo para combinaciones.
CnN
=
N
n
!
=
N!
n!(N − n)!
donde N ! = N (N − 1)(N − 2) · · · (2)(1) y n! = n(n − 1)(n − 2) · · · (2)(1). Recuerde que por definición
0! = 1. La notación ! significa factorial ; por ejemplo, 5 factorial es 5! = (5)(4)(3)(2)(1) = 120. Por
ejemplo, considere un procedimiento de control de calidad en el que un inspector selecciona al azar
dos de cinco piezas para probar que no tengan defectos. En un conjunto de cinco partes, ¿cuántas
combinaciones de dos partes pueden seleccionarse? Sea N = 5 y n = 2 se tiene que
C25 =
!
5
5!
(5)(4)(3)(2)(1)
120
=
=
=
= 10
2!(5 − 2)!
[(2)(1)][(3)(2)(1)]
12
2
De manera que hay 10 resultados posibles en este experimento de la selección aleatoria de dos partes
de un conjunto de cinco. Si etiqueta dichas partes como A, B, C, D y E, las 10 combinaciones o
resultados experimentales serán AB, AC, AD, AE, BC, BD, BE, CD, CE y DE.
Por ejemplo: Considere la loterı́a en la que se seleccionan 6 números de un conjunto de 53 para
determinar el ganador de la semana. Por regla de conteo de combinaciones se tiene que
!
53
53!
= 22, 957, 480
=
6!(53
− 6)
5
48
La regla de conteo para combinaciones arroja casi 23 millones de resultados experimentales en esta loterı́a. Si una persona compra un billete de loterı́a, tiene 1 en 22.957.480 posibilidades de ganar la loterı́a.
Otra regla de conteo es la permutaciones. Esta regla permite calcular el número de resultados
experimentales cuando se seleccionan los n objetos de un conjunto de N objetos y el orden de selección es relevante. Los mismos n objetos seleccionados en orden diferente se consideran un resultado
experimental diferente. El número de permutaciones de N objetos tomados de n en n está dado por:
PnN
N
= n!
n
!
=
N!
(N − n)!
La regla de conteo para permutaciones tiene relación estrecha con la de combinaciones; sin embargo,
con el mismo número de objetos, el número de permutaciones que se obtiene en un experimento es
mayor que el número de combinaciones, ya que cada selección de n objetos se ordena de n! maneras
diferentes.
Por ejemplo, reconsidere el proceso de control de calidad en el que un inspector selecciona 2 de 5 piezas
para probar que no tienen defectos. ¿Cuántas permutaciones puede seleccionar?
!
5
5!
5!
(5)(4)(3)(2)(1)
120
=
=
=
= 20
=
P25 = 2!
(5 − 2)!
3!
(3)(2)(1)
6
2
De manera que el experimento de seleccionar aleatoriamente dos piezas de un conjunto de cinco piezas,
teniendo en cuenta el orden en que se seleccionen, tiene 20 resultados. Si las piezas se etiquetan A, B,
C, D y E, las 20 permutaciones son AB, BA, AC, CA, AD, DA, AE, EA, BC, CB, BD, DB, BE, EB,
CD, DC, CE, EC, DE y ED.
5.1.
Asignación de Probabilidades
Al asignar probabilidades a los resultados de un experimento, es necesario satisfacer requisitos básicos.
Esto son:
1. La probabilidad asignada a cada resultado experimental debe estar entre 0 y 1. Si se denota con
Ei el i-ésimo resultado experimental y con P (E) su probabilidad, entonces
0 ≤ P (Ei ) ≤ 1
para todo i
2. La suma de probabilidades de los resultados experimentales debe ser igual a 1. Para n resultados
experiemntales decimos que:
P (E1 ) + P (E2 ) + · · · + P (En ) = 1
49
Método clásico
El método clásico de asignación de probabilidades es apropiado cuando todos los resultados experimentales tienen la misma posibilidad. Si existen n resultados experimentales, la probabilidad asignada
a cada resultado experimental es 1/n. Al emplear este métodos se satisfacen los dos requerimientos
básicos de la asignación de probabilidades.
Por ejemplo, considere el experimento del lanzamiento de una moneda, los dos resultados experimentales, cara o sello, tienen la misma posibilidad. Como uno de los dos resultados igualmente posibles
es cara, la probabilidad de que caiga cara es 1/2 o 0,5. Asimismo, la probabilidad de que caiga sello
también es 1/2 o 0,5.
Método de frecuencia relativa
El método de frecuencia relativa para la asignación de probabilidades es el más conveniente cuando
existen datos para estimar la proporción de veces que se presentarán los resultados si el experimento se
repite muchas veces. Considere, por ejemplo, un estudio sobre los tiempos de espera en el departamento
de rayos-x de un hospital pequeño. Durante 20 dı́as sucesivos un empleado registra el número de
personas que están esperando el servicio a las 9:00 am. Los resultados son los siguientes.
N personas
que esperan
N de dı́as:
Resultado de ocurrencia
0
1
2
3
4
2
5
6
4
3
Total = 20
En estos datos aparece que 2 de los 20 dı́as, hubo cero pacientes esperando el servicio, 5 dı́as hubo
un paciente en espera y ası́ sucesivamente. Con el método de la frecuencia relativa, la probabilidad
que se le asignará al resultado experimental cero pacientes esperan el servicio será de 2/20 = 0,1.
Al resultado experimental 1 paciente espera el servicio será de 5/20 = 0,25 ; a 2 pacientes esperan
el servicio será de 6/20 = 0,3 ; a 3 pacientes esperan el servicio será de 4/20 = 0,2 y a 4 pacientes
esperan el servicio será de 3/20 = 0,15.
Método Subjetivo
Este método se utiliza cuando no es posible asumir que todos los eventos son igualmente probables. En
este método cada individuo asigna subjetivamente una probabilidad a la ocurrencia de un hecho. La
probabilidad se traduce en el grado de confianza que se tiene acerca de que un resultado experimental
ocurra.
50
Por ejemplo,, Camila y Gastón están postulando a una oferta de trabajo y le preguntan sobre su
expectativa de renta. Las personas hacen una oferta tal que:
E1 = su oferta es aceptada
E2 = su oferta no es aceptada
Camila cree que la probabilidad de que su oferta sea aceptada es de 0,8, por tanto, establece que
P (E1 ) = 0, 8 y P (E2 ) = 0, 2. Por otro lado, Gastón cree que la probabilidad de que su oferta sea
aceptada es de 0,6, por tanto, P (E1 ) = 0, 6 y P (E2 ) = 0, 4. Observe que la estimación de probabilidad
de E1 de Gastón es más pesimista que la de Camila. El hecho de las probabilidades sean diferentes es
la razón de que el método sea conocido como el método subjetivo.
5.2.
Propiedades de la Probabilidad
Complemento de un evento
Dado un evento A, el complemento de A se define como el evento que consta de todos los puntos
muestrales que no están en A. El complemento de A se denota como Ac .
P (A) + P (Ac ) = 1
Luego, se cumple necesariamente que
P (A) = 1 − P (Ac )
Unión de eventos
La unión de A y B es el evento que contiene todos los puntos muestrales que pertenecen a A o B. La
unición de denota como A ∪ B
Espacio Muestral: S
Evento A
Evento B
A∪B
Intersección de eventos
Dados son eventos A y B, la intersección de A y B es el evento que contiene los puntos muestrales que
pertenecen tanto a A como a B.
51
Espacio Muestral: S
Evento A
Evento B
A∩B
Eventos mutuamente excluyentes
Los eventos A y B son mutuamente excluyentes si, cuando un evento ocurre, el otro no puede ocurrir.
Por tanto, para que A y B sean mutuamente excluyentes, se requiere que su intersección no contenga
ningún punto muestral; P (A ∩ B) = 0
Espacio Muestral: S
Evento A
Evento B
P (A ∩ B) = 0
Adición
Permite determinar la probabilidad de que ocurra, al menos, uno de los dos eventos. Es decir, si A
y B son evento, interesa hallar la probabilidad de que ocurra el evento A o el evento B o ambos. La
adición se emplea para calcular la probabilidad de unión de los dos eventos.
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Los dos primeros términos P (A) + P (B) corresponden a los puntos muestras A ∪ B. Pero como los
puntos muestrales que se encuentran en la intersección A ∩ B están tanto en A como en B, cuando se
calcula P (A) + P (B), los puntos A ∩ B se cuentan dos veces, luego es necesario restarlos.
Por ejemplo, el gerente de recursos humanos de una empresa identificó que el 30 % de los empleados
que se van antes de los 2 años de la empresa, lo hacen por estar insatisfechos con el salario, 20 % se
van de la empresa por estar descontentos con el trabajo y el 12 % por estar insatisfechos con las dos
cosas; el salario y el trabajo. ¿Cuál es la probabilidad de que un empleado que se vaya de la empresa en menos de dos años lo haga por estar insatisfecha con el salario, con el trabajo, o con las dos cosas?
Sea
S
W
= evento el empleado se va de la empresa por insatisfacción con el salario
= evento el empleado se va de la empresa por insatisfacción con el trabajo
52
Se tiene que P (S) = 0,3, P (W ) = 0,2 y P (S ∩ W ) = 0,12. Luego,
P (S ∪ W ) = P (S) + P (W ) − P (S ∩ W ) = 0,3 + 0,2 − 0,12 = 0,38
Ergo, la probabilidad de que un empleado se vaya de la empresa por el salario o por el trabajo es de 38 %
En el caso de eventos mutuamente excluyentes, la suma de probabilidades se expresa como
P (A ∪ B) = P (A) + P (B)
Probabilidad Condicional
En algunas ocaciones la probabilidad de ocurrencia de un hecho depende de que otro hecho haya ocurrido antes. Por ejemplo, un padre le dice a su hijo “si te comes toda la comida, puedes salir a jugar”.
La ocurrencia del hecho “salir a jugar”depende del hecho “comerse toda la comida”. Si denotamos el
hecho “salir a jugar´´ como A y el hecho “comerse toda la comidaçomo B, entonces la probabilidad
condicional se denota como P (A | B).
Por ejemplo, el departamento de bienestar de una universidad ha dado a conocer los resultados de
una beca para estudiar Ingenierı́a Comercial. Éstos se muestran en la tabla a continuación:
Hombre
Mujer
Total
Becado
No becado
288
672
36
204
324
876
Total
960
240
1200
Luego de conocer los resultados, el Frente Amplio Feminista de Mujeres protestó contra la asignación
de becas ya que de los 324 becados, sólo 36 eran mujeres. El departamento de bienestar de la universidad respondió a las quejas argumentando que la asignación de becas habı́a sido aleatoria y que la
cantidad de mujeres que habı́a postulado a la beca era menor a la de hombres.
Sea:
M
M
A
Ac
=
=
=
=
el
el
el
el
evento
evento
evento
evento
de
de
de
de
que
que
que
que
un becado sea hombre
un becado sea hombre
una persona gane una beca
una persona no gane una beca
Al dividir el número de hombres y mujeres becados y no becados por el total de postulantes, podemos
concluir que:
P (M
P (M
P (W
P (W
∩ A)
∩ Ac )
∩ A)
∩ Ac )
=
=
=
=
288/1200
672/1200
36/1200
204/1200
=
=
=
=
0,24
Probabilidad de que un hombre sea becado
0,56 Probabilidad de que un hombre no sea becado
0,03
Probabilidad de que una mujer sea becada
0,17 Probabilidad de que una mujer no sea becada
53
Estos valores muestran la probabilidad conjunta, es decir, la probabilidad de la intersección de dos
eventos. Luego, la tabla de probabilidades conjuntas se construye como
Hombre (M)
Mujer (W)
Total
Becado (A)
No becado (Ac )
0.24
0.56
0.03
0.27
0.27
0.73
Total
0.8
0.2
1
Las probabilidades asignadas a los totales corresponde a las probabilidades de ocurrencia de cada
evento por separado. A estas probabilidades también se les conoce como probabilidades marginales. Las probabilidades marginales se obtienen al sumar la probabilidad conjunta de la fila o columna.
Por ejemplo, P (A) = P (M ∩ A) + P (W ∩ A) = 0,24 + 0,03 = 0,27. Se observa que el 80 % de los
postulantes a la beca son hombres y el 20 % son mujeres.
Luego, nos interesa conocer la probabilidad condicional de que una persona reciba la beca dado que
es hombre; P (A|M ). Sólo nos interesan los becados que son hombres. Como 288 de los 960 becados
son hombres las probabilidades de ganarse una beca dado que es hombre son 288/960 = 0,3. Esto es
288
288
0,24
1200
=
= 0,3
P (A|M ) =
=
960
960
0,8
1200
0.24 es la probabilidad conjunta de A y M, es decir, P (A ∩ M ) = 0,24, y 0.8 es la probabilidad
marginal de que un becado seleccionado aleatoriamente sea hombre. Es decir P (M ) = 0,8. Por tanto,
la probabilidad condicional P (A|M ) se calcula como la razón entre P (A ∩ M ) y la probabilidad
marginal P (M ).
P (A|M ) =
0,24
P (A ∩ M )
=
= 0,3
P (M )
0,8
De forma general, para calcular la probabilidad condicional entre A y B como
P (A | B) =
P (A ∩ B)
P (B)
o bien P (B | A) =
P (A | B):
P (A ∩ B)
P (A)
Espacio Muestral S
Evento A
Evento B
A∩B
En el ejemplo de los becados, al considerar sólo las personas becadas, ya sean estas hombres o mujeres,
la probabilidad de que sean promovidas es de 0.27. Frente a la acusación de discriminación, la cuestión
54
relevante es ¿cuál es la probabilidad de que una persona sea becada dado que es hombre y cuál es
la probabilidad de que sea becada dado que es mujer? Si estas probabilidades son iguales, no hay
fundamentos para argumentar que se ha discriminado, ya que las oportunidades de ser promovidos
son las mismas para los hombres y para las mueres.
Ejemplo: ¿Cuál es la probabilidad una persona sea becada dada que es mujer?
Calculamos P (A|W ). Esto es
P (A|W ) =
0,03
P (A ∩ W )
=
= 0,15
P (W )
0,2
Luego, la probabilidad de que una persona sea becada dada que es mujer es 15 %, la mitad de la
probabilidad de que un hombre sea becada, 30 %. Este calculo confirma el argumento de discriminación.
Eventos Independientes
Dos eventos son independientes si
P (A | B) = P (A) o bien P (B | A) = P (B)
En el ejemplo anterior, la probabilidad de se becado (evento A) le afecta o le influye el que la persona
sea hombre o mujer. Es decir, la probabilidad del evento A la altera o le afecta saber que se da el
evento M (ser hombre). Luego, los eventos A y W son eventos dependientes. Si la probabilidad de
un evento A no cambia por la existencia del evento M, entonces los eventos A y M son eventos
independientes.
Multiplicación
Mientras que la suma de probabilidades permite calcular la probabilidad de la unión de dos eventos, la
multiplicación es útil para calcular la probabilidad de la intersección de dos eventos. La multiplicación
se basa en la probabilidad condicional.
P (A ∩ B) = P (B)P (A | B) o bien P (A ∩ B) = P (A)P (B | A)
Por ejemplo: el 84 % de los hogares de la comuna de Santiago están suscritos El Mercurio. Si D denota
el evento un hogar esta suscrito, P (D) = 0,84. Además, sabe que la probabilidad de que un hogar ya
suscrito a la edición diaria se suscriba también a la edición dominical (evento S ) es de 0.75. Esto es,
P (A | D) = 0,75. ¿Cuál es la probabilidad de que un hogar se suscriba a ambas, a la edición diaria y
a la domincal?
P (S ∩ D) = P (D)P (S | D) = 0,84(0,75) = 0,63
Luego, el 63 % de los hogares se suscriben a ambas ediciones.
55
Si dos eventos son independientes, la multiplicación entre ellos se calcula como la multiplicación de
las probabilidades correspondientes.
P (A ∩ B) = P (A)P (B)
Note que dos eventos son independientes si P (A ∩ B) 6= P (A)P (B), entonces A y B son eventos
independientes.
5.3.
Teorema de Bayes
El Teorema de Bayes permite corregir probabilidades cuando tenemos nueva información respecto a
un evento. El teorema de Bayes es aplicable cuando los eventos para los que se quiere calcular la
probabilidad revisada son mutuamente excluyentes y su unión es todo el espacio muestral.
Por ejemplo: Considere una fábrica que compra piezas a dos proveedores. Sea A1 el evento la pieza
proviene del proveedor 1, que corresponden al 65 % de las compras, y A2 el evento la pieza proviene del
proveedor 2, que corresponden al 35 %. Por tanto, si se toma una pieza aleatoriamente, la probabilidad
previa es P (A1 ) = 0,65 y P (A2 ) = 0,35
La calidad de las piezas compradas varı́a se acuerdo al proveedor. Por experiencia, sabe que la calidad
de los dos proveedores es la siguiente
Piezas buenas ( %) Piezas malas ( %)
Proveedor 1
98
2
Proveedor 2
95
5
Si G denota el evento la pieza esta buena y B denota el evento la pieza está mala, las probabilidades
condicionales son:
P (G | A1 ) = 0,98 P (B | A1 ) = 0,02
P (G | A2 ) = 0,95 P (B | A2 ) = 0,05
Un análisis mediante un diagrama de árbol permite conocer los resultados experimentales de si una
pieza está buena o mala.
A1
G
(A1 , G)
A2
B
G
(A1 , B)
(A2 , G)
56
B
(A2 , B)
Se observa que existen cuatro resultados experimentales. Cada resultado experimental es la intersección
de dos eventos, de manera que para calcular estas probabilidades, se puede usar la multiplicación.
Luego, las probabilidades para cada resultado experimental son
Las probabilidades del paso 1 son probabilidades previas, y las probabilidades del paso 2 son probabilidades condicionales. Para hallar las probabilidades de cada uno de los resultados experimentales,
simplemente se multiplican las probabilidades de las ramas que llevan a este resultado.
Suponga ahora que las piezas se emplean en el proceso de fabricación y cada vez que se utiliza una
pieza defectuosa la máquina se descompone. Dada la información de que la pieza está mala ¿cuál es
la probabilidad de que sea del proveedor 1 y cual es la probabilidad de que sea del proveedor 2? Para
responder a esta pregunta utilizamos el teorema de Bayes.
Como B es el evento de que una pieza esté mala, lo que se busca son las probabilidades posteriores
P (A1 | B) y P (A2 | B). Por probabilidad condicional sabemos que
P (Ai | B) =
P (Ai ∩ B)
P (B)
Además, sabemos que
P (Ai ∩ B) = P (Ai )P (B | Ai )
Luego, para hallar P (B) se observa que B sólo puede presentarse de dos maneras (A1 ∩ B) y (A2 ∩ B).
Por tanto,
P (B) = P (A1 ∩ B) + P (A2 ∩ B) = P (A1 )P (B | A1 ) + P (A2 )P (B | A2 )
57
Sustituyento P (Ai ∩B) y P (B) en P (Ai | B) se obtiene el teorema de Bayes para el caso de dos eventos.
P (Ai |B) =
P (Ai )P (B | Ai )
P (Ai )P (B | Ai ) + P (Aj )P (B | Aj )
Luego,
P (A1 | B) =
P (A1 )P (B | A1 )
P (A1 )P (B | A1 ) + P (A2 )P (B | A2 )
=
0,0130
(0,65)(0,02)
=
(0,65)(0,02) + (0,35)(0,05)
0,0130 + 0,0175
=
0,0130
= 0,4262
0,0305
De igual forma,
P (A2 | B) =
P (A2 )P (B | A2 )
P (A2 )P (B | A2 ) + P (A1 )P (B | A1 )
=
(0,35)(0,05)
0,0175
=
(0,65)(0,02) + (0,35)(0,05)
0,0130 + 0,0175
=
0,0175
= 0,5738
0,0305
Por tanto, dada la información de que la pieza está mala, la probabilidad de que la pieza provenga del
proveedor 1 bajó a 42,62 %. De hecho, si la pieza está mala la posibilidad de que sea del proveedor 2
es mayor del 50 %; P (A2 | B = 57,38 %
El siguiente cuadro resume los pasos.
Ai
P (Ai )
P (B | Ai )
P (Ai ∩ B)
A1
0.65
0.02
0.0130
A2
0.35
P
=1
0.05
0.0175
P
= 0,0305
P (Ai | B)
0,0130
= 0,4262
0,0305
0,0175
= 0,5738
0,0305
P
=1
De forma general, en el caso de n eventos mutuamentes excluyntes A1 , A2 , ..., An cuya unión sea todo el
espacio muestral, el teorema de Bayes aplica para cualquira de las probabilidades posteriores P (Ai | B)
como
P (Ai | B) =
6.
P (Ai )P (B | Ai )
P (A1 )P (B | A1 ) + P (A2 )P (B | A2 ) + · · · + P (An )P (B | An )
Distribución de probabilidades
Un experimento probabilistico es definido como un proceso que genera resultados definidos. En cada
una de las repeticiones de un experimento habrá uno, y sólo uno, de los posibles resultados experimentales. Una variable aleatoria o estocástica proporciona un medio para describir los resultados
experimentales empleando valores numéricos. Una variable aleatoria puede ser discreta o continua
58
dependiente del tipo de valores numéricos que asuma.
6.1.
Variables aleatoria discretas
Una variable aleatoria es discreta si asume un número finito de valores o una sucesión infinita de
valores que son divisibles un número finito de veces. Por ejemplo, los número naturales tal que
N = 1, 2, 3, 4, 5, .... Por ejemplo, sea x una variable aleatoria que mide el número de autos que pasan
por una plaza de peajes. La variable x puede tomar los valores 0, 1, 2, ... etc. Ası́, x es una variable
aleatoria discreta que toma uno, y sólo uno, de los valores de esta sucesión infinita.
Una variable aleatoria también puedo tomar resultados no-numétricos pero que se codifican de forma
numérica. Por ejemplo, en una encuesta se le puede preguntar a las personas si conocen un producto.
La respuesta puede ser si o no. La codificación de la variable se puede hacer como x = 0 si la persona
responde no y x = 1 si la persona responde sı́. x es una variable aleatoria porque proporciona una
descripción numérica de los resultados del experimento.
6.1.1.
Distribución de probabilidad discreta
La distribución de probabilidad de una variable aleatoria describe cómo se distribuyen las probabilidades entre los valores de la variable aleatoria. La distribución de probabilidad está definida por una
función de probabilidad denotada por f (x). Esta función de probabilidad da la probabilidad de cada
valor de la variable aleatoria.
Por ejemplo: Considere las ventas de automóviles de una automotora. Durante los últimos 300 dı́as de
operación, los datos de ventas muestran que hubo 57 dı́as en los que no se vendió ningún automóvil,
117 dı́as en los que se vendió 1 automóvil, 72 dı́as en los que se vendieron 2 automóviles, 42 dı́as en
los que se vendieron 3 automóviles, 12 dı́as en los que se vendieron 4 automóviles y 3 dı́as en los que
se vendieron 5 automóviles. Suponga que considera el experimento de seleccionar un dı́a de operación
y se define la variable aleatoria de interés como x = número de automóviles vendidos en un dı́a. De
acuerdo con datos del pasado, se sabe que x es una variable aleatoria discreta que puede tomar los
valores 0, 1, 2, 3, 4 o 5. En la notación de funciones de probabilidad f (0) da la probabilidad de vender
0 automóviles, f (1) da la probabilidad de vender 1 automóvil, y ası́ en lo sucesivo. Como los datos
del pasado indican que en 54 de 300 dı́as se vendieron 0 automóviles, a f (0) se le asigna el valor
54/300 = 0,18, lo que significa que la probabilidad de que se vendan 0 automóviles en un dı́a es 18 %.
De manera similar, como en 117 de los 300 dı́as se vendió un automóvil, a f (1) se le asigna el valor
4117/300 = 0,39, que significa que la probabilidad de que se venda exactamente 1 automóvil en un
dı́a es 39 %. Continuando de esta manera con los demás valores de la variable aleatoria, se obtienen
los valores de f (2), f (3), f (4) y f (5).
Una ventaja importante de definir una variable aleatoria y su correspondiente distribución de probabilidad es que una vez que se conoce la distribución de probabilidad, es relativamente fácil determinar la
59
x
f (x)
0
1
2
3
4
5
0.18
0.39
0.24
0.14
0.04
0.01
Total
1
probabilidad de diversos eventos que pueden ser útiles para tomar decisiones. Por ejemplo, empleando
la distribución de probabilidad de la automotora, se observa que el número de automóviles que es
más probable vender en un dı́a es 1, ya que es f (1) = 0,39. Además se observa que la probabilidad
de vender tres o más automóviles en un dı́a es f (3) + f (4) + f (5) = 0,14 + 0,04 + 0,01 = 0,19. Estas
probabilidades pueden interesar para tomar decisiones estratégicas de las empresas.
Al elaborar una función de probabilidad para una variable aleatoria discreta, se deben satisfacer las
dos condiciones siguientes:
f (x) > 0
P
f (x) = 1
La forma más sencilla para describir las funciones de probabilidad es mediante la fórmula de distribuciones de probabilidad uniforme discreta, tal que:
f (x) =
1
n
,donde n =número de valores que puede tomar la variable aleatoria.
Por ejemplo: si en el experimento que consiste en lanzar un dado se define una variable aleatoria x
como el número de puntos en la cara del dado que cae hacia arriba. En este experimento la variable
aleatoria toma n = 6 valores; x = 1, 2, 3, 4, 5, 6. Por tanto, la función de probabilidad de esta variable
aleatoria uniforme discreta es:
f (x) =
1
6
, x = 1, 2, 3, 4, 5, 6
La probabilidad para cada evento es 1/6 y la distribución de probabilidades de la variable es la
siguiente:
6.1.2.
Valor esperado
El valor esperado de una variable es una medida de la localización central de la variable aleatoria.
Corresponde a la media. Ésta se calcula como
X
E[x] = µ =
xf (x)
donde la notación E[x] y µ se usan para denotar el valor esperado de una variable aleatoria x. Para
calcular el valor esperado de una variable aleatoria discreta se multiplica cada valor de la variable
60
x
f (x)
0
1
2
3
4
5
6
1/6
1/6
1/6
1/6
1/6
1/6
1/6
aleatoria por su probabilidad correspondiente f (x) y después se suman estos productos. El valor
esperado es un promedio ponderado de los valores que toma la variable aleatoria. Los pesos son las
probabilidades. El valor esperado no necesariamente tiene que ser un valor que pueda tomar la variable
aleatoria. En el ejemplo de la automotora, el cálculo serı́a el siguiente:
x
f (x)
xf (x)
0
1
2
3
4
5
0.18
0.39
0.24
0.14
0.04
0.01
0(0.18) = 0
1(0.39) = 0.39
2(0.24) = 0.48
3(0.14) = 0.42
4(0.04) =0.16
5(0.01) = 0.05
Total = 1.5
La suma de las entradas en la columna xf (x) indica que el valor esperado es 1.50 automóviles por dı́a.
Por tanto, aunque se sabe que en un dı́a las ventas pueden ser de 0, 1, 2, 3, 4 o 5 automóviles, se prevé
que, a la larga, se venderán 1.5 automóviles por dı́a. Si en un mes hay 30 dı́as de operación, el valor
esperado, 1.5, se emplea para pronosticar que las ventas promedio mensuales serán de 30(1,5) = 45
automóviles.
6.1.3.
Varianza
La varianza permite resumir la variabilidad o dispersión en los valores de la variable aleatoria. La
varianza de una variable aleatoria se calcula de la siguiente forma:
V ar(x) = σ 2 =
X
(x − µ)2 f (x)
La desviación x−µ mide qué tan lejos del valor esperado, o media µ, se encuentra un valor determinado
de la variable aleatoria. Para calcular la varianza de una variable aleatoria, estas desviaciones se elevan
al cuadrado y después se ponderan con el correspondiente valor de la función de probabilidad. A la
suma de estas desviaciones al cuadrado, ponderadas, se le conoce como varianza. Para denotar la
varianza de una variable aleatoria se usan las notaciones V ar(x) y σ 2 .
61
En el ejemplo de la automotora, la varianza es de 1.25. El cácluclo se muestra en la tabla 13. La desviación estándar, σ, se define como la raı́z cuadrada de la varianza. En el ejemplo de los automóviles
√
σ = 1,25 = 1,118. La desviación estándar se mide en las mismas unidades que la variable aleatoria,
σ = 1,118 automóviles, y, por tanto, suele preferirse para describir la variablididad de una variable
aleatoria. La varianza σ 2 se mide en unidades al cuadrado por lo que es más dificil de interpretar.
Cuadro 13: Distribución de probabilidad en la venta de autos
x
f (x)
xf (x)
0
1
2
3
4
5
0.18
0.39
0.24
0.14
0.04
0.01
0(0.18)
1(0.39)
2(0.24)
3(0.14)
4(0.04)
5(0.01)
=
=
=
=
=
=
0
0.39
0.48
0.42
0.16
0.05
x−µ
(x − µ)2
0 - 1.5 = -1.5
1 - 1.5 = -0.5
2 - 1.5 = 0.5
3 - 1.5 = 1.5
4 - 1.5 = 2.5
5 - 1.5 = 3.5
2.25
0.25
0.25
2.25
6.25
12.25
Total = 1.5
6.1.4.
(x − µ)2 f (x)
2.25(0.18) = 0.4050
0.25(0.39) = 0.0975
0.25(0.24) = 0.06
2.25(0.14) = 0.315
6.25(0.04) = 0.25
12.25(0.01) = 0.1225
Total = 1.25
Distribución de probabilidad binomial
Una distribución de probabilidades binomial es una distribución de probabilidades discreta que cuenta
el número de éxitos en una secuencia de n ensayos de Bernoulli independientes entre sı́, con una probabilidad fija p de ocurrencia del éxito entre los ensayos. Un experimento de Bernoulli se caracteriza
por ser dicotómico, es decir, sólo pueden existir dos resultados.
Un experimento binomial tiene cuatro propiedades:
1. El experimento consiste en una serie de n ensayos idénticos.
2. En cada ensayo hay dos resultados posibles. A uno de estos resultados se les llama éxito y al
otro se le llama fracaso.
3. La probabilidad de éxito, que se denota p, no cambia de un ensayo a otro. Por ende, la probabilidad de fracaso, que se denota 1 − p, tampoco cambia de un ensayo a otro.
4. Los ensayos son independientes.
En un experimento binominal, lo que interesa es el número de éxitos en n ensayos. Si x denota el
número de éxitos en n ensayos, x tomará los valores 0, 1, 2, 3, ..., n. A la distribución de probabilidad
de esta variable aleatoria se le llama distribución de probabilidad binomial. A la propiedad 3
se le llama supuesto de estacionariedad. Para que una variable sea estacionaria, se le exige que su
distribución de probabilidades no cambie en el tiempo.
Por ejemplo: Considere el experimento de lanzar 5 monedas. Suponga que lo que nos interesa es contar
el número de veces que el experimento resulta en que la moneda muestra cara. La variable aleatoria
62
que interesa es x = número de caras que aparencen en cinco ensayos. En este caso, x puede tomar los
valores 0, 1, 2, 3, 4, o 5. Luego se cumplen las propiedades tal que:
1. El experimento consiste en cinco ensayos idénticos; cada ensayo consiste en lanzar una moneda.
2. En cada ensayo hay dos resultados posibles; cara o sello. Se puede considerar cara como como
éxito y sello como fracaso.
3. La probabilidad de éxito y la probabilidad de fracaso son iguales en todos los ensayos, donde
p = 0,5 y 1 − p = 0,5.
4. Los ensayos o lanzamientos de la moneda, son independientes porque al resultado de un ensayo
no le afecta lo que pase en los otros ensayos o lanzamientos.
Ejemplo: Considere a un vendedor de seguros que visita a 10 familias elegidas en forma aleatoria.
El resultado correspondiente de la visita a cada familia se clasifica como éxito si la familia compra
un seguro y como fracaso si la familia no compra ningún seguro. Por experiencia, el vendedor sabe
que la probabilidad de que una familia tomada aleatoriamente compre un seguro es 0,10. Describa el
experimento en base a sus propiedades.
1. El experimento consiste en 10 ensayos idénticos; cada ensayo consiste en visitar a una familia.
2. En cada ensayo hay dos resultados posibles: la familia compra un seguro (éxito) o la familia no
compra ningún seguro (fracaso).
3. Las probabilidades de que haya compra y de que no haya compra se supone que son iguales en
todas las visitas, siendo p = 0,10 y 1 − p = 0,90.
4. Los ensayos son independientes porque las familias se eligen en forma aleatoria.
La variable aleatoria que interesa es el número de ventas al visitar a las 10 familias. En este caso los
valores que puede tomar x son 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 y 10.
Ejemplo: Considere las decisiones de compra de los próximos tres clientes que entren a una tienda
de ropa. De acuerdo con la experiencia, el gerente de la tienda estima que la probabilidad de que un
cliente realice una compra es 0,30. ¿Cuál es la probabilidad de que dos de los próximos tres clientes
realicen una compra?
Un diagrama de árbol permite visualizar el experimento tiene 8 posibles resultados. Sea S el resultado que denota un éxito (el cliente compra) y F el resultado que denota un fracaso (el cliente no
compra), lo que interesa son los resultados experimentales en los que haya dos éxitos en los tres ensayos.
El experimento de las decisiones de compra es un experimento binomial ya que cumplen con las 4
propiedades:
63
1. Es posible describir el experimento como una serie de tres ensayos idénticos, un ensayo por cada
uno de los tres clientes que llegan a la tienda.
2. Cada ensayo tiene dos posibles resultados: el cliente hace una compra (éxito) o el cliente no hace
ninguna compra (fracaso).
3. La probabilidad de que el cliente haga una compra (0,30) o de que no haga una compra (0,70)
se supone que es la misma para todos los clientes. Es decir, esta variable es estacionaria.
4. La decisión de comprar de cada cliente es independiente de la decisión de comprar de los otros
clientes.
El número de resultados experimentales en los que hay dos compras, el número de maneras en que son
posibles x = 2 éxitos en n = 3 ensayos se puede calcular con la fórmula de conteo para combinaciones:
!
n
n!
=
Cxn =
x!(n − x)!
x
C23
=
3
2
!
=
3!
6
= =3
2!(3 − 2)!
2
Luego, podemos afirmar que, en tres de los ocho resultados experimentales, hay dos éxitos, que son
(S, S, F), (S, F, S) y (F, S, S).
Para determinar la probabilidad de x éxitos en n ensayos, es necesario conocer también la probabilidad
correspondiente a cada uno de estos resultados experimentales. Como en un experimento binomial,
64
los ensayos son independientes, para hallar la probabilidad de una determinada sucesión de éxitos y
fracasos simplemente se multiplican las probabilidades correspondientes al resultado de cada ensayo.
Por ejemplo, la probabilidad de que los dos primeros clientes compren y el tercero no compre, denotada
por (S, S, F) está dada por pp(1 − p). Puesto que la probabilidad de compra en cualquier ensayo es
0.30, la probabilidad de que haya una compra en los dos primeros ensayos y que no haya compra en
el tercer ensayo es (0,3)(0,3)(0,7) = (0,3)2 (0,7) = 0,063 = 6,3 %. Luego,
Resultado
experimental
Probabilidad del
resultado experimental
(S, S, F)
(S, F, S)
(F, S, S)
pp(1 − p) = 0,063
p(1 − p)p = 0,063
(1 − p)pp = 0,063
Observe que los tres resultados experimentales en los que hay dos éxitos tienen la misma probabilidad.
Esto se cumple para toas las sucesiones de experimentos independientes. En cualquier experimento
binomial todas las series de resultados de ensayos en las que hay x éxitos en n ensayos tienen la misma
probabilidad de ocurrencia. De forma general:
Probabilidad de resultado = px (1 − p)(1−x)
Luego, la función de probabilidad binomial se calcula de la siguiente forma:
!
n x
f (x) =
p (1 − p)n−x
x
donde:
f (x) = probabilidad de x éxitos en n ensayos
n = número de ensayos
!
n
x
=
n!
x!(n − x)!
p = probabilidad de un éxito en cualquier ensayo
(1 − p) = probabilidad de un fracaso en cualquier ensayo
Para representar que una variable aleatoria X sigue una distribución binomial de parámetros n y p,
se escribe:
X ∼ B(n, p)
Para el ejemplo de la empresa de ropa, podemos calcular la función de probabilidad de que ningún
cliente realice una compra, de que un cliente realice una compra de que dos clientes realicen una
65
compra y de que los tres clientes realicen una compra.
si x = 0 →
3!
(0,3)0 (0,7)3 = 0,343
0!3!
si x = 1 →
3!
(0,3)1 (0,7)2 = 0,441
1!2!
si x = 2 →
3!
(0,3)2 (0,7)3 = 0,189
2!1!
3!
(0,3)3 (0,7)0 = 0,027
3!0!
Gráficamente, la distribución de probabilidad la podemos representar de la siguiente forma:
si x = 3 →
6.1.5.
Valor esperado y varianza de una distribución binomial
En el caso de que la variable aleatoria tenga una distribución binomial para la que se conoce el número
de ensayos n y la probabilidad de éxito p, el valor esperado se calcula como
E[x] = µ = np
En el caso de que la variable aleatoria tenga una distribución binomial para la que se conoce el número
de ensayos n y la probabilidad de éxito p, la varianza se calcula como
V ar(x) = σ 2 = np(1 − p)
Para el caso de la tienda de ropa, el valor esperado del número de clientes que realiza una compra
serı́a
E[x] = np = 3(0,3) = 0,9
La varianza y la desviación estándar del número de clientes que harán una compra son
σ 2 = np(1 − p) = 3(0,3)(0,7) = 0,63
√
√
σ = σ 2 = 0,63 = 0,79
66
Ejemplo: Suponga que la tienda de ropa espera que 1000 clientes entren en la tienda el próximo mes.
¿Cuál es el número esperado de clientes que harán una compra?. Luego,
E[x] = np
= (1000)(0,30) = 300.
2
σ
= np(1 − p) = 1000(0,3)(0,7) = 210
√
√
σ
=
σ2
=
210 = 14,49
6.1.6.
Distribución de probabilidad de Poisson
Esta distribución de probabilidades se utiliza para describir una variable aleatoria discreta que sucede
un hecho determinado (ocurrencia) en un intervalo de tiempo o de espacio. El número de ocurrencias es
una variable aleatoria discreta descrita por la distribución de probabilidades de Poisson si se satisfacen
las siguientes condiciones:
1. La probabilidad de ocurrencia es la misma para cualquiera de dos intervalos de la misma magnitud.
2. La ocurrencia o no-ocurrencia en cualquier intervalo es independiente de la ocurrencia o noocurrencia en cualquier otro intervalo.
El número de ocurrencias x, no tiene lı́mite superior. Ésta es una variable aleatoria discreta que toma
los valores de una sucesión infinita de números tal que x ∈ [0, ∞[. Una propiedad de la distribución
de Poisson es que la media y la varianza de la distribución son iguales.
La función de probabilidades de Poisson se define de la siguiente forma:
f (x) =
E[x]x · e−E[x]
x!
Donde
f (x) : probabilidad de x ocurrencia en un intervalo
E[x] : valor esperado de x
e : 2,71828
Ejemplo 1: Suponga que desea saber el número de personas que retira dinero de un cajero automático
en un lapso de 15 minutos. Si es posible suponer que la probabilidad de llegada de las personas es la
misma en cualquier lapso de tiempo tiempo de la misma duración y si la llegada o la no-llegada de una
persona en cualquier lapso es independiente de la llega o la no-llegada de una persona en cualquier
otro lapso, entonces se puede aplicar la función de probabilidad de Poisson. De la experiencia sabe
que, en un lapso de 15 minutos, 10 es el número promedio de personas que retiran dinero en un cajero
automático.
La variable aleatoria es x = número de personas que retiran dinero en un lapso de 15 minutos. Luego,
la función de probabilidad se define como
f (x) =
10x e−10
x!
67
Si desea conocer la probabilidad de que lleguen exactamente 5 personas en 15 minutos, entonces x = 5
y E[x] = 10, se obtiene que
105 e−10
f (x) =
= 0,0378
5!
Como la media y la varianza en una distribución de Poisson son iguales, entonces σ 2 = 10 y σ =
√
10 = 3,16.
Ejemplo 2: Suponga que le interesa conocer la ocurrencia de una averı́a en una autopista. Si es posible
suponer que la probabilidad de que haya una averı́a es la misma en cualquier tramo de la misma longitud y que la ocurrencia o no-ocurrencia de una averı́a en un tramo es independiente de la ocurrencia
o no-ocurrencia de una averı́a en cualquier otro tramo, entonces, es posible utilizar la distribución
de Poisson. Estudios han mostrado que, en promedio, ocurre un averı́a cada 2 kilómetro. ¿Cuál es la
probabilidad de que no haya ninguna averı́a en un tramo de 3 kilómetros?
Cómo lo que nos interesa es un intervalo de 3 kilómetros, µ = (2 averias/kilometros)(3 kilometros) =
6 representa el número esperado de averı́as en un tramo de 3 kilómetros de autopista. Utilizando la
ecuación de Poisson,
60 e−6
= 0,0025
f (x) =
0!
Por tanto, es poco probable que no haya ninguna averı́a en este tramo de 3 kilómetros. De hecho,
existe una probabilidad de 1 − 0,0025 = 0,9975 de que haya, por lo menos, una averı́a en este tramo
de 3 kilómetros.
Ejemplo: Suponga que desea calcular la probabilidad de que una persona retire dinero de un cajero
automático en un lapso de 3 minutos.
Como 10 es el número esperado de retiros de dinero en un lapso de 15 minutos, 10/15 = 2/3 es el
número esperado de llegadas en un lapso de un minuto. Luego (2/3)(3 minutos) = 2 es el número
esperado de personas que retiran dinero en un lapso de 3 minutos . Entonces, la probabilidad de x
llegadas en un lapso de 3 minutos con µ = 2 está dada por la siguiente función de probabilidad de
Poisson:
2x e−2
f (x) =
x!
2x e−2
= 0,2707
1!
⋆ Tabla de probabilidad de Poisson: Tabla 7 del apéndice B
f (1) =
6.1.7.
Distribución de probabilidad hipergeométrica
La distribución de probabilidades hipergeométrica está relacionada a la distribución binomial, pero en
esta distribución los ensayos no son independientes y la probabilidad éxito varı́a de ensayo a ensayo.
Sea r el número de elementos considerados como éxitos que hay en una población de tamaño N, y
68
N − r el número de elementos considerados como fracasos que hay en dicha población. La función de
distribución hipergeométrica permite calcular la probabilidad de que en una muestra aleatoria de n
elementos se tengan x éxitos y n − x fracasos. Para obtener este resultado, debemos tener x éxitos de
los r éxitos que hay en la población y n − r fracasos de los N − r fracasos. La probabilidad de tener
x éxitos en una muestra de tamaño n es:
!
!
r
N −r
x
n−x
!
para 0 6 x 6 r
f (x) =
N
n
Donde
f (x)
n
N
r
:
:
:
:
probabilidad de x éxitos en n ensayos
número de ensayos
número de elementos de la población
número de elementos en la población considerados como éxitos
69
Observe que
N
n
!
representa el número de maneras en que es posible tomar una muestra de tamaño
!
r
n de una población población de tamaño N ;
representa el número de formas en que se toman x
x
!
N −r
éxitos de un total de r éxitos que hay en la población, y
representa el número de maneras
n−x
en que se puede tomar n − r fracasos de un total de N − r que hay en la población.
Por ejemplo: Una empresa fabrica baterı́as que empaca en cajas de 12 unidades cada una. Asuma que un
inspector selecciona al azar 3 de las 12 baterı́as. Si la caja contiene exactamente 5 baterı́as defectuosas,
¿cuál es la probabilidad de que el inspector encuentre que uno de las 3 baterı́as defectuosas?. En este
caso n = 3 y N = 12. Si r = 5 baterı́as defectuosas en una caja, entonces la probabilidad de hallar
x = 1 baterı́as defectuosas es
!
!
5
12 − 5
5
7!
1
3−1
(5)(21)
1!(5 − 1)!
2!(7 − 2)!)
!
=
= 0,4773
=
f (1) =
12!
220
12
3!(12 − 3)!
3
Ejemplo: Suponga que desea conocer la probabilidad de hallar, por lo menos, una baterı́a defectuosa.
La probabilidad de encontrar, al menos, una baterı́as defectuosa equivale a la probabilidad de que
todas las baterı́as estén en buen estado, por lo que podemos calcular la probabilidad de no encontrar
ninguna baterı́a defectuosa. Esto es,
!
!
5
12 − 5
5
7!
0
3−0
(1)(35)
0!(5 − 0)!
3!(7 − 3)!)
!
=
= 0,1591
=
f (0) =
12!
220
12
3!(12 − 3)!
3
Si la probabilidad de cero baterı́as defectuosas es f (0) = 0,1591, se concluye que la probabilidad de
hallar, por lo menos, una baterı́a defectuosa debe ser de 1 − 0,1591 = 0,8409. ası́, existe una probabilidad alta de hallar, por lo menos, una baterı́a defectuosa.
La media y la varianza de una distribución hipergeométrica se calculan de la siguiente forma:
r
E[x] = µ = n
N
V ar(x) = σ 2 = n
r
r N −n
1−
N
N
N −1
En el ejemplo anterior, n = 3, r = 5 y N = 12. Por tanto, la media y la varianza del número de
baterı́as defectuosas es,
r
5
=3
= 1,25
E[x] = n
N
12
70
r
r N −n
5
5
12 − 3
σ =n
1−
=3
1−
= 0,6
N
N
N −1
12
12
12 − 1
2
Luego, la desviación estándar es σ =
√
0,6 = 0,77
Nota: Considere una distribución hipergeométrica con n ensayos. Sea p = (r/N ) la probabilidad de
éxito en el primer ensayo. Si el tamaño de la población es grande, el término (N-n)(N-1) de la ecuación
de la varianza se aproxima a 1. Entonces, el valor esperado y la varianza se expresan como E[x] = np
y σ 2 = np(1 − p). Estas expresiones son las mismas que se usan para calcular el valor esperado y
la varianza en una distribución binomial. Cuando el tamaño de la población es grande, se aproxima
una distribución hipergeométrica mediante una distribución binomial con n ensayos y probabilidad de
éxito p = (r/N )
6.2.
Variables aleatoria continuas
Es una variable que puede tomar cualquier valor numérico dentro de un intervalo o colección de intervalos. Los resultados experimentales basado en escalas de medición como tiempo, peso, distancia
y temperatura pueden ser descritos por variables aleatorias continuas. Por ejemplo, considere una
variable x que mide el tiempo de respuesta de un servicios de emergencias. Esta variable puede tomar cualquier valor en el intervalo x > 0. Una variable aleatoria continua puede tomar valores entre
0 6 x 6 100 si su escala de medición está en porcentaje. Por ejemplo, x puede referirse al grado de
avance en la construcción de un edificio.
En las variables aleatorias discretas la función de probabilidad f (x) da la probabilidad de que la variable aleatoria tome un valor determinado. En las variables aleatorias continuas, la contraparte de
la función de probabilidad es la función de densidad de probabilidad, que también se denota f (x).
La diferencia está en que la función de densidad de probabilidad no da probabilidades directamente.
Si no que el área bajo la curva de f (x) que corresponde a un intervalo determinado proporciona la
probabilidad de que la variable aleatoria tome uno de los valores de ese intervalo. De manera que
cuando se calculan probabilidades de variables aleatorias continuas se calcula la probabilidad de que
la variable aleatoria tome alguno de los valores dentro de un intervalo.
En una variable aleatoria continua, la función de frecuencia es reemplazada por la función de densidad,
f (x), la cual debe cumplir que:
f (x) ≥ 0
R∞
−∞ f (x)dx
=1
Si x es una variable aleatoria con una función de densidad f , entonces para cualquier a < b, la
71
probabilidad de que x caiga en el interalo (a, b) is el área bajo la función de densidad entre a y b:
P (a < x < b) =
Z
b
f (x)dx
a
Recuerde que, por el teorema fundamental del cálculo:
P (a ≤ x ≤ b) =
Z
b
a
f (x)dx = F (x)|ba = F (b) − F (a)
Diferencias entre una variable aleatoria continua y una variable aleatoria discreta:
1. La probabilidad de que una variable aleatoria tome un determinado valor, es reemplazada por
la probabilidad de que una variable aleatoria tome un valor dentro de un intervalo dado.
2. La probabilidad de que una variable aleatoria continua tome un valor dentro de un determinado
intervalo que va de x1 a x2 se define como el área bajo la gráfica de la función de densidad de
probabilidad entre x1 y x2 . Como un solo punto es un intervalo cuyo ancho es cero, esto implica
que la probabilidad de que una variable aleatoria continua tome un valor exacto, cualquiera,
es cero. Esto también significa que en cualquier intervalo la probabilidad de que una variable
aleatoria continua tome un valor es la misma, ya sea que se incluyan o no los extremos del
intervalo.
6.2.1.
Distribución de Probabilidad Uniforme
Considere una variable aleatoria x que representa el tiempo de vuelo de un avión que viaja de Santiago
a Concepción. Suponga que el tiempo de vuelo es cualquier valor en el intervalo de 120 minutos a 140
minutos. Dado que la variable aleatoria x toma cualquier valor en este intervalo, x es una variable
aleatoria continua y no una variable aleatoria discreta. La probabilidad de que el tiempo de vuelo esté
en cualquier intervalo de 1 minuto es el mismo que la probabilidad de que el tiempo de vuelo esté en
cualquier otro intervalo de 1 minuto dentro del intervalo que va de 120 a 140 minutos. Como cualquier
intervalo de 1 minuto es igual de probable, se dice que la variable aleatoria x tiene una distribución
de probabilidad uniforme. La función de densidad de probabilidad que define la distribución uniforme
de la variable aleatoria tiempo de vuelo, es
(
1/20 para 120 ≤ x ≤ 140
f (x) =
0
en cualquier otro caso
Una variable aleatoria uniforme de intervalo (0,1) es un modelo para lo que nos referimos cuando
decimos “escoja un número entre 0 y 1”. Cualquier número real en el intervalo es un resultado posible,
y el modelo de probabilidad deberı́a tener la propiedad que que la probabilidad de x es la misma dentro
del intervalo. En general, la función de densidad de probabilidad uniforme de una variable aleatoria x
en un intervalo (a, b) se define como
1
para a ≤ x ≤ b
b−a
f (x) =
0
x<a,x>b
72
En el caso de una variable aleatoria continua, sólo se considera la probabilidad en términos de la posibilidad de que la variable aleatoria tome un valor dentro de un determinado intervalo. En el ejemplo
del tiempo de vuelo, una pregunta aceptable acerca de una probabilidad es ¿Cuál es la probabilidad
de que el tiempo de vuelo se encuentre entre 120 y 130 minutos? Es decir, ¿cuál es P (120 ≤ x ≤ 130)?
Como el tiempo de vuelo debe estar entre 120 y 140 minutos y como se ha dicho que la probabilidad
es uniforme en este intervalo, es factible decir que P (120 ≤ x ≤ 130) = 0,5.
Considere el área bajo la gráfica de f (x) en el intervalo que va de 120 a 130. Esta área es rectangular
y el área de un rectángulo es simplemente el ancho multiplicado por la altura. Si el ancho del intervalo
es igual a 130 - 120 = 10 y la altura es igual al valor de la función de densidad de probabilidad
f (x) = 1/20, se tiene, área = ancho × alto = 10(1/20) = 10/20 = 0.5.
Ejemplo: Cuál es la probabilidad de un tiempo de vuelo entre 128 y 136 minutos. El ancho del intervalo
es 136−128 = 8. Como la altura uniforme de f (x) = 1/20, se ve que P (128 ≤ x ≤ 136) = 8(1/20) = 0,4
La esperanza y la varianza de una variable aleatoria continua que se distribuye uniforme están dadas
por
(b − a)2
a+b
σ2 =
E[x] =
2
12
6.2.2.
Distribución de Probabilidad Normal
En grande rasgos, el teorema central del lı́mite establece que, si una variable aleatoria es la suma de
un gran número de variable aleatoria independientes, entonces ésta se distribuye aproximadamente
como una normal. La función de densidad de una distribución normal, o distribución gaussiana, está
representada por:
1
2
2
f (x) = √ e−(x−µ) /2σ tal que −∞ < x < ∞
σ 2π
73
Donde,
µ
σ
π
e
=
=
=
=
valor esperado de x
desviación estándar
3,14159
2,71828
Si una variable x sigue una distribución normal con media µ y varianza σ 2 se denota como x ∽
N (µ, σ 2 ). El punto más alto de la curva se encuentra en la media, la cual coincide con la mediana
y la moda. La media de una distribución puede ser cualquier valor; positivo, negativo o cero. El
caso particular donde µ = 0 y σ = 1 es llamada distribución de probabilidad normal estándar. La
distribución normal es simétrica tal que mu, f (µ − x) = f (µ + x). La desviación estándar determina
qué tan plana es la curva normal. Si la desviación estándar es alta, entonces la curva es más plana y
ancha, lo que corresponde a una mayor dispersión de los datos.
En la figuera 6.2.2 se observan tres tipos de distribución, todas con media µ = 0. La distribución con
linea continua es x ∽ N (0, 0,5), La distribución en lı́nea punteada es x ∽ N (0, 1). Y la distribución en
linea discontinua es x ∽ N (0, 2).
Los porcentajes de los valores que se encuentran en algunos intervalos comúnmente usados son:
1. 68.3 % de los valores de una variable aleatoria normal se encuentran más o menos una desviación
estándar de la media.
2. 95.4 % de los valores de una variable aleatoria normal se encuentran más o menos dos desviaciones
estándar de la media.
74
3. 99.7 % de los valores de una variable aleatoria normal se encuentran más o menos tres desviaciones
estándar de la media.
Distribución Normal Estándar
Una variable aleatoria que tiene una distribución normal con una media cero y desviación estándar de
uno tiene una distribución normal estándar. Digamos que z es una variable normalizada de x, tal que,
x−µ
z=
σ
Entonces, µ = 0 y σ = 1. La formula de la función de densidad de probabilidad normal estándar es
1
2
f (z) = √ e−z /2
2π
6.2.3.
Función de Distribución
Los cálculos de la probabilidad en cualquier distribución se hacen calculando el área bajo la curva de
la función de densidad de probabilidad. Por tanto, para hallar la probabilidad de que una variable
aleatoria normal esté dentro de un determinado intervalo, se tiene que calcular el área que se encuentra bajo la curva normal y sobre ese intervalo. Esto corresponde a calcular la función de distribución
correspondiente.
Suponga que una variable aleatoria x tiene una función de densidad f (x), denotamos la función de
densidad como fx de distribución F (x) como Fx . Por ejemplo, suponga que x ∽ N (µ, σ 2 ) y que
y = ax + b, donde a > 0. La función de distribución de y es:
Fy (y) = P (ax + b ≤ y)
y−b
Fy (y) = P x ≤
a
y−b
Fy (y) = Fx
a
75
Luego,
Fy (y) =
=
d
y−b
Fx
dy
a
y−b
1
fx
a
a
Esto es el resultado general para cualquier variable aleatoria continua donde Fx sea diferenciable. Si
fx es una función de densidad normal con parámetros µ y σ, tenemos que
1
√
−
1 y − b − aµ
2
aσ
!2
e
aσ 2π
De esto, se observa que y sigue una distribución normal con parámetros aµ + b y aσ. Por tanto: Si
x ∽ N (µ, σ 2 ) y y = ax + b, entonces y ∽ N (aµ + b, a2 σ 2 ).
F (x) =
Suponga que x ∽ N (µ, σ 2 ) y queremos encontrar P (x0 < x < x1 ) para los números x0 y x1 . Considere
la variable aleatoria
x µ
x−µ
z=
= −
σ
σ σ
Si a = 1/σ y b = −mu/σ, entonces z ∽ N (0, 1), es decir, z sigue una distribución normal estándar.
Por tanto,
x−µ
x−µ
≤
)
Fx (x) = P (
σ
σ
x−µ
Fx (x) = P z ≤
σ
x−µ
Fy (y) = Φ
σ
Luego, tenemos que
P (x0 < x < x1 ) = Fx(x1 ) − F
x (x0 )
x1 − µ
x0 − µ
= Φ
−Φ
σ
σ
Por tanto, las probabilidades para una variable aleatoria normal pueden ser evaluadas en términos de
las probabilidades de una variable aleatoria normal estándar.
Por ejemplo: Los puntajes en un test de inteligencia están, aproximadamente, normalmente distribuidos
donde la media es µ = 100 y la desviación estándar es σ = 15. Si evaluamos el test sobre un número
grande de personas, la función de distribución discreta puede ser representada por una función de
distribución continua. Si una persona es seleccionada al azar, cuál es la probabilidad que su puntaje
x cumpla 120 < x < 130.
La probabilidad puede ser calculada utilizando la distribución de probabilidad normal estándar:
x − 100
130 − 100
120 − 100
<
<
P (120 < x < 130) = P
15
15
15
= P (1,33 < z < 2)
76
Donde z sigue una distribución normal estándar. Luego, por la tabla de la distribución normal estándar
P (1,33 < x < 2) = Φ(2) − Φ(1,33)
= 0,9772 − 0,9082
= 0,069
Por tanto, podemos concluir que, aproximadamente el 7 % de la población tendrá un puntaje en este
rango.
De forma general, se tiene que, si x se distribuye de forma normal con parámetros µ y σ, su función
de distribución es:
Z x
1
2
2
F (x) = √
e−(v−µ) /2σ dv
σ 2π −∞
La función de distribución de una variable aleatoria normal estándar viene dada por:
Z z
Z z
1
1
1
2
−u2 /2
√
√
e
du = +
e−u /2 du
F (z) =
2
2π −∞
2π 0
6.2.4.
Aproximación normal de las probabilidades binomiales
Recuerde que un experimento binomial consiste en una serie de n ensayos idénticos e independientes,
habiendo para cada ensayo dos resultados posibles, éxito o fracaso. La probabilidad de éxito en un
ensayo es la misma que en cualquier otro de los ensayos y se denota p. La variable aleatoria binomial
es el número de éxitos en n ensayos y lo que se quiere saber es la probabilidad de x éxitos en n ensayos.
En los casos en que np ≥ 5 y n(1 − p) ≥ 5, la distribución normal proporciona una aproximación a las
probabilidades binomiales que es fácil de usar. Al utilizar la aproximación normal de una distribución
binomail, tenemos que
p
µ = np
y
σ = np(1 − p)
Por ejemplo: Supongamos que una empresa sabe que el 10 % de sus facturas tiene algún error. Al
tomar 100 facturas al azar, desea calcular la probabilidad de que 12 de estas facturas tengan algún
error. Es decir, hallar la probabilidad binomial de 12 éxitos en 100 ensayos.
Al aplicar la aproximación normal se tiene que µ = np = (100)(0,1) = 10 y σ =
p
(100)(0,1)(0,9) = 3.
Sabemos que la probabilidad que tiene un solo valor de una variable aleatoria continua es cero. Por
tanto, para aproximar la probabilidad binomial de 12 éxitos se calcula el área bajo la curva normal
de 12 ± 5; esto es, entre 11.5 y 12.5.
Al 0,5 que se suma y se resta al 12 se le conoce como factor de corrección por continuidad.
Este factor se introduce debido a que se está usando una distribución continua para aproximar una
distribución discreta.
77
Por tanto, P (x = 12) de una distribución binomial discreta se aproxima mediante P (11,5 ≤ x ≤ 12,5)
en una distribución normal continua. Luego, tenemos que:
z1 =
x1 − µ
12,5 − 10,0
=
= 0,83 para
σ
3
x = 12,5
z0 =
x0 − µ
11,5 − 10,0
=
= 0,5
σ
3
x = 11,5
para
Según la tabla de probabilidad normal estándar P (z ≤ 0,83) = 0,7967 y P (z ≤ 0,5) = 0,6915. Luego,
0,7967 − 0,6915 = 0,1052. En conclusión, la probabilidad normal de obtener 12 facturas erroneas en
100 ensayos al azar es de 10.52 %.
6.2.5.
Distribución de probabilidad exponencial
Se define como
f (x) =
1 −x/µ
e
para x ≥ 0 , µ > 0
µ
Al igual que la distribución de Poisson, la distribución de probabilidad exponencial depende de un solo
parámetro µ > 0. Se aplica a variables que miden tiempo o distancia. Por ejemplo, las llegadas
de automóviles a un lavado de autos, los tiempos requeridos para cargar un camión o las distancias
entre dos estaciones de bencina en una carretera. Mientras mayor sea el valor esperado, más fuerte cae
78
el la función de densidad. La distribución exponencial es sesgada a la derecha. La medida del sesgo en
la distribución exponencial es 2.
Donde, µ = 0,5 (solida), µ = 1 (punteada) y µ = 2 (discontinua)
Por ejemplo: Suponga que x representa el tiempo que se necesita para cargar un camión en un área
de carga, y que este tiempo de carga sigue una distribución exponencial. Si el tiempo de carga medio
o promedio es 15 minutos (µ = 15), la función de densidad de probabilidad apropiada para x es
f (x) =
1 −x/15
e
15
El área bajo la curva corresponde a un intervalo de la probabilidad de que la variable aleatoria tome
algún valor. Por ejemplo: La probabilidad de cargar un camión en 6 minutos o menos P (x ≤ 6) está
definida como el área bajo la curva que va desde x = 0 hasta x = 6. Por ejemplo: La probabilidad de
que el tiempo de carga esté entre 6 y 18 minutos P (6 ≤ x ≤ 18) corresponde al área bajo la curva
desde x = 6 hasta x = 18.
La probabilidad de la distribución exponencial se calcula de la siguiente forma:
P (x ≤ x0 ) = 1 − e−
x0/µ
Esta fórmula aporta la probabilidad acumulada de obtener un valor de la variable aleatoria exponencial que sea menor o igual que algún valor especı́fico denotado por x0 . En el ejemplo del área de
carga, si x = “tiempo de carga en minutos” y µ = 15 minutos, entonces
P (x ≤ x0 ) = 1 − e−
79
x0/15
Por tanto, la probabilidad de cargar un camión en x0 = 6 minutos es
P (x ≤ 6) = 1 − e− /15 = 0,3297 = 32,97 %
6
La distribución exponencial tiene la propiedad de que la media de la distribución y la desviación
estándar de la distribución son iguales. Por tanto, la desviación estándar del tiempo que se necesita
para cargar un camión es σ = 15 minutos y la varianza es σ 2 = (15)2 = 225.
6.2.6.
Relación entre la distribución de Poisson y la distribución exponencial
La distribución de probabilidades de Poisson permite calcular probabilidades discretas que se usa para
examinar el número de ocurrencias de un evento en un determinado intervalo de tiempo o
de espacio.
µx e−µ
f (x) =
x!
Si la distribución de Poisson da una descripción del número de ocurrencias por intervalo, la distribución
exponencial aporta una descripción de la longitud de los intervalos entre las ocurrencias. Por
ejemplo, suponga que el número de autos que llegan a un lavado durante una hora se describe mediante
la distribución de probabilidad de Poisson, con una media de 10 automóviles por hora. Dado que el
número promedio de llegadas es 10 autos por hora, el tiempo promedio entre las llegadas de los autos
es
1 hora
= 0,1 hora/auto
10 autos
Luego, la distribución exponencial que describe el tiempo entre las llegadas tiene una media de µ = 0,1
por auto; la función de densidad de probabilidades exponencial es
f (x) =
1 −x/0,1
e
= 10e10x
0,1
80
7.
Estimadores
Un estimador es un estadı́stico (una función de la muestra) que resume la información de una variable aleatoria, usado para estimar un parámetro desconocido de la población. Para cada parámetro
pueden existir varios estimadores diferentes. En general, escogeremos el estimador que posea mejores
propiedades. El valor que un estimador proporciona se denomina estimación puntual del valor del
parámetro en estudio. Las propiedades de un estimador son:
1. Sesgo: Diferencia entre la esperanza (o valor esperado) del estimador y el verdadero valor del
parámetro a estimar. Es deseable que un estimador sea insesgado; su esperanza igual al parámetro
que se desea estimar.
1 Pn
E[x̄] = E
xi
n i=1
1 Pn
E [ i=1 xi ]
=
n
1 Pn
=
E [xi ]
n i=1
1 Pn
µ
=
n i=1
1
=
nµ
n
E[x̄] = µ
2. Eficiencia: un estimador es más eficiente o más preciso que otro estimador, si la varianza del
primero es menor que la del segundo.
var(x̄) < var(ȳ)
3. Consistencia: Si no es posible emplear estimadores de mı́nima varianza, el requisito mı́nimo
deseable para un estimador es que a medida que el tamaño de la muestra crece, el valor del
estimador tienda a ser el valor del parámetro.
E[x̄] → x
cuando
var(x̄) → 0 cuando
n→∞
n→∞
4. Robustez: El estimador θ̂ será un estimador robusto del parámetro θ si la violación de los
supuestos de partida en los que se basa la estimación (normalmente, atribuir a la población un
determinado tipo de función de distribución que, en realidad, no es la correcta), no altera de
manera significativa los resultados que éste proporciona.
Para estimar el valor de un parámetro poblacional, la caracterı́stica correspondiente se calcula con los
datos de la muestra, a lo que se le conoce como estadı́stico muestral. En general, se suele preferir
realizar una estimación mediante un intervalo, esto es, obtener un intervalo [a, b] dentro del cual se
espera esté el valor real del parámetro con un cierto nivel de confianza. Utilizar un intervalo resulta
más informativo, al proporcionar información sobre el posible error de estimación, asociado con la
amplitud de dicho intervalo. El nivel de confianza es la probabilidad de que a priori el verdadero valor
81
del parámetro quede contenido en el intervalo. Por ejemplo, para estimar la media poblacional µ y la
desviación estándar poblacional σ de xi = los salarios anuales de los trabajadores de una empresa,
con una muestra de n = 30, se tiene que:
Le media
P
1554420
xi
=
= 51814
µ̂ =
n
30
La desviación estándar
sP
r
325,009,260
(xi − x̄)2
=
= 3348
σ̂ =
n−1
29
La proporción de trabajadores que ha terminado la capacitación
x
19
=
= 0,63
n
30
Al hacer los cálculos anteriores, se lleva a cabo el proceso estadı́stico conocido como estimación puntual.
p̂ =
8.
Técnicas de Muestreo
“Una encuesta un método sistemático para recolectar información de una muestra de elementos con el propósito de describir cuantitativamente los atributos de una población, de la cual los
elementos son miembros.” (Groves et al, 2010)
En algunos casos, al realizar un estudio, es posible conocer toda la población que se requiere analizar;
por ejemplo en una empresa. Sin embargo, este tipo de casos es una excepción. Por ejemplo, en un
estudio de opinión a nivel nacional o regional, es necesario obtener una muestra para realizar las encuestas.
La forma en que se escoja la muestra va a determinar la capacidad de estimación del estadı́stico. Un
error se entiende como la desviación de los valores esperados E[x]. En el contexto de las encuestas,
los errores son las desviaciones de los verdaderos valores de la población objetivo. Un estadı́stico
muestral busca realizar una estimación de un parámetro poblacional. Todos los elementos de la
población poseen una probabilidad de ser seleccionados conocida y diferente de 0. Las probabilidades no necesariamente son iguales. Si los elementos son seleccionados mediante procedimientos
aleatorios, entonces es posible cuantificar el error de las estimaciones de los parámetros poblacionales.
Por ejemplo, el error absoluto según tamaño muestra, para una población de tamaño 10.000 serı́a el
siguiente:
8.1.
8.1.1.
Muestreo aleatorio simple
Población finita
Una muestra aleatoria simple de tamaño n de una población finita de tamaño N es una muestra
seleccionada de manera que cada posible muestra de tamaño n tenga la misma probabilidad
de ser seleccionada. El investigador no define qué elementos entran en la muestra y cuales no. Menor
sesgo de selección.
n
=f
πi =
N
Por ejemplo, para seleccionar una muestra mediante MAS:
82
1. A cada elemento del marco muestral se le debe asignar un número de 1 a N .
2. Seleccionar números aleatorios desde una lista o software, los cuales, una vez ordenados, nos
permitirán identificar a los elementos seleccionados.
3. En caso que se repitan los números seleccionados, se debe seleccionar más casos hasta tener n
únicos casos (MAS sin reemplazo).
El muestreo puede ser sin reemplazo, donde se escoge una unidad al azar y se descarta de la población,
para evitar ser escogida nuevamente. O bien, puede ser un muestre con reemplazo, donde se selecciona
una muestra en la que se acepten números aleatorios ya usados, y una unidad puede ser escogida más
de una vez. Muestrear con reemplazo es una forma válida de identificar una muestra aleatoria simple.
Sin embargo, el muestreo sin reemplazo es el procedimiento de muestreo más usado. Cuando se habla
de muestreo aleatorio simple (MAS), se asumirá que el muestreo es sin reemplazo.
8.1.2.
Población infinita
En algunas situaciones la población o bien es infinita o tan grande que, para fines prácticos, se considera
infinita. Por ejemplo, suponga que un minimarket desea obtener el perfil de sus clientes seleccionando
una muestra aleatoria de los mismos y pidiéndole a cada cliente que llene un breve cuestionario. En
tales situaciones, el proceso continuo de clientes que visitan el minimarket puede verse como que los
clientes provienen de una población infinita.
Una muestra aleatoria simple (MAS) de una población infinita es una muestra seleccionada de manera
que se satisfacen dos condiciones:
1. Cada uno de los elementos seleccionados proviene de la población.
2. Cada elemento se selecciona independientemente.
83
La selección de los elementos de manera independiente evita un sesgo en la selección que dé mayores
probabilidades de selección a ciertos tipos de elementos. El sesgo de selección es un error sistemático
con un sentido definido y predecible, ya que no depende del azar, sino de una causa definida. Su
presencia provoca falta de validez y exactitud interna del estudio, por lo que sus conclusiones son
erróneas. Existen tres tipos de sesgo de selección. Estos son:
Sesgo de inclusión: la probabilidad de que un sujeto se incluya en un estudio está ligada a
alguno de los factores a estudiar. Muestreo por azar o sin los criterios a estudiar. Por ejemplo,
selección en hospitales de sujetos de estudio de una determinada enfermedad con factores de
riesgo ligados al estudio.
Autoselección: la decisión de participar en relación con el objetivo de estudio. La gente se
autoselecciona.
Pérdidas: de unidades de estudio durante el tiempo de estudio y pueden representar determinadas caracterı́sticas condicionantes.
Habrı́a un sesgo de selección, por ejemplo, si cinco clientes consecutivos que se seleccionaran fueran
amigos. Es de esperar que estos clientes tengan perfiles semejantes. Dichos sesgos se evitan haciendo
que la selección de un cliente no influya en la selección de cualquier otro cliente.
El número de muestras aleatorias simples distintas de tamaño n que pueden seleccionarse de una
población finita de tamaño N es
N!
CnN =
n!(N − n)!
Por ejemplo: si N = 2500 y n = 30 se pueden tomar 2,75 × 1069 muestras aleatorias simples distintas.
¿Cuándo es conveniente realizar un MAS? ¿Es una encuesta la mejor forma de obtener información?
Una muestra disminuye la cantidad de datos que se requieren y los recursos para recolectarlos y
analizarlos. Quizás es posible con trabajar con datos administrativos o registros.
8.1.3.
Distribuciones Muestrales
La distribución teórica de un estadı́stico (por ejemplo, la media) en todas las muestras de tamaño
n posibles de obtener de una población N , permite conocer la probabilidad asociada al valor que asume el estadı́stico en una muestra determinada. Si se toman múltiples muestras aleatorias
(muestras repetidas) de una variable poblacional, la distribución de la media muestral tenderá
a una distribución normal. De esta forma, se puede demostrar que la media muestral es un buen
estimador de la media poblacional y realizar inferencias. Suponga que al escoger otra muestra de 30
trabajadoras, diferentes a los anteriores, las estimaciones puntuales arrojan que µ̂ = 52670 y p̂ = 0,7.
Es de esperar que una muestra de 30 trabajores diferentes dé resultados diferentes.
Una variable aleatoria es una descripción numérica del resultado de un experimento. Si el proceso de
seleccionar una muestra aleatoria simple se considera como un experimento, la media muestral µ̂ es el
valor numérico del resultado de ese experimento. Entonces, como ocurre con otras variables aleatorias,
84
µ̂ tiene una media o valor esperado, una desviación estándar y una distribución de probabilidad. Como
los distintos valores que toma son resultado de distintas muestras aleatorias simples, a la distribución de
probabilidad de se le conoce como distribución muestral de µ̂. Conocer esta distribución muestral
y sus propiedades permitirá hacer declaraciones de probabilidad de qué tan cerca está la media
muestral de la media poblacional. Mediante un histograma es posible observar la forma que
tomarı́a una distribución; por ejemplo si µ̂ se distribuyera de forma normal.
8.1.4.
Distribución Muestral de µ̂
La media muestral es una variable aleatoria que a su distribución de probabilidad se le llama distribución muestral de µ̂. La distribución muestral de µ̂ es la distribución de probabilidad de todos
los valores de la media muestral µ̂. La media de la variable aleatoria es el valor esperado de µ̂. Sea E[µ̂]
el valor esperado de y µ la media de la población de la que se selecciona una muestra aleatoria simple.
Se puede demostrar que cuando se emplea el muestreo aleatorio simple, E[µ̂] y µ son iguales. Usando
el muestreo aleatorio simple (MAS), el valor esperado o media de la distribución muestral de
es igual a la media de la población. Cuando el valor esperado de un estimador puntual es igual al
parámetro poblacional, se dice que el estimador puntual es insesgado. Por tanto, E[µ̂] = µ es un
estimador insesgado. Es posible demostrar que usando el muestreo aleatorio simple, la desviación
estándar depende de si la población es finita o infinita.
r
σ
N −n
√
para una población finita
σ̂x̄ =
N −1
n
σ
para una población infinita
σ̂x̄ = √
n
Donde
σ̂x̄
σ̂
n
N
=
=
=
=
desviación estándar de x̄
desviación estándar de la población
tamaño de la muestra
tamaño de la población
q
−n
A N
N −1 se le conoce como factor de corrección para una población finita. En muchas de las situaciones prácticas de muestreo, se encuentra que aunque la población sea finita, es “grande”, mientras
que el tamaño de la muestra es “pequeña”. En estos casos el factor de corrección para una población
finita es casi igual a 1. Entonces, el cálculo para poblaciones infinitas es una buena aproximación a la
desviación estándar de µ̂, aún cuando la población sea finita, y el tamaño de la muestra sea menor o
igual a 5 % del tamaño de la población; es decir n/N ≤ 0,05.
A la desviación estándar σ̂µ del estimador de µ, µ̂, también se le conoce como error estándar de la
media. Aunque, de forma general,
Error estándar (x) =
σ̂ 2
s2
=
n
n
En general, el término Error Estándar se refiere a la desviación estándar de un estimador puntual
respecto del parámetro poblacional. El valor del error estándar de la media ayuda a determinar qué
85
tan lejos puede estar la media muestral de la media poblacional. Por ejemplo: Sea N = 2500, n = 30
y σ = 4000, se tiene que n/N = 30/2500 = 0,012. Como el tamaño de la muestra es mayor que el 5 %
del tamaño de la población, se puede ignorar el factor de corrección para la población finita y calcular
el error estándar como
4000
σ
σx̄ = √ = √ = 730,3
n
30
El paso final en la identificación de las caracterı́sticas de la distribución muestral de µ̂ es determinar
la forma de la distribución muestral.
a La población tiene distribución normal: En muchas situaciones es razonable suponer que la población de la que se seleccionó la muestra aleatoria simple tenga distribución normal o casi
normal. Cuando la población tiene distribución normal, la distribución muestral de µ̂ está distribuida normalmente sea cual sea el tamaño de la muestra.
b La población no tiene distribución normal: Cuando la población de la que se tomó la muestra
aleatoria simple no tiene distribución normal, el teorema central del lı́mite ayuda a determinar
la forma de la distribución muestral de µ̂. El enunciado del teorema central del lı́mite aplicado
a la distribución muestral de µ̂ dice lo siguiente.
“Cuando se seleccionan muestras aleatorias simples de tamaño n de una población, la
distribución muestral de la media muestral µ̂ puede aproximarse mediante una distribución
normal en la medida que el tamaño de la muestra se hace grande.”
En la mayorı́a de los casos, la distribución muestral de µ̂ se puede aproximar mediante una distribución normal siempre que la muestra sea de tamaño 30 o mayor; n ≥ 30. En los casos en que la
población es muy sesgada o existen observaciones atı́picas, pueden necesitarse muestras de tamaño
50; n ≥ 50. Si la población es discreta, el tamaño de muestra necesario para la aproximación normal
suele depender de la proporción poblacional; p. Si la población tiene una distribución normal, la distribución muestral de µ̂ estará distribuida normalmente. Por ejemplo: Si la población no tiene una
distribución normal, la muestra aleatoria simple de 30 trabajadores y el teorema central del lı́mite permiten concluir que la distribución muestral de µ̂ puede aproximarse mediante una distribución normal.
Por ejemplo: El gerente de recursos humanos desea conocer la probabilidad de que la media muestral
obtenida usando una muestra aleatoria simple de 30 trabajadores, se encuentre a más o menos de $500
de la media poblacional. Para responder esta pregunta, asumimos que µ̂ se distribuye de forma normal.
Como la media poblacional es $51.800, el gerente de personal desea saber cuál es la probabilidad de
que esté entre $51.300 y $52.300. Es decir, calculamos la probabilidad de que µ̂ se encuentre en el
intervalo que va de $51.300 hasta $52.300. Primero, se calcula el valor de z en el extremo superior de
este intervalo ($52.300) y se usa la tabla para hallar el área bajo la curva a la izquierda de ese punto
(área hacia la cola izquierda). Después, se calcula el valor de z en el extremo inferior de este intervalo
($51.300) y se usa la tabla para hallar el área bajo la curva a la izquierda de este punto (otra área
hacia la cola izquierda).
P (51,300 ≤ x̄ ≤ 52,300) = P (z ≤ 0,68) − P (z ≤ −0,68)
86
En µ̂ = 52,300 se tiene que
z=
52300 − 51800
= 0,68
730,3
En la tabla de probabilidad normal estándar la probabilidad acumulada (área a la izquierda de z =
0.68) es 0.7517.
En µ̂ = 51,300 se tiene que
51300 − 51800
z=
= −0,68
730,3
El área bajo la curva a la izquierda de z = -0.68 es 0.2483. Por tanto, P (51,300 ≤ x̄ ≤ 52,300) =
P (z ≤ 0,68) − P (z ≤ −0,68) = 0,7517 − 0,2483 = 0,5034. Hay una probabilidad de 0.5034 de que, con
una muestra aleatoria simple de 30 trabajadores, se obtenga una media muestral µ̂ que esté a más
o menos de $500 de la media poblacional. Por tanto, la probabilidad de que la diferencia entre µ̂ y
µ = 51,800 sea superior a $500 es 1 − 0,5034 = 0,4966.
Relación entre el tamaño de la muestra y la distribución muestral de µ̂
La media de todos los valores posibles de µ̂ es igual a la media poblacional µ independientemente del
√
tamaño n de la muestra; E[µ̂] = µ. El error estándar de la media, σ̂µ = σ/ n, está relacionado con
la raı́z cuadrada del tamaño de la muestra. Siempre que el tamaño de la muestra aumente, el error
estándar de la media σ̂µ disminuirá. Por ejemplo: Si N = 2500, n = 30 y σ = 4000, se tiene que
n/N = 30/2500 = 0,012.
4000
σ
σ̂µ = √ = √ = 730,3
n
30
Si n = 100, entonces
σ
4000
= 400
σ̂µ = √ = √
n
100
87
Con un error estándar más pequeño, habrá menos variación entre los valores de µ̂ y éstos tenderán a
estar más cerca de la media poblacional.
Como la distribución muestral es normal, su media es de $51800, el error estándar de la media es
400, se emplea la tabla de probabilidad normal estándar para hallar el área o la probabilidad. Para
calcular la probabilidad de que una muestra aleatoria de 100 trabajadores que no difiera de los $500
de la media poblacional:
z=
51300 − 51800
52300 − 51800
= 1,25 z =
= −1,25
400
400
88
8.1.5.
Distribución muestral de p̄
La proporción muestral p̄ es el estimador puntual de la porporción poblacional p.
p̄ =
x
n
Donde x es el número de elementos de la muestra que poseen la caracterı́stica de interés, y n es el
tamaño de la muestra. Qué tan cerca está la proporción muestral p̄ de la proporción poblacional p.
El valor esperado de p̄ es la media de todos los posibles valores de p̄ y es igual a la proporción
poblacional.
E[p̄] = p
Como E[p̄] = p, p̄ es un estimador insesgado de de p.
La desviación estándar depende de si la población es finita o infinita:
r
r
N − n p(1 − p)
para población finita
σp̄ =
N −1
n
r
p(1 − p)
σp̄ =
para población infinita
n
Si la población es finita y n/N ≤ 0,05, entonces es posible usar la formula para la población infinita.
8.2.
Otras técnicas probabilı́sticas de muestreo
Los elementos seleccionados de una población tienen una probabilidad conocida de ser incluidos
en la muestra. La ventaja del muestreo probabilı́stico es que, por lo general, se identifica la
distribución muestral del estadı́stico muestral correspondiente. Para determinar las propiedades de la
distribución muestral se usa el muestreo aleatorio simple (MAS). La distribución muestral permite hacer afirmaciones probabilı́sticas acerca del error al usar los resultados muestrales para hacer inferencias
acerca de la población. Se recomienda usar métodos de muestreo probabilı́stico. Si se usan estos
métodos existen fórmulas para evaluar la “bondad” de los resultados muestrales en términos de
la cercanı́a de los resultados a los parámetros poblacionales que se estiman. Generalmente el MAS no
es viable en la recolección de datos, por lo que se introducen más elementos al diseño de la muestra,
como lo son los estratos, conglomerados (clusters) y factores de expansión. Al introducir estos
elementos, los cálculos en las varianzas (o errores tı́picos) difieren en comparación al MAS. Estos diseños son llamados muestras complejas. El efecto de los elementos del diseño de muestras complejas
sobre los errores estándar de una proporción se puede observar a continuación.
8.2.1.
Muestreo aleatorio estratificado
El uso del muestreo estratificado aumenta la precisión de las estimaciones (generalmente reduce la
varianza). Los elementos de la población primero se dividen en grupos, a los que se les llama
estratos, de manera que cada elemento pertenezca a uno y sólo un estrato; son excluyentes entre sı́.
Deben ser homogéneos dentro de si, y heterogéneos entre ellos. La variable de estratificación debe
89
estar relacionada con la variable medida. Se puede utilizar más de una variable de estratificación. No
obstante ambas deben estar relacionadas con la variable de interés, pero no debiesen estar asociadas
entre si. Los estratos pueden ser, por ejemplo, región, edad, tipo de industria. Una vez formados los
estratos, se toma una muestra aleatoria simple de cada estrato. El valor del muestreo aleatorio
estratificado depende de qué tan homogéneos sean los elementos dentro de cada estrato. Si los
elementos de un estrato son homogéneos, el estrato tendrá una varianza pequeña. Con muestras
relativamente pequeñas de los estratos se obtienen buenas estimaciones de las caracterı́sticas
de los estratos. Si los estratos son homogéneos, el muestreo aleatorio estratificado, proporciona
resultados tan precisos como los de un muestreo aleatorio simple, pero con una muestra de tamaño
total menor.
90
¿Por qué usar estratificación?
1. Queremos lograr que ciertos grupos estén incluidos en la muestra (en teorı́a, un MAS podrı́a
contener sólo elementos de un sexo).
2. Precisión para subgrupos de interés (variables independientes).
3. Mejor control de gastos en torno a la recolección de datos.
4. Mayor precisión en las estimaciones obtenidas mediante medias y proporciones
La asignación de casos en cada estrato puede ser de dos formas:
1. Proporcional: considera el peso relativo de los elementos en cada estrato de la población, y
replica dicho valor en la muestra.
2. No proporcional: No son autoponderadas y es necesario corregir para evitar sesgo por sobre
y sub representación.
Afijación Igual: Mismo número de elementos en cada estrato.
Afijación óptima de varianza: Disminuir casos para minimizar varianza.
Afijación óptima de costos: optimización de costos de muestreo.
8.2.2.
Muestreo por conglomerados
Los conglomerados son agrupaciones naturales de los elementos. Al contrario de los estratos, los elementos que componen al conglomerados son heterogéneos dentro de si, y similares entre si. Si
todos los conglomerados son parecidos entre si, entonces resulta razonable sólo seleccionar alguno de
ellos. No se requiere un marco que incluya a todos los elementos de la población, sino que el de agrupaciones previas. Tiene un impacto negativo en el nivel de precisión; aumenta la Varianza. Por ejemplo,
un estudio busca analizar el consumo de drogas en alumnos de séptimo básico. En un colegio donde
91
existen tres cursos en séptimo básico, sólo se seleccionan los alumnos de un curso, ya que se piensa que
el consumo de drogas es bien heterogéneo dentro de cada curso, pero el comportamiento entre cursos
es similar, por lo que uno puede reflejar la realidad del resto. Cada elemento de la población pertenece
a uno y sólo un conglomerado. Se toma una muestra aleatoria simple (MAS) de los conglomerados.
La muestra está formada por todos los elementos dentro de cada uno de los conglomerados que forman
la muestra. El muestreo por conglomerados tiende a proporcionar mejores resultados cuando los
elementos dentro de los conglomerados no son semejantes. Lo ideal es que cada conglomerado sea
una representación, a pequeña escala, de la población. Si todos los conglomerados son semejantes en
este aspecto, tomando en la muestra un número pequeño de conglomerados se obtendrá una buena estimación de los parámetros poblacionales. Una de las principales aplicaciones del muestro
por conglomerados es el muestreo de áreas, en el que los conglomerados son las manzanas de una
ciudad u otras áreas bien definidas. El muestreo por conglomerados requiere, por lo general, tamaños
de muestra mayores que los requeridos en el muestreo aleatorio simple o en el muestreo aleatorio
estratificado. Es posible reducir costos debido a que cuando se envı́a a un entrevistador a uno de los
conglomerados de la muestra (por ejemplo, a una manzana de una ciudad), es posible obtener muchas
observaciones en poco tiempo.
Se justifica realizar muestreo por conglomerado con submuestreo cuando un conglomerado contiene
muchos elementos o si estos son similares entre sı́. Para referirse a las unidades de muestreo de cada
etapa, se suelen utilizar los siguientes términos
Unidad Primaria de Muestreo (UPM)
Unidad Secundaria de Muestreo (USM)
Unidad Terciaria de Muestreo (UTM)
..
.
Unidad Última de Muestreo (UUM)
La selección de las submuestras se realizan en todos los conglomerados que constituyen las UPM. Por
ejemplo, esta metodologı́a es utilizada por la Encuesta de Caracterización Socioeconómica (CESEN)
y la encuesta CEP, entre otras. Por ejemplo:
Etapa 0: Estratificación dela muestra
Etapa 1: UPM: Selección de comunas
• Probabilidad proporcional al tamaño
• inclusión forzosa: Criterios para incluir comunas, es decir, probabilidad de inclusión = 1
Etapa 2: USM: Selección de manzanas
Etapa 3: UTM: Selección aleatoria de viviendas
Etapa 4: UUM: Selección aleatoria de integrantes al interior de la vivienda
92
8.2.3.
Factor de expansión
Cuando se diseñan muestras complejas, estos suelen ser diseños no proporcionales, con probabilidades
de selección desiguales, y donde algunos grupos responden más que otros (no respuesta, sesgo de
selección por autoselección). El factor de expansión busca corregir estas desviaciones para que los
elementos tengan el peso que corresponde. El factor de expansión se refiere a la cantidad de personas
que un elemento representa en la población.
8.3.
8.3.1.
Técnicas no probabilı́sticas de muestreo
Muestreo de conveniencia
La muestra se determina por conveniencia. Los elementos se incluyen en la muestra sin que haya una
probabilidad previamente especificada o conocida de que sean incluidos en la muestra. Por ejemplo:
Un estudio de opinión o focus group sobre un pronducto; ¿la razón para elegirlos? Los sujetos se
autoseleccionan y participarán como voluntarios a un costo bajo o sin costo. Es relativamente fácil
seleccionar la muestra y recoger los datos. Sin embargo, es imposible evaluar la “bondad”de la muestra
en términos de su representatividad de la población.
8.3.2.
Muestreo subjetivo
En este método la persona que más sabe sobre un asunto selecciona elementos de la población que
considera los más representativos de la población. Este método suele ser una manera relativamente
fácil de seleccionar una muestra. Por ejemplo: un periodista puede seleccionar dos o tres senadores
considerando que estos senadores reflejan la opinión general de todos los senadores. Sin embargo, la
calidad de los resultados muestrales depende de la persona que selecciona la muestra. No siempre es
posible realizar conclusiones generales sobre la población.
93
9.
Ejercicios
Estadı́stica Descriptiva
1. A continuación se presenta información de las ventas y los beneficios (en MM$) obtenidos por
una muestra de 17 empresas de consumo masivo. Qué conclusión puede obtener respecto de la
relación entre las ventas y los beneficios. Justifique su respuesta con los estadı́sticos pertinentes.
Empresas
SanCor
Coca-Cola
Knorr
Quilmes
Arcor
Tang
Carozzi
Lucchetti
Nescafe
Danone
Bimbo
Maggi
Omo
Elite
IncaKola
Pepsi
Lipton
Ventas
Beneficios
1.23
13.21
6.86
9.02
6.28
10.25
9.85
4.20
10.19
7.73
5.27
5.48
1.79
4.60
3.82
12.24
6.44
31.3
18.1
9.0
379.4
503.0
14.8
55.4
71.0
115.1
42.3
96.1
912.1
103.8
567.5
212.8
128.9
171.5
94
Respuesta:
i
Ventas
Beneficios
(xi − x̄)
(yi − ȳ)
(xi − x̄)2
(yi − ȳ)2
(xi − x̄)(yi − ȳ)
SanCor
Coca-Cola
Knorr
Quilmes
Arcor
Tang
Carozzi
Lucchetti
Nescafe
Danone
Bimbo
Maggi
Omo
Elite
IncaKola
Pepsi
Lipton
P
1.23
13.21
6.86
9.02
6.28
10.25
9.85
4.20
10.19
7.73
5.27
5.48
1.79
4.60
3.82
12.24
6.44
31.3
18.1
9.0
379.4
503.0
14.8
55.4
71.0
115.1
42.3
96.1
912.1
103.8
567.5
212.8
128.9
171.5
-5.74
6.24
-0.11
2.05
-0.69
3.28
2.88
-2.77
3.22
0.76
-1.70
-1.49
-5.18
-2.37
-3.15
5.27
-0.53
-170.59
-183.79
-192.89
177.51
301.11
-187.09
-146.49
-130.89
-86.79
-159.59
-105.79
710.21
-98.09
365.61
10.91
-72.99
-30.39
32.93
38.96
0.01
4.21
0.47
10.77
8.30
7.66
10.38
0.58
2.88
2.21
26.81
5.61
9.91
27.79
0.28
29100.35
33778.12
37205.87
31510.43
90668.29
35002.01
21458.80
17131.73
7532.20
25468.40
11191.15
504400.75
9621.30
133671.96
119.07
5327.28
923.44
978.8754325
-1147.16292
20.87731488
364.2123737
-207.2357439
-613.9795675
-422.1446263
362.3294325
-279.6112734
-121.5686851
179.6533149
-1056.962215
507.9239619
-865.8546851
-34.35280277
-384.7768028
16.05213841
189.78
994111.16
-2703.73
Ventas
Media
varianza
Desviación estándar
Covarianza
Coeficiente de Correlación
6.97
11.86
3.44
Beneficios
201.89
62131.95
249.26
-168.98
-0.197
Debido a que el coeficiente de correlación entre las ventas y los beneficios es negativo, cuanto
mayor sea el volumen de ventas, menor será nivel de beneficios.
95
2. A continuación se presenta dos variables, la “Tasa de desempleo” y la “Tasa impositiva”. Imagine
que estos paı́ses son lo único que existen en el mundo, es decir, componen el 100 % de la población
mundial. Con esta información, responda las preguntas.
Paı́s
Tasa de
desempleo
Tasa
impositiva
Alemania
Austria
Bélgica
Canadá
Dinamarca
EEUU
España
Francia
Grecia
Holanda
Irlanda
Italia
Japón
Noruega
Nueva Zelanda
Portugal
Suecia
Suiza
Reino Unido
2.6
5.6
7.3
7.9
6.4
6.6
10.6
6.4
5.5
5.2
10.4
8.4
2.4
2.7
3.3
5.8
2.4
0.8
6.0
0.8
0.4
0.9
0.5
1.0
0.4
0.5
0.9
0.6
0.9
0.6
0.6
0.3
1.0
0.5
0.5
1.1
0.4
0.5
a. Calcule la covarianza y el coeficiente de correlación entre la tasa de desempleo y la tasa de
impositiva.
96
Respuesta:
x̄g
=
ȳg
=
σxy =
Paı́s
Alemania
Austria
Bélgica
Canadá
Dinamarca
EEUU
España
Francia
Grecia
Holanda
Irlanda
Italia
Japón
Noruega
Nueva Zelanda
Portugal
Suecia
Suiza
Reino Unido
P
σx
=
σy
=
ρxy
=
√
N
x1 x2 ...xN
=
√
y1 y2 ...yN
P
(xi − x̄)(yi − ȳ)
N
rP
(xi − x̄)2
N
rP
(yi − ȳ)2
N
σxy
σx σy
N
=
q
Π1i=1 9xi
q
19
Π1i=1 9yi
19
−0,616
19
r
145,009
=
19
r
1,154
=
19
−0,0324
=
(2,7635)(0,2464)
=
= 4,7944
= 0,6018
= −0,0324
= 2,7635
= 0,2464
= −0,0476
Tasa de
desempleo
Tasa
impositiva
(xi − x̄)
(yi − ȳ)
(xi − x̄)2
(yi − ȳ)2
(xi − x̄)(yi − ȳ)
2.6
5.6
7.3
7.9
6.4
6.6
10.6
6.4
5.5
5.2
10.4
8.4
2.4
2.7
3.3
5.8
2.4
0.8
6.0
0.8
0.4
0.9
0.5
1.0
0.4
0.5
0.9
0.6
0.9
0.6
0.6
0.3
1.0
0.5
0.5
1.1
0.4
0.5
-2.2
0.8
2.5
3.1
1.6
1.8
5.8
1.6
0.7
0.4
5.6
3.6
-2.4
-2.1
-1.5
1.0
-2.4
-4.0
1.2
0.2
-0.3
0.3
-0.1
0.4
-0.2
-0.1
0.2
0.0
0.3
0.0
0.0
-0.3
0.4
-0.1
-0.2
0.5
-0.2
-0.1
4.815
0.649
6.278
9.645
2.578
3.260
33.705
2.578
0.498
0.165
31.423
13.000
5.733
4.387
2.233
1.011
5.733
15.955
1.453
0.039
0.063
0.072
0.005
0.159
0.041
0.017
0.062
0.001
0.083
0.000
0.000
0.085
0.183
0.020
0.023
0.248
0.045
0.007
-0.4349
-0.2028
0.6720
-0.2230
0.6393
-0.3644
-0.7652
0.3985
0.0199
0.1169
0.0460
0.0656
0.6987
-0.8968
0.2119
-0.1526
-1.1929
0.8460
-0.0986
145.099
1.154
-0.616
97
b. Considerando sólo el subconjunto de paı́ses europeos, calcule la covarianza y el coeficiente
de correlación entre la tasa de desempleo y la tasa de impositiva.
Respuesta:
x̄g
=
√
n
ȳg
=
√
n
σxy =
Paı́s
Alemania
Austria
Bélgica
Dinamarca
España
Francia
Grecia
Holanda
Irlanda
Italia
Noruega
Portugal
Suecia
Suiza
UK
P
σx
=
σy
=
ρxy
=
x1 x2 ...xn
=
y1 y2 ...yn
P
(xi − x̄)(yi − ȳ)
n−1
rP
(xi − x̄)2
n−1
rP
(yi − ȳ)2
n−1
σxy
σx σy
=
q
Π1i=1 5xi
q
15
Π1i=1 5yi
15
= 4,8738
= 0,6637
−1,867
15 − 1
r
122,069
=
15 − 1
r
0,868
=
15 − 1
−0,1333
=
(2,9528)(0,2490)
=
= −0,1333
= 2,9528
= 0,2490
= −0,1814
Tasa de
desempleo
Tasa
impositiva
(xi − x̄)
(yi − ȳ)
(xi − x̄)2
(yi − ȳ)2
(xi − x̄)(yi − ȳ)
2.6
5.6
7.3
6.4
10.6
6.4
5.5
5.2
10.4
8.4
2.7
5.8
2.4
0.8
6.0
0.8
0.4
0.9
1.0
0.5
0.9
0.6
0.9
0.6
0.6
1.0
0.5
1.1
0.4
0.5
-2.3
0.7
2.4
1.5
5.7
1.5
0.6
0.3
5.5
3.5
-2.2
0.9
-2.5
-4.1
1.1
0.1
-0.3
0.2
0.3
-0.2
0.2
0.0
0.2
-0.1
0.0
0.4
-0.2
0.4
-0.3
-0.1
5.170
0.527
5.886
2.329
32.789
2.329
0.392
0.106
30.538
12.434
4.726
0.858
6.120
16.596
1.268
0.019
0.098
0.043
0.113
0.038
0.035
0.001
0.051
0.003
0.002
0.134
0.046
0.190
0.075
0.021
-0.3100
-0.2278
0.5006
0.5133
-1.1089
0.2844
-0.0211
0.0738
-0.2965
-0.1539
-0.7964
-0.1979
-1.0794
1.1148
-0.1618
122.069
0.868
-1.867
98
c. Qué concluciones podemos extraer a partir del signo del coeficiente de correlación.
Respuesta:
El coeficiente de correlación de Pearson tiene signo negativo, por lo que podemos afirmar
que la relación entre estas variables es negativa. Esto quiere decir que si la tasa de desempleo varı́a a la baja, la tasa impositiva varı́a al alza, o o bien, si la tasa impositiva varı́a a la
baja, la tasa de desempleo varı́a al alza. El coeficiente de correlación no establece causalidad
entre las variables.
d. Qué conclusiones puede obtener al comparar los resultados de las preguntas 1 y 2.
Respuesta:
Al extraer una muestra correspondientes a los paı́ses europeos, es posible observar que la
covarianza y el cofienciente de correlación aumentan. Este es, aumenta la variación conjunta
de las variables, lo que implica que mejora la relación.
Probabilidades
3. Una carta se extrae aleatoriamente de una baraja de 52 cartas. Denote como C, P, D y T las
pintas de Corazón, Pica, Diamantes y Tréboles, y 1, 2, ...,10, 11, 12, 13 las cartas que van del
as, dos, ..., diez, jota, reina, rey. Encontrar la probabilidad de que sea:
a. Un as
Respuesta:
p(1) = P (1 ∩ C o 1 ∩ P o 1 ∩ D o 1 ∩ T )
= P (1 ∩ C) + P (1 ∩ P ) + P (1 ∩ D) + P (1 ∩ T )
1
1
1
1
1
+
+
+
=
52 52 52 52
13
También es posible poder llegar a este resultado si se piensa que cada pinta tiene 13 cartas
y queremos escoger una de ellas. Luego, la probabilidad es 1/n, es decir 1/13
=
b. Una jota de corazones
Respuesta:
P (11 ∩ C) =
1
52
c. Un tres de tréboles o un seis de diamantes
Respuesta:
P (3 ∩ T o 3 ∩ D) = P (3 ∩ T ) + P (6 ∩ D) =
99
1
1
1
+
=
52 52
26
d. Un corazón
Respuesta:
P (C) = P (1 ∩ C o 2 ∩ C o · · · o 13 ∩ C)
=
1
1
1
13
1
+
+ ··· +
=
=
52 52
52
52
4
e. Una carta de cualquier pinta excepto corazón
Respuesta:
P (C c ) = 1 − P (C) = 1 −
3
1
=
4
4
f. Un diez o una pica
Respuesta:
Puesto que 10 y P no son mutuamente excluyentes, tenemos que
P (10 ∪ P ) = P (10) + P (P ) − P (10 ∩ P ) =
1
1
1
4
+ −
=
13 4 52
13
g. Sacar cualquier carta que no sea ni un cuatro ni un trébol.
Respuesta:
La probabilidad de no sacar un cuatro y no sacar un trébol puede denotarse como P (4c ∩T c ).
Esto es equivalente a (4 ∪ T )c . Luego,
P (4c ∩ T c ) = P [(4 ∪ T )c ] = 1 − P (4 ∪ T )
= 1 − [P (4) + P (T ) − P (4 ∩ T )]
1
1
1
9
= 1−
+ −
=
13 4 52
13
4. El jefe de una estación de bencina sabe que el 80 % de los clientes pagan con tarjeta de crédito.
¿Cuál es la probabilidad de que los 2 siguientes clientes paguen con tarjeta?
Sean:
A = el evento el primer cliente paga con tarjeta de crédito
B = el evento el segundo cliente paga con tarjeta de crédito
El evento que interesa es A ∩ B. Es razonable pensar que A y B son eventos independientes. Por
tanto,
P (A ∩ B) = P (A)P (B) = (0,8)(0,8) = 0,64
5. La caja I contiene 3 bolas rojas y 2 azules y la caja II contiene 2 bolas rojas y 8 azules. Se lanza
una moneda al aire. Si se obtiene cara se saca una bola de la caja I, y si se obtiene sello se saca
una bola de la caja II. Hallar la probabilidad de sacar una bola roja.
100
Respuesta:
Sea R el “evento sacar una bola roja” y I y II indican los eventos “escoger la caja I” y “escoger
la caja II”.
2
3
1
2
1
+
=
P (R) = P (I)P (R | I) + P (II)P (R | II) =
2
3+2
2
2+8
5
Ejercicio: Suponga que tiene 3 urnas con bolas rojas y negras que se distribuyen de la siguientes
forma.
A : 3 bolas rojas y 5 bolas negras
B : 2 bolas rojas y 1 bolas negra
C : 2 bolas rojas y 3 bolas negras
Si escogemos una bola al azar y resulta ser roja, ¿cuál es la probabilidad de que sea de la urna
A?
Sea:
R : el evento de sacar una bola roja
N : el evento de sacar una bola negra
P (A | R) =
=
P (A)P (R | A)
P (A)P (R | A) + P (B)P (R | B) + P (C)P (R | C)
1
3
1 3 1
· +
3 8 3
3
8
2 1 2
· + ·
3 3 5
·
= 0,26 = 26 %
Variable Aleatoria Continua
6. Calcule la probabilidad de que z sea mayor o igual a 1.
Respuesta: Esto es P (z ≤ 1). Según la tabla de probabilidades acumuladas en la distribución
normal estándar, P (z ≤ 1) = 0,8413.
101
7. Calcule P (−0,5
≤ z ≤ 1,25)
Respuesta: Según la tabla de probabilidades acumuladas en la distribución normal estándar,
P (z ≤ 1,25) = 0,8944 y P (z ≤ −0,5) = 0,3085. Luego P (−0,5 ≤ z ≤ 1,25) = P (z ≤ 1,25) −
P (z ≤ −0,5) = 0,8944 − 0,3085 = 0,5859
8. Calcule la probabilidad de que la variable aleatoria normal estándar se encuentre a no más de
una desviación estándar de la media.
Respuesta: Esto es, P (−1 ≤ z ≤ 1). Según la tabla de probabilidades acumuladas en la
distribución
normal estándar, P (z ≤ 1) = 0,8413 y P (z ≤ −1) = 0,1587. Luego P (−1 ≤ z ≤
1) = P (z ≤ 1) − P (z ≤ −1) = 0,8413 − 0,1587 = 0,6826
102
9. Calcule la probabilidad de tener un valor z por lo menos igual a 1.58.
Respuesta: Esto es, P (z ≥ 1,58). Según la tabla de probabilidades acumuladas en la distribución
normal estándar, P (z ≤ 1,58) = 0,9429. Cómo el área bajo la curva normal es 1, lo que nos
interesa es 1 − P (z ≤ 1,58) = 1 − 0,9429 = 0,0571
10. Hallar un valor z tal que la probabilidad de obtener un valor z mayor sea 0.10.
Respuesta: Este problema es la situación contraria a la presentada en los ejemplos anteriores,
en ellos se dio el valor z y se halló la probabilidad o área correspondiente. En este ejemplo se da
la probabilidad, o el área, y se pide hallar el valor correspondiente de z.
La tabla de probabilidad normal estándar da el área bajo la curva a la izquierda de un determinado valor z. Se ha recibido la información de que el área en la cola superior (derecha) de la
curva es 0.10. Por tanto, el área bajo la curva a la izquierda del valor desconocido de z debe ser
0.9000. Al recorrer el cuerpo de la tabla, se encuentra que 0.8997 es la probabilidad acumulada
más cercana a 0.9000. El valor z más cercano a 0.9 es P (z ≤ 1,28) = 0,8997, luego, 0.10 es la
probabilidad aproximada de que z sea mayor que 1.28.
103
11. suponga que se quiere calcular la probabilidad de 13 o menos facturas con errores en una muestra
de 100 facturas.
Respuesta:
z=
13,5 − 10
= 1,17
3
En la tabla de probabilidad normal estándar se observa que el área bajo la curva normal estándar
y a la izquierda de P (z ≤ 1,17) = 0,8790. Por tanto, la probabilidad de hallar, 13 o menos facturas
erroneas es de un 87.9 %
12. Cuál es la probabilidad de cargar un camión entre 6 y 18 minutos.
Respuesta:
P (x ≤ 6) = 1 − e−6/15 = 0,3297
P (x ≤ 18) = 1 − e−18/15 = 0,6988
Luego, 0,6988 - 0,3297 = 0,3691
104
10.
Anexo
10.1.
Tabla normal estándar
Tabla normal estándar (números positivos)
z
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9986
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9987
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9987
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9988
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9988
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9989
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9989
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9989
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9990
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9913
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990
105
Tabla normal estándar (números negativos)
z
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
−3.0
−2.9
−2.8
−2.7
−2.6
−2.5
−2.4
−2.3
−2.2
−2.1
−2.0
−1.9
−1.8
−1.7
−1.6
−1.5
−1.4
−1.3
−1.2
−1.1
−1.0
−0.9
−0.8
−0.7
−0.6
−0.5
−0.4
−0.3
−0.2
−0.1
−0.0
0.0013
0.0019
0.0026
0.0035
0.0047
0.0062
0.0082
0.0107
0.0139
0.0179
0.0228
0.0287
0.0359
0.0446
0.0548
0.0668
0.0808
0.0968
0.1151
0.1357
0.1587
0.1841
0.2119
0.2420
0.2743
0.3085
0.3446
0.3821
0.4207
0.4602
0.5000
0.0013
0.0018
0.0025
0.0034
0.0045
0.0060
0.0080
0.0104
0.0136
0.0174
0.0222
0.0281
0.0351
0.0436
0.0537
0.0655
0.0793
0.0951
0.1131
0.1335
0.1562
0.1814
0.2090
0.2389
0.2709
0.3050
0.3409
0.3783
0.4168
0.4562
0.4960
0.0013
0.0018
0.0024
0.0033
0.0044
0.0059
0.0078
0.0102
0.0132
0.0170
0.0217
0.0274
0.0344
0.0427
0.0526
0.0643
0.0778
0.0934
0.1112
0.1314
0.1539
0.1788
0.2061
0.2358
0.2676
0.3015
0.3372
0.3745
0.4129
0.4522
0.4920
0.0012
0.0017
0.0023
0.0032
0.0043
0.0057
0.0075
0.0099
0.0129
0.0166
0.0212
0.0268
0.0336
0.0418
0.0516
0.0630
0.0764
0.0918
0.1093
0.1292
0.1515
0.1762
0.2033
0.2327
0.2643
0.2981
0.3336
0.3707
0.4090
0.4483
0.4880
0.0012
0.0016
0.0023
0.0031
0.0041
0.0055
0.0073
0.0096
0.0125
0.0162
0.0207
0.0262
0.0329
0.0409
0.0505
0.0618
0.0749
0.0901
0.1075
0.1271
0.1492
0.1736
0.2005
0.2296
0.2611
0.2946
0.3300
0.3669
0.4052
0.4443
0.4840
0.0011
0.0016
0.0022
0.0030
0.0040
0.0054
0.0071
0.0094
0.0122
0.0158
0.0202
0.0256
0.0322
0.0401
0.0495
0.0606
0.0735
0.0885
0.1056
0.1251
0.1469
0.1711
0.1977
0.2266
0.2578
0.2912
0.3264
0.3632
0.4013
0.4404
0.4801
0.0011
0.0015
0.0021
0.0029
0.0039
0.0052
0.0069
0.0091
0.0119
0.0154
0.0197
0.0250
0.0314
0.0392
0.0485
0.0594
0.0721
0.0869
0.1038
0.1230
0.1446
0.1685
0.1949
0.2236
0.2546
0.2877
0.3228
0.3594
0.3974
0.4364
0.4761
0.0011
0.0015
0.0021
0.0028
0.0038
0.0051
0.0068
0.0089
0.0116
0.0150
0.0192
0.0244
0.0307
0.0384
0.0475
0.0582
0.0708
0.0853
0.1020
0.1210
0.1423
0.1660
0.1922
0.2206
0.2514
0.2843
0.3192
0.3557
0.3936
0.4325
0.4721
0.0010
0.0014
0.0020
0.0027
0.0037
0.0049
0.0066
0.0087
0.0113
0.0146
0.0188
0.0239
0.0301
0.0375
0.0465
0.0571
0.0694
0.0838
0.1003
0.1190
0.1401
0.1635
0.1894
0.2177
0.2483
0.2810
0.3156
0.3520
0.3897
0.4286
0.4681
0.0010
0.0014
0.0019
0.0026
0.0036
0.0048
0.0064
0.0084
0.0110
0.0143
0.0183
0.0233
0.0294
0.0367
0.0455
0.0559
0.0681
0.0823
0.0985
0.1170
0.1379
0.1611
0.1867
0.2148
0.2451
0.2776
0.3121
0.3483
0.3859
0.4247
0.4641
106