GHK
GHK
GHK
INTRODUCCIÓN
CONTENIDO
1 INTRODUCCION ................................................................................... 2
1.1 PROPOSITO DE LA ESTADISTICA .................................................... 2
1.1.1 SITUACIONES DE APLICACIÓN ............................................ 2
1.1.2 TRABAJO DE APLICACIÓN ..................................................... 4
1 INTRODUCCION
G.Carnevali-E.Franchelli-G.Gervasoni
INTRODUCCION 3
UN OBJETIVO
en función de
UN CONJUNTO DE RESULTADOS
que presentan
VARIABILIDAD
G.Carnevali-E.Franchelli-G.Gervasoni
INTRODUCCION 4
Conteste la siguiente encuesta, la misma se repite en hoja adjunta para ser entregada a su
profesor en forma completa.
Comisión: ............
CUESTIONARIO PARA LA BASE DE DATOS ESTUDIANTIL
Análisis MatemáticoI
Algebra y Geometría
Matemática Discreta
Análisis Matemático II
¿Cuál o cuáles?
………………………………………………………………………………….
5.- ¿Trabaja? No Si
Ejercicio
Plantee algún objetivo para el cual pudo haber sido implementada la encuesta y reconozca:
Ö
Ö las características de estudio y
Ö
Ö en quiénes se estudia.
G.Carnevali-E.Franchelli-G.Gervasoni
INTRODUCCION 5
Antes de cada acto electoral se efectúan encuestas de la opinión pública a fin de obtener
información sobre la proporción de población que votará por cada candidato (objetivo).
En la ciudad de Rosario, para las elecciones realizadas el 7 de septiembre de 2003, distintas
consultoras realizaron encuestas. El diario “La Capital” de Rosario publicó el día miércoles 10
de septiembre de 2003 los resultados de las encuestas y los resultados obtenidos en la
elección para gobernador e intendente:
G.Carnevali-E.Franchelli-G.Gervasoni
INTRODUCCION 6
Consultar a todos los votantes para lograr este objetivo, es obvio que sería una labor imposible;
como única alternativa se investiga una muestra de ellos con la expectativa de que la
proporción de votos para cada candidato en la muestra, se aproxime lo más posible a la
correspondiente proporción en la población.
Este es un ejemplo típico de inferencia estadística: a partir de la proporción muestral se
infiere la correspondiente proporción poblacional.
Como lo advertiría cualquier investigador de la opinión pública se trata de un trabajo incierto.
Para tener seguridad respecto a la proporción de votos de cada candidato en la población es
preciso esperar hasta que se cuenten todos los votos el día de la elección.
Sin embargo, si el muestreo se realiza en forma imparcial y adecuada es probable que la
proporción muestral se aproxime a la proporción poblacional.
Ante este planteo nos podemos preguntar:
9 ¿cómo obtener una muestra imparcial y adecuada?
9 ¿qué error se puede estar cometiendo al inferir sobre la población muestreada a
partir de la información que nos da la muestra?
9 ¿qué seguridad tenemos de estar en lo cierto?
Este planteo representa la esencia del curso y se trabajará específicamente a lo largo de los
capítulos.
¾ Unidad de análisis: es cada uno de los objetos sobre los que se realiza la observación de
una o más variables.
G.Carnevali-E.Franchelli-G.Gervasoni
INTRODUCCION 7
¾ Censo: es un intento de medir todos los elementos de una población de interés. En muchos
casos el censo es impracticable, ya sea porque la población es infinita, porque la
observación implica la destrucción de la unidad, por razones de costos, etc.
¾ Estadístico: es una medida que resume información de una variable, pero calculada con
los datos de la muestra. Por ej.: promedio y proporción muestral.
Ö
Ö Población:
Ö
Ö Unidad de análisis:
Ö
Ö Variable de estudio:
Ö
Ö Tipo de variable:
Ö
Ö Parámetro de interés:
1.4 MUESTRA
G.Carnevali-E.Franchelli-G.Gervasoni
INTRODUCCION 8
La alternativa adecuada es utilizar el azar. Las muestras seleccionadas en forma aleatoria son
muestras probabilísticas. En el curso se trabajará con muestras aleatorias simples:
La tabla de números aleatorios proporciona listas de números generados al azar que pueden
usarse para elegir muestras aleatorias.
La mayoría de las calculadoras manuales y casi todos los paquetes de computadora generan
listas de números aleatorios que pueden usarse para seleccionar muestras aleatorias.
En el Apéndice 1 se adjunta una tabla de números aleatorios.
Además de la muestra aleatoria simple, existen otras técnicas de muestreo probabilístico
apropiadas a distintas situaciones que no serán analizadas en el presente curso.
Se utilizan muestras y no se estudia la población total por cualquiera de las razones siguientes:
9 Recursos limitados
9 Datos disponibles limitados.
9 Prueba destructiva
9 Mas exactitud
1. La limitación de los recursos (tiempo, dinero, etc.) desempeña siempre un papel importante
que justifica el uso de muestras. Si la población es grande, el censo ocasiona un costo
elevado y muchas veces, aunque económicamente se pudiera realizar, llevaría tanto tiempo
que la información no resultaría de interés.
En este mundo tan cambiante, el muestreo permite conseguir la información rápidamente en
un momento determinado.
2. A veces, independientemente de los recursos, sólo existe una pequeña muestra. Por
ejemplo, se puede tener a prueba una máquina que se supone más eficiente que otras,
para decidir si se compran unidades semejantes. El gerente de control de calidad
sencillamente no puede esperar hasta observar la población completa de los productos de
esta máquina, en lugar de ello, debe observar una muestra de productos de dicha máquina
y basar su decisión en una inferencia que hace a partir de dicha muestra.
3. El muestreo puede implicar una prueba destructiva. Por ejemplo, suponga que se desea
conocer el promedio de vida de los focos producidos por una fábrica determinada. Sería
insensato esperar a que todos los focos se quemaran para conocer su promedio de vida.
4. Un censo no ofrece garantía absoluta de calidad. La observación de toda la población puede
ser una tarea enorme que lleve a cometer muchos más errores que cuando se observa una
muestra cuidadosamente diagramada. Por ejemplo, una gran cantidad de personal poco
G.Carnevali-E.Franchelli-G.Gervasoni
INTRODUCCION 9
capacitado puede cometer errores de medición que no cometería una menor cantidad de
personal mejor capacitado.
Retomando el ejemplo de las encuestas previas a la elección, puede suceder que la proporción
de votos obtenida por cada uno de los candidatos en la muestra, quizás represente muy mal a
la correspondiente en la población, por distintas razones:
- Independientemente de lo bien dirigido y diseñado que esté el procedimiento de muestreo,
puede ocurrir que se obtenga una muestra de votantes “no representativa” de la población.
Estos casos de mala suerte son posibles pero no probables.
- El otro problema consiste en que el muestreo puede estar mal diseñado. Por ejemplo,
cuando se muestrea una población de votantes es erróneo tomar sus nombres de una guía
telefónica, puesto que quedarán excluidos los votantes que no poseen teléfono.
Ejercicio
En las situaciones planteadas en el ejercicio de la pag. 4:
Ö
Ö Identifique la población o las poblaciones en estudio para el objetivo planteado.
Ö
Ö Analice si los datos obtenidos constituyen una población o una muestra.
Ö
Ö Clasifique las características en estudio
Ö
Ö Identifique parámetros de interés.
G.Carnevali-E.Franchelli-G.Gervasoni
U.T.N. FACULTAD REGIONAL ROSARIO
INGENIERIA EN SISTEMAS DE INFORMACION
PROBABILIDAD Y ESTADISTICA AÑO : 2008
Comisión: ............
CUESTIONARIO PARA LA BASE DE DATOS ESTUDIANTIL
CORREO ………………………………………………………………………………….
1.-
MATERIA APROBADA REGULAR CURSADA SIN CURSAR CURSANDO
Análisis Matemático I
Algebra y Geometría
Matemática Discreta
Análisis Matemático II
5.- ¿Trabaja? No Si
G.Carnevali-E.Franchelli-G.Gervasoni
2. ESTADISTICA
DESCRIPTIVA
CONTENIDO
2 ESTADISTICA DESCRIPTIVA................................................................................... 11
2.1 DISTRIBUCIONES DE FRECUENCIAS Y GRAFICOS 11
2.1.1 DATOS CORRESPONDIENTES A UN ATRIBUTO 11
2.1.2 DATOS CORRESPONDIENTES A UNA VARIABLE DISCRETA 14
2.1.3 DATOS CORRESPONDIENTES A UNA VARIABLE CONTINUA 16
2.1.4GRAFICAS DE SERIE DE TIEMPO 22
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 11
2 ESTADISTICA DESCRIPTIVA
Una vez fijado el objetivo de estudio y en consecuencia definida la o las poblaciones asociadas,
se procede a la recolección de los datos (censo o muestra).
Considerando que el conjunto de datos constituye una muestra, en este capítulo se estudian
algunas de las técnicas más usadas para:
Ejemplo :
Los siguientes datos representan la condición en Matemática Discreta de los alumnos de la ca-
rrera de Ingeniería en Sistemas de Información de la U.T.N., Reg. Rosario, inscriptos en la
asignatura Probabilidad y Estadística, en el año 2002
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 12
Es muy frecuente expresar a las frecuencias relativas como porcentaje; así en el ejemplo
diremos que sólo el 24 % de los alumnos que cursaron Probabilidad y Estadística en el 2002,
tenían aprobada la asignatura Matemática Discreta.
REPRESENTACION GRAFICA
Sin cursar
Cursando
0%
9%
Aprobada
Cursada
24%
3%
Regular
64%
0,70
0,60
0,50
frec. relativa
0,40
0,30
0,20
0,10
0,00
Aprobada Regular Cursada Cursando Sin cursar
Condición
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 13
DIAGRAMA DE PARETO
Es un caso especial del diagrama de barras, que se usa con frecuencia en control de calidad.
Las barras se grafican en orden descendente. Puede también incluir una segunda escala (del
0 al 100), encima de las barras de las clases, que muestre los porcentajes acumulados.
Este tipo de diagrama lleva el nombre del economista italiano V. Pareto y en general
representa la “ ley de Pareto”, esto es: la mayor parte de los defectos aparece sólo en unas
pocas categorías.
Ejemplo :
Un analista de redes registró las causas principales que propiciaron fallas en los sistemas
durante los últimos seis meses, obteniendo el siguiente resultado:
Razón de la falla
60
Percent
100
50
40
30
50
28
20
14
10
Count
8
0 4 0
Soft servidor Falla eléctrica Ancho de banda
Sin memoria Hardware Conexión física
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 14
Ejemplo :
Un distribuidor de aspiradoras registra el número de unidades vendidas por día durante un
período de 50 días. Los resultados obtenidos fueron:
84 88 87 89 88 89 88 91 87 85
88 89 90 88 87 91 86 89 85 88
86 90 89 84 91 92 89 88 94 90
87 89 91 86 90 89 91 92 89 88
85 88 87 88 91 87 92 90 85 87
DISTRIBUCION DE FRECUENCIAS
Frecuencia Frecuencia
Valor de la Frecuencia Frecuencia
Cómputo de absoluta relativa
variable absoluta relativa
Frecuencias acumulada acumulada
xk nk fk Nk Fk
84 // 2 0,04 2 0,04
85 //// 4 0,08 6 0,12
86 /// 3 0,06 9 0,18
87 //// // 7 0,14 16 0,32
88 //// //// 10 0,20 26 0,52
89 //// //// 9 0,18 35 0,70
90 //// 5 0,10 40 0,80
91 //// / 6 0,12 46 0,92
92 /// 3 0,06 49 0,98
93 0 0,00 49 0,98
94 / 1 0,02 50 1,00
Total 50 1,00
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 15
REPRESENTACION GRAFICA
0,25
0,2
frecuencia relativa
0,15
0,1
0,05
0
83 84 85 86 87 88 89 90 91 92 93 94
número de aspiradoras
GRAFICO ESCALONADO
0,8
Frec. rel. acumulada
0,6
0,4
0,2
0
83 84 85 86 87 88 89 90 91 92 93 94 95
Número de aspiradoras
1
Ver pasos a seguir para su utilización en el punto 2.7: Complemento para el uso de Excel, pag 45.
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 16
DIAGRAMA DE PUNTOS
•
• •
• • • • • • •
84 85 86 87 88 89 90 91
número de aspiradoras
Ejemplo:
Con el propósito de adecuar los objetivos curriculares de una escuela, se decide analizar la
realidad socioeconómica de la familia a la cual pertenecen los alumnos ingresantes en un
año determinado. A tal fin se registran para cada uno de ellos (entre otros datos) la superfi-
cie cubierta de la vivienda que habita la familia del alumno ingresante. Los resultados obteni-
dos para 30 alumnos ingresantes seleccionados al azar fueron:
85 - 117 - 92 - 120 - 94 - 110 - 151 - 90 - 80 - 116 - 95 - 102 - 100 - 113 - 118 - 140 - 133 -
108 - 115 - 148 - 110 - 130 - 100 - 120 - 108 - 125 - 105 - 130 - 112 - 150
DIAGRAMA DE TALLO-HOJA
Es conveniente presentar a los dígitos hoja ordenados en forma creciente para facilitar la
posterior utilización del diagrama tallo-hoja, tanto en forma gráfica como tabular.
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 17
8 05
9 0245
10 002588
11 00235678
12 005
13 003
14 08
15 01
DISTRIBUCION DE FRECUENCIAS
Otra forma de organizar la información es individualizando entre los datos, el valor mínimo (80
m2) y el máximo (151 m2) que asume la variable.
La diferencia entre ambos valores (en este caso 71 m2) se llama rango.
Los 28 valores restantes pertenecen al intervalo [ 80, 151].
Para poder realizar el respectivo cómputo de frecuencias, dicho intervalo se particiona en
subintervalos de igual amplitud. Cada uno de ellos identifica a una clase y recibe el nombre de
intervalo de clase .
Cuando se agrupan datos a través de intervalos de clase, se produce una pérdida de
información por la no conservación de los valores individuales. Demasiados intervalos provoca
pérdida de efectividad como medio de resumir datos; en cambio, pocos intervalos condensan
tanto la información que arrojan poca luz sobre el comportamiento de la característica.
La elección del número de subintervalos está estrechamente relacionada con la cantidad de
datos que se consideran. Es común usar entre 5 y 20 subintervalos.
Suele aplicarse una regla práctica que indica que el número de subintervalos es
aproximadamente igual a la raíz cuadrada del número de observaciones.
Para el ejemplo dado, se tomarán 6 subintervalos, dado que 30 = 5,4772
Deben ser semiabiertos para que cada valor de la variable pertenezca a uno y sólo
uno de los intervalos.
En el ejemplo : 79 < x ≤ 91 ó ( 79 , 91]
El punto medio de cada intervalo de clase debe ser un posible valor de la variable (de
acuerdo a las restricciones con las que se expresan los valores de las observaciones).
En el ejemplo los puntos medios deben ser valores enteros a pesar de que la variable
es continua.
Es preferible, por facilidad en el análisis, que los intervalos posean igual amplitud.
La tabla siguiente muestra la distribución de frecuencias del ejemplo :
2
PHStat es un complemento estadístico para Microsoft Excel incluido en el CD que acompaña al libro Estadística para Adminis-
tración (2da edición) de Berenson, M; Levine , D. y Krehbiel,T.; editorial Pearson Educación, México, 2001.
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 18
Frecuencia Frecuencia
Frecuencia Frecuencia
Intervalo de clase Punto medio absoluta relativa
absoluta relativa
acumulada acumulada
79 < x ≤ 91 85 3 0,10 3 0,10
91 < x ≤ 103 97 6 0,20 9 0,30
103 < x ≤ 115 109 8 0,27 17 0,57
115 < x ≤ 127 121 6 0,20 23 0,77
127 < x ≤ 139 133 3 0,10 26 0,87
139 < x ≤ 151 145 4 0,13 30 1,00
30 1,00
REPRESENTACION GRAFICA
HISTOGRAMA
• Las bases de las barras tienen la longitud igual a la amplitud del intervalo de clase que
representan y se ubican sobre el eje de la abscisa.
• Si los intervalos de clase son de igual amplitud, las alturas de las barras resultan
proporcionales a las frecuencias de las clases. En caso de amplitudes diferentes, las
alturas deben ser calculadas para que se verifique la condición anterior.
3
Ver pasos a seguir para su utilización en el punto 2.7: Complemento para el uso de Excel, pag 45
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 19
0,3
0,25
0,2
Frecuencia
0,15
0,1
0,05
0
79 91 103 115 127 139 151 163
Superficie cubierta (en m2)
Los histogramas son más fáciles de interpretar si los intervalos de clase tienen la misma
amplitud.
El histograma, al igual que el diagrama de tallo-hoja, proporciona una impresión visual del
aspecto que tiene la distribución de las observaciones, así como información sobre la
dispersión de los datos.
Al pasar de los datos originales o del diagrama de tallo-hoja a la distribución de frecuencias y al
histograma, se pierde parte de la información debido a que ya no se tienen las observaciones
originales. Sin embargo, esta pérdida en la información a menudo es pequeña si se le compara
con la facilidad de interpretación ganada al utilizar la distribución de frecuencias y el
histograma.
Para conjuntos de datos pequeños, los histogramas pueden cambiar claramente de apariencia
si el número de clases o el ancho de éstas cambia. Los histogramas son más estables si el
número de observaciones es grande.
POLIGONO DE FRECUENCIAS
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 20
Para el ejemplo:
0,3
0,25
frecuencia relativa
0,2
0,15
0,1
0,05
0
73 85 97 109 121 133 145 157
sup. cubierta (en m2)
1
0,9
Frec. relativa acumulada
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
67 79 91 103 115 127 139 151 163
Sup. cubierta (en m2)
4
Se presenta a continuación otro ejemplo sobre variable continua :
4
Ejemplo extraído de “Probabilidad y Estadística aplicada a la Ingeniería” de Montgomery Douglas, Runger Geor-
ge.- Mc Graw Hill – México, 1996. pag. 5
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 21
Los datos de la siguiente tabla representan la resistencia a la tensión, en libras por pulgada
cuadrada (psi), de 80 muestras de una nueva aleación de aluminio y litio, que está siendo
evaluada como posible material para la fabricación de elementos estructurales de aeronaves.
Los datos fueron registrados conforme se realizaba la prueba y en este formato no conllevan
mucha información con respecto a la resistencia a la tensión. No es fácil responder a preguntas
tales como “¿Qué porcentaje de las muestras fallaron debajo de los 120 psi?”.
Dado que se tienen muchas observaciones, la construcción de un diagrama de puntos para
estos datos es ineficiente; existen presentaciones visuales más eficaces para conjuntos
grandes de datos. Una de ellas es el ya visto diagrama de tallo y hoja:
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 22
Las gráficas consideradas hasta el momento (histogramas, diagramas de tallo y hoja) son
métodos visuales muy útiles para mostrar la variabilidad presente en los datos. Sin embargo,
con frecuencia el tiempo es un factor importante que contribuye a la variabilidad observada en
los datos, y los métodos anteriores no lo toman en cuenta. Una serie de tiempo, o secuencia de
tiempo, es un conjunto de datos en los que las observaciones se registran en el orden en que
ocurren. La gráfica de una serie de tiempo es un diagrama en el que el eje vertical denota el
valor observado (por ejemplo x), mientras que el eje horizontal denota el tiempo (que puede ser
minutos, días, años, etc.). Cuando se grafican las mediciones como una serie de tiempo, a
menudo se observan tendencias, ciclos u otras características importantes de los datos que, de
otra forma, pasarían inadvertidas.
Por ejemplo, considérese la figura 1-18 a, la cual presenta la gráfica de una serie de tiempo de
las ventas anuales de una compañía durante los últimos diez años. La impresión general que
ofrece esta gráfica es que las ventas tienen una tendencia a crecer. Existe cierta variabilidad
en esta tendencia, donde, las ventas en algunos años aumentaron con respecto a las del año
anterior, mientras que las ventas de otros años disminuyeron. La figura 1-18 b presenta las
ventas de los tres últimos años notificadas por trimestre. Esta gráfica muestra de manera clara
que las ventas anuales de la empresa exhiben una variabilidad cíclica por trimestre, donde las
ventas en los dos primeros trimestres son mayores que en los dos últimos.
5
Extraído de “Probabilidad y Estadística aplicada a la Ingeniería” de Montgomery Douglas, Runger George.- Mc
Graw Hill – México, 1996. pag. 33
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 23
a)
b)
Algunas veces puede ser útil combinar las gráficas de serie de tiempo con alguno de los tipos
de presentación gráfica considerados hasta el momento, por ejemplo con los diagramas de ta-
llo y hoja, para formar un diagrama de dígitos y líneas.
La figura 1.19 presenta un diagrama de dígitos y líneas para las observaciones de resistencia
a la tensión del ejemplo de la página 23, que como se dijo, fueron registradas en el orden en
que ocurrieron.
Esta gráfica indica de manera eficaz la variabilidad total de los datos de resistencia a la tensión
y, de manera simultánea, presenta la variabilidad en las mediciones con el paso del tiempo. La
impresión general es que la resistencia cambia alrededor del valor medio de 162,67, y no hay
ningún patrón obvio sobre esta variabilidad con respecto al tiempo.
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 24
El diagrama de dígitos y líneas de la figura 1.20 presenta una situación diferente. Esta gráfica
resume 30 observaciones sobre la concentración de un producto obtenido mediante un proceso
químico, donde las observaciones se registraron a intervalos de una hora. La gráfica indica
que, durante las primeras 20 horas de operación, el proceso produjo concentraciones en
general por encima de 85 g/l, pero después de la muestra 20 algo ocurrió con el proceso, que
dio como resultado concentraciones más bajas. Si esta variabilidad en la concentración del
producto puede reducirse, entonces es posible mejorar la operación del proceso.
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 25
Las medidas que resumen la información de una distribución de frecuencias reciben el nombre
de:
ESTADISTICOS
de acuerdo a
pueden ser de
POSICION DISPERSION
Media
Media Mediana Moda Fractilas Rango Varianza Desvío Desvío Inter-
estándar cuartílico
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 26
Ellas son :
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 27
r r
1
x=
n
∑
i= 1
xi ni = ∑
i= 1
xi fi (2)
• Es una medida de posición útil para comparar dos o más distribuciones, sólo si éstas
tienen forma semejante.
Moda
Características de la moda:
Mediana
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 28
Característica de la mediana:
Fractilas
Ejercicios
si las observaciones se encuentran clasificadas en clases (ej. apartado 2.1.2, pag. 16)
2. Los últimos diez días de junio, el tren “ Costa Especial ” llegó tarde a su destino en los
siguientes números de minutos ( un número negativo significa que el tren llegó con anti-
cipación):
3 , 6 , 4 , 10 , - 4 , 124 , 2 , - 1 , 4 , 1
Media
Mediana
Moda
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 29
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 30
Es el promedio, aproximado, de
los cuadrados de las diferencias
Varianza muestral entre los valores de las observacio-
s2n-1
nes y su correspondiente media
aritmética
Rango
r = xM - x m
Proporciona una primera información sobre la dispersión de los valores pero basta que al
menos uno de los dos valores que intervienen en su cálculo esté excesivamente alejado
para que pierda importancia la información que brinda.
Varianza muestral
Es el promedio, aproximado, de los cuadrados de los desvíos de las observaciones con res-
pecto a su media aritmética.
1 r
∑ ( xi − x ) ni
2
s n2− 1 =
n − 1 i= 1
Si el denominador hubiese sido n en lugar de n-1, se hubiera obtenido el promedio de los
cuadrados de los desvíos de las observaciones con respecto al promedio de las mismas. Sin
embargo, n-1 se usa aquí debido a ciertas propiedades deseables del estadístico s2 que lo
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 31
La varianza está expresada en unidades al cuadrado, lo que representa una desventaja para
su interpretación.
s = s n2− 1
Recorrido intercuartílico
riq = q3 - q1
Se darán a continuación las medidas características calculadas para los dos ejemplos
trabajados con variable discreta y con variable continua. Las mismas fueron obtenidas en Excel
con Análisis de datos, en la opción Estadística Descriptiva :
Número de Aspiradoras
Media 88,44
Error típico 0,32
Mediana 88,00
Moda 88,00
Desviación estándar 2,23
Varianza de la muestra 4,99
Curtosis -0,22
Coeficiente de asimetría 0,05
Rango 10
Mínimo 84
Máximo 94
Suma 4422
Cuenta 50
Con respecto al ejemplo del apartado 2.1.3 correspondiente a la superficie cubierta de las
viviendas de los alumnos ingresantes a una escuela las mismas resultaron :
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 32
s
c.v. = . 100
x
Es el desvío estándar expresado como porcentaje de la media aritmética, por lo tanto no viene
expresado en unidades.
Es útil para la comparación de la variabilidad relativa entre distribuciones que no están
expresadas en la misma unidad de medida o bien, entre distribuciones que si bien están
expresadas en la misma unidad, poseen promedios muy dispares.
Ejemplo :
En febrero del año pasado, los datos de préstamos personales de una mutual mostraron
un promedio de $650 y una desviación estándar de $300. Recientemente se calculó la
media y la desviación estándar correspondiente a los préstamos personales de febrero
del presente año resultando las mismas $ 900 y $ 350 respectivamente.
¿En cuál de los dos años los préstamos personales presentaron menor dispersión
relativa?
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 33
Es posible que dos conjuntos de datos distintos tengan el mismo rango pero difieran
considerablemente en el grado de variación de los datos. En consecuencia, el rango es una
medida relativamente insensible de la variación de los datos. La varianza tiene importancia
teórica, pero es difícil de interpretar porque las unidades de medición de la variable de interés
están elevadas al cuadrado. En cambio, las unidades de medición de la desviación estándar
son las unidades de la variable. Si la desviación estándar se combina con la media del conjunto
de datos, resulta fácil interpretarla. Una regla práctica útil es la que se conoce como regla
empírica, a saber:
Casi todas las observaciones quedan a tres desviaciones estándar de su media (es decir,
dentro del intervalo x ± 3 s )
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 34
Con respecto al ejemplo del apartado 2.1.3 correspondiente a la superficie cubierta de las
viviendas de los alumnos ingresantes a una escuela, la media es 113,8 m2 y la desviación
estándar 18,267 m2.
Las proporciones del número total de observaciones que se esperaría encontrar en
los intervalos x ± s , x ± 2 s y x ± 3 s según la regla empírica, así como las
proporciones reales, se presentan en la siguiente tabla:
Representa los tres cuartiles junto con los dos valores extremos de las observaciones.
Los diagramas de caja que se presentan a continuación ( confeccionados con PHStat ),
corresponden a los datos observados para las características “número de aspiradoras
vendidas” y “superficie cubierta de la vivienda” analizadas anteriormente en el desarrollo de las
distribuciones de frecuencias de las variables discretas y continuas, respectivamente.
Nº Aspiradoras
96
94
92
90
88
86
84 Nº Aspiradoras
82
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 35
Superficie cubierta
150
130
110
90
Superficie
70
El lado inferior de las cajas corresponde al primer cuartil, el lado superior al tercer cuartil y el
segmento que divide a las cajas al segundo cuartil. Un segmento de recta une el lado inferior
de las cajas con el mínimo valor observado y otro segmento une el lado superior de las cajas
con el máximo valor observado.
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 36
x -x
Valor z =
s
Estos valores por lo general son atribuibles a una de las siguientes causas:
Supongamos una variable “x” con media aritmética ( x ) y varianza ( s2x ) y una variable “y”
de la forma:
y = a+bx
2 2 2
• sy = b sx ( varianza de la variable y )
En el caso b = 1, lo único que se hace es sumar una constante (a). La media aritmética de la
nueva variable quedará incrementada en un valor igual al de la constante (a) y el desvío
estándar, que es una medida de dispersión, permanece igual.
En cambio, si la variable es multiplicada por una constante b ≠ 1, esto produce una contracción
o una dilatación de la distribución (según sea b menor o mayor que 1) lo que se refleja en la
varianza.
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 37
Ejemplo :
Sea la variable x : número de días completos trabajados en un año por operario de una fá-
brica.
Se conoce que el promedio de la variable x es 290,1 días con una desviación de 2,2 días.
Cada día no trabajado ocasiona a la fábrica una pérdida de $ 150.
Calcule la pérdida anual promedio por operario y su desvío estándar (considere 300 días la-
borables en el año).
yi = ( 300 - xi ) 150
de donde :
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 38
a ) El siguiente gráfico representa una reducción ( en el año 1990 con respecto al año
anterior ) del 50% en el número de barriles de petróleo extranjero utilizado en el proceso
de manufactura de productos de películas por una empresa.
120,000
Barriles
60,000
1989 1990
b)
Liderazgo
2% 2%
3%
COLDWELL BANKER
11%
E.R.A.
32% GALLERY
CENTURY
otros
6
Los gráficos fueron realizados por Diego Martínez Viademonte, alumno que cursó la asignatura en el año 2003
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 39
c)
98
Porcentaje
97
96
95
CHEVY FORD TOYOTA NISSAN
Camión
Más del 98% de los camiones Chevy vendidos durante los últimos 10 años siguen en el camino.
100
90
80
70
Porcentaje
60
50
40
30
20
10
0
CHEVY FORD TOYOTA NISSAN
Camión
Más del 98% de los camiones Chevy vendidos durante los últimos 10 años siguen en el camino.
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 40
2.- En una editorial se clasificaron las publicaciones del año anterior según su carácter y se
obtuvo que el 45% de las publicaciones eran científicas, el 17% técnicas, 16% literarias,
12% artísticas y 10% de otro carácter.
Presente un informe respecto a las publicaciones de la editorial.
3.- Una fábrica de estéreos desea estudiar la relación entre el número de piezas defectuosas y
el momento de la jornada de trabajo en que se producen las mismas. Se fijaron tres
períodos de la jornada : 6 – 7 horas ; 10 – 11 horas y 13 – 14 horas y en cada uno de ellos
se observó durante treinta días el número de defectuosos. Los resultados obtenidos fueron:
4 1 4 3 5 10 4 8 10 3 7 6 6 5 9
1° período
8 10 6 4 6 5 7 6 6 9 7 5 6 7 5
6 2 4 5 7 8 5 6 4 6 5 7 4 6 5
2° período
3 6 6 5 9 8 6 7 6 4 7 6 6 5 7
4 5 6 9 8 10 12 11 12 10 9 9 10 8 7
3° período
11 12 9 14 12 9 11 13 12 11 13 14 12 10 13
4.- Los siguientes datos corresponden a los tiempos de duración (en segundos) de 100 temas
de rock. Realiza un análisis descriptivo completo de la información:
Tiempo Frecuencia
135 ≤ t < 145 8
145 ≤ t < 155 9
155 ≤ t < 165 18
165 ≤ t < 175 20
175 ≤ t < 185 35
185 ≤ t < 195 10
5.- A los efectos de organizar las compras de gaseosas para la fiesta de fin de curso de un
instituto, se le preguntó a cada uno de los 200 integrantes de la comunidad educativa la
gaseosa preferida.
♦ el porcentaje de alumnos que prefieren pomelo es igual al de los docentes que prefieren
la misma gaseosa
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 41
Integrante
s
Docentes No docentes Alumnos Totales
Gaseosa
Cola
Pomelo 4
Naranja
Totales 40 10
6.- Una compañía de seguros registró entre sus asegurados el número de accidentes del año
2003, obteniendo la siguiente información:
1 84 50 41 66 60
2 41 15 12 16 25
más de 2 10 9 5 5 8
Totales
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 42
a) Calcule las medidas descriptivas que crea conveniente para representar los datos e
interprete sus resultados.
b) El sueldo promedio de los 1000 operarios de esa industria es de $ 490. Obtenga el
sueldo promedio para el conjunto de ambas categorías de empleados.
c) Si conociera la mediana y la moda para la categoría de los operarios, ¿podría calcular
esas medidas para el conjunto de todos los trabajadores de la industria?
d) Si se aumentara en un 10 % el sueldo de cada empleado, calcule sueldo promedio y
varianza.
e) Si a cada empleado se le aumenta el sueldo en 50 $, calcule sueldo promedio y varian-
za.
8.- Los siguientes datos son mediciones de viscosidad de un producto químico tomadas cada
hora (de arriba abajo y de izquierda a derecha).
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 43
Se seleccionan al azar 160 latas a las cuáles se les mide el diámetro y se obtiene la
siguiente distribución de frecuencias:
Construya un gráfico de cajas para cada uno de los tres diseños y presente un informe
con sus conclusiones.
G.Carnevali-E.Franchelli-G.Gervasoni
ESTADÍSTICA DESCRIPTIVA 44
G.Carnevali-E.Franchelli-G.Gervasoni
3.
PROBABILIDAD
CONTENIDO
3 PROBABILIDAD................... 46
3.1 INTRODUCCION.........................................................46
3 PROBABILIDAD
3.1 INTRODUCCION
Tal vez esté familiarizado con algunas ideas de probabilidad, ya que ésta forma parte de la
cultura cotidiana. Con frecuencia se escucha a personas que hacen afirmaciones relacionadas
con la probabilidad como las siguientes:
Probablemente nuestro equipo gane esta noche.
Hay un 40 % de probabilidad de que llueva mañana.
Tengo una posibilidad de 50-50 de aprobar el examen de estadística de hoy.
Es más probable que nos encontremos un fin de semana que un día de la semana.
¿Qué significan exactamente este tipo de expresiones? ¿Significan de hecho lo que afirman?.
Algunas afirmaciones pueden estar basadas en información científica y otras en prejuicios
subjetivos. Cualquiera que sea el caso, son inferencias probabilísticas: no hechos, sino
conjeturas.
Como ya se vio en el ejemplo de las elecciones de gobernador e intendente (capítulo 1, pag.
5), no se puede tener la certeza de que el porcentaje de votos obtenido por un candidato
cualquiera aparezca en una muestra aleatoria. Sin embargo, es “probable” que el porcentaje
en la muestra resulte “próximo” al que se obtuvo en el acto eleccionario.
Se tiene como propósito definir “probable”, “próximo”, de manera más precisa.
Para ello es necesario considerar en primer término una serie de nociones básicas sobre el
conocimiento de las “leyes de probabilidad”.
En este capítulo se estudiará el concepto básico de probabilidad y sus reglas aplicadas a
sucesos simples y sucesos compuestos.
La teoría de la probabilidad es la base de la inferencia estadística y un instrumento esencial
en el análisis de la variabilidad.
Experimento aleatorio
Es el tipo de fenómenos de que nos ocuparemos. Se caracterizan porque:
aunque no se puede saber el resultado particular que ocurrirá, se puede describir el
conjunto de todos los resultados posibles
después de un gran número de repeticiones de la experiencia aleatoria, existe una
distribución regular de los resultados. Es decir, a medida que el experimento se repite
los resultados parecen ocurrir de manera caprichosa, sin embargo, ante un gran
número de repeticiones aparece un modelo definido de regularidad. Esta regularidad
hace posible la construcción de un modelo matemático que permite el análisis del
experimento.
Esto se puede visualizar en el ejemplo del lanzamiento de una moneda (ver punto.
3.3.1, pag. 49).
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 47
A
b B
Mutuamente excluyentes A∩B=∅
S
A
c B
No mutuamente excluyentes A∩B≠ ∅
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 48
Ejercicios
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 49
resultado cara o expresándolo en los términos anteriormente vistos, la frecuencia relativa del
suceso cara sería aproximadamente 0,5.
Proporción de caras
Número de lanzamientos
Figura 3.1
Formalizando, se define:
ε : lanzar una moneda al aire y registrar el resultado
El espacio muestral asociado a ε : S ={C;X}
Sea:
s1: cara
n1: frecuencia absoluta del suceso s1
n : nº de repeticiones del ε
n1
f ( s1 ) = : proporción de veces que se verifica cara en n tiradas.
n
Generalizando:
ni
f ( si ) =
→ P ( si )
n n→ ∞
1
La interpretación de la probabilidad como frecuencia relativa en el límite se basa en la observación de un gran
número de repeticiones. Surge ahora la pregunta, ¿cuántas repeticiones se deben realizar? Como veremos en el
capítulo 6, con un número finito de repeticiones de la experiencia es posible aproximar la verdadera probabilidad
de un suceso.
2
Este efecto estabilizador de la frecuencia relativa cuando el número de observaciones crece se denomina Ley de
los grandes números.
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 50
P ( s1 ) = P( s 2 ) = = P ( s k )
Al igual que en las frecuencias relativas, la sumatoria de las probabilidades de todos los
sucesos posibles es igual a 1:
k 1
∑ P ( si ) = 1 ⇒ P ( si ) =
i= 1 k
r
y por lo tanto, si A = si donde r ≤ k
i= 1
entonces
r r
P( A) = ∑ p( si ) =
i= 1 k
n º de resultados favorables a A
P ( A) =
n º de resultados posibles
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 51
Cualquiera sea el enfoque utilizado para determinar la probabilidad de un suceso A, ésta debe
verificar ciertas propiedades:
Todos los resultados posibles juntos deben tener una probabilidad de 1 → P(S) = 1
Existen varias manera de observar un espacio muestral específico. El método que se utiliza a
continuación implica ubicar los sucesos en una tabla de doble entrada o tabla de contigencia3.
3
Este tipo de tablas fue utilizada para presentar la información de los ejercicios 5 y 6 que se proponen como trabajo
práctico en Estadística Descriptiva (pags. 40-41).
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 52
Se considera
la experiencia aleatoria : seleccionar un alumno al azar de los ingresantes a la Facultad
durante el año 2003
asociados a la variable cualitativa “sexo”, los sucesos:
M: ingresante mujer V: ingresante varón
asociados a la variable cualitativa “carrera a la que ingresa”, los sucesos:
I : ingresante a I.S.I. F: ingresante a Ing. Mecánica
Q: ingresante a Ing. Química E: ingresante a Ing. Eléctrica
C: ingresante a Ing. Civil
En los puntos siguientes se desarrollarán reglas para obtener diferentes tipos de probabilidad y
para su compresión nos basaremos en la situación planteada anteriormente.
Observe que los sucesos V y M son sucesos complementarios y por lo tanto, la suma de sus
probabilidades es igual a 1.
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 53
Carrera Distribución
I F Q E C marginal de
Sexo sexo
Ahora se puede ver la probabilidad de un suceso simple como la suma de las probabilidades
conjuntas que incluyen dicho suceso. Por ejemplo, se puede pensar la P (M) como:
P ( M ) = P ( I ∩ M ) + P ( F ∩ M ) + P (Q ∩ M ) + P ( E ∩ M ) + P (C ∩ M ) =
= 0,14 + 0 + 0,05 + 0 + 0 = 0,19
4
En las celdas sombreadas se presenta la distribución de las probabilidades conjuntas.
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 54
En general
k
P ( B ) = ∑ P ( Ai ∩ B )
i= 1
Regla de la suma
P ( A o B ) = P ( A ∪ B ) = P ( Α ) + P ( Β ) − P ( Α ∩ B)
La probabilidad del suceso A y B se resta de esta suma porque se incluye dos veces al
calcular la probabilidad de A y la probabilidad de B. Esto se podrá visualizar en el siguiente
ejemplo:
( ) ( )
P (V ∪ Q ) = P V ∩ Q + P V ∩ Q + P (V ∩ Q ) = 0,72 + 0,05 + 0,09 = 0,86
S
V∩ Q
V∩Q
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 55
P ( A ∪ B ∪ C ) = P( A ) + P( B ) + P( C ) − P( A ∩ B ) − P( A ∩ C ) − P( B ∩ C ) + P( A ∩ B ∩ C )
Por lo tanto :
( )
P MI =
141
637
= 0,22 → probabilidad de M en el espacio muestral reducido I
141
( )
P MI =
141
637
= 1.043 = 0,135 = 0,22
637 0,611
1.043
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 56
141 637
Como = P( M ∩ I ) y = P( I )
1043 1.043
Se puede expresar:
(
P M
I
)= P( M ∩ I )
P(I)
con P(I) ≠ 0
Si se compara P(M) (igual a 0,19) y P(M / I ) (igual a 0,22), se observa que el conocimiento
de que el suceso I ocurrió modifica la probabilidad de ocurrencia del suceso M.
Generalizando:
P (B ∩ A)
P( B A )=
P (A) con P ( A ) ≠ 0 (1)
P( A∩ B )
P( A B )=
P( B )
con P ( B ) ≠ 0 (2)
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 57
En general:
Los sucesos A y B son independientes si la ocurrencia de uno no afecta en ninguna forma las
posibilidades de que el otro ocurra.
En consecuencia:
P ( A B ) = P (A) o P ( B A) = P (B)
P (M I ) ≠ P ( M ) y
P ( I M) ≠ P( I )
Analizando los resultados obtenidos se puede deducir que el conocer que un suceso ha
ocurrido puede aumentar, disminuir o no modificar la probabilidad de ocurrencia de otro suceso
relacionado con el primero. En el caso particular de que un suceso no modifique la probabilidad
de ocurrencia de otro, se dice que los sucesos son independientes.
P( A∩ B ) = P( A B ) . P( B ) = P( B A ) . P( A )
Esta regla puede aplicarse si se tiene que calcular la probabilidad de que ocurran
conjuntamente tres o más sucesos cualesquiera. Generalizando para n sucesos:
n
P Ai = P (A1 ) . P ( A2 A1 ) . P ( A3 A1 A2 ) P ( An A1 A2 An - 1 )
i= 1
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 58
P (A ∩ B) = P ( A ) . P ( B )
n n
P ( Ai ) = ∏ P ( Ai )
i= 1 i= 1
Nota:
Se quiere remarcar la diferencia entre dos conceptos muy importantes: sucesos
independientes y sucesos mutuamente excluyentes:
Mutuamente excluyentes indica que los dos sucesos no pueden ocurrir al mismo
tiempo; por lo tanto su intersección es vacía.
La independencia indica que un suceso no afecta la probabilidad de ocurrencia del
otro.
Dos sucesos no pueden ser a la vez mutuamente excluyentes e independientes. Es
decir:
- Si dos sucesos son mutuamente excluyentes, entonces no son independientes.
- Si dos sucesos son independientes, entonces no son mutuamente excluyentes.
Ejercicios
1. Suponga que se exhiben 20 marcadores en una librería. De estos, 6 son rojos y 14 son
azules. Se seleccionan al azar 2 marcadores del conjunto de 20. Encuentre la probabilidad
de que los dos marcadores seleccionados sean rojos. (Considere los sucesos A 1: el primer
marcador seleccionado es rojo y A2: el segundo marcador seleccionado es rojo)
2. Suponga la experiencia aleatoria del ejercicio 1 pero considerando que el primero de los
marcadores elegidos se regresa al mostrador después de determinar su color. Encuentre la
probabilidad de seleccionar marcadores rojos las dos veces.
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 59
B : desempleado.
A1 : nivel de instrucción primario completo.
A2 : nivel de instrucción secundario completo.
A3 : nivel de instrucción universitario completo.
Y sus probabilidades:
P(A1) = 0,40 P(A2) = 0,50 P(A3) = 0,10
P(B/A1) = 0,10 P(B/A2) = 0,05 P(B/A3) = 0,02
Observe que:
A1 , A2 , A3 representan una partición de S y B otro suceso relacionado con Ai .
Se puede expresar:
B = ( A1 ∩ B ) ∪ ( A2 ∩ B ) ∪ ( A3 ∩ B )
Si se conocen:
Sucesos A1 A2 A3 Probabilidad
Luego,
3 3
P (B ) = ∑ P (Ai ∩ B ) = ∑ P (Ai ) . P( B Ai ) =
i= 1 i= 1
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 60
Generalizando
k
P (B) = ∑ P ( Ai ) ⋅ P ( B Ai )
i= 1
Para resolver este tipo de problemas también es útil recurrir a un diagrama de “árbol”:
P( A2 ∩ B) 0.025
P (A2 / B) = =
P( B ) 0.067
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 61
Se puede decir que ciertas “causas” (por ej. tipo de educación: A1, A2 , A3....) tienen
probabilidades a priori P(Ai). Existe un “efecto” B (desempleo), que no siempre ocurre cuando
la causa está presente, por eso se habla de P(B/Ai).
Cuando se usa la probabilidad condicional para invertir lo anterior, se calcula la probabilidad de
una causa, dado el efecto, es decir, la probabilidad a posteriori P (Ai/B)
Dado Se deduce
P ( Ai)
→ P (Ai / B)
P (B / Ai)
P (Aj) ⋅ P ( B Aj )
P (Aj B ) = k
∑ P (Ai) ⋅ P ( B Ai )
i= 1
j= 1, 2, 3, .....k
Observe que el denominador no es más que la aplicación del teorema de las probabilidades
totales.
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 62
1. Un conmutador consta de dos líneas L1 y L2. En un momento “t” cualquiera, cada una de las
líneas puede encontrase congestionada ( C ) o descongestionada ( D ).
a) Describa los posibles resultados de observar el estado del conmutador en un momento
“t”.
b) Suponga que se conocen las probabilidades de los sucesos elementales del espacio
muestral:
L1
Congestionada Descongestionada
L2
Congestionada x 0,10
Descongestionada 0,10 0,79
Una compañía de seguros registró entre sus asegurados el número de accidentes del año
2003, obteniendo la siguiente información:
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 63
3.- Un contratista tiene ocho proveedores a los cuales puede comprarles insumos eléctricos.
Seleccionará aleatoriamente a tres de ellos y pedirá a cada uno que presente una
cotización del proyecto.
a) ¿De cuántas maneras puede seleccionarse a los proveedores?
b) Si su compañía es uno de los ocho proveedores ¿cuál es la probabilidad de que tenga
oportunidad de cotizar el proyecto?
4.- Una compañía recibe un embarque de 20 discos duros. Antes de aceptarlo, selecciona
aleatoriamente cinco de ellos y los somete a prueba. El embarque se acepta si los cinco
discos cumplen con las especificaciones, en caso contrario se regresan todos al fabricante.
Si tres de los 20 discos son defectuosos.
a) ¿De cuántas maneras pueden seleccionarse una muestra de cinco discos duros?
b) ¿De cuántas maneras pueden seleccionarse una muestra de cinco discos duros que
cumplan con las especificaciones?
c) ¿cuál es la probabilidad de que no se acepte el embarque?
5.- Cuando una computadora se bloquea, existe una probabilidad de 75% de que se deba a
una sobrecarga, y de 15% de que sea por un problema de software. La probabilidad de que
se origine en una sobrecarga o un problema de software es de 85%.
a) ¿Cuál es la probabilidad de que se deba a ambos problemas?
b) ¿Cuál es la probabilidad de que haya un problema de software sin sobrecarga?
6.- Un número binario está compuesto sólo de los dígitos cero y uno. Suponga que un número
binario está formado por n dígitos. La probabilidad de que aparezca un dígito incorrecto es
“p” y los errores en dígitos diferentes son independientes uno del otro.
¿Cuál es la probabilidad de formar un nº incorrecto?.
7.- Una compañía de automóviles ha determinado que un nuevo comprador de autos solicitará
aire acondicionado instalado en fábrica en el 30 % de los casos. Calcule la probabilidad de
que:
a) los siguientes 4 compradores soliciten aire acondicionado en fábrica
b) ninguno de los siguientes 3 compradores soliciten aire acondicionado en fábrica
c) dos de los siguientes 4 compradores soliciten aire acondicionado en fábrica
d) de los siguientes 4 compradores sólo el último solicite aire acondicionado en fábrica
8.- El gerente de una empresa de colocaciones desea estudiar varias características de las
personas que solicitan trabajo, entre ellas si el solicitante estuvo en el último empleo por lo
menos 5 años y si tienen título universitario. Se selecciona una muestra de 600 solicitantes
obteniéndose la siguiente tabla de frecuencias:
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 64
Universitario
Ultimo empleo Si No Total
por lo menos 5 años
Si 100 180 280
No 220 100 320
Total 320 280 600
9.- Una empresa dedicada al procesamiento de datos considera que al probar por primera vez
un programa se pueden encontrar:
- errores importantes (que ocasiona que el programa falle por completo)
- errores menores (fallas que permiten que el programa se corra, pero que en algunas
situaciones producen resultados erróneos)
- ningún error
De experiencias anteriores se conoce que la probabilidad de que al correr por primera vez el
programa se encuentren errores importantes es 0,6; de encontrar errores menores es 0,3 y
de no encontrar errores es 0,1. En caso de haber errores se trata de corregirlos y se vuelve
a probar el programa.
La tabla siguiente muestra las probabilidades de los resultados en la 2ª prueba condicionada
a los de la 1ª :
2ª
prueba Importante Menor Ninguno
1ª prueba
Importante 0,3 0,5 0,2
Menor 0,1 0,3 0,6
Ninguno 0 0,2 0,8
a) Construya una tabla de probabilidades conjuntas y un árbol de probabilidad
b) Encuentre la probabilidad de descubrir un error importante durante la segunda prueba
c) Encuentre la probabilidad de error menor en la primera prueba sabiendo que el error en
la segunda prueba es importante
d) Analice la independencia entre los resultados de la primera prueba con los de la
segunda.
G.Carnevalli-E.Franchelli-G.Gervasoni
PROBABILIDAD 65
10. En un gran hospital de niños, el inspector de calidad de las partidas de leche en polvo que
el gobierno envía, acepta (A) el 90 % de las mismas y rechaza el resto. De experiencias
anteriores se conoce que el 95 % de los lotes que envía el gobierno son buenos (B) y el
resto presenta algún defecto (D). El inspector rechaza el 94 % de los lotes defectuosos que
inspecciona.
a) Construya la tabla de probabilidades conjuntas de acciones a tomar versus la calidad
del lote
b) ¿Qué porcentaje de los lotes inspeccionados son malos y se los rechaza?.
c) ¿Qué porcentaje de los lotes inspeccionados son buenos y se los acepta?.
d) Calcule la probabilidad de que el inspector se equivoque al inspeccionar un lote.
11.- Los pedidos nuevos de un producto de una compañía varían en valor monetario según la
siguiente distribución de probabilidades:
12.- Un centro de cómputo tiene tres impresoras, A, B, y C, que imprimen a velocidad distinta.
Los programas se envían a la primera impresora disponible. Las probabilidades de que un
programa se envíe a las impresoras A, B, y C son de 0.6, 0.3 y 0.1 respectivamente. En
ocasiones los impresos se atoran en la impresora y se destruyen. La probabilidad de que se
atore el papel en las impresoras A, B, y C son de 0.01, 0.05 y 0.04 respectivamente.
a) ¿Cuál es la probabilidad de que si un programa escrito se destruyó, ello haya ocurrido en
la impresora A?
b) ¿haya ocurrido en la impresora B?
c) ¿haya ocurrido en la impresora C?
13.- El editor de una compañía que edita libros de texto quiere decidir si va a publicar un libro
de estadística para administración. El análisis de los libros de texto que se publicaron
anteriormente indica que 10 % fueron grandes éxitos, 20% tuvieron un éxito modesto, 40 %
lograron recuperar los gastos de inversión y 30 % fueron un fracaso. Sin embargo, antes de
tomar una decisión se va a realizar un dictamen del libro. En el pasado obtuvieron
dictámenes favorables el 99 % de los grandes éxitos, el 70 % de los éxitos modestos, el 40
% de los títulos que alcanzaron a recuperar gastos de inversión y el 20 % de los fracasos.
a) ¿Qué proporción de libros de texto reciben dictámenes favorables?
b) Si el libro propuesto obtiene un dictamen favorable, ¿cómo debe revisar el editor las
probabilidades de los diferentes resultados para tomar en cuenta esta información?
G.Carnevalli-E.Franchelli-G.Gervasoni
4. VARIABLES
ALEATORIAS
UNID I M E N S IO NAL ES
CONTENIDO
4. VARIABLES ALEATORIAS
UNIDIMENSIONALES............................ 65
4.1 VARIABLES ALEATORIAS DISCRETAS.......................................... 66
4.1.1 DISTRIBUCIONES DE PROBABILIDAD............................. 66
4.1.2 PARAMETROS ESTADISTICOS........................................... 68
4.1.3 EJERCICIOS RESUELTOS.................................................... 70
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 66
PRIMERA PARTE
Las experiencias aleatorias dan como resultado sucesos elementales. Una variable
aleatoria se define al asignar un valor numérico a cada suceso elemental de una
experiencia aleatoria. Es decir, una variable aleatoria numérica es un fenómeno de interés
cuyos resultados se expresan con números.
Como se vio en el capítulo 1, las variables aleatorias numéricas se clasifican como discretas
o continuas, las primeras surgen del proceso de contar y las segundas de un proceso de
medir.
Una variable es discreta cuando el conjunto de valores posibles que puede asumir (llamado
rango o recorrido de la variable: RX) es un conjunto finito o infinito numerable.
Ejercicios
Identifique cuáles de las siguientes variables aleatorias pueden clasificarse como discretas:
Pensando ahora en todos los valores posibles que puede asumir la variable aleatoria
discreta y la probabilidad asociada a cada valor se dice que:
Una distribución de probabilidad es la enumeración de todos los valores posibles que puede
asumir una variable aleatoria, junto con sus probabilidades.
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 67
Ejemplo :
La tabla 4.1 representa la distribución de probabilidad del número de empleados ausentes
por día en una empresa:
TABLA 4.1 :
Nº de empleados Probabilidad
Probabilidad
ausentes por día acumulada
( pi )
( xi ) F(xi )
1 0,085 0,085
2 0,118 0,203
3 0,184 0,387
4 0,217 0,604
5 0,127 0,731
6 0,118 0,849
7 0,104 0,953
8 0,047 1
1,000
FIGURA 4.1
0,25
0,2
Probabilidad
0,15
0,1
0,05
0
0 1 2 3 4 5 6 7 8 9
Número de empleados ausentes
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 68
Observaciones : ¿??
pi ≥ 0 ∀i
∑p
∀i∈R
i =1 (condición de cierre).
La distribución de probabilidad debe contener todos los valores posibles que puede
tomar una variable aleatoria. Por lo tanto la suma de las probabilidades debe ser
igual a 1.
x
F ( x ) = P ( X ≤ x) = ∑ P( X = k)
k= 0
Ejercicios
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 69
Son las medidas que resumen la información que brinda una distribución de probabilidad así
como los estadísticos resumen la información que brinda una distribución de frecuencias.
• VARIANZA POBLACIONAL
( )
∞
∑ (x μ ) . pi = E [ X − E ( X ) ] 2 = E X 2 − [ E ( X ) ] 2
2 2
σ =
i= 1
i −
Es la raíz cuadrada positiva de la varianza y su ventaja es que trabaja con las mismas
unidades en las que está expresada la variable.
Así : D(X ) = σ = + σ2
En el ejemplo de la tabla 4.1 la varianza es 3,67 (empleados) 2, de donde la desviación
estándar es 1,92 empleados. Se simboliza D ( X ) = 1,92 empleados
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 70
Ejercicios
1.- Una compañía desea introducirse en el mercado de la electrónica. A tal fin, analiza el
número de unidades defectuosas en su línea de chips para computadora.
Sea X: número de unidades defectuosas producidas por esta línea en un día normal. La
variable X puede asumir los valores 0, 1, 2, 3 y 4, con las correspondientes
probabilidades 0,40, 0,30, 0,15, 0,10 y 0,05.
Calcule el promedio y la desviación de la variable aleatoria X e interprete.
2.- Sea X una variable aleatoria con promedio µ y desvío estándar σ. Determine la
esperanza matemática y la varianza de la variable aleatoria Z ( a la que se conoce con el
nombre de variable estandarizada ) y se define como :
X− μ
Z=
σ
1.- Identifique cuáles de las siguientes variables aleatorias se pueden clasificar como
discretas:
a) El número de personas que pasan por una caja registradora
b) Cantidad de mm3 en botellas de gaseosa
c) Edad de los alumnos de la UTN – Fac. Reg. Rosario
d) El número de ventas hechas por un vendedor de autos en un mes
e) Duración de un tubo fluorescente
f) El número de ofertas recibidas sobre una casa en venta
Solución : son variables discretas a ) , d ) y f ) .
2.- La compañía constructora “M.L” está teniendo problemas con herramientas que se
rompen. La distribución de probabilidad del número de herramientas rotas diariamente
es:
Número de herramientas
Probabilidad
rotas por día
0 0,30
1 0,25
2 0,15
3 0,20
4 ó más 0,10
Solución :
X : número de herramientas rotas :
a ) P ( X = 3 ) = 0,20
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 71
Contribución a las
Probabilidad
ganancias
- $ 3000 0,20
$ 5000 0,50
$ 20000 0,30
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 72
• f ( x) ≥ 0
+∞
• ∫ f ( x ) dx =
−∞
1 (condición de cierre)
d
• P ( c≤ X ≤ d ) = ∫ f ( x ) dx
c
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 73
Observaciones:
Se define:
x
F ( x ) = P (X < x) = ∫ f ( s ) ds .
-∞
Se deduce:
d
f (x) = F (x)
dx
+∞
E( X ) = ∫ x f ( x) dx
−∞
• VARIANZA POBLACIONAL
( )
+∞ 2
V(X) = σ 2
= ∫ ( x − µ ) f ( x ) dx = E X 2 − [ E( X ) ] 2
−∞
D( X ) = σ = + σ 2
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 74
Ejemplo :
En una fábrica la edad promedio de los operarios es de 44,8 años con una desviación
estándar de 9,7 años. Al usar la desigualdad de Chebyshev para k = 2 se obtiene:
[ X-µ ≤ kσ ]= µ - kσ ≤ X ≤ µ + kσ =
= 44,8 - 2 * 9,7 ≤ X ≤ 44,8 + 2 * 9,7 = 25,4 ≤ X ≤ 64,2
Es decir que al menos el 75 % de las edades de los operarios de la fábrica están entre
25,4 y 64,2 años, o lo que es lo mismo, la probabilidad de que un operario de la fábrica
(elegido al azar) tenga entre 25,4 y 64, 2 años es al menos de 0,75. Si se hubiese
conocido la función de densidad correspondiente a los años de los operarios de la fábrica
se hubiese podido calcular con exactitud el porcentaje de edades de los operarios que se
encuentra a menos de dos desviaciones estándar del promedio.
Ejercicios
1.- Una variable aleatoria continua X tiene un promedio de 9,2. ¿Qué valor máximo puede
admitirse para el desvío estándar σ, si se desea que la variable se encuentre en el
intervalo (9,0 ; 9,4) con una probabilidad de al menos 0,889?
2.- Sea X la variable que representa la cantidad de lluvia caída en una semana en una región
determinada. Supóngase que µ = 20 mm y σ = 5 mm. Una persona afirma que es
frecuente que en esa región llueva más de 50 mm en una semana. ¿Qué opina Ud.
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES
4.
ALEATORIAS
UNID I M E N S IO NAL ES
CONTENIDO
4.3 ALGUNAS DISTRIBUCIONES IMPORTANTES DE PROBABILIDAD... 75
4.3.1 DISTRIBUCION BINOMIAL................................................. 75
4.3.2 DISTRIBUCION HIPERGEOMETRICA............................. 81
4.3.3 DISTRIBUCION DE POISSON............................................... 83
4.3.4 DISTRIBUCIÓN UNIFORME................................................ 88
4.3.5 DISTRIBUCIÓN NORMAL.................................................... 90
4.3.6 DISTRIBUCIÓN EXPONENCIAL......................................... 98
4.3.7. EJERCICIOS RESUELTOS................................................. 101
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 75
SEGUNDA PARTE
1.- Existen n repeticiones idénticas que conducen a uno de dos resultados: éxito o
fracaso (A y A ).
2.- La probabilidad de cada resultado permanece constante de repetición en repetición.
La probabilidad de uno de estos resultados, llamado éxito, se designa por p (p=
P(A)).
3.- Las repeticiones son independientes.
Ejemplo
Suponga que 0,2 es la probabilidad de que una persona, que se conecta a un sitio
específico en un centro comercial en la red www, compre un artículo. Si el sitio tiene en
un momento determinado tres personas que se han conectado, ¿cuál es la probabilidad
de que exactamente dos personas compren un artículo?.
Este es un ejemplo que se puede modalizar por binomial, ya que:
sólo hay dos resultados posibles ante cada conexión a la red de una persona: compra
( C) o no compra ( C ).
La probabilidad de comprar o no comprar se mantiene estable, con una probabilidad
histórica de ocurrencia de 0,2 y 0,8 respectivamente.
Las conexiones se consideran independientes entre sí.
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 76
Un método gráfico útil para visualizar esta situación es el diagrama de árbol que aparece
en la siguiente figura:
FIGURA 4.2
C 0,2
C,08
C 0,2 0,032
C 0,2 0,032
C,08
C 0,2
C,08
C 0,2 0,032
C 0,8
C 0,2
C 0,8
C C,08 0,8
Cada rama en la figura 4.2 representa la conexión de una persona (recuerde que se
consideran tres). La regla de la multiplicación se usa para calcular la probabilidad de cada
manera independiente en la que pueden ocurrir dos compras. Observe que cada manera
tiene la misma probabilidad (0,032). La regla de la suma se usa después para calcular la
probabilidad final de que dos personas de tres que se conectaron al sitio realicen una
compra (0,096).
Así la probabilidad final es:
La primera parte de este cálculo indica el número de maneras ( 3 ) en las que puede ocurrir
el resultado deseado ( dos personas compran un artículo) .
El segundo cálculo ( 0,2 . 0,2 . 0,8 ) indica la probabilidad de lograr este resultado usando
una de las trayectorias posibles en el diagrama.
El resultado final (0,096) es la probabilidad de que al conectarse tres personas al sitio, dos
compren un artículo.
n
P ( X = x) = p x ( 1 − p ) n− x
x
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 77
A A A A A A A A
K n− k
Pero exactamente la misma probabilidad estaría asociada con cualquier otro resultado
n
para el cual X = k. El número total de tales resultados es igual a k ya que hay k
n
ordenamientos distintos de los kA y de los (n-k) A , siendo resultados mutuamente
excluyentes. Por lo tanto:
n
P ( X = k) = pk ( 1− p ) n− k
k
Se define la variable X: número de personas que compran entre tres que se conectan.
X ∼ Bi ( 3 ; 0,2 )
lo que se lee :
la variable aleatoria X se distribuye ( ∼ ) según una distribución binomial ( Bi ) de parámetros
3 ( n ) y 0,2 ( p ) .
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 78
3
Entonces: P ( X = 2 ) = 0,2 2 (1 − 0,2 ) 3 − 2 = 0,096
2
• PARAMETROS ESTADISTICOS
Se demuestra que:
n
n
E(X)= ∑ k p k (1 − p )
n− k
= np
k= 0 k
V(X ) = ( )
E X 2 − [ E ( X )] =
2
n . p . (1 − p )
Se pueden calcular por tablas específicas (ver apéndice 2, tabla 2.1), con calculadoras,
con algunas planillas de cálculos o con softwares estadísticos.
Ejemplo:
Una firma comercial posee un gran número de cuentas por cobrar y se conoce que el
10% de estas cuentas están vencidas. Si se escogen aleatoriamente 5 cuentas, calcule la
probabilidad de que:
• Por tabla
X ∼ Bi ( n , p ) = Bi ( 5 ; 0,10 )
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 79
d) Calcular la probabilidad de que entre 5 cuentas elegidas al azar, por lo menos una
cuenta no esté vencida , es equivalente a calcular la probabilidad de que a lo sumo
cuatro estén vencidas, en el ejemplo :
P(X≤4) = 1
e) P ( 2 ≤ X ≤ 4 ) = F ( 4 ) - F ( 1 ) = 1 - 0,918 = 0,082
ensayos f (x) 5
ensayos f (x) 5
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 80
Población
Finita Infinita
Tamaño de la muestra
inferior al 10% del tamaño
de la población
( n/N < 0,1 )
Ejercicios
1.- Se conoce que el 20% de las cuentas de un Banco tienen saldos superiores a $2.000.
Suponga que se eligen 10 cuentas al azar de las muchas cuentas que tiene el Banco.
Calcule la probabilidad de que:
a ) dos cuentas tengan saldos superiores a $2.000
b ) a lo sumo dos cuentas tengan saldos superiores a $2.000
c ) por lo menos dos cuentas tengan saldos superiores a $2.000
d ) a lo sumo dos cuentas tengan saldos inferiores a $2.000
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 81
X ∼ Hip.( N , r , n )
C r , x C N − r , n− x
P (X = x ) =
CN ,n
donde:
N = tamaño de la población
n = tamaño de la muestra
r = número de éxitos en la población
x = número de éxitos en una muestra para los cuales se calcula la probabilidad
C = combinaciones
Ejemplo
En una reunión hay ocho personas de las cuales 4 son miembros de un sindicato. Se
seleccionan al azar tres personas para formar un comité. ¿Cuál es la probabilidad de que
exactamente una de ellas sea miembro de un sindicato?
C 4,1 C 4,2
P(X=1) = = 0,429
C 8,3
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 82
• PARAMETROS ESTADISTICOS
Se demuestra que:
N- n
V ( X ) = n . p . (1- p )
N -1
muestra f (x) 3
población f (x) 8
Ejercicios
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 83
La distribución de Poisson se usa para modelizar situaciones en las que hay ocurrencias
aleatorias de sucesos por unidad de espacio o tiempo y en donde se desea conocer la
probabilidad de un número específico de éxitos.
Numerosos fenómenos discretos se representan mediante un proceso de Poisson.
Se dice que existe un Proceso de Poisson si al considerar un experimento en el que se
observa la aparición de sucesos puntuales en un intervalo contínuo (de tiempo, longitud,
área, etc.), en cualquier intervalo suficientemente pequeño del intervalo continuo, se verifica
que:
λ x e− λ
P ( X= x ) = X ∼ Po ( λ )
x!
• PARAMETROS ESTADISTICOS
∞
e− λ .λ k
E ( X) = ∑ k = λ
k= 0 k!
V ( X) = ( )
E X 2 − [ E ( X) ] 2 = λ
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 84
EJEMPLO
Para comprender mejor el proceso de Poisson, supóngase que se analiza la variable
número de clientes que llegan a un banco entre las 12 y 13 hs. Cualquier llegada de un
cliente es un evento discreto en un punto particular sobre el intervalo continuo de 1 hora.
Durante tal intervalo de tiempo puede haber un promedio de 180 llegadas.
Para responder cuál es la probabilidad de que en un minuto lleguen exactamente dos
clientes, es necesario conocer el número promedio de clientes en un minuto. Si el número
promedio de llegadas en una hora es 180, en un minuto será igual a 3 (180 : 60), luego:
32 e − 3
P ( X = 2) = = 0,224 siendo X = nº de personas que llegan al banco en 1’
2!
En general, se escribe:
P ( Xt = x ) =
(λ t) xe− λ t
x!
Lo mismo que lo visto para la distribución binomial, para calcular las probabilidades de
Poisson se dispone de tablas estadísticas tabuladas para distintos valores de λ (ver
apéndice 2, tablas 2.2 y 2.3), de softwares estadísticos y planillas de cálculos.
Ejemplo
Una compañía telefónica observa que entran en promedio 3,2 llamadas por minuto en
una línea determinada. Suponiendo que el número de llamadas se distribuye según un
modelo de Poisson, se puede plantear el cálculo de las siguientes probabilidades para
el intervalo de un minuto:
a ) probabilidad de que entren exactamente 2 llamadas
b ) probabilidad de que entren a lo sumo tres llamadas
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 85
x f (x) 2
x f (x) 2
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 86
Ejercicios
1.- A un muelle de carga llegan camiones en forma aleatoria con un promedio de 1 por
hora. ¿cuál es la probabilidad de que en una hora no llegue ningún camión al muelle?
2.- Una casa de créditos recibe en promedio 2,2 solicitudes de préstamos para
mejoramiento de la vivienda por semana. Calcule la probabilidad de que en una semana:
a) lleguen tres solicitudes de crédito
b) llegue por lo menos una solicitud
c) lleguen entre 2 y 5 solicitudes (incluidos estos valores)
d) lleguen a lo sumo tres solicitudes
3.- La llegada de vehículos a un puesto de peaje sigue un proceso de Poisson con promedio
4 llegadas por minuto. Calcule la probabilidad de que en dos minutos lleguen por lo
menos tres vehículos al puesto de peaje.
4.- El número de averías semanales de una computadora es una variable aleatoria que tiene
distribución de Poisson con promedio λ = 0,4. ¿Cuál es la probabilidad de que la
computadora trabaje sin averías durante dos semanas consecutivas?
n
P ( X = k) = pk ( 1− p ) n− k
k
e− λ λ k
lim P ( X = k ) = la distribución de Poisson con parámetro λ.
n→ ∞ k!
EJEMPLO
Un 1% de los empleados de una fábrica se ausentan diariamente del trabajo. Si se
eligen 70 empleados al azar, ¿cuál es la probabilidad de que sólo 1 esté ausente?
X = nº de empleados ausentes en un total de 70 X ∼ Bi (70 ; 0,01)
P ( X = 1 ) = 0,35
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 87
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 88
La distribución uniforme describe una variable aleatoria que tiene igual probabilidad de
ocurrir en subintervalos de igual tamaño, dentro del campo de definición de la misma.
La siguiente figura muestra una distribución uniforme. El intervalo en el que está definida la
variable aleatoria es (a, b). La “curva” de probabilidad tiene una altura uniforme en todos
los puntos entre a y b.
f (x)
1
b− a
a c d b X
1
si x ∈ [ a, b]
b− a
f ( x) =
0 en otro caso
d
1 d− c
P ( c ≤ X ≤ d) = ∫ dx =
c b− a b− a
• PARAMETROS ESTADISTICOS
Se demuestra que:
b
a+ b
E (X) = ∫ x f ( x ) dx =
a
2
σ 2
(X) = E ( X ) − [ E ( X )] =
2 2 ( b − a) 2
12
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 89
Ejemplo :
Se sabe que en una empresa, los años de experiencia de los trabajadores de planta
tienen una distribución uniforme con un mínimo de 0 y un máximo de 12,5 años. Se
elige un empleado al azar. Determine la probabilidad de que esta persona tenga entre
2,5 y 7,5 años de experiencia en la compañía.
La variable aleatoria uniforme se presenta escribiendo:
0,08
0
2,5 7,5
0 12,5
años de experiencia
0 + 12,5
E ( x) = = 6,25 años
2
σ (x ) =
(12,5 − 0) 2 = 3,61 años
12
La distribución de los años de experiencia en una empresa para los trabajadores de planta tiene un
promedio de 6,25 años y una desviación estándar de 3,61 años
Ejercicios
1. El tiempo total necesario para procesar una solicitud de préstamo hipotecario en un banco
sigue una distribución uniforme entre 5 y 9 días.
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 90
2.- Un semáforo está programado para cambiar de rojo a verde según una distribución
uniforme con una media de 45 segundos. La diferencia entre el menor y el mayor número
de segundos que tarda la luz en cambiar es de 8 segundos.
a) Calcule la desviación estándar de esta distribución.
b) Calcule la probabilidad de que la luz tarde por lo menos 43 segundos en cambiar.
c) ¿Cuál es la probabilidad de que tarde menos de 43 segundos en cambiar?
La distribución normal es una distribución continua que tiene forma de campana simétrica
y está determinada por su promedio y su desviación estándar.
La siguiente figura muestra la forma de una distribución normal. La misma tiende a infinito
en ambas direcciones a partir de su promedio.
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 91
2
− 1 x− µ
1 2 σ
f ( x) = e
σ 2π
Ejercicios
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 92
Para encontrar el área bajo la curva normal debe integrarse su función de densidad, siendo
el cálculo muy complejo. Por otra parte, para disponer de una tabla de áreas bajo esta
curva, serían necesarias más de una, ya que el número de distribuciones normales es
ilimitado, debiendo corresponder una por cada combinación de media y desviación estándar.
Esta situación se puede resolver transformando todas las distribuciones normales en la
distribución normal estándar.
X− µ
Z= con E( Z ) = 0 y σ (Z) = 1
σ
x− µ
z=
σ
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 93
Ejemplos:
1. Una variable normal tiene esperanza matemática igual a 75 y una desviación estándar
igual a 6 (se expresa: X ∼ N (75,6). En la figura siguiente se observa que cada valor de la
variable X tiene un valor correspondiente en la variable Z.
Los sucesos ( X < 81 ) y ( Z < 1 ) son sucesos equivalentes y por lo tanto tienen la misma
probabilidad. Después de calcular el valor z para la distribución normal estándar, el
siguiente paso es usar la tabla normal estándar para buscar la probabilidad planteada. El
valor 0,8413 de la probabilidad se obtiene de dicha tabla.
La figura siguiente describe la probabilidad buscada
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 94
81 - 75 69 - 75
P ( 69 < X < 81) = P Z < - P Z< =
6 6
= P ( Z < 1 ) - P ( Z < - 1 ) = 0.8413 - 0,1587 = 0,6826
2. Una variable normal tiene esperanza matemática igual a 500 y una desviación estándar
igual a 25. Se desea conocer la probabilidad de que la variable tome valores:
a) menores que 535
b) menores que 480
c) mayores que 558
d) mayores que 371
e) entre 461 y 539
535 - 500
a ) P ( X < 535 ) = P Z < = P ( Z < 1,4 ) = 0.9192
25
480 - 500
b) P ( X < 480 ) = P Z < = P ( Z < - 0 ,8 ) = 0.2119
25
558 - 500
c) P ( X > 558 ) = P Z > = P ( Z > 2 ,32 ) = 1 - 0 ,9898 = 0 ,0102
25
371 - 500
d ) P ( X > 371 ) = P Z > = P ( Z > - 5,16 ) = 1
25
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 95
Resultado 0.919243289
media 500
desvío estándar 25
acumulado VERDADERO
Resultado 0.919243289
3. Se sabe que el tiempo de almacenamiento de los artículos sigue una distribución normal
con promedio 5 semanas y desviación estándar 4 semanas. ¿Cuál es la probabilidad
de que un artículo elegido al azar haya estado almacenado entre 2 y 10 semanas?.
P ( 2 < X < 10 ) = P ( − 0,75 < Z < 1,25 ) = P ( Z < 1,25) − P ( Z < − 0,75 ) =
= 0,8944 – 0,2266 = 0,6678
Existe una probabilidad igual a 0,6678 de que el artículo elegido al azar tenga un tiempo
de almacenamiento entre 2 y 10 semanas.
4. Qué porcentaje de los valores de una curva normal están entre el promedio ± 1
desviación estándar, ± 2 desviaciones estándar, ± 3 desviaciones estándar ?
k Probabilidad
1 0.6827
2 0.9545
3 0.9973
Esto quiere decir que, si se analiza el caso particular de una variable normal
estandarizada, casi la totalidad de las observaciones están en el intervalo (-3 , 3); siendo
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 96
muy poco probables los valores de la variable fuera del mismo ( 0,27 % ); lo que justifica
el rango de valores z para el que está tabulada.
Ejercicios
1.- Una variable aleatoria normal tiene una media de 4.9 y una desviación estándar de 1,2.
a) ¿Cuál es la probabilidad de que la variable tome un valor menor que 5,5?
b) ¿Cuál es la probabilidad de que la variable tome un valor comprendido entre la
esperanza y 6,1?
c) ¿Qué porcentaje del área bajo esta curva es mayor que 6?
2.- Las calificaciones de una prueba siguen una distribución normal con µ = 100. Cuál debe
ser el valor del desvío estándar si se desea que una persona obtenga una calificación
superior a 122,56 con probabilidad 0,08?
• APROXIMACION NORMAL
A LA DISTRIBUCIÓN BINOMIAL
A LA DISTRIBUCIÓN DE POISSON
⇒ Si X ∼ Po (λ) y λ toma valores grandes (en la práctica λ > 25), entonces la curva
normal proporciona una buena aproximación a la distribución de Poisson.
se aproxima por N ( µ = λ ; σ = λ )
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 97
Ejercicios
3. El número de llamadas telefónicas que llegan a un conmutador sigue una ley de Poisson
con promedio 15 llamadas por minuto. Calcule la probabilidad de que en 5 minutos
lleguen a lo sumo 90 llamadas.
• VERIFICACIÓN DE LA NORMALIDAD
Supóngase que hemos recolectado algunos datos referentes a una variable de interés. Nos
gustaría ver si la distribución normal sirve como un buen modelo. Para decidir sobre la
bondad del ajuste podemos:
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 98
Son gráficos bidimensionales de los valores de los datos observados en el eje vertical con
los valores de las fractilas correspondientes de una distribución normal estándar en el eje
horizontal.
Si los datos graficados caen en o cerca de una línea recta imaginaria creciente desde la
esquina inferior izquierda hacia la esquina superior derecha, entonces el conjunto de
datos tiene una distribución normal (o por lo menos se aproxima).
A continuación se presenta el diagrama de probabilidad normal para el ejemplo de la
variable continua superficie cubierta de la vivienda (en m2) presentada en el capítulo 2,
pag. 16.
SUPERFICIE CUBIERTA
160
140 Como se
Superficie cubierta
puede
120
observar,
100
los datos
pueden
80
60
-3 -2 -1 0 1 2 3
Valores Z
De acuerdo a la forma que adoptan los datos se concluye con respecto al tipo de
distribución que tiene la población de donde provienen.
La clave para obtener esta relación es el siguiente concepto: el tiempo entre dos llegadas
sucesivas es mayor que t, si y sólo si no hay llegadas en esos t minutos. Es decir:
1
Ver archivo xls: “Gráfico de probabilidad normal” en ar.groups.yahoo.com/group/probabilidadyestadístca_isi
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 99
e − λ t (λ t ) 0
P ( T ≥ t ) = P ( Xt = 0 ) = = e− λ t
0!
Luego:
P (T ≤ t ) = 1 - P ( T ≥ t ) = 1 - e - λ t
F( t ) = 1 - e- λ t
d F( t )
= λ e- λ t = f (t)
dt
EJEMPLO
Interesa conocer la probabilidad de que el tiempo entre dos llegadas sucesivas a un
banco sea mayor que 1 minuto.
X1 ∼ Po (λ = 3)
e − 3 .3 0
P ( T > 1) = P (X1 = 0 ) = = e − 3 = 0,0498
0!
Formalizando se dice que una variable aleatoria continua X tiene distribución exponencial si:
-λ x
f (x) = λ e x ≥ 0
0 en otro caso
• PARAMETROS ESTADISTICOS
1 1
E ( X) = y V( X ) =
λ λ2
• CALCULO DE PROBABILIDADES
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 100
1
P ( X < 1 ) = 3 ∫ e − 3x dx = 1 − e − 3 = 0,9502
0
DIST. EXP.
X
1
LAMBDA 3
ACUMULADO VERDADERO
VALOR = 0,950212932
EJEMPLO
1. En una red de computadoras, el acceso de los usuarios al sistema se comporta como un
proceso de Poisson con un promedio de 25,2 accesos por hora.
a) ¿Cuál es la probabilidad de que el tiempo entre dos accesos sucesivos sea superior a
seis minutos?
Sea Yt: número de accesos al sistema en t minutos. Yt ∼ Po ( λt )
Sea X : tiempo entre dos accesos sucesivos X ∼ Exp ( 0,42 minutos –1)
P (2 < X < 3) = F (3) – F (2) = (1 – e-0,42*3) – (1 - e-0,42*2) = e -0,42*2 - e-0,42*3 = 0,43 – 0,28 =
0,15
Ejercicios
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 101
1. El tiempo entre llegadas de taxis a una parada tiene una distribución exponencial con
promedio 10 minutos.
¿Cuál es la probabilidad de que una persona que esté en el cruce tenga que esperar más
de una hora para tomar un taxi?
El lote es rechazado si hay una o más unidades defectuosas entre las cinco observadas,
es decir, la probabilidad de que el lote sea rechazado es equivalente a:
P ( X ≥ 1 ) = 1 - P ( X = 0 ) = 1 - 0,7738 = 0,2262
Solución:
C 2,1 C 10 , 3
P(X=1) = = 0,485
C 12 , 4
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 102
Solución:
a) P ( X1 = 0 ) = 0,0743
b) P ( X1 = 3 ) = 0,2176
c) P ( X1 < 3 ) = 0,5184
d) P ( X1 ≥ 1 ) = 1 - P ( X1 = 0 ) = 1 - 0,0743 = 0,9257
e) P ( X2 = 2 ) = 0,0746
4.- El tiempo de vuelo entre dos ciudades de una aerolínea sigue una distribución uniforme
entre 80 y 100 minutos.
El 75 % de los vuelos tienen tiempos menores de 90’, por los tanto el servicio se
considera eficiente.
5.- Las primas de riesgos mensuales (en $) de una compañía de seguros siguen una
distribución normal. Se quiere determinar el porcentaje de recibos mensuales que caen
dentro del intervalo de $125 a $175, ya que esas cantidades son difíciles de manejar.
Para determinar el porcentaje de cuentas en este rango, se calcula el promedio y la
desviación estándar de los recibos mensuales de las primas, obteniéndose 100$ y 38$,
respectivamente.
a) ¿Qué porcentaje de recibos mensuales puede esperarse que caiga dentro del rango
de 125 a $175?
b) Se predice que dentro de dos años el promedio mensual de la prima se elevará a
$150. Suponiendo que la desviación estándar permanece igual, ¿en qué cambiaría
este hecho la respuesta al punto a?
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 103
a) P (125 < X < 175) = P (125 – 100 < Z < 175 – 100) = P (0,66 < Z < 1,97) =
38 38
= F (1,97) – F (0,66) = 0.9756 - 0.7454 = 0.2302
b) X ∼ N ( 150 , 38 )
P (125 < X < 175) = P (125 – 150 < Z < 175 – 150) = P (- 0,66 < Z < 0,66) =
38 38
= 2 * F (0,66) - 1 = 2 * 0.7454 - 1 = 0.4908
Existirá un mayor porcentaje de primas de riesgo con valores en el rango (125, 175) si
µ = 150.
6.- El tiempo que transcurre entre las llamadas a una empresa de artículos para plomería
tiene una distribución exponencial con un tiempo promedio entre llamadas de 12
minutos.
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 104
EJEMPLOS
X variable aleatoria discreta ; Y variable aleatoria discreta
n
X ∼ Bi ( n,p ) = Bi ( 5;0,05 ) → P(X = k) = p k ( 1 − p ) n − k
k
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 105
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 106
2.- La etiqueta en las cajas de una marca de detergente indica un peso de 800 gramos. Una
máquina llena estas cajas donde el contenido de las mismas es una variable aleatoria
uniforme en el intervalo (780;820). El control de calidad acepta las cajas llenas con 15
gramos más o menos de la cantidad que indica la etiqueta.
a) ¿Cuál es la variabilidad del contenido de las cajas?
b) ¿Cuál es la probabilidad de que una caja contenga entre 785 y 795 gramos?
c) ¿Cuál es la probabilidad de que una caja no cumpla con el estándar de control de
calidad?
3.- El número de llamadas telefónicas que llegan a un conmutador es una variable aleatoria
X que se distribuye según una ley de Poisson de parámetro λ = 15 llamadas por minuto.
Según el número de llamadas que lleguen puede ser necesario descongestionar el
conmutador dirigiendo algunas llamadas a líneas auxiliares. Si el número de llamadas es
a lo sumo 15, no se necesita línea auxiliar; si es mayor que 15 pero menor o igual que
25, se necesita una línea; para un número mayor que 25 se utilizan dos líneas auxiliares.
a) Encuentre la distribución de probabilidad de la variable aleatoria Y: número de líneas
auxiliares necesarias en un minuto.
b) Encuentre promedio y desviación estándar de la variable aleatoria Y.
4.- Un artículo puede tener dos defectos D1 y D2. El número de defectos D1 es una variable
aleatoria de Poisson con parámetro λ1 = 0,1 y el número de defectos D2 sigue una
distribución de Poisson con parámetro λ2 = 0,3. Los defectos son independientes. Un
artículo se considera defectuoso cuando presenta al menos uno de los defectos.
Calcule la probabilidad de que en una muestra de 50 artículos haya a lo sumo 10
defectuosos.
5.- Una variable aleatoria X se distribuye uniformemente en [– α ; α] , (α > 0). Cada vez que
sea posible, determine α que satisfaga:
a) P ( X > 1 ) = 1/3
b) P ( X > 1 ) = 1/2
c) P ( X < 1 ) = P ( X > 1 )
6.- El número de clientes que llegan a una caja de un supermercado es una variable
aleatoria de Poisson con promedio 10 clientes en 5 minutos. ¿Cuál es la probabilidad de
que transcurran al menos 2 minutos entre dos llegadas sucesivas?
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 107
7.- Las mediciones repetidas de una cierta magnitud δ, con una determinada técnica,
permite afirmar que tales medidas tienen distribución normal con promedio µ = –183,2
unidades y σ = 0,08 unidades.
a) ¿Cuál es la probabilidad de que la medición resulte superior a –183?
b) Se realizan 10 mediciones de δ, calcule la probabilidad de que sólo dos de ellas
superen el valor –183.
8.- El tiempo de funcionamiento sin fallas (en años) de un cierto tipo de componente es una
variable aleatoria X con distribución exponencial de parámetro 0,2.
a) Calcule la probabilidad de que una componente no tenga fallas durante los dos
primeros años de funcionamiento.
b) ¿Cuál es la probabilidad de que en un lote de 15 componentes elegidas al azar, por
lo menos 11 componentes no tengan fallas durante los dos primeros años de
funcionamiento?
c) Se sabe de que en un lote de 15 componentes elegidas al azar, por lo menos 11 no
tuvieron fallas durante los dos primeros años. Calcule la probabilidad de que en ese
período, no hayan tenido fallas exactamente 13 componentes.
d) Se arma un lote con cinco componentes elegidas al azar y se las numera del 1 al 5.
¿Cuál es la probabilidad de que sólo las componentes 1 y 2 no tengan fallas durante
los dos primeros años de funcionamiento? (En todos los casos llegar al resultado
numérico).
9.- Una experiencia aleatoria ε tiene dos resultados posibles (A y A ). Se conoce que
P(A) = 0,20.
Calcule la probabilidad de que en 10 repeticiones de la experiencia ε :
a) haya igual cantidad de resultados A y A .
b) la cantidad de resultados A supere la cantidad de resultados A .
c) en la cuarta experiencia ocurra el primer resultado A
d) en las últimas cuatro experiencias ocurran todos los resultados A
11.- Una prueba consta de 50 preguntas con cuatro respuestas alternativas dadas de las
cuales sólo una es correcta. Cada pregunta se refiere a un tema específico. Sea “p” la
probabilidad de que un alumno haya estudiado el tema. Se sabe que la probabilidad de
contestar correctamente una pregunta cuando el alumno estudió el tema es 0,9. Si el
alumno no estudió el tema elegirá al azar una de las respuestas alternativas.
a) ¿Cuál debe ser el valor de “p” para que la probabilidad de que un alumno responda
correctamente una pregunta sea 0,8?
b) ¿Cuál es la probabilidad de que el alumno haya estudiado el tema si respondió
correctamente la pregunta?
c) Si se aprueba con el 80% de respuestas correctas, ¿qué porcentaje de alumnos
aprobará?
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 108
x 0 1 2 3 4 5 6 7 8 9 10
P(X=x) 0,06 0,14 0,16 0,14 0,12 0,10 0,08 0,07 0,06 0,04 0,03
14.- Un fabricante de cierto tipo de piezas somete cada unidad a una prueba muy rigurosa.
De las piezas recién ensambladas, el 84% pasa la prueba sin ninguna modificación. Las
que fallan en la prueba inicial son reelaboradas; de éstas, el 75% pasa una segunda
prueba. Aquellas piezas que fallan en la segunda prueba se rehacen por segunda vez y
se vuelven a probar; 90% de ellas pasan la prueba y el resto se desarman. Defina X
como la variable aleatoria: número de veces que debe reprocesarse una pieza
seleccionada al azar.
a) Especifique el recorrido de la variable X
b) Encuentre la distribución de probabilidad de X
c) Encuentre promedio, varianza y desviación estándar de la variable X
15.- El operador de una computadora recibe peticiones imprevistas para montar cintas de
datos en el sistema. Como política, estas solicitudes deben ser atendidas a la brevedad
posible; debido a ello, se tiene que interrumpir el flujo del trabajo programado.
Sea la variable aleatoria X : número de solicitudes recibidas en un turno de 9 a 17 horas.
Se conoce que la variable X sigue una ley de Poisson con promedio 1,5 solicitud por
hora.
a) Encuentre la media y la desviación de la variable X
b) Calcule P( X > 8 )
c) Encuentre la probabilidad de que el tiempo transcurrido entre dos solicitudes
consecutivas sea al menos de dos horas.
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 109
Interrupciones 0 1 2 3 4 5 6
P(X=x) 0,32 0,35 0,18 0,08 0,04 0,02 0,01
18.- Los gastos mensuales en alimentación para familias de cuatro miembros en una ciudad
es una variable aleatoria normal con promedio 420$ y desviación estándar 80$.
a) ¿ Qué porcentaje de estos gastos :
i) es menor que 350$?
ii) está entre 250 y 350$?
iii) es menor que 250$ o mayor que 450$?
b) Determine el cuartil 1 y el cuartil 3
c) ¿Cuáles serían sus respuestas al punto a) si la desviación es de 100$?
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS UNIDIMENSIONALES 110
20.- Una oficina que procesa permisos para remodelación de edificios tiene como política
que el permiso se entregará sin costo si no está listo al final de 5 días hábiles, a partir
de la fecha de la solicitud. Se mide el tiempo de procesamiento a partir del momento
en que se recibe la solicitud hasta completar el procesamiento (Suponga que el tiempo
tiene distribución normal).
a) Si el proceso tiene una media de 3 días y una desviación estándar de 1 día, ¿qué
proporción de los permisos serán gratis?
b) Si el proceso tiene una media de 2 días y una desviación estándar de 1,5 días,
¿qué proporción de los permisos será gratis?
c) ¿En cuál de los dos procesos, (a) ó (b), resultarán más permisos gratis? Explique.
d) Para el proceso del punto (a), ¿sería mejor reducir el promedio a 2 días o la
desviación estándar a 0,75 días? Explique.
21.- El nivel de llenado de unas botellas de refrescos tiene una distribución normal con
media 2 litros y desviación estándar 0,06 litros. Las botellas que contienen menos de
95% del contenido neto anunciado (1,9 en este caso) pueden causar una multa al
fabricante por parte de la oficina de protección al consumidor, mientras que las botellas
que tienen un contenido neto mayor que 2,1 litros pueden provocar un derrame del
exceso al abrirlas.
a) ¿Cuál es la probabilidad de que le pongan una multa al fabricante, si se selecciona al
azar una botella de la producción?
b) ¿Qué proporción de las botellas pueden provocar un derrame al abrirlas?
c) ¿Qué cantidad mínima de refresco se espera que contenga 99% de las botellas?
d) ¿Entre qué dos valores (con distribución simétrica) se espera encontrar el contenido
del 99% de las botellas?
e) Suponga que en un esfuerzo por reducir el número de botellas que contienen menos
de 1,9 litros, el embotellador arregla la máquina de llenado de manera que la media
sea de 2,01 litros. En estas circunstancias, ¿cuáles serían sus respuestas a las
preguntas de los puntos a), b) y c)?
G.Carnevali-E.Franchelli-G.Gervasoni
5. VARIABLES ALEATORIAS
DE MAS DIM E NSIO N ES
CONTENIDO
El capítulo anterior trató distribuciones de probabilidad para una única variable. Sin embargo
frecuentemente es útil definir en un experimento aleatorio más de una variable aleatoria.
Por ejemplo, en la clasificación de señales transmitidas, puede definirse una variable aleatoria
X como el número de señales de alta calidad recibidas y otra variable Y número de señales de
baja calidad recibidas.
En otro ejemplo, la variable X puede denotar la longitud de una pieza moldeada por inyección
y la variable aleatoria Y puede ser el ancho de la pieza.
En el caso de que el resultado de la experiencia quede definido por una n-upla de valores el
modelo será un vector o variable aleatoria n - dimensional.
Ejemplo :
Dos líneas de producción manufacturan un tipo de artículo. La producción, en cualquier día
dado, es de a lo sumo 3 artículos para la línea A y 2 artículos para la línea B.
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS DE MAS DIMENSIONES 112
X
Y 0 1 2 3
0 0,00 0,04 0,06 0, 09
En general:
Pi j = P ( xi , yj ) = P ( X = xi ∩ Y = yj ) = P ( X = xi , Y = yj )
pij ≥ 0 ∀i,j
∑∑ pij = 1
( condición de cierre )
i j
X Probabilidad
0 1 2 3 marginal de Y
Y p. j
0 0,00 0,04 0,06 0,09 0,19
1 0,01 0,04 0,09 0,19 0,33
2 0,02 0,08 0,11 0,27 0,48
Probabilidad
marginal de X 0,03 0,16 0,26 0,55 1,00
p i.
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS DE MAS DIMENSIONES 113
En general
P ( X = xi ) = ∑ p ij = pi.
Distribución de probabilidad marginal de X
j
Sea ( X , Y ) una variable aleatoria bidimensional continua que toma todos los valores R del
plano. La función de densidad de probabilidad conjunta f ( x , y ) es una función que
satisface las siguientes condiciones :
f(x,y) ≥ 0 ∀ x , y ε Rxy
+∞ +∞
∫ ∫ f (x, y) dx dy = 1 ( condición de cierre )
−∞ −∞
Al igual que en caso discreto a cada una de las variables que forman el vector se le puede
asociar una función que modelice el comportamiento probabilístico de la variable. Así se
obtienen:
+∞
f1 ( x ) = ∫ f (x, y) dy función de densidad de probabilidad marginal de la variable X
−∞
+∞
f2 ( y ) = ∫ f (x, y) dx función de densidad de probabilidad marginal de la variable Y
−∞
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS DE MAS DIMENSIONES 114
Ejemplo :
Sea la variable aleatoria bidimensional continua (X,Y) con función de densidad de
probabilidad
f ( x, y ) = 1 / 4 x y 0<x<2 0<y<2
22
Se verifica la condición de cierre ya que: ∫ ∫ 14 x y dx dy = 1
00
2
f1 ( x ) = ∫ 1 x y dy = 1 x 0
4 2
0
2
f2 ( y ) = ∫ 1 x y dx = 1 y
4 2
0
P ( X = xi , Y = yj ) = P ( X = xi ) . P ( Y = yj ) (caso discreto)
Ejemplo :
En los dos ejemplos trabajados, uno para variable bidimensional discreta y otro para el
caso continuo. Se analizará si las variables X e Y son o no independientes.
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS DE MAS DIMENSIONES 115
En el caso discreto:
P (X = 3 , Y = 2) = 0,27
P (X = 3) . P (Y = 2) = 0,55 . 0,48 = 0,264
En el caso continuo:
f ( x , y ) = 1/4 x y
f1 ( x ) . f2 ( y ) = 1/2 x . 1/2 y = 1/4 x y
Ejemplo :
Con respecto al ejemplo de las dos líneas de producción ( A y B ) que manufacturan un tipo
de artículo, en la tabla se observa que existe relación entre X e Y: cuando el número de
unidades producidas por la línea A es mayor, hay más probabilidad de que la línea B
produzca más unidades. En general, los resultados X e Y tienden a variar juntos.
5.4.1 COVARIANZA
Cov ( X , Y ) = E { [ ( X - E ( X ) ] [ ( Y - E ( Y )] }
Cov ( X , Y ) = E ( X . Y ) - E ( X ) . E ( Y )
Se demuestra fácilmente (queda propuesto para el alumno) que si las variables X e Y son
independientes, E ( X . Y ) = E ( X ) . E ( Y ) , en consecuencia la covarianza se anula.
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS DE MAS DIMENSIONES 116
Cov ( X, Y)
ρ xy =
D(X) D(Y)
Se demuestra : - 1 ≤ ρ xy ≤ + 1
Al no expresarse en unidades es útil para comparar las relaciones lineales entre pares de
variables que tienen unidades distintas.
Demostración :
Sea Y = AX + B
- E(Y) = AE(X) + B
- V ( Y ) = A2 V ( X )
- Cov ( X , Y ) = E { [ X - E ( X ) ] [ Y - E ( Y )] } = E { A [ X - E ( X ) ] 2 } =
= A E [ X - E ( X ) ]2 = A V ( X )
Recordando que:
Cov(X, Y)
ρ xy =
D(X) D(Y)
y reemplazando resulta :
+1 si A > 0
A V(X)
ρ xy = =
A V(X)
-1 si A < 0
Si X e Y son independientes ⇒ ρ xy = 0
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS DE MAS DIMENSIONES 117
Gráficamente :
Hay situaciones en las que puede interesar el estudio de una variable aleatoria Z, que sea
función de la variable aleatoria bidimensional ( X , Y ), por ejemplo :
Para el ejemplo del caso discreto, la variable Z = X + Y está representando el número total de
artículos producidos en ambas líneas o Z = mín (X,Y) será el menor número de artículos
producidos por ambas líneas.
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS DE MAS DIMENSIONES 118
♦ ESPERANZA MATEMATICA
+∞ +∞
E (Z) = E ( X + Y ) = ∫ ∫ (x + y) f (x, y) dx dy =
−∞ −∞
+ ∞ + ∞ + ∞ + ∞
= ∫ x ∫ f (x, y) dy dx + ∫ y ∫ f (x, y) dx dy =
− ∞ − ∞ − ∞ − ∞
+ ∞ + ∞
= ∫ x f1 (x) dx + ∫ y f2 (y) dy = E(X) + E(Y)
− ∞ − ∞
Así como se demostró para el caso continuo se puede demostrar para el discreto.
n n
Generalizando: si Z = ∑ Xi resulta E (Z) = ∑ E (X i )
i= 1 i= 1
♦ VARIANZA
V ( X + Y ) = E [ X + Y - E ( X ) - E ( Y ) ]2 = E {[ X - E ( X ) ] + [ Y - E ( Y ) ] }2 =
E [ X - E ( X )]2 + E [ Y - E ( Y ) ]2 + 2 E { [ ( X - E ( X ) ] [ ( Y - E ( Y )] }
V ( X + Y ) = V ( X ) + V ( Y ) + 2 Cov ( X , Y )
Generalizando:
n n
si Z= ∑ Xi siendo las variables X i independie ntes : V (Z) = ∑ V (X i )
i= 1 i= 1
♦ DESVIO ESTANDAR
D ( X + Y ) = [ V ( X ) + V ( Y ) + 2 Cov ( X , Y ) ]½
D ( X + Y ) = [ V ( X ) + V ( Y ) ]½ si X e Y son independientes
Ejemplo :
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS DE MAS DIMENSIONES 119
En el ejemplo de los artículos producidos por dos líneas se definieron las variables:
zi Probabilidad
0 0,00
1 0,05
2 0,12
3 0,26
4 0,30
5 0,27
1,00
P(Z=2) = P(X=2,Y=0)+P(X=1,Y=1)+P(X=0,Y=2)
= 0,06 + 0,04 + 0,02 = 0,12
A través del ejemplo verificaremos las relaciones vistas con respecto a la esperanza y
varianza de la suma:
E(X+Y) = E(X)+E(Y)
V ( X + Y ) = V ( X ) + V ( Y ) + 2 Cov ( X , Y )
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS DE MAS DIMENSIONES 120
0,0043
ρ xy = = 0,007
0,8492 0,7654
V ( X - Y ) = V ( X ) + V ( Y ) - 2 Cov ( X , Y )
V(X-Y) = V(X)+V(Y)
D(X-Y) = [ V ( X ) + V ( Y ) ]½
Hay algunas distribuciones de probabilidad que tienen la siguiente propiedad de mucha utilidad:
“si dos (o más) variables aleatorias independientes se suman, la variable aleatoria que
resulta tiene una distribución del mismo tipo que la de los sumandos”.
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS DE MAS DIMENSIONES 121
n n
Se demuestra que : Z ∼ N ∑ μi , ∑ σ i2
i= 1 i= 1
Se demuestra que :
n
Z ∼ Po ∑ λi
i= 1
Se demuestra que :
Z ∼ Bi (n, p ) con n = n1 + n2 + ……+ nk
Se demuestra que :
Z ∼ χ2n con n = n1 + n2 + ……+ nk
Ejemplo :
Un aparato de televisión puede tener dos tipos de roturas: debido a falla de transistores o
debido a la falla de condensadores. Ambas fuentes de rotura son independientes.
El número de roturas debido a la falla de transistores durante los dos primeros años de
utilización del aparato es una variable aleatoria que sigue una ley de Poisson con promedio
1.
El número de roturas debido a la falla de condensadores durante el mismo período sigue
una ley de Poisson con promedio 2.
Calcule la probabilidad de que en el primer año de utilización del aparato, éste tenga
exactamente dos roturas.
Sean las variables:
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS DE MAS DIMENSIONES 122
Xt ∼ Po ( λ1t ) ⇒ X2 ∼ Po ( 1 ) ⇒ X1 ∼ Po ( 0,5 )
Yt ∼ Po ( λ2t ) ⇒ Y2 ∼ Po ( 2 ) ⇒ Y1 ∼ Po ( 1 )
Zt = Xt + Yt
Zt ∼ Po ( λt ) ⇒ Z1 ∼ Po ( 0,5 + 1 = 1,5 )
Entonces : P ( Z1 = 2 ) = 0,2510
E ( Xi ) = µ i y V ( Xi ) = σ2i i = 1, 2,……, n
Sea Y = X1 + X2 + ……... + Xn
n
Y− ∑ μy
i= 1
Sea Z = 1
n 2
∑ σ i2
i= 1
Se demuestra que, bajo ciertas condiciones generales, en el límite cuando n tiende a infinito:
Z ∼ N(0,1)
n n
con lo cual Y ∼ N ∑ μi , ∑ σ i2
i= 1 i= 1
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS DE MAS DIMENSIONES 123
Ejemplo :
Una construcción consta de 80 etapas. El tiempo de ejecución de cada etapa (en días) es
una variable aleatoria distribuida uniformemente en el intervalo (1 , 5).
Calcule la probabilidad de que la construcción tarde en su ejecución más de 260 días. Se
supone que los tiempos de ejecución de cada etapa son variables aleatorias
independientes.
5+ 1
Ti ∼ U ( 1 , 5 ) , donde E (Ti ) = = 3 días
2
( 5 - 1 )2 4
V (Ti ) = = días2
12 3
80
T : tiempo de ejecución de la construcción ∑ Ti
i= 1
80 80
E ( T ) = E ( ∑ Ti ) = ∑ E(Ti ) = 80 . 3 = 240 días
i= 1 i= 1
80 80
V ( T ) = V ( ∑ Ti ) = ∑ V(Ti ) = 80 . 4/3 = 106,6 días 2
i= 1 i= 1
D ( T ) = 10,33 días
T − 240
y en consecuencia : Z = ∼ N(0,1)
10,33
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS DE MAS DIMENSIONES 124
x 0 1 2 3
Probabilidad 0,2 0,1 0,3 0,4
El número de camiones que llega en un día durante la tarde es una variable aleatoria Y con
la siguiente distribución de probabilidad :
y 0 1 2
Probabilidad 0,5 0,2 0,3
X -1 0 1
Y
0 0 1/3 0 a ) Calcule
1 1/3 0 1/3 el
coeficiente
de correlación.
b ) ¿ Son X e Y independientes ? Justifique su respuesta.
3.- La entrada de un sistema de comunicación binario es una variable aleatoria X que toma los
valores 0 ó 1 con probabilidades 3 / 4 y 1 / 4 respectivamente. En algunas ocasiones, debido
a errores causados por ruidos en el sistema, la salida Y difiere de la entrada X.
El comportamiento del sistema está dado por las siguientes probabilidades :
P(Y=1/X=1) = 3/4
P(Y=0/X=0) = 7/8
X
Y 0 1
0
1
G.Carnevali-E.Franchelli-G.Gervasoni
VARIABLES ALEATORIAS DE MAS DIMENSIONES 125
5.- Al sumar números una computadora aproxima cada uno de ellos al entero más próximo. Se
supone que todos los errores de aproximación ( Xi ) son independientes y se distribuyen
uniformemente en el intervalo ( - 0,5 ; 0,5 ).
a) Si se suman 500 números, ¿cuál es la probabilidad de que la magnitud del error total
exceda 15?
b) ¿Cuántos números deben sumarse para que la magnitud del error total sea menor que
10 con probabilidad 0,9?
6.- Una empresa dedicada a la venta de repuestos para un sistema electrónico conoce que la
demanda diaria del mismo es 0, 1 o 2 repuestos con probabilidad 0,25 ; 0,5 y 0,25
respectivamente. Se conoce que desde el momento en que se hace el pedido hasta que el
mismo ingresa al stock transcurren 90 días.
Determine cuántas unidades deben tenerse en existencia en el momento de hacer el pedido
si se quiere que la probabilidad de que la demanda durante los 90 días supere la existencia
sea igual a 0,05
7.- Un conmutador recibe llamadas dirigidas hacia dos oficinas A y B. El número de llamadas
que llegan al conmutador sigue un proceso de Poisson con promedio 2 llamadas por minuto.
a) Si el promedio de llamadas dirigidas a la oficina A por hora es de 90 llamadas, ¿cuál es
el promedio de llamadas dirigidas a la oficina B por hora?
b) Se consideran 200 períodos de 4 minutos cada uno. Halle la probabilidad de que a lo
sumo en 20 de ellos el número de llamadas dirigidas a la oficina A sea superior a 9
(Llegar al resultado numérico).
8.- El diámetro (en mm) de una pieza es una variable aleatoria (X) con función de densidad:
G.Carnevali-E.Franchelli-G.Gervasoni
6. DISTRIBUCIONES
MUESTRALES
CONTENIDO
APÉNDICE..................................................................................................... 139
DISTRIBUCIONES MUESTRALES 127
6 DISTRIBUCIONES MUESTRALES
6.1 INTRODUCCIÓN
Muchas de las técnicas utilizadas en inferencia exigen, también, que la distribución de los datos
tenga determinadas características. El análisis de datos es de gran ayuda en este aspecto,
para descubrir observaciones atípicas y otras desviaciones que puedan perturbar una correcta
inferencia. Por lo tanto, en la práctica podemos observar cómo el análisis exploratorio de los
datos y la inferencia estadística se complementan.
Sintetizando:
Cuando el interés reside en generalizar las conclusiones de los resultados observados a la
población en estudio o queremos tomar una decisión sobre la población en base a una
muestra, estamos frente a un problema de inferencia estadística.
Para que este proceso sea adecuado, debemos tener en cuenta:
G.Carnevali-E.Franchelli-G.Gervasoni-M.Grasso
DISTRIBUCIONES MUESTRALES 128
1
Así, por ej., si se quiere analizar cierta característica de los alumnos que cursaron en la Fac. Reg. Rosario de la
UTN en los años 2005 y 2006 y la muestra se elige seleccionando alumnos al azar solamente de los que cursaron
durante esos años en ISI, las conclusiones que se extraigan a partir de esta muestra serán válidas sólo para la
población de los alumnos de ISI, pero no para todos los alumnos de la Fac. Reg. Rosario.
2
Ya hemos dicho que en el curso sólo se trabajará con muestras aleatorias simples.
3
En el caso de poblaciones finitas, el muestreo debe ser con reposición para que la ocurrencia de una observación
no aumente o disminuya la probabilidad de ocurrencia de otra (ver ej. 1 y 2, pag. 58, Cap. III)
G.Carnevali-E.Franchelli-G.Gervasoni-M.Grasso
DISTRIBUCIONES MUESTRALES 129
Distribución de Probabilidad de X
Tabla 1
x P(X=x) 0,30
2 0,25 0,25
Probabilidad
0,20
4 0,25
0,15
6 0,25
0,10
8 0,25
0,05
1 0,00
2 4 6 8
Varianza σ2x = 5
V Tomamos muestras de tamaño 2, con reposición. Cada muestra es de la forma (x1 ; x2),
donde:
Tabla 2
Xi es el i-ésimo elemento de la muestra. Muestra, n=2
x1 x2 Promedio
Simbolizaremos con x al promedio muestral y con S al desvío estándar 2 2 2
de la muestra.
2 4 3
2 6 4
En la tabla 2 están todas las posibles muestras con sus
2 8 5
correspondientes promedios.
4 2 3
4 4 4
Observamos que tanto el primer elemento de la muestra como el 4 6 5
segundo son variables aleatorias, ya que, antes de realizar el muestreo, 4 8 6
no sabemos qué valores tomarán. Si consideramos la distribución de 6 2 4
probabilidad de cada una de ellas, resultan idénticas a la distribución de
6 4 5
probabilidad de la población de la cual fueron extraídas las muestras,
6 6 6
siendo por lo tanto, iguales los parámetros estadísticos:
6 8 7
µxi = 5 y σ2xi = 5 8 2 5
8 4 6
En la tabla 2, también se visualiza que el promedio muestral es una 8 6 7
variable aleatoria. 8 8 8
G.Carnevali-E.Franchelli-G.Gervasoni-M.Grasso
DISTRIBUCIONES MUESTRALES 130
2 0,0625 0,25
Probabilidad
3 0,1250 0,20
4 0,1875 0,15
5 0,2500 0,10
0,05
6 0,1875
0,00
7 0,1250
2 3 4 5 6 7 8
8 0,0625
1,0000 Prom edio de la m uestra de tam año 2
Observemos que la distribución del promedio adopta una forma completamente distinta de
la distribución uniforme de los datos de origen.
G.Carnevali-E.Franchelli-G.Gervasoni-M.Grasso
DISTRIBUCIONES MUESTRALES 131
0,30
Distribución del promedio muestral, n=2
0,25
Probabilidad
0,20
0,15
0,10
0,05
0,00
2 3 4 5 6 7 8
Prom edio de la m uestra de tam año 2
0,15
Probabilidad
0,10
0,05
0,00
2,00 2,67 3,33 4,00 4,67 5,33 6,00 6,67 7,33 8,00
Prom edio de la m ue stra de tam año 3
0,15
Probabilidad
0,10
0,05
0,00
2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8
Prom e dio de la m ue stra de tam año 4
0,20
Distribución del promedio muestral, n=5
0,15
Probabilidad
0,10
0,05
0,00
2 2,4 2,8 3,2 3,6 4 4,4 4,8 5,2 5,6 6 6,4 6,8 7,2 7,6 8
Promedio de la m uestra de tam año 5
G.Carnevali-E.Franchelli-G.Gervasoni-M.Grasso
DISTRIBUCIONES MUESTRALES 132
En las gráficas anteriores podemos comprobar una aplicación del Teorema Central del Límite:
a medida que aumenta el tamaño de la muestra la distribución de probabilidad del promedio
muestral se hace cada vez más acampanada, concentrándose alrededor del promedio de la
población original.
Tabla 4
La Tabla 4 permite comparar los parámetros esperanza
matemática y varianza de la población original, con la Población µ x =5 σ x2 = 5
esperanza matemática y varianza de las poblaciones de Tamaño de
los promedios muestrales antes descriptas. muestra µx σ x2
2 5 2,5
Vemos que las medias poblacionales se mantienen
3 5 1,667
iguales a 5 (la esperanza matemática de las edades de
los 4 hermanos), mientras que las varianzas 4 5 1,25
poblacionales disminuyen su valor a medida que 5 5 1
aumenta el tamaño de la muestra.
Al considerar la distribución de los valores tomados por el estadístico X en todas las muestras
de un mismo tamaño n de la misma población, obtenemos la distribución muestral de X .
G.Carnevali-E.Franchelli-G.Gervasoni-M.Grasso
DISTRIBUCIONES MUESTRALES 133
Generalizando:
Si las muestras aleatorias simples de tamaño n son tomadas de una población con
media poblacional µ y desvío estándar poblacional σ , la distribución muestral de
X tiene las siguientes propiedades:
Ö
Ö 1) µ x = E( X ) = µ
σ
Ö
Ö 2) σx =
n
Cuando el tamaño de la muestra aumenta, la medida de dispersión disminuye. Es
decir, a medida que el número de observaciones obtenidas aumenta, el promedio
de los valores observados se acerca más y más a µ (Ley de los grandes
números)
ÖÖ 3) Si la población de la cual se extraen las muestras es normal,
la distribución de X es también normal con media y desvío como los dados en los
puntos anteriores, para cualquier tamaño muestral n.
Ö
Ö 4) Si la población de la cual se extraen las muestras no es normal,
pero el tamaño muestral es “suficientemente” grande, la distribución de X es
aproximadamente normal con media y desvío como los dados en los puntos
anteriores. Suficientemente grande en la práctica significa un tamaño de muestra n
≥ 30 (Teorema Central del Límite).
El tamaño n de la muestra, necesario para que X se aproxime a una distribución
normal depende de la distribución de la población. En el caso de que las muestras
se extraigan de una población uniforme son suficiente 6 observaciones para que la
distribución del promedio muestral sea aproximadamente normal.
Ö
Ö 5) Si la población de la cual se extraen las muestras es normal,
con media poblacional µ y desvío estándar poblacional σ , pero ésta es
desconocida, se reemplaza σ por S (desvío estándar muestral) y la estadística
(x − µ)
deja de tener distribución normal estandarizada y tiene una distribución t
S/ n
(a)
Student con n-1 grados de libertad :
(X − µ )
∼ t n −1; α
S/ n
(a)
La apariencia general de la distribución t es similar a la de la distribución normal estándar: ambas son simétricas
y unimodales y el valor máximo de la ordenada se alcanza en la media µ = 0. Sin embargo esta distribución tiene
colas más amplias que la normal. Existe una distribución t distinta para cada tamaño de muestra. Una distribución t
viene determinada por un parámetro llamado grados de libertad. A medida que aumentan los grados de libertad, la
curva de densidad t se parece más a la curva de la N(0,1), ya que la estimación de σ por s se va haciendo más
precisa.
G.Carnevali-E.Franchelli-G.Gervasoni-M.Grasso
DISTRIBUCIONES MUESTRALES 134
Idealmente buscamos un estimador que cumpla estas dos propiedades: que sea insesgado y
convergente4:
Parámetro Estimador
µ µ̂ = X
p p̂ = fr
σ2 σ̂ 2 = Sn2 -1
4
Estas condiciones permiten controlar los errores de estimación al aumentar el tamaño de la muestra, como
veremos más adelante.
G.Carnevali-E.Franchelli-G.Gervasoni-M.Grasso
DISTRIBUCIONES MUESTRALES 135
Generalizando:
) p(1 − p )
Ö
Ö 2) σ p) = Var(p ) =
n
Cuando el tamaño de la muestra aumenta, la medida de dispersión disminuye. Es
decir, a medida que el número de observaciones obtenidas aumenta, el promedio
de los valores observados se acerca más y más a p (Ley de los grandes números).
Observe que para un tamaño de muestra fijo, la máxima desviación estándar se
encuentra en p = 0,5
Ö
Ö 3) Si n es “suficientemente” grande (b), la distribución de pˆ = f r
se comporta aproximadamente como una distribución normal con media y
desviación estándar como las dadas en los puntos 1 y 2.
) ⎛ p(1 - p) ⎞⎟
p es aproximada mente N ⎜⎜ p;
⎝ n ⎟⎠
5
⇒ Para poder aproximar la distribución Binomial a la Normal, el tamaño de muestra n debe ser “suficientemente”
grande. Como regla empírica esta aproximación es apropiada si np > 5 (Cap. 4).
G.Carnevali-E.Franchelli-G.Gervasoni-M.Grasso
DISTRIBUCIONES MUESTRALES 136
Generalizando:
Ö
Ö 1) E ( S2 ) = σ 2
2σ4
Ö
Ö 2) V(S 2 ) = σ S2 2 =
n -1
Cuando el tamaño de la muestra aumenta, la medida de dispersión disminuye. Es
decir, a medida que el número de observaciones obtenidas aumenta, el promedio de
los valores observados de S2 se acerca más y más a σ 2 (Ley de los grandes
números).
Ö
Ö 3) Si la población de la cual se extraen las muestras es normal,
2
(n − 1) S
la variable tiene una distribución ji cuadrado ( χ 2 ) con n - 1 grados de
σ2
libertad (b):
(n− 1) S 2
∼ χ n2 -1
σ2
Ö
Ö 4) Si n es “suficientemente” grande, la distribución de la variable
2
χ se ve como una distribución normal con media y desviación estándar como las
dadas en los puntos 1 y 2.
(b)
Las distribuciones ji cuadrado son una familia de distribuciones que sólo toman valores positivos y que son
asimétricas hacia la derecha. Una distribución ji cuadrado viene determinada por un parámetro llamado grados de
libertad. A medida que aumentan los grados de libertad, las curvas de densidad son menos asimétricas y por lo
tanto, los valores mayores son más probables.
6 2
Utilizaremos la notación S para identificar a la variable Sn2-1 (varianza muestral).
G.Carnevali-E.Franchelli-G.Gervasoni-M.Grasso
DISTRIBUCIONES MUESTRALES 137
1.- El 9 % de los individuos de una región tiene sangre tipo B. En una muestra simple al azar de
400 personas de esa población se encontró que 12,5 % tenían sangre tipo B.
a) Indique:
- valor numérico del parámetro: …….
- valor numérico del estadístico: …….
- identifique en términos del problema al parámetro y al estadístico
b) ¿Cuál es la probabilidad de que una nueva muestra aleatoria de tamaño 400 contenga
por lo menos un porcentaje de 12,5 % de personas con sangre tipo B?
2.- Considere la variable aleatoria X: peso de alumnos varones de UTN, FRRO.
Se conoce que esta variable tiene una distribución normal con promedio 75 kg y una
desviación estándar de 7 kg.
a) Grafique y compare las distribuciones muestrales de X cuando se extraen muestras
aleatorias simples de:
* 10 alumnos * 30 alumnos * 100 alumnos
b) ¿Cuál es la proporción de muestras de tamaño 30 que arrojarán un valor del promedio
alejado del promedio poblacional en a lo sumo 2 desviaciones estándares?
3.- Suponga que el 60% de todos los estudiantes de la UTN, Reg. Rosario acceden a
información sobre cursos por medio de Internet.
a) Grafique en forma aproximada la distribución para la posible proporción muestral basada
en una muestra aleatoria simple de 100 estudiantes.
b) ¿Cuál es la probabilidad de observar una proporción muestral de 0,50 basada en una
muestra aleatoria simple de tamaño 100 si la proporción poblacional fuese de 0,60?
Explique.
4.- Sea X el número de accidentes por semana en una esquina dada. Suponga que la media de
X es 2,2 y el desvío estándar de X es 1,4.
a) Sea X el número promedio de accidentes por semana en un año, o sea, n= 52 semanas.
¿cuál es la distribución aproximada de la media muestral? Bosquéjela.
7
Los ejercicios 1, 3 y 4 fueron extraídos y adaptados del módulo Número 7: Distribuciones muestrales de la
Colección Métodos Estadísticos I., redactado por docentes de la UNR y extractado del libro “Interactive Statistics”
de Martha Aliaga, Universidad de Michigan, 2002.
G.Carnevali-E.Franchelli-G.Gervasoni-M.Grasso
DISTRIBUCIONES MUESTRALES 138
G.Carnevali-E.Franchelli-G.Gervasoni-M.Grasso
DISTRIBUCIONES MUESTRALES 139
APÉNDICE
1 n 1 n
1 n
1
Luego E ( X )= E [ ∑
n 1
Xi ] = E 〈 ∑ Xi 〉 =
n 1 n
∑ E ( Xi) =
1 n
nµ = µ
1 n 1 n
1 n 1 1
V ( X )=V [ ∑
n 1
Xi ] = 2 V 〈 ∑ Xi 〉 = 2 〈 ∑VXi 〉 = 2 nV 〈 Xi 〉 = σ 2
n 1 n 1 n n
p(1 − p )
y en consecuencia E ( fA ) = p y σ 2 ( fA ) =
n
G.Carnevali-E.Franchelli-G.Gervasoni-M.Grasso
DISTRIBUCIONES MUESTRALES 140
En la página 135 se plantea, para el caso en que la variable X se distribuya normalmente, que:
E ( S2 ) = σ 2
2σ4
V ( S2 ) = σ S2 2 =
n -1
( X − µ) ( X − µ) 2
Si X ∼ N ( µ , σ ) ⇒ ∼ N (0, 1) ⇒ 2
∼ χ21
σ σ
y en consecuencia :
n
( Xi − µ) 2
∑
ι =1 σ2
∼ χ2n por propiedad reproductiva de la distribución ji cuadrado
Se demuestra que:
n
( Xi − X )2 (n − 1) S 2
∑
ι =1 σ2
∼ χ2n-1 o en forma equivalente:
σ2
∼ χ2n-1
Además, para una variable χ2n sus parámetros son ⇒ E (χ2n) = n y V (χ2n) = 2 n
Reemplazando en (1)
⎡ (n − 1) S 2 ⎤
E⎢ ⎥ = ( n − 1) ⇒ E ( S2 ) = σ2
⎣⎢ σ2 ⎦⎥
⎡ (n − 1) S 2 ⎤ (n − 1) 2 V(S 2 ) 2 σ4
V⎢ ⎥ = = 2 ( n − 1) ⇒ V ( S2 ) =
⎢⎣ σ2 ⎦⎥ σ4 (n − 1)
G.Carnevali-E.Franchelli-G.Gervasoni-M.Grasso
DISTRIBUCIONES MUESTRALES 141
nA
siendo f A =
n
⎡ p (1 - p) ⎤
P ( | fA – p | < ε ) > 1 - ⎢ 2 ⎥ y lím P ( | f A − p < ε ) = 1
⎣⎢ n ε ⎥⎦ n→ ∞
es decir, que cuando n tiende a infinito la frecuencia relativa tiende a la probabilidad ( definición
frecuencial de probabilidad ).
Demostración :
nA ∼ Bi ( n , p ) E ( nA ) = n p σ2 ( nA ) = n p ( 1 – p )
p (1 − p)
y en consecuencia E ( fA ) = p σ2 ( fA ) =
n
⎡ p (1 − p) ⎤ 1
P ⎢ fA − p 〈 k ⎥ > 1− 2 (1)
⎣⎢ n ⎦⎥ k
p (1 − p) n ε2
Sea ε = k entonces k 2 =
n p (1 − p)
⎡ p (1 - p) ⎤
P ( | fA – p | < ε ) > 1 - ⎢ 2
⎥
⎢⎣ n ε ⎥⎦
8
La ley de los grandes números se puede demostrar también a partir del comportamiento del promedio muestral. A
medida que el número de observaciones obtenidas aumenta, la media de los valores observados se acerca más y
más a µ.
G.Carnevali-E.Franchelli-G.Gervasoni-M.Grasso
7. INTERVALOS DE
CONFIANZA
CONTENIDO
7 INTERVALOS DE CONFIANZA
7.1 INTRODUCCIÓN
Inferir significa sacar conclusiones. La inferencia estadística nos proporciona métodos para
sacar conclusiones sobre una población a partir de los datos que surjan de una muestra de
dicha población, utilizando la probabilidad para expresar la fuerza de nuestras conclusiones.
Los dos procedimientos más ampliamente utilizados de inferencia estadística son: la
construcción de un intervalo de confianza cuando el objetivo sea estimar un parámetro
poblacional y la prueba de hipótesis, cuando el objetivo sea tomar una decisión respecto de
una hipótesis que se formula sobre el valor de un parámetro poblacional.
Los dos tipos de inferencia se basan en las distribuciones de los estadísticos desarrolladas en
el capítulo 6. El trabajo que hicimos en el mismo se caracterizó por partir de una población
conocida y desde ella observar como se distribuyen los estadísticos: media, varianza y
proporción muestral.
Como se mencionó, sólo cuando se utiliza el azar para escoger los elementos que conforman
una muestra, podemos describir cómo varía el estadístico. Pudimos contestar preguntas como
¿qué tan cercana queda la media de la muestra X , de la media de la población µ?
En este capítulo y en el próximo vamos a invertir el argumento. A partir de una muestra
conocida que se ha extraído de una población ¿qué se puede concluir acerca de los
parámetros desconocidos de la misma? Este proceso involucra una inducción, o inferencia
estadística: ir de lo particular (muestra) a lo general (población). Siempre nos basaremos en
datos que proceden de una muestra aleatoria simple de una población.
G.Carnevali-E.Franchelli-G.Gervasoni
144
Nos apoyaremos en un ejemplo de estimación del parámetro desconocido µ, cuando los datos
son una muestra aleatoria simple de tamaño n. El intervalo se basa en el hecho de que la
distribución de la media muestral X es normal o aproximadamente normal, como se vio en el
capítulo 6.
Por ejemplo, si se considera una población normal donde µ = 4.5 y la desviación poblacional
σ=1, y se extraen muestras de tamaño 100, la variable promedio muestral se distribuye
normalmente con esperanza 4.5 y desviación estándar 1/10. En símbolos:
X ∼ N (4.5 ; 1/10)
P ( x1 ≤ X ≤ x 2 ) = 0.95
⎛ ⎞ ⎛ ⎞
⎜ x −µ x2 − µ ⎟ ⎜ x − 4 .5 x − 4 .5 ⎟
P⎜ 1 ≤ Z≤ ⎟ =P⎜ 1 ≤ Z≤ 2 ⎟=
⎜ σ σ ⎟ ⎜ 1 1 ⎟
⎝ n n ⎠ ⎝ 100 100 ⎠
X
x1 4 .5 x2
G.Carnevali-E.Franchelli-G.Gervasoni
145
Z
-1.96 0 1.96
Luego:
x 1 - 4.5
= − 1.96 ⇒ x 1 = 4.304
1
10
x 2 - 4.5
= 1.96 ⇒ x 2 = 4.696
1
10
⎛ σ σ ⎞
En general : P ⎜⎜ µ − 1.96 ≤ X ≤ µ + 1.96 ⎟ = 0.95
⎟
⎝ n n ⎠
⎛ σ σ ⎞
P ⎜⎜ X − 1.96 ≤ µ ≤ X + 1.96 ⎟ = 0.95 1
⎝ n n ⎟⎠
G.Carnevali-E.Franchelli-G.Gervasoni
146
⎛ σ σ ⎞
ICµ = ⎜⎜ x - 1.96 ; x + 1.96 ⎟
⎝ n n ⎟⎠
Supongamos las siguientes situaciones para una muestra extraída de tamaño 100:
La media muestral resulta igual a 4,35. Luego el intervalo de confianza para µ es:
Este intervalo (4.154 ; 4.546) contiene a la media poblacional µ = 4.5. Esta muestra nos
llevaría a decir que 4,5 es un valor posible de µ.
La media muestral resulta igual a 4.6. El intervalo de confianza obtenido a partir de este
valor :(4,404 ; 4.796), también nos llevaría a decir que 4,5 es un valor posible de µ.
La media muestral resulta igual a 4.25. El intervalo de confianza obtenido a partir de este
valor: (4.052 ; 4.446) no contiene al parámetro; nos llevaría a decir que 4,5 no es un valor
posible de µ.
La media muestral resulta igual a 4.304. El intervalo de confianza obtenido a partir de este
valor: (4.108 ; 4.5) nos llevaría a decir que 4,5 es un valor posible de µ.
G.Carnevali-E.Franchelli-G.Gervasoni
147
O sea que para algunas muestras, el intervalo de confianza contiene al verdadero valor de µ,
mientras que para otras no.
En este ejemplo, siempre que x esté situada a una distancia de a lo sumo 0.196 de µ, el
intervalo cubrirá al verdadero valor del promedio poblacional y esto sucederá en un 95 % de
todas las muestras posibles.
ε = 1 . 96 σ = 1 . 96 1 = 0 . 196 .
n 100
En la práctica sólo se selecciona una muestra y se desconoce µ. Nunca se sabe con seguridad
si el intervalo obtenido incluye la media poblacional. Por ej. si se extrae una muestra y su
media resulta igual a 4,6 decimos que tenemos una confianza de 95 % de que la media
poblacional desconocida se encuentre en el intervalo (4.404 ; 4.796). Este intervalo es el que
varía en función de la muestra que sale seleccionada. El valor del parámetro es único.
Si a partir del mismo ejemplo se hubiera trabajado con una confianza de 99%, el error de
estimación resultaría
ε = 2 . 58 σ = 2,58 1 = 0 . 258
n 100
G.Carnevali-E.Franchelli-G.Gervasoni
148
ε = zα σ
n
⎛ σ σ ⎞
ICµ = ⎜⎜ x - z α ; x + zα ⎟⎟
⎝ n n⎠
1
zα es el valor de la normal estandarizada correspondiente a un nivel de confianza (1- α) elegido en la estimación
G.Carnevali-E.Franchelli-G.Gervasoni
149
(X − µ ) ∼ t
n −1; α
S/ n
2
Redondea siempre n hacia arriba cuando uses esta fórmula.
G.Carnevali-E.Franchelli-G.Gervasoni
150
En el punto 7.3, para obtener un intervalo de confianza para el promedio poblacional cuando
σ era conocida trabajamos con la variable normal estandarizada (zα). Ahora trabajaremos
con la variable t de Student ( t n −1; α )3.
ε = t n − 1; α s
n
⎛ s s ⎞
ICµ = ⎜⎜ x - t n −1;α ; x + t n −1;α ⎟
⎝ n n ⎟⎠
¿Es
Sí Grande n No
(n ≥30)?
¿Se No
Sí ¿Es
conoce el
Sí aproximadamente No
valor de σ?
normal la
población?
Usar la desviación
estándar de la
muestra s
para estimar σ ¿Se
Sí No
conoce el valor
de σ?
Usar la desviación
estándar de la
muestra s
para estimar σ
Aumentar el tamaño de
Usar Usar la muestra a
σ s n ≥ 30 para determinar
x ± zα x ± zα
n n un intervalo de
confianza
Usar Usar
σ s
x ± zα x ± tα
n n
3
Obtener los valores tn-1 en la tabla 2.5 del Apéndice.
G.Carnevali-E.Franchelli-G.Gervasoni
151
En el capítulo 6 (punto 6.4, pág. 135) estudiamos la distribución del estadístico frecuencia
relativa o proporción muestral. Si n es “suficientemente” grande, la distribución de pˆ = f r se
comporta aproximadamente como una distribución normal con media p y desviación estándar
p(1 − p)
, es decir:
n
) ⎛ p(1 - p) ⎞⎟
p es aproximadamente N ⎜ p ;
⎜ n ⎟⎠
⎝
P( p̂1 ≤ p̂ ≤ p̂ 2 ) = 0.95
Estandarizando:
p̂ − p
P( − 1.96 ≤ ≤ 1.96) = 0.95
p(1 − P)
n
p(1 − p) p(1 − p)
P( p̂ − 1.96 ≤ p ≤ p̂ + 1.96 ) = 0.95
n n
p(1 − p)
La desviación poblacional de la proporción muestral queda en función del
n
parámetro desconocido p, sin embargo una solución satisfactoria (para un tamaño de
muestra grande: n ≥ 100) es reemplazar p por su estimador p̂ quedando:
p̂(1 − p̂ ) p̂(1 − p̂ )
P ( p̂ − 1 .96 ≤ p ≤ p̂ + 1 .96 ) = 0 . 95
n n
G.Carnevali-E.Franchelli-G.Gervasoni
152
pˆ (1 − pˆ )
ε = zα
n
El tamaño de muestra n para un error de estimación ε y un nivel de confianza de 100 (1- α)%,
se deduce de la ecuación anterior, resultando :
zα 2
n= ( ) p (1 − p )
ε
Para utilizar la fórmula anterior se necesita reemplazar a p por una estimación de la misma.
Ésta se puede obtener:
Si estas alternativas no son posibles, otra forma para calcular el tamaño de la muestra
requerida, es considerar que siempre p.(1 – p) es máximo para p = 0,5. Es decir, que una cota
superior para n (para una confianza de 100 (1- α) % y un error ε está dada por:
zα 2
n= ( ) ( 0.25)
ε
Ejemplo :
Una empresa de cable desea conocer qué proporción de sus clientes se informan de las
noticias a través de los noticiarios que difunden. Para ello seleccionó una muestra aleatoria de
200 clientes. De las 200 personas, 110 respondieron que se informan a través de los noticieros
televisivos. El intervalo obtenido para una confianza de 95% resultó:
Es decir que con una confianza de 95 % se puede inferir que la proporción de clientes que se
informan a través de los noticieros se encuentra entre el 48 y el 62%.
La empresa considera que el error de estimación es alto y por lo tanto, este intervalo no le
brinda demasiada información.
G.Carnevali-E.Franchelli-G.Gervasoni
153
A tal fin decide consultar a más clientes. El tamaño de muestra que lo llevaría a cometer un
error de 4%, con la misma confianza, y utilizando la proporción muestral ya obtenida, resulta:
2 2
⎛z ⎞ ⎛ 1 .96 ⎞
n = ⎜⎜ α ⎟⎟ p̂(1 − p̂ ) = ⎜ ⎟ 0 .55 * 0 .45 = 594 .25
⎝ ε ⎠ ⎝ 0 .04 ⎠
Es decir que se necesita un tamaño de muestra mayor o igual a 595 clientes.
En el capítulo 6 (punto 6.5, pág 136) estudiamos la distribución de la varianza muestral S2. Si la
población de la cual se extraen las muestras es normal, la variable ( n − 1) S 2 tiene una
σ2
distribución ji cuadrado ( χ 2 ) con (n - 1) grados de libertad
(n− 1) S 2 2
2
∼ χ n -1
σ
2 (n− 1) S 2 2 2 2
P ( χa < < χ b ) = 1 - α (Los valores χ a y χ b se obtienen en la tabla 2.6 del Apéndice
σ2
y dependen del tamaño de la muestra n).
(n − 1) S 2 (n − 1) S 2
P( ≤ σ2 ≤ ) = 1- α
χ2 χ2
b a
Es decir que el intervalo de confianza para la varianza poblacional de una población normal
(σ2) con una confianza de 100 (1 - α )% resulta :
⎛ ⎞
⎜ (n − 1) S 2 (n − 1) S 2 ⎟
I.C.σ 2 ,(1− α ) = ⎜ ; ⎟
⎜ χ2 χ2 ⎟
⎝ b a ⎠
Ejemplo:
En un criadero de peces se crían truchas para aprovisionar ríos y lagos. El peso del pez en el
momento que es liberado se puede controlar variando la alimentación. El criadero espera una
desviación estándar de 21,5 gramos en el peso de los peces. Para evaluar si el plan de
alimentación que se aplica cumple lo deseado, se toma una muestra de 25 peces
G.Carnevali-E.Franchelli-G.Gervasoni
154
obteniéndose una desviación para el peso de 28.9 gramos. El intervalo de 95% de confianza
para la varianza poblacional resulta:
⎛ ( 25 − 1) 28.9 ( 25 − 1) 28.9 ⎞
I.C.σ 2 , 0.95 = ⎜ ; ⎟ = ( 509.27 ; 1616.54 )
⎝ 39.36 12.4 ⎠
G.Carnevali-E.Franchelli-G.Gervasoni
155
1.- En un conocido restaurante se cree que los tiempos de espera (en minutos) de sus clientes se
distribuyen de manera normal con una varianza de 22,5 minutos 2.
a) Una muestra de 25 clientes reveló un tiempo medio de espera de 13 minutos. Construya el
intervalo de confianza del 95 % para la media de la población.
b) Suponga que la media de 13 minutos resultó de una muestra de 32 clientes. Encuentre el
intervalo de confianza del 95 % para la media de la población.
c) ¿Qué efecto tiene un mayor tamaño de muestra sobre el intervalo de confianza?
2.- Se tiene interés en estimar la vida media de un producto nuevo. ¿Qué tan grande debe ser la
muestra que debe tomarse para estimar la media, con un error no mayor de 1/10 de la
desviación estándar y con una confianza del 90%?
3.- La Cámara de Comercio de una ciudad desea estimar el gasto medio por turista que visita
dicha ciudad durante un período determinado. Con ese objetivo se ha elegido una muestra al
azar de 100 turistas y se ha hallado que x = 800 $. Se conoce de experiencias anteriores que
la desviación estándar de los gastos por turista en ese período es de 120 $.
a) Construir un intervalo de 95 % de confianza de para el gasto medio
b) ¿Cómo debe modificarse el tamaño de la muestra si se desea aumentar el grado de
confianza a 99% sin aumentar el error de estimación obtenido en el punto a)?
4.- Una persona afirma que su curso de preparación para agentes de seguros de vida permite a una
compañía contratar más pólizas que la compañía “promedio”. El monto mensual de
contratación de todos los agentes de seguros tiene un comportamiento normal con promedio
de $100.000. Una muestra de 10 agentes que siguieron el curso de preparación dio los
siguientes resultados (en miles de pesos):
100 120 130 120 125 a) Si Ud. fuera el supervisor de los agentes
90 130 135 140 110 ¿adoptaría el curso propuesto por esa persona?
b) ¿Qué conclusión se puede extraer si se piensa que σ2 = 260? ¿Considera que estos datos
son suficientes para obtener una buena conclusión?
G.Carnevali-E.Franchelli-G.Gervasoni
156
6.- Una compañía telefónica desea conocer la proporción de aparatos que necesitan reparación
sobre el total de los instalados. ¿Cuál es el mínimo tamaño de muestra necesario para estimar
dicha proporción con un error de a los sumo 0,01 y con un coeficiente de confianza igual a
0,95?
7.- Una muestra aleatoria de los puntajes de 100 aspirantes a puestos de mecanógrafos, en una
gran compañía de seguros, presentó un puntaje medio de 72,6. El diseñador de la prueba
sostiene que los aspirantes calificados deben promediar por lo menos 75 puntos. Suponga
que la desviación estándar de los puntajes de la prueba es de 10,5.
¿Puede concluir la compañía de seguros que está contratando aspirantes calificados,
teniendo en cuenta los resultados de esta prueba?
8.- La administración de un supermercado desea conocer el tiempo promedio que emplean sus
clientes para realizar sus compras. Para obtener dicha información se va a estudiar una
muestra al azar de clientes. A partir de experiencias pasadas en tiendas similares se ha
estimado que la desviación estándar de la variable en estudio se encuentra entre 5 y 10
minutos.
a) ¿Qué tamaño de muestra aconsejaría si se admite un error de estimación de 1 minuto?
(trabaje con 95 % de confianza).
b) Suponga que de una muestra al azar de 200 clientes se obtuvo un x = 19,56 minutos y una
dispersión del tiempo que los clientes permanecieron en la tienda de 6,6 minutos.
En supermercados comparables el tiempo medio empleado por los clientes es de 25
minutos ¿Podría concluirse que la tienda en la cual se realizó el estudio difiere de las otras
con respecto al tiempo promedio que emplean los clientes?
9.- Un fabricante de disquetes para computadoras personales está preocupado por el número de
sectores dañados que se registran cuando se formatea un disco en una computadora
particular. Para investigar sobre las características de la producción, se selecciona una
muestra de 100 disquetes de la producción diaria, se les da formato y se registra el tamaño
(en miles de bytes) de los sectores dañados de cada disco. En la tabla siguiente se presenta la
distribución de frecuencias del tamaño (en miles de bytes) de los sectores dañados en las
unidades correspondientes a la muestra seleccionada.
G.Carnevali-E.Franchelli-G.Gervasoni
157
1.- Suponga una variable X con distribución normal y Var (X) = 4. Al extraer una muestra de 25
observaciones se obtiene x = 78,3. Obtenga un intervalo de confianza para E(X).
a) del 95 % de confianza
b) del 99 % de confianza
c) Analice los intervalos obtenidos
Solución
X −µ
Si X ∼ N(µ,σ) siendo σ conocido, entonces n ∼ N(0,1)
σ
⎡ σ σ ⎤
El intervalo aleatorio para E(x) es en este caso: IAµ = ⎢ X − z ;X + z ⎥
⎣ n n⎦
El valor de z se obtiene de la tabla de la distribución normal y depende del nivel de confianza
fijado.
⎡ 2 2 ⎤
El intervalo de confianza correspondiente es: ICµ = ⎢78.3 − 1.96 ; 78.3 + 1.96 ⎥
⎣ 25 25 ⎦
2.- Una empresa de alta tecnología desea estimar el número medio de años de educación superior
terminados por sus empleados. Una estimación aceptable de la desviación estándar del
número de años de educación superior es 1 año. ¿Cuál debe ser el tamaño de la muestra para
estimar µ con un error de estimación menor a 0,3 años y un 95 % de confianza?
Solución
Si suponemos que la variable X: número de años de educación superior terminados, se
distribuye normalmente, se tiene
⎛ σ ⎞ σ
P ⎜⎜ X − µ < z ⎟⎟ = 0.95 ⇒ z = 1.96 luego ε=z = 0.3 ⇒ n ≥ 43
⎝ n⎠ n
Una vez determinado el tamaño de la muestra y siendo en ésta n ≥ 43, la normalidad de la
variable X o su aproximación a la distribución normal es consecuencia del Teorema Central
G.Carnevali-E.Franchelli-G.Gervasoni
158
3.- De una población normal N(µ, σ) = N(µ, 4) se extrae una muestra de n = 16 elementos. Se
construye un intervalo de confianza para E(X) obteniéndose: ICµ = (7,63; 12,77). Si la media
muestral fue 10,2 ¿con qué confianza el intervalo anterior cubre el verdadero valor del
parámetro?
Solución
Para conocer el nivel de confianza se debe encontrar el valor de z de modo que verifique que:
σ σ
x − zα = 7,63 o bien x + zα = 12.77
n n
Para x = 10.2 y σ =4 se obtiene para una muestra de 16 elementos un zα= 2.57,
luego
α = 0.01, por lo tanto el nivel de confianza con que el intervalo cubre el verdadero valor de
la media poblacional es del 99 %.
4.- Sea X una variable aleatoria distribuida normalmente. De una muestra de tamaño n = 25 se
obtiene x = 125 y s = 3,5. Halle:
a) Un intervalo de 95% de confianza para E(X).
b) Un intervalo de 95% confianza para σ2.
Solución
X −µ
a) Si X ∼ N(µ,σ) siendo σ desconocido, entonces n ∼ t n-1
S
⎡ S S ⎤
El intervalo aleatorio para E(X) es en este caso: IAµ = ⎢ X − t n −1 ; X + t n −1 ⎥
⎣ n n⎦
⎡ 3.5 3.5 ⎤
El intervalo de confianza correspondiente es: ICµ = ⎢125 − 2.064 ; 125 + 2.064 ⎥
⎣ 25 25 ⎦
ICµ = (123,56 ; 126,45)
S2
b) Si X ∼ N(µ,σ) entonces ( n − 1) ∼ χ2n-1
σ 2
⎡ (n − 1) S 2 (n − 1) S 2 ⎤
El intervalo aleatorio para σ2(X) es en este caso: IAσ2 = ⎢ ; ⎥
⎣ C2 C1 ⎦
G.Carnevali-E.Franchelli-G.Gervasoni
159
⎡ 24 . 12,25 24 . 12,25 ⎤
ICσ2 = ⎢ ;
⎣ 39,37 12,4 ⎥⎦
ICσ2 = ( 7,47 ; 23,71 )
5.- Durante cierta semana una gran tienda observó y registró que 5.750 de las 12.500 personas
que entraron en la tienda hicieron por lo menos una compra. Tratando esto como una muestra
al azar de todos los clientes potenciales:
a) calcular un intervalo de confianza del 99% para la proporción real de personas que entran
en la tienda y que hacen por lo menos una compra.
Solución
Sea el suceso A: una persona que entra a la tienda realiza por lo menos una compra y
P(A) = p
Se define la variable X: número de personas entre n, que entran a la tienda y realizan por lo
menos una compra.
X
La variable aleatoria fA = para n suficientemente grande tiende a distribuirse →
n
⎛ p (1 − p ) ⎞
N ⎜p; ⎟;
⎝ n ⎠
para n >100, un intervalo de confianza aproximado del parámetro p es de la forma:
⎡ f A (1 − f A ) f A (1 − f A ) ⎤
⎢ fA − z ; fA + z ⎥
⎣⎢ n n ⎦⎥
5750
Como fA = = 0,46 se obtiene
12500
⎡ 0,46 0,54 0,46 . 0,54 ⎤
ICp = ⎢0,46 − 2,58 ; 0,46 + 2,58 ⎥
⎣ 12500 12500 ⎦
ICp = (0,45 ; 0,47)
6.- Una fábrica de cera para pisos tiene vendedores en todo el país, que ganaban una comisión
promedio de $600 por mes. Con la llegada al mercado de nuevas marcas disminuyó el
volumen de ventas y para compensar la pérdida de ingresos se agregó otro producto a los
vendedores. La gerencia está interesada en conocer el efecto neto de los dos cambios en la
comisión de los vendedores. Se tomó una muestra de 100 vendedores y se obtuvo una
G.Carnevali-E.Franchelli-G.Gervasoni
160
comisión promedio de $585 y desvío de $70. Suponiendo que el ingreso por comisión tiene
una distribución normal ¿se registraron cambios en el promedio de las comisiones?
Solución
Para valores grandes del tamaño de muestra (n), la función de densidad de la distribución t de
Student tiende a distribuirse como una variable normal estandarizada N (0,1). Siendo en el
ejemplo n=100, utilizaremos la distribución normal en lugar de la distribución t para estimar
µ. Para ello supondremos σ conocido e igual a s. Para un nivel de confianza de 95% se
⎡ 70 70 ⎤
obtiene para µ el intervalo: ⎢585 − 1.96 ; 585 + 1.96 ⎥ = [571.28 ; 598.72]
⎣ 100 100 ⎦
Esto permite concluir con 95% de confianza que el promedio de las comisiones disminuyó a
pesar de los cambios introducidos.
G.Carnevali-E.Franchelli-G.Gervasoni
8. TEST DE HIPÓTESIS
CONTENIDO
8. TEST DE HIPÓTESIS
8.1 INTRODUCCIÓN
1
Podríamos preguntarnos también acerca de la forma de la población y hacer supuestos (hipótesis) sobre ella (Test
de Bondad de Ajuste). Pero esta situación no será trabajada en la asignatura.
G.Carnevali-E.Franchelli-G.Gervasoni
163
Hipótesis nula (H0): es la creencia convencional, afirma que no hay ningún cambio o
efecto en la población.
Hipótesis alternativa (Ha): representa el efecto que se sospecha puede ser cierto.
Establece que un determinado parámetro difiere del valor que le otorga la hipótesis
nula.
2
El no rechazo de la hipótesis nula no indica necesariamente que la hipótesis que se sustenta sea cierta, significa
que no hay evidencia suficiente para rechazarla.
G.Carnevali-E.Franchelli-G.Gervasoni
164
Criterio de decisión
Para establecer si los datos muestrales son o no compatibles con H0, debe determinarse una
regla o criterio; este criterio se basa en la distribución muestral del estimador del parámetro
sobre el cual estamos planteando las hipótesis.
Se comienza suponiendo que H0 es cierta. Luego, si H0 es cierta, los valores del estadístico en
esta distribución, sólo indican una variación debida al azar.
La distribución muestral del estadístico, suponiendo cierta la hipótesis nula, brinda información
relativa a posibles valores que el estadístico asumirá en las muestras y las probabilidades
correspondientes, es decir, el porcentaje de muestras en que el estadístico asumirá
determinados valores en el conjunto de infinitas muestras posibles.
1º paso:
Establecer:
Población: tiempo para dar el servicio ( X ) X ~ N (µ desconocido, σ= 1,2)
Parámetro: nos interesa saber si el cambio ha producido alguna disminución en el tiempo de
atención promedio, por lo tanto planteamos una decisión sobre µ.
2º paso:
Se establecen las hipótesis de la prueba
H0) µ ≥ 12,5
Ha) µ < 12,5
La hipótesis nula dice que no hay diferencias entre las dos condiciones de trabajo, lo que
implica que el tiempo promedio no se ha modificado. La hipótesis alternativa se establece como
el opuesto de la hipótesis nula y representa la conclusión deseada: el tiempo promedio de
atención disminuyó.
G.Carnevali-E.Franchelli-G.Gervasoni
165
3º paso:
Establecer el estadístico, su distribución muestral y establecer el criterio para tomar la decisión.
El estimador del parámetro µ, ya sabemos que es el promedio muestral X cuya distribución
de probabilidad muestral, ya se ha estudiado. Podemos decir, entonces que es una distribución
normal con promedio µ, y desvío estándar σ .
n
En el ejemplo, suponiendo que el desvío estándar de la variable no se ha modificado, el desvío
estándar del promedio muestral es 1,2 , siendo n el tamaño de la muestra con la que se
n
trabajará.
En base a esta distribución pueden observarse cuáles serían valores de Z más compatibles
con H0 y cuáles, en cambio, serían poco probables si ésta fuera la distribución que estaría
actuando (es decir si H0 fuera cierta):
⇒ Si el valor del estadístico obtenido en la muestra, x , fuese mucho menor que µ0 = 12,5,
x − 12.5
z = también sería mucho más pequeño respecto de E(z) = 0, y entonces
1,2
n
estaríamos en posición de suponer que este dato aporta evidencia en contra de que H0 es
cierta, ya que este valor no ocurriría casi nunca por azar si el verdadero valor de µ fuera
12,5. Por lo tanto, nos inclinamos a pensar que el efecto que se sospechó en el planteo, es
muy probable que exista ante esta evidencia.
Cuando rechazamos H0 a favor de Ha, se dice que los datos son estadísticamente
significativos.
“Los datos son estadísticamente significativos si ellos son poco probables de ser
observados bajo el supuesto de que H0 es cierta”
⇒ Si en cambio, el valor obtenido en la muestra no estuviera tan lejos de µ0 = 12,5, ese valor
podría ocurrir frecuentemente por azar cuando la media poblacional es 12,5 y entonces
decimos que no se puede rechazar H0 con esta evidencia.
3
Los gráficos del capítulo 8 fueron realizados por Natalia Anselmi, ayudante de la cátedra de Probabilidad y
Estadística de la carrera de ISI.
G.Carnevali-E.Franchelli-G.Gervasoni
166
El paso final para construir la regla o criterio de decisión consiste en asociar los valores del
estadístico que utilizamos para probar la hipótesis con la probabilidad de que ocurran
suponiendo cierta la hipótesis nula y decidir en consecuencia cuáles son los valores que nos
conducen al rechazo de la hipótesis nula (a favor de lo postulado por la hipótesis alternativa) y
cuáles son los valores no concluyentes para rechazarla.
No olvidemos:
Las hipótesis nula y alternativa son afirmaciones sobre la población que compiten entre
sí y las pruebas de hipótesis se basan en la información que brinda una muestra; por lo
tanto se debe considerar la posibilidad de errores.
La decisión se toma en base a datos muestrales y en consecuencia éstos pueden
llevarnos a decisiones erróneas.
Un diagrama de
errores y conclusiones correctas en prueba de hipótesis
la situación :
Población
H0 verdadera Ha verdadera
En cualquier prueba de hipótesis pueden cometerse dos tipos de errores, que se denominan
error de tipo 1 ( eI ) y error de tipo 2 (eII ).
⇒ eI : es el error que se comete cuando la regla nos lleva a rechazar H0, cuando en
realidad es cierta.
⇒ eII : es el error que se comete cuando la regla nos lleva a no rechazar H0, cuando en
realidad es falsa.
G.Carnevali-E.Franchelli-G.Gervasoni
167
Usaremos la siguiente notación para indicar las probabilidades de cometer esos errores:
Ahora sí consideremos el
⇒ establecer el nivel de significación de la prueba (α) y calcular el valor crítico a partir del
cual se concluye el rechazo de H0, o
⇒ calcular el “valor p” y concluir el rechazo de H0, para valores muy bajos de p, menores
que el nivel de significación α.
P ( eI ) = P ( X < x c ) = α
G.Carnevali-E.Franchelli-G.Gervasoni
168
P ( eI ) = P ( X > xc ) = α
Volviendo a nuestro ejemplo, supongamos que el gerente del servicio, después de aplicados
los cambios, quiere decidir sobre las hipótesis planteadas y para ello va a cronometrar
aleatoriamente 30 tiempos de servicio (una muestra aleatoria), fijando un nivel de significación
α = 0,05 (es decir especifica la máxima probabilidad permisible de cometer un error de tipo I) 4.
Busquemos para esta probabilidad de error que se está dispuesto a correr, el valor xc para el
cual esa probabilidad se verifica:
x c − 12,5
El xc es equivalente a zc = 1,2 = -1,65
30
El valor 12,14 divide a la distribución muestral del estadístico de prueba en dos regiones, una
región de rechazo o región crítica y una región de no rechazo, como se observa en la figura
siguiente:
4
Los valores usuales que se eligen para α son 0,05 o valores menores, siendo frecuente el valor 0,01. La opción de
elegir cierto nivel de riesgo de cometer un error tipo I depende del costo de cometer dicho error en el contexto del
problema.
G.Carnevali-E.Franchelli-G.Gervasoni
169
Gráficamente:
¿Y el error de tipo 2?
G.Carnevali-E.Franchelli-G.Gervasoni
170
Observemos que con este criterio de decisión el riesgo que se corre de no rechazar H0 si el
verdadero valor de µ fuera 12,2 es muy alto.
Si repitiéramos la experiencia de seleccionar una muestra de 30 tiempos de servicio cuando el
tiempo promedio de atención en la población fuera de 12,2, el 60% de las muestras no
detectará la disminución del promedio de 12,5 a 12,2. Una probabilidad alta de un error de tipo
II para una determinada alternativa, significa que la prueba no es suficientemente sensible para
detectar la alternativa.
G.Carnevali-E.Franchelli-G.Gervasoni
171
Comparando las dos situaciones anteriores vemos que al situarnos en un valor de µ más
alejado del supuesto en la hipótesis nula, el error de tipo II es más pequeño.
Es evidente que es muy deseable minimizar ambas probabilidades de decisiones incorrectas,
es decir, P(eI) y P(eII) . Observaremos que ambas están relacionadas, ya que para dos valores
posibles de µ (el de la H0 y otro que se corresponda con la Ha), disminuir una lleva al aumento
de la otra, salvo en el caso de un aumento en el tamaño de la muestra, lo que en la práctica, no
es siempre posible.
El aumento del tamaño de la muestra incrementa la potencia del test (reduce la probabilidad
del error de tipo II) cuando el nivel de significación se mantiene fijo.
Si al diseñar un test se fijan los errores I y II que se quieren cometer, el tamaño de muestra
queda determinado por ellos.
Apoyándonos en el ejemplo, supongamos que se quiera trabajar con un nivel de significación
α=0,05 y con una probabilidad de error II β = 0,1 cuando µ es 12,2, ¿con qué tamaño de
muestra se debería trabajar?
( zα + z β )2 σ 2
n=
( µa − µ 0 ) 2
5
Esta fórmula se deduce al resolver el siguiente sistema de ecuaciones:
⎧ P (e I ) = α
⎨
⎩ P (e II µ = µ a ) = β
G.Carnevali-E.Franchelli-G.Gervasoni
172
El “valor p” es la probabilidad de obtener un valor del estimador igual o más extremo que el
resultado obtenido a partir de los datos muestrales, bajo el supuesto de que la hipótesis nula es
en realidad cierta. En otras palabras podemos decir que el “valor p” es la probabilidad de que
un resultado se encuentre al menos tan alejado de µ0, como el valor observado, en dirección a
la hipótesis alternativa.
Cuanto menor es esta probabilidad, más fuerte será la evidencia en contra de la hipótesis nula.
Si en cambio este valor no es tan pequeño, indicará que este resultado no es tan poco
probable si la hipótesis nula es cierta, y entonces diremos que la evidencia muestral no es
concluyente para decidir el rechazo de la hipótesis supuesta como cierta.
Los valores p pequeños constituyen una evidencia en contra de H0, ya que indican que el valor
observado es poco probable de ocurrir sólo por azar, sin embargo los valores más grandes de
p no constituyen ninguna evidencia en contra de H0.
Un valor p menor que el α fijado se considera estadísticamente significativo. Es sólo una
manera de decir que difícilmente se produciría un resultado tan extremo, sólo por azar.
Volviendo al ejemplo de los tiempos de atención, el x obs . fue de 12,29 minutos. Luego el “valor
p” para esta situación resulta:
Como el valor p resulta mayor al nivel de significancia asumido 0,05, luego no se rechaza la H0.
Gráficamente:
G.Carnevali-E.Franchelli-G.Gervasoni
173
CANTIDAD DE
ESPESOR
OBSERVACIONES
2.- Una fábrica produce llantas cuya vida útil es una variable aleatoria distribuída normalmente
con un promedio de 60.000 km y una desviación estándar de 1.900 km.
Un ingeniero de diseño sospecha que la introducción de un nuevo compuesto de caucho
incrementa la vida útil de las llantas produciendo un desplazamiento de la distribución sin
modificar la dispersión de la misma.
A tal fin, se prueban 16 llantas fabricadas con el nuevo compuesto de caucho hasta
alcanzar el fin de la vida útil de las mismas.
Los datos obtenidos, en km, resultaron:
G.Carnevali-E.Franchelli-G.Gervasoni
174
b) Explique, en este contexto, cuándo se cometería un error de tipo I y cuándo uno de tipo
II.
c) ¿Qué puede concluir respecto de la sospecha del ingeniero de diseño? (Considere un
nivel de significación α = 0,05 y que el desvío estándar de la variable no se ha
modificado)
d) ¿Cuál sería su decisión si considera el valor p de la prueba?
e) Calcule la probabilidad de no rechazar la hipótesis nula cuando el promedio de la
variable ha aumentado a 61000 km.
f) ¿Cuántas observaciones adicionales son necesarias si se quiere reducir la probabilidad
del punto e) a 0,10?
g) ¿Cómo podría llegarse a la misma conclusión que en el punto c) a través de un intervalo
de confianza? ¿Cuál es la información adicional que proporciona el mismo?
3.- Una compañía decide verificar el peso de los rollos grandes de papel de aluminio que
produce una de sus plantas. Los rollos deben tener un peso promedio de 600 kg pero los
costos crecientes de la materia prima han llevado a la administración a sospechar que este
promedio ha aumentado.
Estudios preliminares indican que la desviación estándar de los pesos de los rollos es de 5,8
kg.
La administración decide llevar a cabo una prueba en base al peso de 250 rollos elegidos al
azar. Desea correr un riesgo de a lo sumo 5% de concluir que el peso promedio ha
aumentado cuando en realidad no es así.
a) Plantee la hipótesis nula y la alternativa.
b) Establezca la regla de decisión.
c) Explique en este contexto cuando se cometería un error de tipo II y calcule la probabilidad
de cometerlo cuando µ = 602 kg.
d) Después de revisar la situación de riesgo junto con el costo que supone pesar en forma
individual 250 rollos, la administración decide que han previsto en la prueba una precisión
mayor de la que están dispuestos a pagar. Después de meditar cuidadosamente, deciden
determinar el tamaño de muestra necesario para continuar con la probabilidad de error de
tipo I plantea anteriormente pero con una probabilidad de 0,96 de detectar un aumento
en el peso promedio a 602 kg. ¿Cuántos rollos deberán seleccionarse?
G.Carnevali-E.Franchelli-G.Gervasoni