Estadistica II
Estadistica II
Estadistica II
Ejemplo
El conjunto de todos los supermercados de Nicaragua en un momento dado
Elementos: Supermercados.
Caractersticas : ventas mensuales, N empleados, nombre, atencin, N cajeras, etc.
VARIABLES
Utilizaremos variables como X, Y, Z, etc. para representar las caractersticas de los elementos
Para el ejemplo anterior podemos hacer que X represente las ventas mensuales
DATOS ESTADISTICOS
Los valores posibles de una caracterstica X los denotaremos por x , mientras que los valores
realmente observados de esa caracterstica X , los llamaremos datos y los denotaremos por x i donde
el valor del subndice i nos indica que es la i-sima observacin de X.
Con frecuencia usaremos el trmino poblacin para referirnos a la totalidad de datos que podran
recopilarse en una situacin dada.
x1 , x2 , , xN
PARAMETROS
Es una medida que proviene de todos los datos de la poblacin. Los parmetros son constantes que
representan por lo general caractersticas de la poblacin. Generalmente se representan por letras
griegas.
Por ejemplo, la media poblacional es un parmetro que se denota y define como
N
x x 2 ... x N
1
N
N
Si para el ejemplo anterior X representa la venta mensual entonces representa la venta mensual
promedio y la venta mensual total
MUESTRA
Es una parte de la poblacin que se espera sea representativa de ella.
Con frecuencia usaremos el trmino muestra para referirnos a los datos muestrales x1 , x2 , , xn
Poblacin tamao N
X
x1
x2
.
muestra tamao n
x1, x2,.xn
.
xN
datos muestrales
En todo muestreo lo deseable bsicamente es obtener una muestra que sea una buena representacin
de la poblacin en miniatura y que adems su costo sea el menor posible, ya que a mayor
representatividad de la muestra se espera mayor precisin en las estimaciones de los parmetros.
Existen dos mtodos que tratan de obtener la muestra anterior: el muestreo no probabilstico y el
muestreo probabilstico.
1.2.1
MUESTREO NO PROBABILISTICO
- En este mtodo no todos los elementos poblacionales tendrn posibilidad de integrar la muestra,
motivo por el cual se espera poca representatividad de la muestra.
- Se usan el conocimiento, la experiencia y la opinion personal para identificar los elementos de la
poblacin que van a incluirse en la muestra.
El conocimiento y la experiencia ayudan a aumentar la precisin de las estimaciones y la opinin
personal para minimizar el costo.
- La precisin de sus resultados generalmente no se puede medir en forma objetiva porque no hay
ninguna ley del azar que permita medir su error de muestreo.
A pesar de esta falta de objetividad los mtodos de muestreo no probabilsticos son importantes en
los negocios y la investigacin econmica.
1.2.2
MUESTREO PROBABILISTICO
Algunos tipos de muestreos probabilsticos son los siguientes: muestreo aleatorio simple,
muestreo aleatorio sistemtico, muestreo aleatorio estratificado y muestreo aleatorio por
conglomerado.
En el muestreo aleatorio simple se seleccionan las muestras mediante mtodos que permitan a cada
muestra posible tener igual probabilidad de ser seleccionada y a cada elemento de la poblacin tener
igual probabilidad de quedar incluido en la muestra.
El muestreo aleatorio simple es un procedimiento prctico si:
i) La poblacin tiene una desviacin estandar pequea en comparacin a la magnitud de los
datos y su tamao no es muy grande.
ii) Es fcil y poco costoso llegar a los elementos poblacionales.
El muestreo aleatorio sistemtico es un procedimiento que se aplica a situaciones donde los
elementos poblacionales pueden ser seleccionados con un intervalo uniforme que se mide en el
orden , en el tiempo o en el espacio. Este procedimiento trata de garantizar de que cada elemento
poblacional tuvo la misma probabilidad de integrar la muestra.
El muestreo aleatorio sistemtico es un procedimiento prctico si:
i)
Se dispone de una lista de los elementos poblacionales y se considera que dichos elementos no
son muchos y estn en un orden aleatorio.
Por ejemplo, podemos tomar cada sexto estudiante de una lista de estudiantes de la Escuela de
Economa.
ii) Se tiene un proceso contnuo de produccin de algn artculo, el cual consideramos que genera
una poblacin infinita, y que por lo tanto, la manera ms prctica de tomar una muestra es fijar un
intervalo uniforme que me permita ir tomando artculos para control de calidad de la produccin.
Por ejemplo, podemos tomar cada quincuagsima pieza que sale de una planta de ensamblaje.
1.3.1 COMO SELECCIONAR LA MUESTRA ALEATORIA SIMPLE.
l
N
para cualquier
extraccin.
El muestreo sin reposicin es el ms usual en la prctica, motivo por el cual le daremos mayor
atencin.
Cuando muestreamos sin reposicin de una poblacin de tamao N (el elemento seleccionado no se
devuelve a la poblacin y por tanto no puede seguir siendo considerado para otra extraccin) las
probabilidades de seleccionar los elementos restantes despus de cada extraccin van aumentando
porque el tamao de la poblacin se va reduciendo en uno tras cada extraccin. De manera que la
probabilidad de seleccionar un elementor particular en la primera extraccin es
l
N
, la probabilidad
l
N -1
y as
sucesivamente.
Al seleccionar sin reposicin una muestra aleatoria simple de tamao n de una poblacin finita de
tamao N puede demostrar que:
l
i) Cada muestra posible tiene una probabilidad
N
n
de ser seleccionada.
n
N
l
10
de ser seleccionado.
Antes de aprender a utilizarla hay que observar como est construida. La tabla esta compuesta de
nmeros de 5 dgitos cada uno, arreglados en filas y columnas.
La utilizacin de la tabla constar de los siguientes pasos:
1. Asignar nmeros de cdigos a los elementos de la poblacin utilizando cierto nmero de
dgitos.
El nmero de dgitos a utilizar depender del tamao de la poblacin N y ser el mismo para cada
situacin.
Ejemplo, si N = 140 sus elementos se codificarn as: 001, 002, ... ,139, 140
Si N = 10 sus elementos se codificarn as: 1, 2, .... , 9, 0 donde 0 debe leerse como 10.
Si N = 100 sus elementos se codificarn as: 01, 02, , 99, 00 donde 00 debe leerse como 100.
Si N = 1000, N = 10,000, etc, se utilizar el mismo criterio anterior parar asignar nmeros de
cdigos a los elementos poblacionales.
2.
Un mtodo satisfactorio consiste en cerrar los ojos y colocar la punta de un lpiz en la tabla, el
nmero sealado por la punta ser la entrada a la tabla.
3.
EJEMPLO 1.1
Utilice la tabla de nmeros aleatorios para obtener una muestra aleatoria de 5 estudiantes de esta
clase.
EJEMPLO 1.2
La poblacin de supermercados de una ciudad se dan en la siguiente tabla.
*
*
N Super
01 02 03 04 05 06 07 08 09 10 11 12
Ventas diarias
8.1 7.5
(en miles de C$)
*
13
*
14
15
16
5.4 3.0 6.2 7.0 8.0 2.5 1.8 4.3 3.8 5..5 4.6 8.3 9.0 3.6
Cada nmero de cdigo tendr dos dgitos porque la poblacin es de tamao N = 16. Observando,
para la fila 26 y columna 4, los dos primeros dgitos, obtenemos el nmero 96 que es rechazado
porque es mayor que 16.
Siguiendo en la direccin horizontal de izquierda a derecha, nos fijaremos ahora slo en los menores
o iguales que 16 y que no se repitan porque el muestreo se est realizando sin reposicin.
El resultado sern los nmeros:
14, 13, 12 y 05
1.3.2
1, 2, 3, . . . . . . . N.
O bien:
1, 2, 3, . . . . . . . . . , N - simo.
N
n
Nota: Si k no es un entero, considere un k nuevo que ser el k original sin el punto decimal.
Luego seleccione un nmero aleatorio entre 1 y k nuevo al cual se le sumar consecutivamente k
nuevo hasta obtener n nmeros.
Finalmente suprima en estos n nmeros tantas cifras a la derecha como decimales existan en el k
original. Los nmeros resultantes formarn la muestra.
EJEMPLO 1.3
Tome una muestra sistemtica de 6 casas a partir de una manzana que comprende 78 casas.
1.
2.
N 78
13
n
6
3. Utilicemos la tabla de nmeros aleatorios para seleccionar de las primeras 13 casas, aquella con
la cual debemos comenzar.
Utilizando dos dgitos para codificar las casas, y entrando en la fila 2 columna 4 con una direccin
descendente obtenemos la casa 07
4. Si seleccionemos cada dcimotercera casa, arrancando con la casa 07, obtenemos los siguientes
nmeros de casas:
07, 20, 33, 46, 59, 72
EJEMPLO 1.4
A partir de una lista de 70 solicitudes de crdito tome una muestra sistemtica de 8 solicitudes.
1.
2.
3.
1, 2, 3, . . . . . . 70
N 70
8.75
n
8
k nuevo 875
Usando tres dgitos, y entrando por la fila 28 columna 6 con una direccin de izquierda a derecha
obtenemos el nmero 400
4.
10
1.3.3
11
Por ejemplo, sea X1, X2,...,Xn una muesta aleatoria de tamao n de una variable aleatoria X cuya
distribucin de probabilidad depende de la media poblacional desconocida . Entonces
N
NX
EJEMPLO 1.5
1) Con la muestra del inciso ii) del ejemplo 1.2
Estime , y
Las ventas diarias que corresponden a los supermercados 14, 13, 12 y 05 son presentadas en la
siguiente tabla.
X i2
No. Super
Xi
05
12
13
14
6.2
5.5
4.6
8.3
38.44
30.25
21.16
68.89
24.6
158.74
Xi
24.6
X .
Xi
S2 .
2
( X )2
i
24.6
.
158.74 158.74 - 151.29
n
4
n -1
4 1
3
7.45
2.4833
S
2.4833 1.5758 (en miles de C$ )
3
12
2) Con la muestra del ejemplo 1.1, realice una encuesta dentro del aula de clase para estimar la
cantidad promedio de dinero que trajo hoy un estudiante. Cmo estimara la cantidad total de
dinero que trajeron hoy los estudiantes de esta clase.
X-
Estos errores no son medibles porque los parmetros son desconocidos y aunque son aleatorios
pueden ser controlados.
De manera que a menor error de muestreo mayor precisin de la estimacin.
Mas adelante miraremos que lo que realmente tratamos de medir es un error de muestreo esperado
(promedio) al utilizar un determinado estimador.
2. Errores ajenos al muestreo.
Estos errores no ocurren debido al muestreo en s, sino a otras causas, motivo por el cual este tipo de
error puede ocurrir en un censo o muestreo.
Algunas causas de estos errores son:
i) Los intrumentos de medida (cuestionarios, entrevistas, etc.) no son precisos, esto es, no miden lo
que se pretende.
ii) Los entrevistados dan respuestas incorrectas.
iii) El entrevistador anota las respuestas en lugares inapropiados.
Estos errores no son medibles pero pueden ser controlados evitando la causa que los producen.
La exactitud de una estimacin tiene que ver con lo que llamaremos el error total, esto es, un
resultado del error de muestreo y los errores ajenos del muestreo.
Una preocupacin importante de toda encuesta o investigacin estadstica es hacer lo ms pequeo
posible el error total, es decir tratar de maximizar la exactitud aunque no sea medible directamente.
Para el ejemplo 1.5 parte 1), obtenga el error de muestreo correspondiente a la estimacin de
13
N
Como
x
N
88.6
5.5375 entonces e m
16
x -
C$)
Cmo obtendra para el ejemplo 1.5 parte 2), el error de muestreo de la estimacin de
1.3.7
Poblacion
muestras
media muestral
x1
x2
xM
Distribucin de probabilidad de X
(Distribucin muestral de X )
Fig. 1.1
14
EJEMPLO 1.6
Consideremos la poblacin compuesta por 5 representantes de ventas y el nmero de seguros de
vida que vendieron el mes pasado.
Representante
A
B
C
D
E
No. Seguros
8
6
4
10
6
f ( xi )
4
6
8
10
0.20
0.40
0.20
0.20
1.00
Tabla 1.1
f(X) 0.5
0.4
0.3
0.2
0.1
0
0
10
12
X
15
Fig. 1.2
ii)
Considerando todas las muestras posibles de tamao dos que pueden seleccionarse sin
reposicin y sin orden de la poblacin.
Construya la distribucin muestral de X representndola grficamente.
Seleccionando todas las muestras posibles de tamao n = 2 de la poblacin de tamao N = 5 y
calculando para cada una su media muestral obtenemos.
.
xi
Muestras
8, 6
8, 4
8, 10
8, 6
6, 4
6, 10
6, 6
4, 10
4, 6
10, 6
Verifique que hay
7
6
9
7
5
8
6
7
5
8
N
n
5
2
= 10 muestras posibles
Seleccionando todas las medias muestrales posibles y hacindoles corresponder a cada una su
probabilidad obtenemos.
xi
f (x i )
5
6
7
8
9
0.20
0.20
0.30
0.20
0.10
1.00
Tabla 1.2
16
f( X) 0.4
0.3
0.2
0.1
0
0
10
X
Fig. 1.3
1.3.8 PROPIEDADES DE UN ESTIMADOR
Podemos evaluar la calidad de un estimador de un parmetro analizando su distribucin muestral,
esto es, tomando en cuenta su media y su varianza.
( theta
Supondremos que (theta) representa un parmetro cualquiera de cierta poblacin y que
con acento circunflejo ) representa su estimador correspondiente.
Un buen estimador de un parmetro debe cumplir bsicamente las siguientes propiedades:
1. Insesgadura.
tiene una distribucin muestral con media de
de un parmetro es insesgado si
Un estimador
igual a , lo cual denotaremos as
se llama sesgado y a la diferencia
De otra manera,
le llamaremos sesgo.
Esto quiere decir que si utilizamos un estimador insesgado para hacer una estimacin particular de
un parmetro, sta puede ser menor o mayor que el parmetro, pero si utilizamos muchas veces el
mismo estimador entonces tendramos que el valor medio de todas las estimaciones sera igual al
parmetro.
Las distribuciones muestrales para un estimador insesgado y un estimador sesgado se ilustran en la
figura siguiente.
17
Estimador insesgado
Estimador sesgado
Fig. 1.4
Fig. 1.5
2. Eficiencia
Otra propiedad deseable de un estimador es que tenga distribucin muestral con varianza lo ms
pequea posible. Esto asegura una probabilidad alta de que una estimacin particular se encuentre
cerca del parmetro.
1 y
2 de un mismo parmetro y la varianza del estimador
1
Si se tienen dos estimadores
2 , lo cual denotaremos as.
es menor que la varianza del estimador
2 2
1 es ms eficiente que el estimador
2
Entonces el estimador
1
Fig. 1.6
Fig. 1.7
Qu estimador preferira usted?
El mejor estimador posible es aquel que es insesgado y que posee una varianza menor que la de
cualquier otro estimador, motivo por el cual lo llamaremos estimador insesgado de mnima varianza.
, denotada por ,como un error de
Consideraremos la desviacin estndar del estimador
y que vendr a
muestreo esperado (promedio) que ser llamado error estndar del estimador
ser un indicador de la precisin del estimador.
EJEMPLO 1.7
i) Para la distribucin poblacional del ejemplo 1.6 calcule y 2
xi
f ( xi )
xi fi
4
6
0.20
0.40
0.80
2.40
( xi - 6.8 )2 f(xi )
1.568
0.256
18
8
10
0.20
0.20
1.60
2.00
0.288
2.048
1.00
6.80
4.160
= x i f (x i ) 6.8
2
2 = (x i - ) f (x i ) 4.16
2 = 4.16 seguros2
4.16 2.0396 seguros
ii) Para la distribucin muestral de la media del ejemplo 1.6 calcule X y X2 y verifique que
X
xi
f( x i )
x i f( x i )
5
6
7
8
9
0.2
0.2
0.3
0.2
0.1
1.0
1.2
2.1
1.6
0.9
0.648
0.128
0.012
0.288
0.484
1.0
6.8
1.560
X x i f (x i ) 6.8
(x i - 6.8 )
Por tanto
f (x i )
2
X = (x i - X ) 2 f (x i ) 1.56
Puede demostrarse (no lo haremos aqu) que X2 es menor que la de cualquier otro estimador de .
Como X representa el error estndar de la media muestral X , ser de inters saber que
X
Debido a que X es considerado como un error de muestreo esperado (promedio) utilizaremos esta
medida para apreciar la precisin de X como estimador de .
1.3.9 MUESTREO EN POBLACIONES CON UNA DISTRIBUCION DE PROBABILIDAD
Puede demostrarse que si tenemos un poblacin cuya variable de inters X tiene una distribucin de
probabilidad con media y desviacin estndar entonces X seguir una distribucin de
probabilidad con
X
para cualquier n
siempre que el muestro se haya realizado de una poblacin infinita o bien muestreamos con
reposicin de una poblacin finita.
19
(, )
( X
)
n
Si el muestreo se hizo sin reposicin de una poblacin finita de tamao N, se debe usar el factor de
correccin para poblacin finita (F C P F) al expresar el error estndar de X as
X
N - n
N - l
N - n
N - l
2.0396
2
N - n
N - l
5-2
2.0396
5 -1
2
0.75 2.0396
Comparando estos resultados con los del ejemplo 1.7 concluimos que son iguales.
20
X
Normal (
, )
~ Normal
( X
N - n
N - l
Fig. 1.8
21
X
No Normal ( , ) y n 30
aprox. Normal ( X
)
n
N - n
N - l
Este teorema es importante porque le permite al investigador hacer inferencias en cuanto a la media
poblacional sin tener que conocer la forma especfica de la distribucin de la poblacin.
1.3.10
es la media muestral
Xi
n
N
ERROR ESTANDAR DE X Y NX
NX
22
si la poblacin es infinita y
N - n
N - l
si la poblacin es finita.
CUANDO ES CONOCIDA.
Puesto que X vara de una muestra a otra, se necesita contar con un estimador de ms aplicable a
la realidad, objetivo que se logra cuando tomamos en cuenta la distribucin muestral de X , segn
veremos a continuacin.
Cuando la desviacin estndar poblacional sea conocida y utilicemos X como estimador de ,
supondremos que tiene una distribucin aproximadamente normal y que por tanto podemos expresar
el error de muestreo, X - , en unidades del error estndar de X , es decir, podemos estandarizar
la variable aleatoria X as
X -
Z
X
Obteniendo otra variable aleatoria Z que tendr distribucin normal estndar.
Como P( z /2 Z z /2 ) 1 donde z /2 es un valor de la normal estndar que tiene
X -
z /2
P - z /2
X
1 -
X - z/2 x X z /2 x 1 -
El resultado anterior es equivalente a decir que hay una confianza del (1 - )100% de que
23
X - z /2 x
z /2 x
O de una manera ms breve, diremos que un estimador por intervalo de confianza del (1 - )100%
para estar dado por
X
z /2 x
z/2 x
Con un razonamiente similar podemos llegar a la conclusin de que un estimador por intervalo de
confianza del (1 - )100% para est dado por
NX z /2 NX
donde
NX N X
para cualquier n
donde z /2 es un valor de la normal estndar que tiene a su izquierda una rea acumulada de
1 -
N - n
N - 1
para cualquier n
donde el lmite inferior ( Li ) es la diferencia sealada por las expresiones anteriores y el lmite
superior ( Ls ) es la suma sealada por las mismas expresiones.
2) Un estimador por intervalo de confianza del ( 1 - ) 100% para est dado as:
N X z /2 N
N - n
N - 1
para cualquier n
donde el lmite inferior ( Li ) es la diferencia sealada por las expresiones anteriores y el lmite
superior ( Ls ) es la suma sealada por las mismas expresiones.
24
Notas:
P( Z < z/2 ) = 1 -
n
N - n
0.05 podemos omitir el factor de correccin
N
N -1
N-n
La introduccin del factor
en la frmula reduce el error estndar del estimador.
N -1
n
La proporcin muestral
representa la proporcin de la poblacin que se ha muestreado.
N
n
n
N-n
1Podemos utilizar
como una aproximacin de
donde 1 representa la
N
N
N -1
Si la fraccin muestral
de tal forma
Esto es, que los errores de muestreo tengan un valor mximo E que llamaremos error mximo
permitido en la estimacin de .
Si queremos tener una confianza del ( 1 - ) 100% de que E sea el mximo error permitido,
escribiremos
P ( X - E) 1 -
Manipulando algebraicamente esta expresin llegamos a que
P
X -E X E 1-
El resultado anterior es equivalente a decir que hay una confianza del (1 - )100% de que
X - E
X E
o de una manera ms breve, diremos que un estimador por intervalo de confianza del (1 - )100%
para estar dado por
25
X
lo cual es otra manera equivalente de representar el estimador por intervalo de confianza del ( 1 - )
100% para .
X
z/2 x
Comparando las dos expresiones equivalentes concluimos que el error mximo permitido en la
estimacin de es
E z /2 x
De manera similar podemos concluir tambin que el error mximo permitido en la estimacin de
es
E z/2 N x
Si sustituimos x por su correspondiente frmula en E z/2 x segn la poblacin sea
infinita o finita y luego solucionamos para n llegamos al siguiente resultado:
El tamao de muestra requerido n para estimar con error mximo permitido E y un nivel de
confianza de ( 1 - ) 100% es
i)
z
n /2
E
ii)
z /2
no
Si
no
0.05,
N
no
noN
( N - 1)
Por consiguiente para determinar el tamao de la muestra, se tienen que conocer tres factores:
1. El nivel de confianza deseado, que determina el valor de z /2
2. El error mximo permitido, E
3. La desviacin estndar poblacional,
Observe que el cuadrado del error mximo permitido es inversamente proporcional al tamao de la
muestra.
26
Para el error de muestreo permitido se debe pensar qu tanto error se puede aceptar y con qu
nivel de confianza de manera que an se puedan proporcionar conclusiones adecuadas.
Cuando no se conozca utilizaremos su estimador S.
Tambin, cuando estemos determinando el tamao de la muestra, cualquier resultado decimal
siempre se redondear hacia el entero inmediato superior.
Finalmente, si la poblacin no es normal y el tamao de muestra que se est calculando est por
debajo de 30 entonces debe incrementarse a 30, porque las frmulas anteriores se basan en el uso de
la distribucin normal.
EJEMPLO 1.9
Una mquina empaca azcar en bolsas plsticas. Se quiere estimar el peso promedio de las bolsas
de azcar sabiendo por estudios anteriores que la desviacin estndar poblacional es de 0.10 lbs.
Del flujo de produccin se toma una muestra aleatoria sistemtica de 10 bolsas, obteniendo los
siguientes pesos en libras.
5.10, 4.90, 4.80, 5.15, 5.05, 4.95, 4.97, 4.85, 5.03, 5.00
Suponiendo que el peso de las bolsas de azcar se distribuye normalmente:
i)
Obtenga un intervalo de confianza del 80% para el peso promedio de las bolsas de azcar.
X z/2
27
n
donde
X
n
as
Como la tabla de la distribucin Z slo presenta reas acumuladas a la izquierda, encontremos el
0.90
Segn la tabla de la distribucin de Z el rea ms cercana a 0.90 es 0.8997. Trace a partir de esta
rea una lnea horizontal imaginaria hacia la izquierda (que sealar 1.2 ) y luego otra lnea vertical
imaginaria hacia arriba (que sealar 8). Se dir que al rea 0.90 le corresponde z /2 = 1.28
Sustituyendo X , z /2 , y n por su valores co rrespondientes obtenemos
0.10
10
4.98 1.28
1 - = 0.97
= 0.03
= 0.015
2
1-
= 0.985
10
4.98 2.17
4.98 0.0686
28
n =
1.65 (0.10)
0.0313
= 27.7894 28 bolsas
Se necesita una muestra de tamao n = 28 bolsas para tener una confiabilidad del 90% de que el
error mximo permitido sea de 0.0313 lbs.
EJEMPLO 1.10
Consideremos el conjunto de todas las pequeas industrias de un determinado artculo. Se quiere
estimar la produccin anual total de las industrias y se sabe, en base a estudios anteriores, que la
desviacin estndar poblacional de las producciones anuales es igual a 2 en miles de unidades. Con
tal propsito se selecciona de un listado actualizado de 826 industrias una muestra aleatoria de 50
industrias, obteniendo una produccin anual promedio de 5.52 en miles de unidades.
i)
Encuentre un intervalo de confianza del 90% para la produccin anual total de las industrias.
Los elementos son las pequeas industrias. La poblacin es finita de tamao N = 826
X representa la produccin anual por industria. La poblacin se supone que no es normal y
es conocido.
representa la produccin anual promedio. representa la produccin anual total
n = 50 pequeas industrias
Aunque la poblacin no sea normal podemos aplicar, segn el teorema del lmite central, la siguiente
frmula:
29
NX
Observe que
n
N
z/2 N
50
826
N-n
N -1
porque n 30
correccin.
Sustituyendo X , z /2 , , n y N por sus valores correspondientes obtenemos
826 (5.52) 1.65 (826)
2
50
826 - 50
826 - 1
Li = 4185.7318
y Ls = 4933.3082
z/2
E
no =
300
= 0.3 en miles de unidades.
1000
Como =
n =
1.28 (2)
0.3
= 72.8178
no
72.8178
no
industrias.
n0 N
72.8178 (826)
60147.5028
( N - 1)
72.8178 825
897.8178
= 66.9930 67 pequeas
30
1.3.14
LA DISTRIBUCION t DE STUDENT
Cuando la desviacin estndar poblacional sea desconocida y X tenga una distribucin normal o
aproximadamente normal, tendremos primero que estimar para poder estimar x .
ERROR ESTANDAR ESTIMADO DE X Y NX
S
n
NX N
X
la cual incluye una variable aleatoria en el denominador porque S es variable aleatoria, y por lo tanto
Esto da como resultado que la estandarizacin de X ya no sea la variable aleatoria Z sino otra
variable aleatoria que representaremos por t y que tendr una distribucin de probabilidad conocida
con el nombre de distribucin t de Student con n 1 grados de libertad, ya que fue investigada
originalmente por William Gossett, quien public sus escritos con el seudnimo Student.
El hecho de tener que estimar el parmetro
calcular el valor del estadstico t, hace que t pierda un grado de libertad, esto es, que quede con n
1 grados de libertad (g.l).
CARACTERISTICAS
1. Es una familia de distribuciones t de tal forma que cada vez que se especifiquen sus grados de
libertad n 1, se produce una distribucin t particular.
31
n
,
n - 2
n 2
dist. t
Fig. 1.9
t/2
X
N X
t /2
NX
respectivamente.
donde t /2 es el valor de la distribucin t con n 1 grados de libertad que tiene a su derecha un rea
acumulada de
2
32
X o
Si sustituimos
N X por su correspondiente frmula segn la poblacin sea infinita o finita,
llegamos al siguiente resultado:
Suponga que estamos ante una poblacin normal y que S es una estimador de
1) Un estimador por intervalo de confianza del ( 1 - ) 100% para est dado as:
i)
S
n
siempre que n 30
S
n
N-n
N -1
siempre que n 30
donde el lmite inferior ( Li ) es la diferencia sealada por las expresiones anteriores y el lmite
superior ( Ls ) es la suma sealada por las mismas expresiones.
2) Un estimador por intervalo de confianza del ( 1 - ) 100% para est dado as
N X t /2 N
S
n
N-n
N -1
siempre que n 30
Notas:
Si
n
0.05 podemos omitir el factor de correccin
N
N-n
N -1
Observacin 1.
Si la poblacin es normal y n 30 entonces segn la caracterstica 4 de la distribucin t,
podemos escribir en todas las frmulas anteriores z como una aproximacin de t
Observacin 2.
Si la poblacin es no normal, pero n 30 entonces segn el teorema del lmite central y la
caracterstica 4 de la distribucin t, tambin podemos escribir en todas las frmulas anteriores z
como una aproximacin de t.
Segn la distribucin poblacional y el tamao de muestra se presentan en la tabla de abajo distintas
situaciones en las cuales los estadsticos Z o t pueden ser utilizados.
33
DISTRIBUCION DE LA POBLACION
Normal
No Normal
Tamao
de
muestra n
conocido
desconocido
n 30
n 30
conocido
desconocido
Con un razonamiento similar al realizado en la situacin cuando era conocido llegamos a que:
El error muestral mximo permitido en la estimacin de es E t / 2 X
3.0 ,
3.5 ,
2.4 ,
2.0
1.5
i)
Como
n
=
N
S
n
N-n
N -1
6
= 0.006 0.05 podemos omitir el factor
1000
N-n
N -1
34
n
Xi
2.6
Xi
9.00
3.5
12.25
2.4
5.76
2.0
4.00
1.5
2.25
15
2.5 (en miles de C$)
6
6.76
3.0
15.0
Xi
S2
40.02
( X i ) 2
.
n 1
40.02 - 37.5
5
40.02 -
15 2
6
6 -1
2.52
0.5040
5
0.5040 0.7099
0.05
encontremos el rea
as:
1 - = 0.90 = 0.10
2
Ahora tracemos dos lneas imaginarias, una horizontal que pase por n -1 = 6 1 = 5 y otra vertical
que pase por 0.05. En la interseccin de las lneas anteriores encontraremos el valor t /2 = 2.015
Sustituyendo X , t /2 , S y n por sus valores correspondientes obtenemos.
2.5 2.015
0.7099
6
S
n
N-n
N -1
N-n
N -1
35
N X t/2
2) Con una confianza del 98% calcule el valor del error mximo permitido en la estimacin del
saldo promedio de las cuentas del punto 1) inciso i)
E t/2 X = 3.365 (0.2898) = 0.9752
3) Si el auditor quiere estimar el saldo promedio de las cuentas con un error de ms o menos C$
500 y con una confianza del 98%, qu tamao mnimo de muestra se requiere?
Como la poblacin es finita y es desconocida, la frmula es
z/2 S
E
no =
500
= 0.50
1000
Como =
2.33 ( 0.7099 )
0.5
n0
10.9438
= 0.0109 0.05,
N
1000
= 10.9438
EJEMPLO 1.12
Suponga para el ejemplo 1.11 que ahora el auditor decide seleccionar una muestra aleatoria de 36
cuentas por cobrar, obteniendo los siguientes resultados en miles de crdobas.
X = 2.6
S = 0.5
i) Determine un intervalo de confianza del 95% para el saldo promedio de las cuentas.
36
X z /2
Como
n
=
N
N-n
N -1
36
= 0.036 0.05 podemos omitir el factor
1000
N-n
N -1
0.5
36
ii)
Identifique el valor del error muestral promedio en la estimacin del saldo promedio de las
cuentas del inciso i)
X = 0.0833
EJEMPLO 1.13
Se va a vender un nuevo cereal para desayuno como prueba de mercados durante un mes en las
tiendas de una cadena de autoservicio. Los resultados de una muestra de 36 tiendas indicaron ventas
promedio de C$ 1200 con una desviacin estndar de C$ 180.
i) Establezca un intervalo de confianza del 99% para las ventas promedios reales de este nuevo
cereal.
Los elementos son las tiendas. La poblacin se considera muy grande o infinita
X representa las ventas por tienda. Se supone que la poblacin no es normal y que se desconoce
representa las ventas promedios de las tiendas
n = 36 , X = 1200 y
S = 180
La poblacin no es normal, pero n 30, esto nos permite utilizar el teorema del lmite central
y la caracterstica 4 de la distribucin t, para escribir z como una aproximacin de t en la
frmula del intervalo de confianza para , quedando as
X z /2
S
n
37
1200 2.58
180
36
1200 77.40
Li = C$ 1122.60 y Ls = C$ 1277.40
X z /2
Como
N-n
N -1
n
36
=
= 0.18 0.05, no podemos omitimos el factor
N
200
N-n
N -1
180
36
200 - 36
200 - 1
38
1 si se tiene un E
Y
0 si se tiene un F
Bajo las circunstancias anteriores diremos que Y tiene una distribucin de Bernoulli dada por la
siguiente expresin.
p si y 1
f ( y)
1 - p si y 0
Se demuestra fcilmente que Y = p y que Y =
p (1- p )
El total poblacional =
yi
y la media poblacional
Y =
pS
X
No. total de xitos en la muestra
n
Tamao de la muestra
39
N ps
1.3.18 DISTRIBUCION MUESTRAL DE pS
Cuando n sea suficientemente grande, es decir cuando n p 5 y n ( 1 p ) 5, entonces pS
por ser una media muestral tendr segn el teorema del limite central una distribucin muestral
aproximadamente normal con
pS Y p
Y p(1 p) p (1 p)
si la poblacin es infinita
n
n
n
pS
Y N n p (1 p) N n si la poblacin es finita
n N 1
n
N 1
1.3.19 ERROR ESTANDAR ESTIMADO DE pS Y N pS
p S (1 p S )
si la poblacin es infinita
pS
p S (1 p S ) N n si la poblacin es finita
n
N 1
donde pS es el estimador de p
El error estndar estimado del total muestral NpS se denota y define as.
Np S N p S
40
Np S
z /2
Np S
respectivamente.
Supongamos que estamos ante una poblacin con distribucin de Bernoulli y que hemos
seleccionado una muestra suficientemente grande, esto es, n p 5 y n ( 1 p ) 5
1) Un estimador por intervalo de confianza del ( 1 - )100 % para p esta dado as
i)
pS ( 1 - p S )
n
donde z /2 es un valor de la normal estndar que tiene a su derecha una rea acumulad de
y el lmite inferior ( Li ) es la diferencia sealada por las expresiones anteriores y el lmite superior
( Ls ) es la suma sealada por las mismas expresiones.
ii)
p S z/2
p S ( 1 - pS )
n
N-n
N -1
donde el lmite inferior ( Li ) es la diferencia sealada por las expresiones anteriores y el lmite
superior ( Ls ) es la suma sealada por las mismas expresiones.
Si
n
0.05 , podemos omitir el factor de correccin
N
N-n
N -1
pS ( 1 - pS )
n
N-n
N -1
donde el lmite inferior ( Li ) es la diferencia sealada por las expresiones anteriores y el lmite
superior ( Ls ) es la suma sealada por las mismas expresiones.
41
Si
n
0.05 , podemos omitir el factor de correccin
N
N-n
N -1
El tamao de muestra requerido n para estimar p con un error mximo permitido E y un nivel de
confianza de ( 1 - ) 100% es
i)
z /2
n p(1 p)
ii)
z/2
n 0 p(1 p)
Si
no
0.05,
N
no
noN
( N - 1)
Si no se cuenta con una estimacin de p , utilizaremos en la frmula anterior el valor de p que hace
mxima la expresin p ( 1 p ), es decir tomaremos p = 0.50
EJEMPLO 1.14
El gerente de una cadena de tiendas de departamentos desea determinar la proporcin de poseedores
de tarjetas de crdito que compraran en las tiendas si estuvieran abiertos los domingos. Con tal
propsito decide seleccinar una muestra aleatoria de 100 tarjetahabientes, la cual inform que 60
compraran los domingos.
i) Encuentre un intervalo de confianza del 99% para la proporcin real de tarjetahabientes que
compraran los domingos.
42
1 si compra
Y
0 si no compra
La poblacin tiene una distribucin de Bernoulli
p representa la proporcin de tarjetahabientes que compraran los domingos.
n = 100 tarjetahabientes, X = 60 tarjetahabientes y pS =
X
60
= 0.60
n
100
pS ( 1 - pS )
n
donde z /2 = 2.58
El gerente seleccion un elevado nivel de confianza del 99% en la estimacin de p porque quiere
sentirse seguro antes de tomar esta importante decisin de comercializacin.
Sustituyendo pS , z /2 y n por sus valores correspondiente obtenemos
0.60 2.58
0.60 (0.40))
100
Li = 0.4736
Ls = 0.7264
43
ii)
iii)
Si el gerente quiere estimar la proporcin real de tarjetahabientes que compraran los
domingos con un 99% de confianza de tener una tolerancia de 0.025, qu tamao de muestra se
requiere?
Como la poblacin es muy grande, la frmula correspondiente es
z/2
n = p(1p)
2.58
0.025
Observe que la muestra de tamao 100 del inciso i) tiene el mismo nivel de confianza (99%), pero
tiene alrededor de 5 veces ms error muestral que el permitido aqu al estimar la proporcin
verdadera.
EJEMPLO 1.15
Suponga para el ejemplo 1.14 que la cadena de tiendas de departamentos cuenta con 10,000
poseedores de tarjetas de crdito.
i) Encuentre un intervalo de confianza del 95% para el total de tarjetahabientes que compraran
los domingos.
Np S z/2 N
Como
n
=
N
pS ( 1 - p S )
n
N-n
N -1
100
= 0.010 0.05 se puede omitir el factor
10000
Sustituyendo N , pS , z /2 ,
N-n
N -1
44
0.60(0.40)
100
Li = 5039.60 y Ls = 6960.40
no = p ( 1 p )
1.96
0.025
Como
n =
n0
=
N
no
1475.1744
= 0.1475 0.05 , n0 puede ser reducido a
10000
no N
1475.1744 (10,000)
14,751744
=
( N - 1)
1475.1744 9999
11474.1744
45
N =
N
.
46
=
ni
n =
Xi
X ij
1
j
ni
2
i
ij
Xi
Ni Xi
ni
ni - 1
2
que representan estimadores de i , i y i respectivamente.
Una ilustracin grfica del muestreo aleatorio estratificado es la siguiente.
POBLACION
SUBMUESTRAS
N1
n
1
N2
.
.
.
Estrato i
Ni
.
.
.
Xi
M.A.S
ni
.
.
.
.
.
.
NL
n
L
Fig. 1.10
1.4.1
ESTIMADOR DE Y
S i2
Ni Xi
47
Como =
1 2 ... L
N
Xst
N1 X1 N 2 X 2 N L X L
N
=
1
N
NX
i
Luego
Xi
l
N
N i Xi
.
NXst N i Xi
.
Xst
1
N
2
N i2
Xi
X st
1
N
1
N
Ni2 2X i
donde
N i2
.
S i2
n
(1 i )
ni
Ni
2X i
Si2
n
(1 i )
ni
Ni
48
Si la fraccin muestral
correcin (1
ni
0.05 para los estratos i = 1, 2, ... , L , podemos omitir el factor de
Ni
ni
) dentro del radical.
Ni
El error estndar estimado del total muestral estratificado N X st se denota y obtiene as.
NX st N
X st
NX st
1.4.3
1.
NX st N
o bien
N i2
1
N
N i2
Si2
n
(1 - i )
ni
Ni
S i2
n
(1 - i )
ni
Ni
Un estimador por intervalo de confianza del 95% para est dado por
X st 1.96
Xst
o bien la aproximacin
Xst 2
X st
1 L
1
N i Xi 2
N .
N
N i2
S i2
n
(1 - i )
ni
Ni
donde el lmite inferior (Li) es la diferencia sealada por las expresiones anteriores y el lmite
superior (Ls) es la suma sealada por las mismas expresiones.
ni
Si la fraccin muestral
0.05 para los estratos i = 1, 2, ... , L, podemos omitir el factor de
Ni
ni
) dentro del radical.
correccin (1
Ni
2.
NXst 2
N X st
N X st 2 N X
st
N( X st 2 X st )
49
N i Xi 2
N i2
S i2
n
(1 - i )
ni
Ni
donde el lmite inferior (Li) es la diferencia sealada por las expresiones anteriores y el lmite
superior (Ls) es la suma sealada por las mismas expresiones.
ni
Si la fraccin muestral
0.05 para los estratos i = 1, 2, ... , L, podemos omitir el factor de
Ni
ni
) dentro del radical.
correccin (1
Ni
EJEMPLO 1.16
Una cadena de 3 almacenes est interesada en estimar el saldo promedio de sus cuentas por cobrar.
En los almacenes 1, 2, y 3 hay respectivamente 150, 200, y 250 cuentas por cobrar. Un
muestreo aleatorio estratificado con cada almacen como estrato le seala al gerente de la cadena que
debe tomar de los almacenes 1, 2, y 3 submuestras de tamao 3, 4, y 5 respectivamente. Con
los resultados presentados en la siguiente tabla
Almacen
ni
1
2
3
3
4
5
Almacen
1
2
3
Ni
ni
150
200
250
600
3
4
5
Xi
4.5
7.5
9.5
NX i
675
1500
2375
4550
2
i
1.0000
0.8333
5.3750
S i2
ni
7500
8333
67187.5
83020.5
N i2
50
1 L
N i Xi
N .
a)
Xst
b)
NXst N i Xi
4550
7.5833 (en miles de C$)
600
4550
c)
E 2 NX st = 2
N i2
2 83020.5
S i2
ni
porque
ni
Ni
= 2(288.1328) = 576.2656
EJEMPLO 1.17
Una empresa publicitaria esta interesada en estimar el nmero promedio de horas por semana que
los hogares de un determinado municipio dedican a ver la televisin.
El municipio comprende dos pueblos, pueblo A y pueblo B, y un rea rural. En el pueblo A existen
155 hogares de los cuales la mayora son de trabajadores fabriles con nios en edad escolar. El
pueblo B consta de 62 hogares con personas mayores que tienen pocos nios. En el rea rural
existen 93 hogares. Suponga que la empresa decide realizar una encuesta por muestreo a 40
hogares, tomando 20 del pueblo A y 8 del pueblo B y 12 del rea rural. Los resultados presentados
en la siguiente tabla corresponden a la media y la varianza de cada submuestra obtenida del pueblo
A, el pueblo B y el rea rural.
ESTRATO
(Pueblo A)
(Pueblo B)
(Area rural)
1
2
3
Ni
155
62
93
310
ni
20
8
12
40
Xi
Si2
33.900
25.125
19.000
35.358
232.411
87.636
1.
a) Estime el nmero promedio de horas por semana que los hogares del municipio dedican a ver
televisin.
b) Estime el nmero total de horas por semana que los hogares del municipio dedican a ver
televisin.
c) Calcule el error muestral promedio para la estimacin del inciso a) y b)
Los elementos son los hogares y X representa el nmero de horas por semana dedicados a ver T.V.
ESTRATO
1
2
3
Ni X i
ni
(1
)
Ni
5254.50
1557.75
1767.00
0.871
0.871
0.871
N i2
Si2
ni
(1
ni
)
Ni
36994.6776
97267.6059
55015.5365
51
189,277.8200
8579.25
1 L
N i Xi
N .
1
=
310
= 8579.25
horas
c)
1
N
X st
N i2
.
NX st
N i2
S i2
n
(1 i )
ni
Ni
S i2
n
(1 - i )
ni
Ni
1
189277.82 1.4034
310
189277.82
horas
= 435.0607 horas
2.
Obtenga un intervalo de confianza del 95% para el nmero promedio de horas por semana
que los hogares del municipio dedican a ver televisin.
Sustituyendo los resultados de la tabla anterior anterior en la frmula de un intervalo de confianza
del 95% para
1
N
Ni Xi 2
1
N
1
1
( 8579.2) 2
310
310
N i2
S i2
n
(1 - i )
ni
Ni
189277.82
27.675 2 ( 1.4034 )
X
Observe que cuando hay conocimiento de los valores de X st y
se puede llegar fcilmente al
resultado anterior mediante la sustitucin directa de esos valores en la frmula.
st
X st 2
Xst
Li = 24.8682 horas
Ls = 30.4818 horas.
24.8682 30.4818
3.
Obtenga un intervalo de confianza del 95% para el nmero total de horas por semanas que
los hogares del municipio dedican a ver televisin.
Sustituyendo los resultados de la tabla anterior en la frmula de un intervalo de confianza del 95%
para .
52
L
Xi 2
8579.2 5
S i2
ni
2
i
(1 -
ni
)
Ni
189277.82
8579.25 2 ( 435.0607 )
NX
Observe que cuando hay conocimiento de los valores de N X st y
resultado anterior mediante la simple sustitucin de esos valores en la frmula.
st
se puede llegar al
NXst
N X st 2
Suponga que X st debe estar dentro de E unidades de la media poblacional con una probabilidad
aproximadamente igual a 0.95, esto es, que E represente el error mximo permitido.
Simblicamente queremos
X
E = 1.96
Es decir que
2
E2
Xst =
st
o bien
X
E = 2
o sea
1
N2
2
i
st
S i2
n
E2
(1 i )
ni
Ni
4
De esta ecuacin no podemos despejar n, a menos que sepamos algo acerca de la relacin entre ni y
n. Hay muchas maneras para asignar un tamao de muestra n a los diversos estratos.
El mejor esquema de asignacin est influido por tres factores.
1. El nmero de elementos en cada estrato (Ni)
2. La variabilidad de las observaciones dentro de cada estrato ( i)
3. El costo por obtener una observacin de cada estrato (ci)
Asignacin de costo mnimo y menor error de muestreo.
Aqu nuestro objetivo es usar una asignacin que presente una cantidad especificada de informacin
a un costo mnimo.
N iS i / ci
ni n
L
N iS i / ci
donde ci representa el costo para obtener una observacin individual del estrato i.
El resultado anterior nos permite ahora poder despejar n de la ecuacin
53
1
N2
S i2
n
E2
(1 i )
ni
Ni
4
2
i
N i S i / ci
2
E
N 2
4
N
L
Si
ci
S i2
Asignacin de Neyman.
En algunos problemas el costo por obtener informacin es el mismo para todos los estratos. Si los
costos son desconocidos, podramos suponer que los costos por observacin son iguales.
Si c1 = c2 = = cL = c, entonces los trminos de costos en la frmula de asignacin de costo
mnimo se cancelan y queda as
ni n
N iS i
L
N S
i
n
N 2
E2
4
N i S i
S i2
Asignacin proporcional.
Adems de encontrar costos iguales podemos suponer que las varianzas dentro de los estratos son
iguales, esto implica que, S12 = S22 = = S 2L = S 2 En tal caso se cancelan las desviaciones
estndar en la frmula de asignacin Neyman y queda
ni n
Ni
Ni
54
N S2
E2
S2
4
EJEMPLO 1.18
La empresa publicitaria del ejemplo 1.17 encontr que cuesta ms obtener una observacin del rea
rural que una del pueblo A o del pueblo B. El incremento es debido a los costos de traslado de un
hogar rural a otro. El costo por observacin en cada pueblo se ha estimado en C$ 9 y los costos por
observacin en el rea rural se han estimado en C$ 16.
De una encuesta previa se estim que las varianzas de las submuestras de los estratos 1, 2 y 3 son
S12 = 25, S 22 = 225 y S 32 = 100 respectivamente.
i)
Encuentre el tamao de muesta n y los tamaos de submuestras n 1 , n 2 y n 3 para los
estratos 1, 2, y 3 respectivamente que permiten a la empresa estimar, al mnimo costo, el tiempo
promedio que se ve televisin con un error mximo permitido de 2 horas.
Ni
ESTRATO
1
155
2
62
3
93
310
S i2
Si
ci
Ni Si / c i
25
225
100
5
15
10
9
9
16
258.3333
310.0000
232.5000
800.8333
Ni Si
Ni S i2
ci
2325
2790
3720
8,835
3875
13950
9300
27,125
Como el costo de obtener una observacin no es el mismo en todos los estratos y como las varianzas
tampoco son iguales tenemos que
Si /
N 2
ci
2
E
4
Si
Si2
ci
donde
E2
4
N 2
porque N = 310 y E = 2
=
800.8333
( 8835 )
(800.8333) (8835)
= 57.4182 58 hogares
96100 27125
123225
55
La asignacin del tamao de muestra a los tres estratos corresponder a una asignacin de costo
mnimo
n1 n
N 1S1 / c i
258.3333
=58(0.3226) = 18.7108 19 hogares
800.8333
= 58
N S
i
/ ci
310
800.8333
n 2 58
n 3 58
232.5
800.8333
Costo mnimo =
c n
i
Costo mnimo = c1n1 c 2 n 2 c3n 3 = 9(19) + 9(22) + 16(17) = 171+ 198 + 272 = C$ 641
iii) Suponga que la empresa publicitaria tiene nicamente C$ 500 para gastar en muestreo,
determine el tamao de muestra y los tamaos de submuestras por estrato necesarios para ese
presupuesto.
Ya que el costo total debe ser C$ 500, tenemos que
c1 n 1 c 2 n 2 c 3 n 3 500
9n 1 9n 2 16n 3 500
O bien
Ya que cada
ni n
N i Si / c i
3
N S
i
n1= n(0.3226) ,
/ ci
n2 = n(0.3871) ,
500
= 45.3223 46 hogares
11 .0321
0.3226
= 14.8396 15 hogares
56
n 2 46
0.3871
= 17.8066 18 hogares
n 3 46
0.2903
= 13.3538 13 hogares
EJEMPLO 1.19
Suponga que la firma publicitaria del ejemplo 1.18 decide utilizar entrevistas por telfono en lugar
de entrevistas personales, porque todos los hogares en el municipio tienen telfono y este mtodo
reduce los costos. El costo de obtener una observacin es entonces el mismo en los 3 estratos..
Las varianzas de las submuestras de los estratos 1, 2 y 3 son de nuevo aproximadas por S12 = 25,
S 22 = 225 y S 32 = 100 respectivamente. Encuentre el tamao de muestra n y los tamaos de
submuestras n1, n 2 y n 3 para los estratos 1, 2 y 3 respectivamente, que permiten a la empresa
estimar el tiempo promedio que se ve televisin con un error mximo permitido de 2 horas.
ESTRATO
1
2
3
Como
E2
4
N 2
N 2
E2
4
Si
Ni Si
775
930
930
2635
Ni S i2
3875
13950
9300
27125
Si
5
15
10
25
225
100
S i2
Ni
155
62
93
310
Si2
2635 2
96100 27125
El tamao de muesta obtenido en el inciso i) del ejemplo 1.18 es casi igual al de este ejemplo, pero
la asignacin del tamao de la muestra a los 3 estratos corresponde a una asignacin de Neyman.
n1 n
N 1S1
3
N S
i
775
= 16.7647 17 hogares
2635
= 57
57
930
2635
n 2 57
= 20.1176 20 hogares
930
= 20.1176 20 hogares
2635
n 3 57
Observe que para el rea rural se toman ahora ms hogares porque el costo se ha reducido.
EJEMPLO 1.20
La empresa publicitaria del ejemplo 1.18 considera ahora que las varianzas de los estratos son
iguales. El valor comn S2 fue aproximado por 100 en un estudio preliminar. Se van a efectuar
entrevistas por telfono, por lo que los costos sern iguales en todos los estratos.
La empresa desea estimar el nmero promedio de horas por semana que se ve la televisin en los
hogares del municipio, con un error mximo permitido de 2 horas. Encuentre el tamao de muestra
y los tamaos de submuestras por estrato necesarios para lograr esta exactitud.
Como el costo de obtener una observacin es el mismo en todos los estratos y las varianzas se
suponen iguales tenemos que
N S2
E2
S2
4
310 100
310 100
donde
31000
410
E2
310(1) 310
4
= 75.6098 76 hogares
La asignacin del tamao de muestra a los tres estratos corresponder a una asignacin proporcional
n1
n2 n
n3 n
N1
155
= 38 hogares
310
= 76
N2
= 76
N3
= 76
62
= 15. 2 15 hogares
310
93
= 22.8 23 hogares
310
58
El costo por obtener observaciones se incrementa con la distancia que separa los elementos.
Por lo tanto al aplicar este mtodo se logra fcilmente la construccin de un marco que liste todos
los conglomerados y la reduccin del costo por observar un elemento.
Introduciremos ahora la siguiente notacin.
X
M =
M =
M
representa el tamao promedio de los conglomerados en la poblacin.
N
Suponga que xij es la j-sima observacin de X en los elementos del conglomerado i entonces
mi
i x ij
j 1
59
m =
MUESTRA
m1
m1
m2
m2
.
.
.
.
.
.
mi
mi
Censo
mi
i x ij
j 1
.
.
.
.
.
.
mn
mN
Fig. 1.11
1.5.1
ESTIMADOR DE
60
n
Xc
i
M Xc
m
i
conglomerado.
Como M
porque
M
N
M NM
Nm
M puede ser estimado con M
m es un aproximado de M
Xc
n
( i - m i Xc ) 2
nM 2
n -1
n
N
n
) dentro del radical a 1.
N
El error estndar estimado del total muestral por conglomerado M X c se denota y obtiene
de la siguiente manera:
MX c M X c
MXc M
n
n i - m i X c 2
1-
N
n M2
n -1
61
MX c
N2
n
N
n -1
Si
n
2
i - m i Xc
n
) dentro del radical a 1
N
1.5.3
1.
Un estimador por intervalo de confianza del 95% para esta dado por
Xc
2
X
n
i
n
mi
n
n i - m i Xc 2
1-
N
n M2
n -1
donde el lmite inferior (Li) es la diferencia sealada por las expresiones anteriores y el lmite
superior (Ls) es la suma sealada por las mismas expresiones.
Si
2.
n
N
n
) dentro del radical a 1
N
Un estimador por intervalo de confianza del 95% para est dado as:
M Xc
2
MX
M Xc
2 M
Xc
62
m i
n
1
N
N2
n
n
2
i - m i Xc
.
n -1
donde el lmite inferior (Li) es la diferencia sealada por las expresiones anteriores y el lmite
superior (Ls) es la suma sealada por las mismas expresiones.
EJEMPLO 1.21
Los municipios de un pas hipottico estn distribuidos de manera natural en 20 departamentos. Se
quiere estimar el nmero promedio de agricultores por municipio de cierta hortaliza.
Considerando los departamentos como conglomerados, se toma una muestra aleatoria de 4
departamentos y se registra para cada departamento el nmero de municipios y luego para cada
municipio el nmero de agricultores. Los resultados se presentan en la siguiente tabla
Departamentos
N de municipios
1
2
3
4
8
11
5
6
i)
N de agricultores
5,
2,
8,
9,
8, 7, 3, 6, 4, 6, 8
4, 6, 5, 5, 3, 5, 5, 3, 9, 3
10, 4, 6, 7
6, 5, 4, 7, 11
Los elementos son los municipios, la caracterstica de inters X representa el nmero de agricultores
mi
mi
8
11
5
6
47
50
35
42
30
174
63
n
mi
174
30
5.8
agricultores
ii) Si en el pas hay 160 municipios estime el nmero total de agricultores en el pas.
M X c = 160 (5.8) = 928 agricultores
EJEMPLO 1.22
Se quiere estimar el ingreso anual promedio por adulto en cierta ciudad pequea. Como no existe
una lista disponible de adultos residentes, la ciudad es dividida en 100 bloques rectangulares
tomando cada bloque rectangular como un conglomerado.
Suponga que se selecciona una muestra aleatoria simple de 6 bloques rectangulares y entrevista a los
adultos de cada hogar dentro de cada conglomerado, obteniendo los siguientes resultados.
BLOQUES
No. adultos
residentes
( en miles $ )
Ingreso
total
18
36
14
40
15
60
16
48
17
50
10
27
1.
Obtenga un intervalo de confianza del 95% para el ingreso anual promedio por adulto en la
ciudad.
mi
Los elementos son los adultos , X representa su ingreso anual y i x ij (donde xij es el j-simo
j 1
ingreso anual observado en los adultos del conglomerado i) representa el ingreso anual total en el
bloque i.
i - m i Xc 2
BLOQUES
mi
18
36
262.44
14
40
0.36
15
60
272.25
64
4
16
48
2.56
17
50
0.49
10
90
27
261
4.00
542.10
Xc
mi
261
2.9 en miles de $
90
90
6
15
Luego
n
n i - mi Xc 2
1-
N
nM2
n -1
X
c
0.94
1350
108.42
6
100
6 (15)2
542.10
= 0.2748 en miles de $
Sustituyendo los resultados anteriores en la frmula de un estimador por intervalo de confianza del
95% para
Xc
2
X
obtenemos
2.9 2 ( 0.2748 )
2.9 0.5496
Li = 2.3504
Ls = 3.4496 en miles de $
65
n
i
n
mi
n
n i - mi Xc 2
1-
N
n M2
n -1
Sabemos que N = 100, n = 6 y que M es estimado en 15. Sustituyendo los resultados de la tabla
anterior llegamos a que:
261
90
2.9
6
100
6(15) 2
1 -
542.10
0.94
108.42
1350
2.9 2 ( 0.2748 )
2.9 0.5496
2.
a)
Li = 2.3504
b) Con un 95% de confianza calcule el error mximo permitido para la estimacin anterior.
2 MX c
2M
X
c) Obtenga un intervalo de confianza del 95% para el ingreso anual total de los adultos de la
ciudad.
66
M Xc
Utilicemos la frmula
Sustituyendo M X c
4350 2(412.2)
4350 824.4
MX
2
MX
Li = 3525.6
Ls = 5174.4
(en miles de $)
n
N
nM 2
i - mi Xc
1-
De la ecuacin
es decir que
Xc
n -1
Xc
E2
E2
4
E2
4
N M 2
2
Sc
donde
S c2
2
i - m i X c
n -1
estimado por m con la misma muestra para finalmente obtener el nmero de conglomerados en la
muestra.
EJEMPLO 1.23
Tomando los resultados de la encuesta del ejemplo 1.22 como una muestra preliminar, determine el
nmero necesario de bloques rectangulares en la muestra para estimar el ingreso anual promedio por
adulto con un error mximo permitido de C$ 300.
i - m i X c
n
m = 15
S c2
n -1
542.10
108.42
5
67
2
Como N M
E2
4
0.32
100 (15) 2
2
N Sc
n
N M 2
E2
4
2
Sc
100 (108.42)
10842
506.25 108.42
614.67
=
17.6387
Monto
3
3
7
10
14
3. Para el ejercicio 1 tome todas las muestras posibles de tamao 3 y construya la distribucin
muestral de X representndola grficamente.
4.
5. Consideremos la poblacin compuesta por 4 agentes de ventas con sus correspondientes gastos
de representacin en cientos de crdobas de la semana pasada.
Representante
Gasto
68
B
C
D
4
6
8
6.
01
No. Cuenta
Monto
(en miles de C$) 1.5
02
03
04
05
06
07
08
2.3 1.0
1.8
1.9
2.0
3.5 1.5
09
10
11
12
13
14
15
2.4 1.2
1.8
4.5
3.0
2.1
3.5
1) Utilizando la fila 3 columna 4 como una entrada a la tabla de nmeros aleatorios, seleccione
una muestra aleatoria de 4 cuentas sealndolas con un *
2) Suponiendo que X representa el monto de las cuentas.
i) Diga que representa y segn el problema.
ii) Estime el monto promedio de las cuentas y el monto total de las cuentas utilizando la
muestra seleccionada en 1)
3) Obtenga los errores de muestreo correspondientes a las estimaciones de y hechas en el
inciso ii) de la parte 2)
7.
01
No. Super
Ventas diarias
(en miles de C$) 84
02
03
04
05
06
07
08
09
10
11
12
13
14
15
73
50
35
62
38
26
25
56
45
90
20
87
30
40
69
i)
ii)
70
10. Un auditor quiere investigar el total de pginas que tienen los documentos de una empresa.
En su poder hay 280 documentos numerados del 001 al 280.
i) Entrando en la fila 1 y columna 4 de la tabla de nmeros aleatorios, seleccione una muestra
de 20 documentos, escribiendo el nmero de documento de cada uno.
ii) Suponiendo que los 20 documentos muestreados del inciso i) resultaron con un promedio
de13.4 pginas
Estime el nmero total de pginas en todos los documentos.
11. Suponga que los salarios mensuales de los trabajadores a destajo de una empresa tienen una
distribucin normal y que adems se sabe que la desviacin estndar de los salarios es de C$ 100.
El jefe del departamento de personal selecciona al azar los expedientes de 16 trabajadores y
encuentra que el salario mensual promedio es de C$ 2500
i) Suponiendo que el nmero de trabajadores a destajo es muy grande, estime el salario
mensual promedio de los trabajadores de la empresa utilizando un intervalo de confianza del
80%.
ii)
Identifique el valor del error muestral promedio en la estimacin del salario mensual
promedio de los trabajadores de la empresa del inciso i)
iii) Suponiendo que la empresa tiene 150 trabajadores a destajo, estime el salario mensual
promedio de los trabajadores de la empresa utilizando un intervalo de confianza del 90%.
12. Se desea estimar la venta promedio por cliente, en crdobas, de una tienda. Sobre la base de
datos de otras tiendas similares, se sabe que la desviacin estndar de ese tipo de ventas es de
aproximadamente C$ 3200.
Qu tamao de muestra se debe utilizar, como mnimo, si desea estimar la venta promedio con un
margen de error de C$ 1000 y una confianza del 99%?
71
13. Para una cadena de 250 tiendas suponga que se conoce por experiencias anteriores que la
desviacin estndar de las ventas anuales por tienda para un producto determinado es de C$
200,000.
Si una muestra aleatoria de 40 tiendas del ao pasado nos informa que hubo una venta promedio de
C$ 3,425,000.
1) Determine un intervalo de confianza del 98% para:
i)
ii)
2) Si quiero estimar la venta promedio de las tiendas con un error de ms o menos C$ 30,000
y con una confianza del 95%, qu tamao de muestra se requiere?
14. Se quiere estimar el consumo mensual promedio en crdobas de energa elctrica por casa en el
mes de Diciembre. Con base en estudios efectuados en otras ciudades, se supone que la desviacin
estndar de los consumos es de C$ 20. La estimacin del consumo mensual promedio se quiere
hacer con una aproximacin de C$ 3 del promedio real y con un 99% de confianza.
i)
72
i) Obtenga un intervalo de confianza del 98% para el consumo mensual promedio de agua por
casa.
ii) Estime el total de m3 de agua usado mensualmente durante el perodo seco, luego determine con
un 95% de confianza el error mximo permitido en esta estimacin.
17. Como supervisor del proceso de empacado de caf en sobres, suponga que se toma una muestra
aleatoria de 12 sobres de la planta empacadora, de la cual resulta un peso neto promedio por sobre
de 15.97 gramos y una desviacin estndar del peso neto por sobre de 0.15 gramos. Suponiendo que
el peso neto del caf por sobre tiene distribucin normal:
i) Estime el peso neto promedio por sobre de caf utilizando un intervalo de confianza del 95%.
ii) Identifique el valor del error mximo permitido con una confianza del 95% en la estimacin del
peso neto promedio por sobre de caf del inciso i)
ii) Qu tamao de muestra debo utilizar para tener una confianza del 95% de que el error mximo
tolerado sea de 0.04 gramos?
18. Para una muestra de 50 empresa tomadas de una industria determinada, se encuentra que el
nmero promedio de trabajadores por empresa es de 420.4, con una desviacin estndar de 55.7.
Suponiendo que existe un total de 380 empresas en esa rama industrial.
i) Determine un intervalo de confianza del 90% para estimar el nmero total de trabajadores
empleados en esa industria.
ii)
Identifique el valor del error muestral promedio en la estimacin del nmero total de
trabajadores del inciso i)
19. Los ingresos del impuesto sobre ventas en una comunidad particular se recogen cada trimestre.
Los siguientes datos representan los ingresos (en miles de crdobas), cobrados durante el primer
trimestre en una muestra de 9 establecimientos de menudeo en la comunidad.
16, 18, 11, 17 13, 10,
22, 15, 16
Suponiendo que los ingresos trimestrales del impuesto sobre ventas se distribuyen aproximadamente
normal.
a) Establezca un intervalo de confianza del 98% para el ingreso trimestral promedio del impuesto
sobre ventas de los establecimientos de menudeo.
b) Si hay un total de 300 establecimientos de menudeo en esta comunidad, establezca un intervalo
de confianza del 95% de los ingresos totales por impuestos sobre ventas que se lograrn este
trimestre.
c)
Si quiero estimar el ingreso trimestral promedio del impuesto sobre ventas de los
establecimientos con una confianza del 95% de que el error mximo sea de C$ 1000.
qu tamao de muestra se requiere ?
73
20. Consideremos que cierta regin del pas cuenta con 500 establecimientos comerciales. Con el
fin de estimar el nmero promedio de empleados por establecimiento y el nmero total de
empleados, se seleccion una muestra aleatoria simple de 20 establecimientos con los siguientes
nmeros de empleados.
5
9
8
4
8
6
5
2
7
3
3
4
7
3
8
5
2
4
5
6
175
295
68
74
128
241
210
305
91
82
140
250
Monto
Verificacin
74
1
2
3
4
5
6
7
8
9
10
11
12
278
192
310
94
86
335
310
290
221
168
200
300
N
S
S
N
S
S
N
S
S
S
N
N
Suponiendo que los montos de las cuentas tienen una distribucin aproximadamente normal.
1) Obtenga un intervalo de confianza del 95% para el monto total de las 500 cuentas de la empresa.
2) Obtenga un intervalo de confianza del 95% para la proporcin de cuentas de la empresa que no
cumplen con los procedimientos establecidos.
23. Un auditor de una compaa mayorista de productos metlicos quiere estimar la proporcin de
facturas para los clientes con errores en los precios. Una muestra aleatoria de 300 facturas de las
operaciones del mes anterior, indic que 45 contenan errores en los precios.
i) Establezca un intervalo de confianza del 95% para las proporcin real de facturas con errores en
los precios.
ii) Si en el mes anterior se expidieron 5000 facturas, establezcas un intervalo de confianza del 95%
para el total real de facturas con errores en los precios.
iii) Si el auditor desea un 95% de confianza de estar en lo correcto con aproximacin de 2.5% del
porcentaje real de facturas con errores en los precios y si se supone segn experiencia previa que el
porcentaje de facturas con errores es 10% Qu tamao de muestra necesita?
24. Un auditor de una dependencia gubernamental de proteccin al consumidor quiere determinar la
proporcin de reclamaciones sobre plizas de enfermedades que paga la compaa de seguros en un
plazo de dos meses de haber recibido la reclamacin. Se selecciona una muestra de 200
reclamaciones y se determina que 80 fueron pagadas en un plazo de dos meses despus de recibirlas.
Establezca un intervalo de confianza del 99% para la proporcin real de reclamaciones pagadas en
ese plazo de dos meses.
25. El gerente de una sucursal bancaria en una ciudad pequea quiere determinar la proporcin de
sus cuentahabientes a los cuales se les paga el inters por trimestre. Se selecciona una muestra
aleatoria de 100 cuentahabientes, en la cual 30 indican que se les paga por trimestre.
i) Establezca un intervalo de confianza del 90% para la proporcin real de cuentahabientes a
quienes se les paga por trimestre.
75
ii) Con un 96% de confianza calcule el error mximo permitido en la estimacin de la proporcin
real de cuentahabiente del inciso i)
ii) Si el banco tiene 1000 cuentahabientes, establezca un intervalo de confianza del 90% para el
total real de cuentahabientes a quienes se les paga por trimestre.
iii) Si el gerente quiere tener 90% de confianza de que est en lo correcto con aproximacin de
0.05 de la proporcin de sus cuentahabientes a quienes se les paga por trimestre, qu tamao de
muestra necesita?
26. Una compaa de televisin por cable (Cablevisin) quiere estimar la proporcin de sus
suscriptores que compararan su revista con la programacin. La compaa quiere tener 95% de
confianza de que su estimacin est correcta con aproximacin de 0.05 de la proporcin real. La
experiencia previa en otras reas indica que el 30% de los suscriptores compararon la revista. Qu
tamao de muestra se necesita?
27. Una corporacin desea estimar el nmero total de horas-hombre perdidas debido a accidentes de
los empleados en un mes determinado. Ya que los obreros, los tcnicos y los administrativos tienen
diferentes tasas de accidentes, el investigador decide usar muestreo aleatorio estratificado con cada
grupo formando un estrato. Datos de aos previos sugieren las varianzas, mostradas en la tabla
anexa, para el nmero de horas-hombre perdidas por empleado en los 3 grupos, y de datos actuales
se obtienen los tamaos de los estratos.
Si2
Estrato
Ni
Obreros
132
36
Tcnicos
92
25
Administrativos
27
ni
Obreros
18
Tcnicos
10
4, 5, 0, 24, 8, 12, 3, 2, 1, 8
Administrativos
2
30
1, 8
76
28. Una empresa desea estimar con la mxima precisin posible el monto promedio y total de sus
cuentas por cobrar, mediante una muestra aleatoria de 50 cuentas. Suponga por previa disposicin
que las cuentas se van arreglando as: en el archivo 1 se guardan las cuentas que tienen un monto
inferior a 1000 dlares, en el archivo 2 las cuentas que tienen un monto entre 1000 y 2000 dlares,
en el archivo 3 se guardan las cuentas que tienen un monto superior a los 2000 dlares. El nmero
de cuentas guardadas en los archivos 1, 2 y 3 es respectivamente 250, 150 y 50.
1) Considerando por conveniencia administrativa que cada archivo es un estrato y que el costo del
muestreo es el mismo para los 3 archivos y que las desviaciones estndar de los montos de las
cuentas son iguales a 50 dlares para cada uno de los archivos, cmo asignara las 50 cuentas de la
muestra a los 3 archivos?
2) Suponiendo que para las submuestras de los archivos 1, 2 y 3 del inciso 1) se obtuvieron montos
promedios de 800, 1400 y 2600 dlares, establezca un intervalo de confianza del 95% para:
i) el monto promedio de las cuentas
ii) el monto total de las cuentas
29. Una regin que comprende 800 granjas ganaderas se ha dividido en 5 estratos de acuerdo con el
rea de cada una.
ESTRATOS
No. granjas
1
2
3
4
5
300
200
160
100
40
800
1) Suponga que se planea seleccionar una muestra aleatoria estratificada de 40 granjas. Como no
tiene informacin previa respecto a las varianzas de los estratos, y como el costo del muestreo es el
mismo en cada estrato, decide aplicar asignacin proporcional. Qu tamao tendran las
submuestras de cada estrato?
2)
Suponiendo que para las submuestras del inciso 1) se obtuvieron nmeros promedios de
cabezas por granja en miles de 4, 6, 10, 13 y 15 para las submuestras de los estratos 1, 2, 3, 4 y 5
respectivamente y varianzas en miles2 de 1.20, 1.00, 0.90, 1.50 y 0.80 para las submuestras de los
estratos 1, 2, 3, 4 y 5 respectivamente.
i) Estime el nmero promedio de cabezas por granja en la regin.
ii) Estime el total de cabezas en la regin.
iii) Calcule el error muestral promedio para cada una de las estimacines de los incisos i) y ii)
iv) Establezca un intervalo de confianza del 95% para el total de cabezas en la regin.
30. Un distribuidor de comestibles al mayoreo en una gran ciudad desea saber si la demanda es lo
bastante grande como para justificar la inclusin de un nuevo producto a sus existencias. Para tomar
la decisin, planea aadir este producto a una muestra de los almacenes a los que abastece para
77
3) Identifique el valor del error mximo permitido en la estimacin de la venta mensual promedio
del nuevo producto del inciso 2)
31.
Un investigador que desea estimar la venta anual promedio de 56 empresas ha decidido
estratificar la poblacin segn sus ventas anuales de la siguiente manera
Estrato
1
2
3
N empresas
25
18
13
56
Si2
16
9
4
Datos de aos anteriores sugieren las varianzas, que muestra la tabla de arriba, para las ventas
anuales en miles de C$
1. Suponiendo que planea seleccionar una muestra aleatoria estratificada de 15 empresas, qu
tamao tendrn las submuestras de cada estrato al aplicar una asignacin de Neyman?
2. Suponiendo que para las submuestras del inciso 1. se obtuvieron ventas promedios en miles de
C$ de 150, 300 y 400 para las submuestras de los estratos 1, 2 y 3 respectivamente.
i) Establezca un intervalo de confianza del 95% para la venta anual promedio de las empresas
ii) Estime la venta anual total de las empresas sealando el error mximo permitido en la
estimacin
32. Un servicio forestal estatal est realizando un estudio de la gente que utiliza las instalaciones de
campamentos operados por el estado. El estado tiene 2 reas para acampar, una localizada en las
montaas y otra localizada a lo largo de la costa. Las dos reas para acampar forman
convenientemente 2 estratos, la localidad de la montaa como el estrato 1 tiene 120 sitios para
acampar y la localidad de la costa como el estrato 2 tiene 80 sitios para acampar.
Suponiendo que el servicio desea estimar el nmero promedio de personas por sitio dentro de los
campamentos con un error mximo tolerado de 1 persona y que los costos de muestreo son los
78
mismos en cada estrato, encuentre el tamao de muestra y los tamaos de submuestras por estrato
necesarios considerando que:
i) las varianzas de los estratos 1 y 2 son aproximadas por 4 y 9 respectivamente.
ii) las varianzas de cada estrato son iguales con un valor comn aproximado de 4.
33. Una corporacin desea obtener informacin acerca de la efectividad de una mquina comercial.
Se va a entrevistar por telfono a un nmero de jefes de divisin, para pedirles que califiquen la
maquinaria con base en una escala numrica. Las divisiones estn localizadas en Norteamrica,
Europa y Asia, motivo por el cual, usaremos muestreo estratificado. La tabla siguiente proporciona
los costos en dlares por entrevista, varianzas aproximadas de las calificaciones y los tamaos de los
estratos que se han establecido.
Estrato
Ni
Si2
ci
Norteamrica
112
2.25
Europa
68
3.24
25
Asia
39
3.24
36
No. granjas
3
79
2
3
4
5
4
3
4, 3, 2, 5, 6
4, 3, 3, 2
3, 4, 2
Nmero de peridicos
1
1
2
1
2
3
1
1
1
2
1
3
3
2
1
2
3
3
1
1
2
1
3
5
1
4
2
1
4
1
1
2
1
1
3
3
1
2
1
1
1)
a) Obtenga un intervalo de confianza del 95% para el nmero promedio de peridicos comprados
por hogar en la comunidad.
b) Establezca el error mximo permitido para la estimacin anterior.
2) Cuntos conglomerados debe seleccionar en la muestra para estimar el nmero promedio de
peridicos comprados por hogar con un error mximo permitido de 0.12 peridicos?
3) Estime el nmero total de peridicos comprados por todos los hogares de la comunidad.
36. Los comercios solicitan frecuentemente a los contadores la realizacin de inventarios. Ya que
un inventario completo es costoso, a travs del muestreo se pueden realizar inventarios cada cuatro
meses. Supngase que una empresa abastecedora de artculos de plomera desea un inventario para
muchos artculos pequeos en existencia. La obtencin de una muestra aleatoria de artculos es muy
difcil. Sin embargo, los artculos se encuentran dispuestos en anaqueles, y la seleccin de una
muestra aleatoria de anaqueles es relativamente fcil, considerando a cada anaquel como un
conglomerado de artculos.
80
42
27
38
63
72
12
24
14
32
41
83
62
45
112
96
58
75
58
67
80
Obtenga un intervalo de confianza del 95% para la cantidad total en dlares de los artculos en los
48 anaqueles.
37. El nmero de casas, el nmero de residentes y el nmero el nmero de cuartos dentro de las
casas para una muestra aleatoria de 5 manzanas seleccionadas al azar, de una ciudad donde
suponemos que el nmero de manzanas es 500, se presenta en la siguiente tabla
Manzana
1
2
3
4
5
N casas
12
14
10
20
8
N residentes N cuartos
60
38
89
56
61
30
92
45
52
25
3
7
11
50
110
230
81
4
5
6
7
8
9
10
9
2
12
14
3
5
9
140
60
280
240
45
60
230
1) Estime el costo promedio de reparacin por sierra para el mes pasado estableciendo el error
mximo permitido para esa estimacin.
2) Estime la cantidad total gastada por las 96 industrias en la reparacin de sierras el mes pasado
estableciendo el error mximo permitido para esa estimacin.
3) Si el fabricante quiere estimar el costo de reparacin promedio por sierra para el mes siguiente,
Cuntos conglomerados (industrias) debe seleccionar en la muestra si quiere que el error mximo
tolerado sea de 2 dlares?
2.1. INTRODUCCION.
Se conoce como prueba de hiptesis a una rama de la Estadstica inferencial que podra verse como
un procedimiento especial de toma de decisiones.
LA PRUEBA DE HIPOTESIS COMO UN PROBLEMA DE DECISION.
El problema de decisin a estudiar tendr:
i) 2 estados de la naturaleza mutuamente excluyentes y exhaustivos (Hiptesis). Cualquiera de las
hiptesis ser una negacin de la otra.
ii) 2 cursos de accin (Alternativas).
EJEMPLO 2.1.
Al juzgar a una persona por asesinato, se presume que el acusado es inocente, es decir no culpable,
hasta que se demuestre lo contrario, segn la justicia conservadora.
La situacin anterior implica que estamos en presencia de un problema de decisin a resolver que
tiene 2 hiptesis que definiremos as:
82
Inocente
Culpable
y 2 alternativas que definiremos as
Dejarlo libre
Echarlo preso
Hiptesis estadstica.
Le llamaremos hiptesis estadstica a un supuesto que se hace acerca del valor de un parmetro de
una poblacin o acerca de valores de parmetros que corresponden a distintas poblaciones.
EJEMPLO 2.2
Supongamos que cierta regin del pas cuenta con 200 plantaciones donde se cultiva maz sin hacer
uso de ningn abono. Por muchos aos el rendimiento promedio ha sido de 44 quintales por
manzana. El MAG est tratando de convencer a los agricultores de la aplicacin de cierto
fertilizante, lo que significara un mayor rendimiento promedio y por lo tanto un mejor beneficio
econmico. A manera de prueba los agricultores usaron el fertilizante en 36 plantaciones
seleccionadas aleatoriamente, obtenindose un rendimiento promedio de 47.30 quintales por
manzana y una desviacin estndar de 6.60 quintales por manzana.
Debemos aplicar el fertilizante a un nivel de significacin del 5%?
En este problema los elementos a estudiar son las plantaciones y la caracterstica de inters X ser
el rendimiento de las plantaciones en quintales por manzana. Estaremos interesados en suposiciones
que se hagan acerca de la media poblacional que representar el rendimiento promedio de las
plantaciones.
Observemos que estamos ante un problema de decisin con 2 hiptesis que definimos as:
= 44
44
y 2 alternativas que definimos as:
No aplicar el fertilizante.
Aplicar el fertilizante.
Ahora trataremos de desarrollar un procedimiento general de la prueba porque, en principio, todas
las pruebas estadsticas son similares a las que vamos a estudiar en este tema.
83
2.
Estados de la naturaleza
Inocente es V
Culpable es V
Correcta
Error II
Error I
Correcta
Antes de investigar al acusado las leyes tienen establecida la siguiente regla de decisin:
84
5. Finalmente con la evidencia ya valorada se aplica la regla de decisin que nos permitir
seleccionar la alternativa ms adecuada.
i) Si el jurado valora que hay suficiente evidencia para rechazar la hiptesis nula de inocencia
entonces estamos aceptando la hiptesis alterna de culpabilidad lo cual implica que debemos
seleccionar la alternativa de echarlo preso.
ii) Si el jurado valora que no hay suficiente evidencia para rechazar la hiptesis nula de inocencia
entonces aceptamos la hiptesis nula de inocencia, pero dbilmente porque talvez la acusacin fue
deficiente en la recoleccin de evidencias, lo cual implica seleccionar la alternativa de dejarlo
libre o bien no tomar ninguna alternativa y reanudar el jucio en otra ocacin.
Como esta hiptesis es la que siempre debe especificarse en una forma ms exacta, el signo =
siempre la acompaar.
Hiptesis alterna.
A cualquier hiptesis que diga lo contrario de la hiptesis nula, esto es que hay presencia del efecto
para la accin o tratamiento, la llamaremos hiptesis alterna y la denotaremos por H1.
Como esta hiptesis es generalmente especificada con menos exactitud, los signos , o la
acompaan.
Para el ejemplo 2.1 en que se juzga a una persona por asesinato, podemos ver el juzgar como la
accin y la culpabilidad como el efecto. Por tanto podemos escribir.
H0 : Inocente o no es culpable
H1 : Culpable
A0 : Dejarlo libre
A1 : Echarlo preso
85
donde la hiptesis nula H0 est suponiendo ausencia de culpabilidad mientras que la hiptesis
alterna H1 supone presencia de culpabilidad.
Para el ejemplo 2.2 podemos ver la fertilizacin de las plantaciones como la accin y el aumento
de rendimiento promedio con respecto a 44 como el efecto. Por tanto podemos escribir.
H0 : = 44
H1 : 44
A0 : No aplicar el fertilizante
A1 : Aplicar el fertilizante
donde la hiptesis nula H0 est suponiendo que no hay aumento en el rendimiento promedio,
mientras que la hiptesis alterna H1 supone que hay aumento en el rendimiento promedio.
La aceptacin de cada una de las hiptesis anteriores tendr asociada una alternativa.
A la aceptacin de H0 le corresponder la alternativa A0 y a la aceptacin de H1 le corresponder la
alternativa A1
Tipos de pruebas.
De acuerdo a la forma en que pueden estructurarse las hiptesis tendremos:
1) Pruebas unilaterales.
Son aquellas en las cuales la presencia del efecto en la hiptesis alterna se traduce como un inters
por slo las desviaciones hacia un lado con respecto a un valor supuesto 0 de
i) Pruebas de cola izquierda
H0 : = 0 ( 0 )
H1 : 0
Note que la hiptesis nula puede tambin especificarse de una manera menos exacta como
o 0.
2) Pruebas bilaterales.
Son aquellas en las cuales la presencia del efecto en la hiptesis alterna se traduce como un inters
por las desviaciones tanto hacia la izquierda como hacia la derecha con respecto a un valor supuesto
0 de
H0 : = 0
H1 : 0
Para el ejemplo 2.2 observe que la prueba es de cola derecha porque slo nos interesan los
aumentos en el rendimiento promedio con respecto a 44.
2. ELEGIR UN NIVEL DE SIGNIFICACION
86
Estados de la naturaleza
H0 es V
H1 es V
Correcta
Error II
Error I
Correcta
87
Altenativas
Hiptesis
H0 : = 44 es V H1 : 44 es V
A0: No aplicar el fertilizante
Correcta
Error II
A1: Aplicar el fertilizante
Error I
Correcta
DISTRIBUCION DE LA POBLACION
Normal
No Normal
conocido
desconocido
conocido
desconocido
88
n 30
n 30
Esto significa que el valor del estadstico de prueba Z o t se obtendr de una muestra de tamao n y
representar en una prueba de hiptesis una diferencia que puede ser considerada
significativamente distinta de cero o no significativamente distinta de cero.
Pero cmo sabremos si esta diferencia Z o t es significativamente distinta de cero o no?
Por el momento diremos simplemente si Z o t est suficientemente alejada de cero.
Estableceremos un valor de referencia o valor crtico que depender del tipo de prueba y del nivel
de significacin
Esto quiere decir que Z o t est suficientemente alejado de cero si cae a la derecha de z o t
segn se observa en la figura de abajo
Z o t
0
z
t
NR
Figura 2.2
Como decir que Z es significativamente distinto de cero es equivalente a decir que rechazamos H0
La regla de decisin dir: Rechazamos H0 a un nivel de significacin si
Z z
t t
89
Z o t
-z
-t
R
0
NR
Figura 2.1
t - t
P(Z z/2 | Z = 0) =
, utilizando la tabla Z y su propiedad de
2
simetra,
o bien la diferencia t es considerada significativamente distinta de cero si existen dos valores crticos
-t/2 y t /2 tales que t -t/2 o t t /2 donde -t/2 y t /2 se determinan de P(t t /2 ) =
Esto quiere decir que Z o t est suficientemente alejado de cero si cae a la izquierda de -z/2 o a
la derecha de z/2 ( a la izquierda de -t/2 o a la derecha de t /2 ) segn se observa en la figura de
abajo
90
Z o t
- z/2
- t/2
R
z/2
t/2
NR
Fig. 2.3
Por tanto la regla de decisin dir: Rechazamos H0 a un nivel de significacin si
Z -z/2
Z z/2
o bien
t -t/2
t t /2
Para cada nivel de significacin que nos fijemos en una prueba de dos colas existirn 2 valores
crticos que dividirn el rango de Z o t en tres regiones disjuntas, una regin de no rechazo o
aceptacin y dos regiones de rechazo.
Las reglas de decisin para probar H0 : = 0 ( 0 , 0 ) contra H1 , pueden resumirse en
la siguiente tabla.
Tipo de
Prueba segn H1
Cola derecha 0
Cola izquierda 0
Dos colas 0
Reglas de decisin
Estadstico Z
Estadstico t
Rechazo H0 si
Rechazo H0 si
Z z
t t
Z - z
t - t
Z - z/2 o Z
z/2
t - t/2 o t
t/2
En caso contrario diremos que no podemos rechazamos H0 ,es decir, aceptamos H0.
Cuando a partir de la informacin muestral H0 sea rechazada con un nivel de significacin =
0.05, diremos que el resultado de la prueba fue significativo, esto es, que si hicieramos un muestro
91
repetido podramos esperar que slo en 5 ocaciones de 100 cometeriamos el error I, en otras
palabras se tendra un 95% de confianza de que se tom la alternativa adecuada.
Cuando H0 sea rechazada a un nivel = 0.01 diremos que el resultado fue altamente significativo.
92
0.05
Z
0
1.65
NR
Fig. 2.4
Por tanto la regla de decisin dir:
Rechazo H0 : = 44 a un nivel de significacin = 0.05 si Z z = 1.65
En caso contrario no rechazo H0 : = 44 . Acepto H0 : = 44.
donde X =
S
n
N - n
=
N -1
6.60
36
200 - 36
= 0.9986
199
93
As que Z =
5.
47.30 - 44
3.30
=
= 3.3046
0.9986
0.9986
Ahora estamos listos para aplicar la regla de decisin que nos permitir seleccionar la alternativa
ms adecuada.
Si el valor del estadstico de prueba Z o t cae en la regin de rechazo entonces diremos que
rechazamos H0 a un nivel , esto es, que aceptamos H1
Luego debemos seleccionar la alternativa correspondiente a la aceptacin de H1 que es A1 con un
nivel de confianza del ( 1 - ) 100%.
2.10 ,
1.95 ,
1.83 ,
2.18 ,
1.97
Existe evidencia suficiente para decir que el proceso no est funcionando correctamente a un nivel
de significacin del 1%?
1. FORMULACION DE LAS HIPOTESIS
En este problema los elementos a estudiar son las cajas de cereal y la caracterstica de inters X ser
el peso neto de cereal en las cajas. Estaremos interesados en suposiciones que se hagan acerca de la
media poblacional que representar el peso neto promedio de las cajas.
Podemos ver el proceso de produccin de llenado de las cajas como la accin y la disminucin de
peso neto promedio de los productos con respecto a las 2 lbs como el efecto.
94
H1 : 2
donde H0 : = 2 est suponiendo que no hay disminucin del peso neto promedio con respecto a
las 2 lbs mientras que la hiptesis alterna H1 : 2 supone que hay disminucin del peso neto
promedio con respecto a las 2 lbs.
Observe que la prueba es de cola izquierda porque slo nos interesan las disminuciones en el peso
neto promedio con respecto a 2.
2.
Hiptesis
H0: = 2 es V H1: 2 es V
El proceso est funcionando correctamente.
Correcto
Error II
El proceso no est funcionando correctamente.
Error I
Correcto
donde el error I consiste en decir que el proceso no est funcionando correctamente cuando en
realidad el proceso est llenando las cajas con un peso neto promedio de 2 lbs.
Controlaremos el error I suponiendo que
P ( error I ) 0.01
95
Es decir que t es significativamente distinto de cero si cae a la izquierda de - 3.365 segn se observa
en la figura de abajo
0.01
- 3.365
R
NR
Fig. 2.5
Xi 2
1.85
2.10
3.4225
4.4100
1.95
1.83
3.8025
3.3489
2.18
4.7524
1.97
11.88
3.8809
23.6172
96
S2
S2
Xi
Xi
11.88
1.98 lbs.
6
Xi 2
n
n -1
0.0948
5
0.01896
11.88 2
23.6172 -
6
5
5.
X
X -
=
X
S/ n
1.98 - 2.00
0.1377 / 6
- 0.02
= - 0.3559
0.0562
Como t cae en la regin de no rechazo diremos que no hay suficiente evidencia para rechazar H0 :
= 2 , es decir, aceptamos H0 : = 2. Luego debemos seleccionar la alternativa que dice que
el proceso de produccin est funcionando correctamente.
EJEMPLO 2.4.
Suponga que una empresa tiene una cantidad muy grande de cuentas por cobrar y que los saldos de
esas cuentas tienen aproximadamente una distribucin normal.
En los libros de la empresa aparece registrado un saldo promedio para esas cuentas de C$ 25850.
Un auditor con el fin de reducir la cantidad de revisin detallada que necesita utiliza muestreo
estadstico para seleccionar una muestra de 100 cuentas, obteniendo un saldo promedio de C$
27,550 y una desviacin estndar de los saldos de C$ 1200.
Deber el auditor concluir que el saldo es distinto a C$ 25850 y que, por lo tanto, debe hacer un
asiento de ajuste al valor en libros a un nivel de significacin del 2%?
1.
En este problema los elementos a estudiar son las cuentas y la caracterstica de inters X ser el
saldo de las cuentas. Ser de inters hacer suposiciones acerca de la media poblacional que
representar el saldo promedio de las cuentas.
97
Podemos ver la revisin de los saldos de las cuentas por cobrar como la accin y la diferencia del
saldo promedio con respecto a C$ 25850 como el efecto.
Por tanto podemos escribir las hiptesis as
H0 : = 25850
H1 : 25850
donde H0 : = 25850 est suponiendo que no hay diferencia en el saldo promedio con respecto a
C$ 25850 mientras que la hiptesis alterna H1 : 25850 supone que hay diferencia en el saldo
promedio con respecto a C$ 25850.
Observe que la prueba es de dos colas porque nos interesan tanto las diferencias del saldo promedio
hacia la izquierda de C$ 25850 como hacia la derecha de C$ 25850.
2.
Hiptesis
H0: = 25850 es V
H1: 25850 es V
No hacer asiento de ajuste
Correcta
Error II
Hacer asiento de ajuste
Error I
Correcta
donde Error I se da cuando hacemos un asiento de ajuste en libros cuando en realidad el saldo
promedio de las cuentas es igual a C$ 25850.
Controlaremos el error I suponiendo que
P ( error I ) 0.02
98
= 0.01
0.01 y
P(Z z/2 | Z = 0) =
= 0.01, pero como la tabla de la distribucin de Z slo
2
proporciona valores de z que tienen a su izquierda el rea acumulada que seala dicha tabla,
podemos determinar primero el valor positivo. Una vez determinado el primero, el segundo ser,
segn la propiedad de simetra, el opuesto.
Determinemos primero el valor negativo - z 2 encontrando el rea ms cercana a 0.01, que es
0.0099, a la cual le corresponde - z 2 = - 2.33. El otro valor crtico ser el opuesto del anterior,
esto es, z 2 = 2.33
0.01
0.01
Z
- 2.33
R
0
NR
Fig. 2.6
2.33
R
99
S = C$ 1200
Como la poblacin se considera muy grande el valor del estadstico de prueba es:
Z =
5.
X
X -
=
X
S/ n
27550 - 25850
1700
=
= 14.1667
1200/ 100
120
Como el valor de Z cae en la regin de rechazo diremos que hay suficiente evidencia para rechazar
H0 : = 25850 a un nivel de significacin = 0.02, lo cual implica que estamos aceptando H1 :
25850.
Luego debemos hacer un asiento de ajuste al valor en libros.
p (1 - p)
p0 es el valor supuesto de p
100
donde p
S
o p
S
Y
n
Y
n
=
N-n
N -1
p0 (1 - p0 )
n
si la poblacin es infinita
p0 (1 - p0 )
N-n
N -1
si la poblacin es finita.
1.
En este problema los elementos a estudiar son los envases plsticos y la caracterstica de inters Y es
la seguridad que ofrece el envase en cuanto a si cumple o no cumple los estndares de sellado.
Como estamos interesados en los envases defectuosos el xito ser que no cumplen.
Por tanto estamos en presencia de una poblacin de Bernoulli de la cual nos interesan las
suposiciones acerca de la proporcin p de envases que no cumplen los estndares de sellado.
Podemos ver el proceso de produccin de llenado de los envases plsticos como la accin y el
descenso de la proporcin de envases defectuosos con respecto a 0.04 como el efecto.
As que las hiptesis sern:
H0 : p 0.04
H1 : p 0.04
donde H0 : p 0.04 est suponiendo que no hay descenso en la proporcin de envases que no
cumplen con respecto a 0.04 mientras que la hiptesis alterna H1 supone que hay descenso en la
proporcin de envases que no cumplen.
101
Observe que la prueba es de cola izquierda porque slo nos interesan los descensos de la
proporcin de envases que no cumplen con respecto a 0.04.
2.
Hiptesis
H0: p 0.04 es V H1: p 0.04 es V
Correcta
Error II
Error I
Correcta
donde el error I consiste en decir que el nuevo sistema es mejor cuando en realidad no hay descenso
en la proporcin de envases que no cumplen.
Controlaremos el error I suponiendo que P (error I) 0.05
De esta manera hemos elegido un nivel de significacin = 0.05
3.
pS - p 0
p S
0.05
102
- 1.64
R
NR
Fig. 2.7
Por tanto la regla de decisin dir lo siguiente:
Rechazo H0 : p 0.04 a un nivel de significacin = 0.05 si Z - z = - 1.64
En caso contrario no rechazo H0 : p 0.04 , esto es acepto H0 : p 0.04
4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL
ESTADISTICO DE PRUEBA.
De la muestra aleatoria de tamao n = 400 envases se puede obtener la siguiente informacin
pS =
X
n
10
400
= 0.025
pS - p 0
Z =
p S
pS - p0
=
p0 (1 p0 )
n
0.025 - 0.04
- 0.015
0.04 (0.96) =
=
= -1.5306
0.0098
400
FORMULACION DE LA HIPOTESIS.
Ahora los elementos a estudiar son las cuentas por cobrar y la caracterstica de inters Y es la
verificacin de las cuentas en cuanto a si satisfacen o no satisfacen los requisitos. Por lo tanto hay
una poblacin de Bernoulli de la cual nos interesan las suposiciones acerca de la proporcin p de
cuentas que no satisfacen los requisitos establecidos.
Podemos ver la verificacin de las cuentas como la accin y son ms del 2% la proporcin de
cuentas que no satisfacen los requisitos como el efecto.
103
donde H0 : p = 0.02 est suponiendo que no son ms del 2% la proporcin de cuentas que no
satisfacen los requisitos, mientras que la hiptesis alterna H1 : p 0.02 supone que son ms del 2%
la proporcin de cuentas que no satisfacen los requisitos.
Observemos que la prueba es de cola derecha porque slo nos interesa si son ms del 2% la
proporcin de cuentas que no satisfacen los requisitos.
2.
Hiptesis
H0: p = 0.02 es V H1: p 0.02 es V
El 2% de las cuentas no satisfacen.
Correcta
Error II
Ms del 2% de las cuentas no satisfacen.
Error I
Correcta
donde Error I consiste en declarar que ms del 2% de las cuentas no satisfacen los requisistos
cuando en realidad slo el 2% de las cuentas no satisfacen los requisitos.
Controlaremos el error I suponiendo que
P ( error I ) 0.01
pS - p 0
p S
y
104
Es decir que Z es significativamente distinto de cero si cae a la derecha de 2.33 segn se observa en
la figura de abajo
0.01
Z
0
2.33
NR
Fig. 2.8
Por tanto la regla de decisin dir:
Rechazo H0 : p = 0.02 a un nivel de significacin = 0.01 si Z z = 2.33
En caso contrario no rechazo H0 : p = 0.02. Acepto H0 : p = 0.02
X
n
12
= 0.04
300
pS - p 0
=
p0 (1- p0 )
n
N - n
N -1
n
300
=
= 0.20 0.05
N
1500
105
As que
Z =
5.
0.04 - 0.02
0.02 (0.98) 1200
300
1499
0.02
Como Z cae en la regin de rechazo diremos que hay suficiente evidencia para rechazar H0 : p =
0.02 a un nivel de significacin = 0.01, lo cual implica que aceptamos H1 : p 0.02
Luego el auditor debe declarar que ms del 2% de las cuentas no satisfacen los requisitos
institucionales.
106
S2 = 625,000 millas2
107
muestrea 16 de sus detallistas una vez iniciada su promocin y descubre que el precio promedio al
menudeo de los hornos es de C$ 389.50. En un nivel de significacin de 0.02. tiene motivos para
pensar que el precio promedio al menudeo ha disminuido?
9 Un proceso industrial usado por una fbrica durante algunos aos da una produccin promedio
de 100 unidades por hora con una desviacin estndar de 8 unidades. Acaba de ponerse en el
mercado una nueva mquina para producir el mismo producto. Aunque es muy costosa comparada
con la que se usa actualmente, su adopcin sera muy lucrativa , si su produccin promedio fuera
mayor de 150 unidades por hora. La gerencia de la fbrica compra una de las nuevas mquinas
como un experimento y la prueba durante 35 horas encontrando una produccin promedio de 160
unidades por hora.
Suponiendo que la desviacin estndar de la produccin para la nueva mquina es idntica a la de
las antiguas, deber ser adquirida la nueva mquina a un nivel de significacin del 1% ?
10. Un nuevo sistema de enseanza de cierto curso de Estadsticas asegura que proporciona un
rendimiento promedio de 75 puntos. En una muestra aleatoria de 10 estudiantes se comprob que
sus calificaciones fueron:
70, 80, 75, 55, 65, 85, 90, 60, 75, 55.
Suponiendo que la distribucin de las calificaciones es normal, Podemos decir que el nuevo
sistema no alcanza el rendimiento promedio que asegura? Use un nivel de significacin del 5%.
11. El gerente de una compaa financiera se queja de que el 7% de los pagos parciales de
prstamos hechos a consumidores no se cubren a tiempo. Podramos afirmar que esta cifra es
diferente, si 80 de 1500 pagos de prstamos no se hacen a tiempo? Utilice un nivel de significacin
del 1%?
12. Un corredor de bolsas sostiene que puede predecir con un 85% de exactitud si una accin del
mercado burstil cambiar de valor durante el prximo mes. A manera de prueba predice el
resultado de 60 acciones y acierta en 45 de sus pronsticos. Ofrecen los datos evidencia
concluyente, cuando el nivel de significacin es del 2%, de qu la exactitud de su prediccin es
significativamente diferente al 85% afirmado por el corredor?.
13. ENEL utiliza decenas de miles de luminarias cada ao. La marca que ha utilizado hasta ahora
tiene una vida promedio de 1,000 horas con una desviacin estndar de 90 horas. Se le ofrece una
nueva marca al director de ENEL a un precio mucho ms bajo que el que ha estado pagando. El
director decide que se debiera comprar la nueva marca ahora a menos que tengan una vida promedio
menor de 1,000 horas en un nivel de significacin de 0.05. Se prueba 100 luminarias de la nueva
marca, que dan promedio de 990 horas. Suponiendo que la desviacin estndar para la nueva marca
es la misma que la vieja. Cul sera la decisin del director de ENEL?.
14. Una empresa de camiones de carga sospecha que la duracin promedio de 25,000 Kms que se le
adjudica a ciertos neumticos es demasiado larga. Para demostrar la afirmacin la empresa coloca
una muestra tomada al azar de 35 neumticos en sus camiones y descubre despus que su duracin
108
promedio es de 24410 Kms y la desviacin estndar es de 1348 Kms. Se podra concluir a un nivel
de significacin de 0.01 que la duracin promedio no es tan larga como se afirma?
15. Una persona que planea abrir un restaurante cerca de una zona residencial de cierta ciudad,
informa al banco al que desea pedir el capital necesario, que por lo menos el 50% de los residentes
en ese distrito patrocinarn su restaurante espordicamente cuando este abierto. Suponga que Ud. Es
el encargado de prstamos del banco y desea verificar si lo que dice la persona no es cierto con un
nivel de significacin del 5%. Adems suponga que de una muestra aleatoria de 50 residentes de ese
distrito solamente el 44% indicaron su intencin de patrocinar el restaurante propuesto.
a)
b) Suponga que la muestra ha sido de 200 en lugar de 50, y que la proporcin muestral fuera an
de 0.44, Sera diferente su conclusion ?
16. Un fabricante de salsa de tomate est a punto de decidir si producir una marca nueva de mucho
condimento. El departamento de investigacin de la fabrica aplic una encuesta telefnica a nivel
nacional a 6,000 familias y averigu que la salsa sera comprada por 335 de ellas. Un estudio mucho
ms exhaustivo hecho dos aos antes revel que el 5% de las familias compraran la marca. En un
nivel de significacin de 1% Debera la compaa concluir que hay un mayor inters en el sabor
tan condimentado?
17. La experiencia de un comerciante en aparatos y accesorios mostr que el 10% de clientes que
compran a plazos liquidan sus cuentas antes del vencimiento de la ltima mensualidad. Al sospechar
un incremento en este porcentaje, el comerciante muestre 200 compradores a crdito para saber sus
intenciones, 33 de ellos afirmaron tener planeado pagar sus deudas antes de la ltima mensualidad.
Son los datos suficientes para indicar que el porcentaje de compradores a plazos que pagarn sus
deudas antes de la ltima mensualidad excede de 10% ?. Haga la prueba con un nivel de
significacion de 0.02.
18. El departamento de personal de una empresa quiere estimar los gastos mdicos promedios por
familia de sus empleados, a fin de determinar un plan de seguro mdico. Una muestra aleatoria de
10 empleados mostr los gastos mdicos familiares siguientes en un ao:
$110 , 362 , 246 , 85 , 510 , 208 , 173 , 425 , 316 , 179 .
Suponiendo que los gastos mdicos por familia siguen una distribucin normal
A un nivel de significacin de 0.10. Podra concluir el gerente de personal que los gastos mdicos
promedios por familia de todos los empleados es distinto a $200.
19. El departamento de servicio a cliente de una empresa local de servicios pblicos telefnicos
quiere estimar el tiempo promedio entre la llegada de la solicitud de servicio y la conexin del
mismo. De los registros disponibles del ao anterior se seleccion una muestra aleatoria de 15 casos.
Los resultados en das fueron los siguientes:
114 , 78 , 96 , 137 , 78 , 103 , 117 , 126 , 86 , 99 , 114 , 72 , 104 , 73 , 86 .
109
110
El propsito fundamental del anlisis de regresin es estimar la relacin que puede existir entre dos
o ms variables, con el fin de que la media de una variable pueda ser estimada o predicha a partir de
valores conocidos o fijados de la otra u otras.
La variable que va a ser estimada o predicha la denotaremos por Y y la llamaremos variable
explicada, predicha o dependiente. Las otras variables generalmente se denotan por Xi y las
llamaremos variables explicativas, predictoras o independientes.
Algunas situaciones ilustrativas son las siguientes:
1. Un economista puede esta interesado en estudiar la relacin entre las siguientes variables.
Y : Consumo familiar mensual.
X1 : Ingreso familiar mensual.
X2 : No de hijos.
2. En contabilidad de costos, un contador o un administrador de una empresa puede estar
interesado en estudiar la relacin entre las siguientes variables:
Y : Costo de mano de obra directa de una orden de produccin.
X1 : No horas mquinas utilizadas.
X2 : No artculos producidos.
3. En agricultura, un economista agrcola o un ingeniero agrnomo puede estar interesado en
estudiar la relacin entre las siguientes variables:
Y : Rendimiento en qq/mz de una plantacin de maz.
X1 : Cantidad de fertilizante utilizado en lbs/mz.
X2 : Cantidad de insecticida utilizado.
X3 : Cantidad de lluvia.
En este tema slo estudiaremos la relacin entre 2 variables, motivo por el cual al anlisis de
regresin se le llama simple.
3.2 EL MODELO DE REGRESION LINEAL NORMAL CON DOS VARIABLES.
Este modelo considera solamente la relacin entre las variables X, Y, en cuya poblacin de
observaciones suponemos que:
1. Para cada valor que tome X hay una distribucin normal de Y.
2. Las medias de las distribuciones de Y varan linealmente con X.
Una representacin grfica de este modelo es la siguiente:
111
Yi 4300
Yi 3500
Fig. 3.1
A la lnea que pasa por las medias de Y la llamaremos lnea de regresin poblacional
Por ejemplo, supongamos que las caractersticas de inters en las familias de una comunidad estn
dadas por las siguientes variables:
X representa el ingreso mensual y Y representa el consumo mensual.
Si xi representa el i-simo valor que toma X y Yi la i-sima observacin de Y, entonces podemos
decir que para un nivel de ingreso xi = C$ 4000 hay una subpoblacin en la cual podemos suponer
que Yi tiene una distribucin normal con un consumo promedio dado por Yi | x i C$3800
Supongamos que para el nivel xi = C$ 4000 se selecciona al azar una familia y se registra la
observacin Yi = C$ 4300
Supongamos ahora que para el nivel x i = C$ 4000 se selecciona al azar una familia y se registra la
observacin Yi = C$ 3500
En la figura 3.1 pueden apreciarse estas observaciones y toda la poblacin de observaciones con la
lnea de regresin poblacional pasando sobre las medias de Yi.
112
Fig. 3.2
i)
113
Yi | x i 0 1x i
i = Yi - Y
| xi
114
Observe que las medias de Y estn relacionados linealmente con los valores conocidos de X.
Al grfico de esta funcin le llamaremos lnea de regresin poblacional.
Los parmetros de regresin o y 1 sern interpretados as:
1 es la pendiente de la lnea de regresin. Representa el cambio en la media de Y por cambio
unitario en X.
El valor de 1 puede ser positivo o negativo.
Si 1 es positiva diremos que hay una relacin lineal positiva entre X , Y ; lo cual significa que si X
aumenta, Y| X tambin aumenta. En las figuras 3.1 y 3.2 pueden apreciarse una relacin lineal
positiva.
Si 1 es negativa diremos que hay una relacin lineal negativa entre X , Y; lo cual significa que si X
aumenta, Y| X disminuye. En la figura 3.3. puede apreciarse una relacin lineal negativa.
Fig.3.3
o es el intercepto de la lnea de regresin.
Representa la media de Y en X = 0
Si el alcance del modelo no incluye X = 0, o no tiene ningn significado a menos que el contexto
del problema lo sugiera, esto es, cuando se considera que X = 0 no se aleja mucha del alcance del
modelo.
El valor de o puede ser positivo o negativo. En las figuras 3.1, 3.2 y 3.3 se aprecia un o positivo,
mientras que en la figura 3.4 se aprecia un o negativo.
Supuesto 5.
2i | x i 2
2Yi | x i 2
2
2
La expresin i | x i se leer, la varianza de i cuando que X toma el valor xi y la expresin Yi | x i
se leer la varianza de Yi cuando que X toma el valor xi
115
2
En este supuesto observe que 2 no tiene el subndice i, lo cual significa que i para cada xi es
2
una constante igual a 2 , lo cual implica que Yi para cada xi es tambin una constante igual a 2 .
En otras palabras las distribucin de probabilidad de Yi tienen siempre la misma varianza
independientemente del valor que tome X.
En las figuras 3.4 y 3.5 pueden apreciarse dos lneas punteadas trazadas a una distancia de la lnea
de regresin poblacional y paralelas a esa misma lnea de regresin, que nos seala que
posiblemente la mayor parte de las observaciones quedan dentro de esos lmites.
La magnitud de me indicar qu tanto se alejan o se acercan las observaciones Yi de las medias de
Yi que estn sobre la lnea de regresin poblacional.
Al comparar la figura 3.4 con la figura 3.5 pueden apreciarse distintos valores para . En qu figura
las observaciones estn ms alejadas de su lnea de regresin?
Fig 3.4
Fig. 3.5
Finalmente todos los supuestos anteriores pueden resumirse diciendo que los x i son valores
constantes y que los Yi son variables aleatorias independientes distribuidas normalmente con
Yi | x i 0 1 x i y
2Yi | x i 2
116
Yi
Y1
Y2
.
.
.
xn
Yn
Cuando los pares ordenados (xi , Yi) de la muestra tomen sus propios valores los ubicaremos sobre
un plano cartesiano para obtener una nube de puntos que llamaremos diagrama de dispersin.
Fig. 3.6
La impresin visual de este diagrama nos va a sugerir si existe posiblemente una relacin lineal
entre X , Y
117
bo ser el estimador de o
b1 ser el estimador de 1
Teniendo los estimadores b0 y b1 resulta natural definir la funcin de regresin muestral as
b 0 b1 X
Y
118
Cuando conocemos el intercepto y la pendiente de una lnea decimos que dicha lnea est claramente
especificada. La lnea de regresin estimada quedar determinada cuando conozcamos las frmulas
que definen a los estimadores bo y b1.
Un buen mtodo para encontrar las frmulas para bo y b1 es buscar una lnea que mejor se ajuste a
la nube de puntos, esto es, que pase por ella minimizando la suma de los cuadrados de la resduos,
segn se muestra en la figura siguiente.
Yi
ei
b1
i
Y
b0
b 0 b1 x i
xi
Fig. 3.7
Hagamos que Q
2
i
entonces
Q Yi - Yi
.
Y
b
b
x
i 0 1 i en donde n es el tamao de la muestra.
.
119
Q
b1
Yi - b o - b1
x i ( -1 )
Yi - bo - b1 x i ( - x i )
.
1.
Yi n bo b1 x i
.
2.
x i Yi b o x i b1 x i 2
b1
x Y
i
x i Yi -
x -
2
i
x
.
b0
Yi - b1
cuyo grfico, segn este mtodo, podr llamarse lnea de ajuste o lnea de los mnimos cuadrados.
3.3.2 PROPIEDADES PRINCIPALES DE LA LINEA DE AJUSTE
1.
0
n
xi
n
120
EJEMPLO 3.1.
La gerente de una compaa desea estimar la relacin entre los costos de materiales usados en un
proceso qumico (Y) y las horas de operacin (X). Con esta informacin ella espera ser capaz de
preparar un presupuesto ms preciso y tener un mejor control sobre los costos.
Datos sobre los costos en centenas de dlares para varias horas de operacin del proceso son
presentados abajo.
Horas
50
20
30
50
40
30
30
10
40
20
i)
Costos
6.5
4.0
4.5
6.0
5.5
5.0
5.5
3.5
6.0
4.5
6
5
4
3
2
1
0
0
10
20
30
Fig. 3.8
40
50
X 60
121
ii)
b1
Yi -
Yi
6.5
4.0
4.5
6.0
5.5
5.0
5.5
3.5
6.0
4.5
51.0
xi
x -
2
i
Y i2
42.25
16.00
20.25
36.00
30.25
25.00
30.25
12.25
36.00
20.25
268.50
320 ( 51 )
10
=
=
( 320) 2
11800 10
1740 -
xi Yi
325
80
135
300
220
150
165
35
240
90
1740
n
.
xi2
2500
400
900
2500
1600
900
900
100
1600
400
11800
1740 - 1632
108
0.0692
11800 - 10240
1560
n
b0
Yi - b1
2.8856
x
.
51 - 0.0692 ( 320 )
10
51 - 22.1440
28.8560
10
10
= 2.8856 + 0.0692 X
Y
b1 se interpreta as: Por cada hora adicional de operacin el costo promedio de materiales usados en
el proceso aumenta en 0.0692 (en centenas de $)
iii)
iv)
(en centenas de $)
= 3.9236
X = 15 , Y
(en centenas de $)
122
( Y i - Y ) ( Yi Y i )
Fig. 3.9
Para las n observaciones de Y la suma de los cuadrados de estas desviaciones puede demostrarse
que es
n
Yi
- Y
Y i
SSR
- Y
SSE
i
- Y
que denotaremos as
SST
donde
123
SST
Ser llamada suma de cuadrados total y representa una medida de variacin de las
observaciones Yi alrededor de Y . Esta medida tendr asociada n 1 grados de libertad. Un
grado de libertad es perdido debido a la restriccin
desviaciones.
SSE Ser llamada suma de cuadrados debida al error y representa una medida de variacin de
Y no explicada por X alrededor de la lnea de regresin estimada.
Esta medida tendr asociada n - 2 grados de libertad. Dos grados de libertad son perdidos
debido a la estimacin de los dos parmetros o y 1.
SSR
Ser llamada suma de cuadrados debida a la regresin y representa una medida de
variacin de Y, explicada por X, y asociada con la lnea de regresin estimada.
Esta medida tendr asociada 1 grado de libertad.
Las frmulas computacionales para SST, SSR y SSE puede demostrarse que son las siguientes.
SST
SSE
2
Yi
2
i
Yi
- bo
- b 1 x i Yi
124
SS
SSR
SSE
SST
GL
1
n-2
n-1
MS
MSR = SSR/1
MSE = SSE/n -2
Una suma de cuadrados dividida por sus correspondientes grados de libertad la llamaremos media
cuadrtica y la denotaremos por MS.
Estaremos interesados en la media cuadrtica de regresin denotada y definida as:
MSR =
SSR
1
= SSR
SSE
n - 2
3.4.2 EL ESTIMADOR DE
Recordemos que 2 representa la varianza de Y alrededor de la lnea de regresin poblacional y que
representa la desviacin estndar de Y para cualquier nivel de X.
Puede demostrarse que MSE es un estimador insesgado de 2.
En otras palabras que la varianza estimada de Y alrededor de la lnea de regresin podemos
denotarla y obtenerla as:
Y2 MSE
y la desviacin estndar estimada de Y por
MSE
SSE
n-2
2
i
- b o Yi - b 1 x i Yi
n-2
EJEMPLO 3.2
Utilizando los resultados del ejemplo 3.1
i) construya la tabla de anlisis de varianza
125
Sabemos que
320 ,
= 51 ,
2
i
= 268.5
xY
i
= 1740
= 2.8856 + 0.0692 X
y que Y
SST
SSE
2
i
= 268.5 -
(51) 2
= 268.5 - 260.1 = 8.4
10
2
i
SS
7.4736
0.9264
8.4000
GL
1
8
9
Y=
Observe que MSE = 0.1158 y que por lo tanto
ii)
MS
7.4736
0.1158
MSE
0.1158
0.3403
- b o Yi - b 1 x i Yi
n-2
0.9264
8
0.1158
0.3403
126
cuenta. Cuando un modelo de regresin que utilice la variable independiente X es utilizado SST se
dividir en dos componentes SSE y SST tales que el cociente
SSE
SST
SST
SST
SST
donde 0 r 2 1
una medida de la proporcin de la variacin total de Y explicada por X que llamaremos coeficiente
de determinacin muestral. Esta medida podr verse tambin como una reduccin proporcional
de la variacin total de Y (incertidumbre) cuando la variable independiente X es introducida.
De manera que r2 podr interpretarse as:
Es la proporcin de la variacin total de Y que es explicada por X.
Es la reduccin proporcional de la variacin total de Y cuando la variable independiente X es
introducida.
Lmites de los valores de r2
n
1. r2 = 1
SSE = 0
i )2 0
(Yi Y
i
Yi Y
La relacin entre X,Y es perfecta en los datos muestrales. Aqu toda variacin en las observaciones
Yi es explicada por X. Este caso es mostrado en la siguiente figura.
b0 b1X
Y
Yi
Fig. 3.10
n
2. r2 = 0
SSR = 0
i - Y)
(Y
i Y b1 = 0
Y
No hay relacin entre X , Y en los datos muestrales. Aqu la variacin en las observaciones Yi no
son explicadas por X. X no ayuda a reducir la variacin en las observaciones Yi
Este caso es mostrado en la siguiente figura.
127
Y
Y
Fig. 3.11
EJEMPLO 3.3.
Para el ejemplo 3.1 determine el coeficiente de determinacin e interprtelo.
Utilizando la tabla ANOVA del ejemplo 3.2 llegamos a que:
r
7.4736
8.4000
0.8897
El 88.97% de la variacin en el costo de materiales se puede explicar por las horas de operacin del
proceso.
La variacin total en el costo de materiales es reducida en un 88.97% cuando las horas de operacin
es considerada.
COEFICIENTE DE CORRELACION.
La raz cuadrada de r2.
r
r2
-1 r 1
128
0.9432
0.8897
La cercana de r con 1 implica que posiblemente hay alto grado de relacin entre X, Y
3.5 INFERENCIAS SOBRE 1
Frecuentemente estaremos interesados en hacer inferencias sobre la pendiente de la lnea de
regresin poblacional.
Por ejemplo ser de inters saber si hay una relacin lineal significativa entre X , Y para la cual
haremos una prueba de hiptesis sobre 1.
Tambin puede ser que queramos obtener un intervalo de confianza para 1.
Antes de considerar inferencias sobre 1 necesitamos considerar la distribucin muestral de b1.
3.5.1 DISTRIBUCION MUESTRAL DE b1
Puede demostrarse que el estimador b1 es una combinacin lineal de las observacin Yi . Esto es,
b1 =
ki
Yi
Como las observaciones Yi tienen distribucin normal (segn el supuesto 2) b1 tiene tambin una
distribucin normal con
b1
b1 1
x
.
2
i
2
n
xi
.
b1
3.5.2
2
xi
xi
.
Y es el estimador de
donde
129
H1 : 1 0
donde H 0 : 1 0 esta suponiendo que no hay diferencia de 1 con respecto a cero, mientras que la
hiptesis alterna H 1 : 1 0 supone que hay diferencia de 1 con respecto a cero.
Observe que la prueba es bilateral porque nos interesan tanto las diferencias de 1 hacia la izquierda
de cero como hacia la derecha de cero.
2. ELEGIR UN NIVEL DE SIGNIFICACION.
El error I consiste en decir que hay relacin entre X , Y cuando en realidad no hay.
Controlaremos el error I suponiendo que P (error I )
3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE
DECISION.
Como las hiptesis son suposiciones acerca de 1 el estadstico de prueba ser su estimador b1 pero
estandarizado, esto es,
b1 - 0
b
b1
b
b1
Pendiente estimada
b
El error estndar de b1
donde b
1
2
xi
.
xi
.
-
n
130
o
t t /2
Rechazo H 0 : 1 0 a un nivel de significacin si t - t /2
En caso contrario no podemos rechazar H 0 : 1 0 , es decir, aceptamos H 0 : 1
- t / 2
t /2
0
NR
Figura 3.12
4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL
ESTADISTICO DE PRUEBA.
Con la informacin muestral calculemos primero b1 y b para obtener el valor de t
1
a un nivel ,
Si t cae en la regin de no rechazo entonces diremos que no hay suficiente evidencia para rechazar
H 0 : 1 0 , esto es, aceptamos H 0 : 1 0 . Luego no hay relacin lineal entre X , Y.
EJEMPLO 3.5.
Para el ejemplo 3.1 pruebe si hay una relacin lineal significativa entre el nmero de horas de
operacin del proceso y el costo de los materiales a un nivel de significacin del 5%.
1. FORMULACION DE LAS HIPOTESIS.
Las hiptesis se escribirn as
H 0 : 1 0
H1 : 1 0
131
donde H 0 : 1 0 esta suponiendo que no hay diferencia de 1 con respecto a cero mientras que
la hiptesis alterna H 1 : 1 0 supone que hay diferencia de 1 con respecto a cero.
Observe que la prueba es bilateral porque nos interesan tanto las diferencias de 1 hacia la izquierda
de cero como hacia la derecha de cero.
2. ELEGIR UN NIVEL DE SIGNIFICACION.
El error I consiste en decir que hay relacin entre el nmero de horas de operacin del proceso y el
costo de materiales cuando en realidad no hay.
Controlaremos el error I suponiendo que P (error I ) 0.05. Luego hemos elegido un nivel de
significacin = 0.05.
3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE
DECISION.
El estadstico de prueba ser
b
t 1
donde
b
1
b1
x i2
xi
.
-
n
y la regla de decisin:
t - t /2 - 2.306
0,
t t /2 2.306
H 0 : 1 0
0.025
n - 2 10 - 2 8 g.l.
0.025
0.025
t
- 2.306
0
NR
2.306
132
Figura 3.13
4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL
ESTADISTICO DE PRUEBA.
Con la informacin muestral calculemos primero b1 y
320
x i 11800
b1
n
xi .
320 2
11800 - 10240
11800 -
0.3403
n x
i
0.3403
0.3403
1560
0.3403
39.4968
10
0.0086
0.0692
8.0465
Luego t
0.0086
b1
133
Yh Yh
Y Y
xh
xi .
-x
2
2
n x
i
.
Y Y
h
1
n
xh
xi .
Como
h - Y
Y
h
Y h
- x
2
2
n x
i
.
donde Y es el estimador de
puede demostrarse que un estimador por intervalo de confianza del ( 1 - ) 100% para Yh esta
dado por
h t /2 Y h
Y
Fig. 3.14
Observe el efecto del trmino (x h x) 2 en
A medida que x h se aleja de
x mayor es
Y
h
Y
h
x porque
Y
h
x menor ser .
Y
h
EJEMPLO 3.6
Para el ejemplo 3.1 construya un intervalo de confianza del 99% para el costo promedio de
materiales utilizados cuando el proceso opere 40 horas.
134
320
32
10
Por tanto
Y Y
h
xh
- x
10
(40 - 32)
11800 -
n x
i
xi .
( 0.3403 )
n
2
(320)
( 0.3403 )
10
64
1560
( 0.3403 )
0.1410
10
Para 0.01
0.005
2
n 2 = 10 - 2 = 8 g.l.
(en centenas de $)
Para un valor xh supongamos que queremos predecir los lmites del valor individual Yh
h
Como los lmites de prediccin de Yh tienen que tomar en cuenta tanto la variabilidad de Y
asociada a la posicin que puede tener Yh como la variabilidad de Y alrededor de esa posicin.
La varianza estimada del valor individual Yh ser la suma de dos componentes:
h y la varianza estimada de Y.
La varianza estimada de Y
Esto es,
135
2
Yh
Y
h
2
Y
2
Y
(x
xi
.
x)
xi
.
2
Y
1 1
2
Y
1
n
xh
xi .
t /2
Yh
donde
- x
n x
. i
derecha un rea de
Hay una diferencia conceptual entre un estimador por intervalo de prediccin y un estimador por
intervalo de confianza. Un estimador por intervalo de confianza representa una inferencia sobre un
parmetro. Un estimador por intervalo de prediccin es una proposicin acerca del valor que puede
tomar una variable aleatoria.
EJEMPLO 3.7
Para el ejemplo 3.1 determine un intervalo de prediccin del 99% del costo de materiales que sern
utilizados en un proceso particular que operar 40 horas.
La frmula correspondiente es
h
Y
t /2
Yh
Por tanto
xi
.
Puede demostrarse que un estimador por intervalo de prediccin del (1 - )100% para una valor
individual Yh est dado por
h
Y
(x
136
Yh Y
1
1
xh
n
2
i
- x
2
n
xi
.
=
Como
0.3403
1 0.1410 0.3403
t /2 3.355
tenemos que
Yh
6.8735
( en centenas de $ )
Observe que el intervalo de prediccin del 99% para un valor individual Yh aqu obtenido es ms
ancho que el intervalo de confianza del 99% para Y obtenido en el ejemplo 3.6, la razn es que
h como la
cuando predecimos un valor individual tomamos en cuenta tanto la variabilidad en Y
variacin dentro de la distribucin de probabilidad de Y.
Ao
1997
1998
1999
2000
Cantidad
Invertida
2
3
4
5
Utilidad
anual
20
25
30
34
137
2001
2002
11
5
40
31
a) Dibuje un diagrama de dispersin y comente las impresiones visuales que le ofrece la figura.
b) Obtenga la funcin de regresin muestral de Y sobre X e interprete la pendiente.
c) Prediga la utilidad anual para 2003 suponiendo una inversin de 8 millones de C$ en
investigacin y desarrollo.
d) Trace sobre el diagrama del inciso a) la lnea de ajuste.
2. El ministerio de Agricultura hizo un estudio para determinar la relacin que existe entre la
produccin de caf (Y) y la cantidad de fertilizante utilizado (X) en una regin determinada. Se
tom una muestra aleatoria de 6 haciendas y se recopil la siguiente informacin:
Hac.
1
2
3
4
5
6
3. La demanda de un artculo en toneladas (Y) para diferentes precios en crdobas (X) se presenta
en la tabla de abajo.
X
20.5
21.0
21.0
21.5
21.5
21.5
22.0
22.0
22.5
Y
4.5
4.0
4.7
3.5
3.0
4.0
3.5
2.5
2.0
138
23.0
a)
b)
c)
d)
1.8
Construya un diagrama de dispersin y comente las impresiones visuales que le ofrece la figura.
Determine la funcin de regresin muestral de Y sobre X e interprete la pendiente estimada.
Obtener la demanda esperada si el precio del bien fuese de C$ 22.40
Trace sobre el diagrama de dispersin del inciso a) la lnea de los mnimos cuadrados.
4. Para probar en cierto tipo de fbricas el efecto de un filtro purificador que absorbe parte de la
emisin de gases residuales, se han medido los niveles de CO 2 (dixido de carbono) emitidos por 7
fbricas donde ste se ha instalado.
Hemos supuesto que X representa el nmero de das despus de la instalacin y Y representa la
emisin de CO2 en mg/dl para presentar los siguientes resultados.
X
5
10
15
20
25
30
35
Y
5.2
4.8
4.6
4.5
4.3
4.0
3.8
5. El Banco Central quiere estimar la relacin entre la cantidad de dinero circulante (X) y el
ingreso nacional (Y).
Suponga que dispone de los siguientes datos histricos en millones de dlares.
Ao
1997
1998
1999
2000
2001
2002
Cantidad
Circulante
3.3
4.0
4.2
4.6
4.8
5.0
Ingreso
Nacional
7.2
7.3
8.4
9.0
9.7
10.0
139
Y
15
06
10
18
09
07
14
11
05
08
7. Supngase que una cadena de supermercados financia un estudio sobre los gastos anuales en
comestibles de familias de 4 miembros. La investigacin se limit a familias con ingresos netos
(despus de los impuestos) que van de C$20000 a C$60000. Se obtuvo la siguiente ecuacin de
regresin lineal:
=
Y
- 200 + 0.10X
En la cual Y representa los gastos anuales estimados en comestibles y X representa los ingresos
netos anuales
Supngase que la ecuacin proporciona un ajuste razonablemente bueno, y que se obtuvieron
los datos por medio de mtodos de muestreo aleatorio,
a)
Estime los gastos de una familia de 4 miembros, con un ingreso anual de C$25000.
140
con
x i 15
2
i
= 27.45
, Y2
= 41.2
a) Proporcionan los datos evidencia suficiente para indicar que el nmero X de huracanes aportan
informacin para predecir la cantidad anual pagada por el asegurador por concepto de daos a
propiedades a un nivel de significacin del 5%?
b) Encuentre un intervalo de confianza del 90% para el pago anual promedio si un huracn azota la
regin en un ao dado.
c) Obtenga un intervalo de prediccin del 90% para el pago anual si dos huracanes azotan la
regin en un ao dado.
9. Un estudio de mercado trata de cuantificar el efecto que sobre la demanda de un artculo tiene
una campaa publicitaria en televisin. Para ello se miden las cantidades demandadas, en miles de
unidades, antes de la campaa (X) y la cantidades demandadas, en miles de unidades, despus de la
campaa (Y). Despus de 3 semanas de emisin del anuncio en 10 regiones se obtuvo la siguiente
relacin lineal estimada entre X, Y.
= 65.5812 + 0.3547X
Y
141
x i = 15 ,
x i Yi = 84.6 ,
2
i
x i2 = 55 ,
= 23 ,
= 130.98
SS
24.336
0.844
25.180
G.L
1
3
4
MS
24.3360
0.2813
i) Interprete la pendiente.
ii) Qu proporcin de la variacin total del volumen de ventas puede ser explicada por los aos de
experiencia?
iii) Estime la varianza de Y alrededor de la lnea de regresin.
iv) Existe relacin lineal significativa entre los aos de experiencia y el volumen de ventas a un
nivel de significacin del 2%?
v) Determine un intervalo de confianza del 99% para el volumen esperado de ventas de un
vendedor que tiene 3.5 aos de experiencia.
11.
Un economista desea establecer la relacin entre las exportaciones FOB (X) y las
importaciones FOB (Y). De los Indicadores Econmicos publicados por el Banco Central de
Nicaragua para los aos 1994 2002 resume la siguiente informacin. (no incluye importaciones ni
exportaciones de Zona Franca).
n = 9 , x i = 3791.1 ,
x i2 = 1846729.93 ,
Y
Y
2
i
= 7705.2 ,
= 7072151.74
x Y =
i
3548993.65
142
c) Prediga el valor de las importaciones cuando las exportaciones asciendan a 500 millones de
dlares.
d) Calcule el coeficiente de determinacin y el coeficiente de correlacin e interprete sus
significados.
e) A un nivel de significacin de 0.01 Hay alguna relacin lineal significativa entre las
exportaciones y las importaciones para los aos mencionados?.
12.
Una cadena de tiendas de repostera ha tenido grandes fluctuaciones en sus ingresos durante
los ltimos aos. Abundantes ofertas y tcnicas de publicidad se han utilizado durante este tiempo,
por lo cual es difcil determinar cules de esos factores tienen la influencia ms profunda en las
ventas. El departamento de mercadotecnia ha estudiado varias relaciones y piensa que los gastos
mensuales destinados a carteles pueden ser significativos.
Se muestre 7 meses con los siguientes resultados:
167
203
x Y
i
5427 ,
2
i
4703
2
i
6527
13. Con los siguientes datos sobre el costo de construccin de residencias unifamiliares en miles
de dlares (Y) y el tamao del lote en miles de pies cuadrados (X).
n = 12 , x i = 198 , Yi = 625.5 ,
x i2 = 4396 , Yi2 = 34878.58
x Y =
i
11840.1
143
n = 7 , x i = 340 , Yi = 751 ,
x i2 = 19000 , Yi2 = 90571
x Y =
i
41450
= 7620 ,
= 28.5 ,
x Y
i
= 26370 ,
2
i
= 7104300 ,
2
i
= 99.75
16. El gerente de mercadotecnia de una cadena de supermercados quiere determinar el efecto del
espacio de las estanteras en pies (X) sobre la venta semanal de cosmticos en cientos de crdobas
(Y). Seleccion una muestra aleatoria de 12 tiendas de igual tamao obteniendo los resultados
siguientes:
= 150 ,
= 28.5 ,
x Y =
i
384 ,
2
i
= 1.45 + 0.074X
Encontr la ecuacin de regresin: Y
SS
2.0535
1.0490
3.1025
G.L
1
10
11
MS
2.0535
0.1049
= 2250 ,
2
i
= 70.79
144
a) Interprete la pendiente.
b) Pruebe al nivel de significacin de 0.05 si los resultados de la muestra permiten llegar a la
conclusin de que hay una relacin lineal significativa entre el espacio en las estanteras y la venta
semanal de cosmticos.
c) Calcule los coeficientes de determinacin y de correlacin e interprtelos.
d) Obtenga un intervalo de prediccin del 90% de las ventas semanales de una tienda con 8.6 pies
de espacio en estantes destinados a cosmticos.
17. Los economistas a menudo quieren estimar las funciones consumo. Esto lo hacen obteniendo
la regresin del consumo Y sobre el ingreso X (en esta regresin, los economistas dan a la
pendiente el nombre de propension marginal al consumo). En una muestra de 15 familias, se
calcul una pendiente de 0.9 y un error estndar de la pendiente de regresin de 0.25.
A un nivel de significacin = 0.05 existe alguna relacin lineal significativa entre el consumo y
el ingreso?
18. Con el propsito de determinar el efecto del precio del galn de diesel en el costo de la
canasta bsica de 53 productos de la ciudad de Managua se extrajeron los datos que se presentan a
continuacin:
Ao
1993
1994
1995
1996
X
1.14 5.67
5.88
Y 517.27 718.01 730.02
7.02
887.00
1997
1998
1999
2000
2001
7.75
8.4
10.38
12.31
13.94
19.81
970.61 1078.89 1225.59 1402.82 1552.64 1624.11
88.65582
DF
1
8
2002
Sum of Squares
1158823.72109
104568.31455
Signif F = .0000
Mean Square
1158823.72109
13071.03932
145
SE B
69.193900 7.348762
432.036306 76.862781
Beta
.957722
T
9.416
5.621
Sig T
.0000
.0005
Los resultados obtenidos que se relacionan con nuestro curso son los siguientes:
Coeficiente de correlacin, r = 0.95772
Coeficiente de determinacin, r2 = 0.91723
SSR = 1158823.72109;
SSE = 104568.31455; SSE/(n-2) = 13071.03932
b0 = 432.036306; b1 = 69.193900; Error estndar del estimador b1 = 7.348762
tn-2 = 9.416.
Ahora conteste:
a) Escriba la ecuacin de la lnea de mnimos cuadrados que nos permitir predecir el costo
promedio de la canasta bsica de la ciudad de Managua en trminos del precio del diesel.
b) Interprete b1 .
c) Suponiendo que para el ao 2003 que el precio del diesel ser de C$ 21.50, estime el costo
promedio de la canasta bsica para ese ao en la ciudad de Managua
d) Interprete el coeficiente de determinacin y el coeficiente de correlacin.
e) Existe relacin lineal significativa entre el precio del diesel y el costo de la canasta bsica a un
nivel de significacin del 5%?.
4.1. INTRODUCCION
Toda institucin (la familia, la escuela, la empresa, el gobierno) tiene que hacer planes para el futuro
si ha de sobrevivir y progresar.
146
La familia:
La Escuela: Sus planes tienen que ver con su desarrollo futuro para ofrecer servicios educativos
adecuados a la siempre creciente poblacin.
La empresa: Sus planes tienen que ver con la demanda de sus productos, la produccin, la
financiacin, el personal, las ventas, las inversiones, el mercadeo.
El gobierno: Sus planes tienen que ver con los ingresos y gastos futuros para influir de esta manera
en la actividad comercial agregada de modo que el progreso econmico del pas no se vea demorado
por la inflacin o la deflacin.
La tcnica ms importante para hacer inferencias sobre el futuro con base en lo ocurrido en el
pasado es el anlisis de las series de tiempo que se puede definir as:
Un conjunto de observaciones de una variable que se refieren a diferentes perodos sucesivos de
tiempo usualmente de la misma magnitud (aos, trimestres, meses, etc).
Ejemplos de series de tiempo:
La creencia de que el comportamiento pasado de una serie puede continuarse en el futuro constituye
una base racional para la prediccin estadstica.
Los movimientos de las series de tiempo son causados por una variedad de factores, algunos
econmicos, algunos naturales y otros institucionales. Ms an, algunos de los factores tienden a
afectar los movimientos a largo plazo de las series, mientras que otros tienden a producir
fluctuaciones a corto plazo.
4.2. COMPONENTES DE UNA SERIE DE TIEMPO
Una serie la consideraremos constituida por los siguientes componentes que son las que explican los
cambios observados en un perodo de tiempo.
i)
ii)
iii)
iv)
La tendencia.
Las variaciones estacionales.
Las variaciones cclicas.
Las variaciones irregulares.
Para obtener una impresin visual de los movimientos de una serie de tiempo, se contruye sobre un
plano cartesiano una grfica en la cual la variable de inters Y estar en el eje vertical y los perodos
sucesivos de tiempo en el eje horizontal.
147
Ejemplo. Los siguientes datos representan producciones trimestrales de cierto artculo en miles de
unidades de un pas hipottico durante 1999 - 2003.
Y 11
10
9
8
7
6
5
4
3
2
1
0
tendencia lineal
datos originales
variaciones
variaciones cclicas
estacionales
1999
2000
2001
2002
2003
Figura 4.1
LA TENDENCIA
Es el movimiento suave y regular de una serie que refleja un crecimiento o una declinacin en
un perodo de tiempo muy prolongado (al menos de 15 aos) (debe incluir 2 ms ciclos).
Observe que los movimientos de la serie de tiempo de la figura 4.1 tienden en promedio a
desplazarse continuamente hacia arriba a travs del tiempo. Se representa mediante una recta a
travs de la curva irregular.
La tendencia mide el cambio de la variable de inters por unidad de tiempo.
148
Prosperidad
Recesin
Pico
Pico
Recuperacin
depresin
bache
Lnea de tendencia
bache
Figura 4.2
149
La produccin de fibras sintticas y la produccin de alimentos congelados que tienen una fuerte
tendencia ascendente.
Los bienes duraderos que sufren grandes cambios cclicos.
Las ventas de tiendas que son predominantemente estacionales.
4.3. ANALISIS DE LAS SERIES DE TIEMPO CON DATOS ANUALES
La componente que se estudia con ms frecuencia en estas series de tiempo es la tendencia.
Estudiaremos la tendencia como una ayuda para hacer pronsticos a mediano y largo plazo.
4.3.1 CALCULO DE LA TENDENCIA LINEAL.
Consiste en obtener la ecuacin de una lnea recta que me indique el comportamiento de la variable
de inters a travs de los aos.
Utilizaremos los mtodos que exponemos a continuacin tomando la mitad de cada ao (1 de Julio)
como punto de representacin de los datos de ese ao.
METODO DE LOS MINIMOS CUADRADOS PARA UN NUMERO PAR DE AOS
Para una serie de datos con un nmero par de aos el mtodo dice que hagamos lo siguiente:
i)
ii)
Aplicar las mismas frmulas que utilizamos para estimar la funcin de regresin poblacional.
n
b1
x Yi
i
x Y
i
x -
2
i
x
.
150
n
b0
iii)
Yi - b1
n
Obtener la ecuacin de tendencia lineal
Sustituir bo y b1 en la expresin:
= bo + b1X
Y
Origen: 1 de julio del ao X = 0
X en aos
EJEMPLO 1
Las ventas anuales de una empresa desde el ao 1997 al 2002 se presentan a continuacin en
decenas de miles de C$
AO
1997
1998
1999
2000
2001
2002
xi
0
1
2
3
4
5
15
Yi
Ventas
78
70
65
46
46
35
340
xi Yi
0
70
130
138
184
175
697
x i2
0
1
4
9
16
25
55
151
90
80
70
60
50
40
30
20
10
0
1996
1997
1998
1999 2000
2
2001
2002
2003
X
Figura 4.3
b) Encuentre la ecuacin de tendencia lineal e interprete bo y b1
b1
(15) (340)
6
( 15) 2
55 6
bo
697 -
697 - 850
- 153
- 8.7429
55 - 37.5
17.5
340 131.1435
471.1435
78.5239
6
6
152
i)
El esquema ms eficiente de codificacin que se puede seleccionar para facilitar los clculos es
elegir el ao central de la sucesin como origen y asignarle el cdigo x = 0. Despus, a todos los
aos posteriores se les asignan cdigos crecientes de enteros 1, 2, 3, 4, ... , mientras que a todos los
aos anteriores se les asignan cdigos decrecientes de enteros -1, -2, -3, -4, ... , de modo que
n
xi
ii)
Aplicar las mismas frmulas que utilizamos para estimar la funcin de regresin poblacional.
xi
as:
n
b1
Yi
b0
iii)
X 0.
EJEMPLO 2
Las ventas anuales de una empresa desde el ao 1999 al 2003 se presentan a continuacin en
decenas de miles de C$
Yi
153
AO
1999
2000
2001
2002
2003
xi
-2
-1
0
1
2
0
Ventas
32
46
50
66
68
262
x i2
4
1
0
1
4
10
xi Yi
-64
-46
0
66
136
92
80
70
60
50
40
30
20
10
0
1998
1999
2000
-2
-1
2001
0
2002
1
2003
2004
X
Figura 4.4
b) Encuentre la ecuacin de tendencia lineal e interprete bo y b1
92
9.2
10
El incremento anual estimado de las ventas anuales es 9.2 en dec miles C$
b1
bo
La venta anual estimada para el ao 2001 es 52.4 en dec miles C$
262
5
52.4
154
donde
y
b 0 b1 ( X 0.5 )
Y
4
16
Origen :15 de Agosto del ao X 0
X en trimestres
b1
representa el cambio trimestral estimado del valor trimestral de Y
16
b 0 b1
(0.5) representa el valor trimestral estimado de Y para X = 0 (el trimestre origen)
4 16
EJEMPLO 3
Los datos que aparecen a continuacin son las importaciones trimestrales de materiales de
construccin en miles de dlares durante el perodo 2000 - 2002
Trimestre
155
AO
2000
2001
2002
a)
1
90
83
125
2
104
99
170
3
113
126
165
4
100
127
144
180
170
160
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
0
1
2000
2001
2002
Figura 4.5
b) Determinar la ecuacin de tendencia lineal de las importaciones trimestrales e interprete el
intercepto y la pendiente estimada.
Yi
AO
xi
Imp
xi Yi
x i2
2000
-1
407
-407
1
2001
0
435
0
0
2002
1
604
604
1
0
1446
197
2
n
b1
Yi
2
i
197
2
98.5 en miles de $,
de $
b0
1446
3
482 en miles
156
X en aos
Para convertir la ecuacin de tendencia anual anterior a una de tendencia trimestral cuyo origen sea
el 15 de Agosto de 2001 procedemos as.
Y
482
4
98.5
( X 0.5 )
16
157
Las medidas de las variaciones estacionales sern expresadas por nmeros ndices estacionales.
Un procedimiento para determinar los ndices estacionales es el siguiente.
METODO DEL COCIENTE DEL PROMEDIO MOVIL
Este mtodo esta basado en el modelo multiplicativo de una serie que expresa que cualquier valor
observado Yi es el producto de los valores de las cuatro componentes, es decir,
i Si Ci Ii
Yi = Y
i es la tendencia que expresaremos en las mismas unidades de los datos originales,
donde Y
mientras que las componentes Si , Ci , Ii son los valores de las variaciones estacionales, cclicas e
irregulares respectivamente que expresaremos como porcentajes cuyo valor medio es 100.
i , Ci e Ii de las observaciones originales Yi
Los ndices estacionales sern obtenidos eliminando Y
en base a cocientes segn los siguientes pasos.
1. Determinar el total mvil de 4 trimestres para la serie de tiempo.
De la suma de los valores de los 4 trimestres del primer ao obtenemos el total mvil de esos
trimestres, el cual se asociar al punto medio de dichos trimestres. El siguiente total mvil se
obtiene eliminando del total mvil anterior el valor del primer trimestre del primer ao y agregando
el valor del primer trimestre del segundo ao, el cual se asociar al punto medio de los 4 trimestres
que se conservan.
Continuamos de esta manera el proceso de desplazar el total mvil de 4 trimestres sobre la serie de
tiempo hasta incluir el ltimo valor de ella.
2. Asociarle a cada total mvil un promedio mvil de 4 trimestres.
La divisin de cada total mvil por 4 proporciona un promedio mvil.
3. Calcular los promedios mviles centrados.
Asociamos a cada trimestre (excepto los dos primeros y los dos ltimos de la serie de tiempo) el
promedio de los dos promedios mviles que caen arriba y abajo, que llamaremos promedio mvil
centrado. Con este proceso de divisiones se han eliminado los componentes estacionales e
irregulares (Si Ii) quedando los componentes cclicos y los de tendencia, esto es, la tendencia cclica
iCi )
(Y
158
Yi
i Ci
Y
(100)
i Si C i I i
Y
i Ci
Y
(100) S i I i (100)
5. Arreglar los porcentajes de los promedios mviles centrados Si Ii(100) del paso anterior segn el
nmero de trimestre de cada ao luego calculamos el promedio de los primeros, segundos, terceros y
cuartos trimestres de los aos de la serie.
Los valores Si Ii para los mismos trimestres se promedian para eliminar I i quedando aislado de esta
manera el ndice estacional Si . Por tanto cada nmero de trimestre tendr asociado un ndice
estacional, esto es, habrn 4 ndices estacionales.
6. Ajustar los ndices estacionales.
La base de un ndice estacional es 100, en consecuencia, los 4 ndices debern sumar 400.
Si la suma de los 4 ndices estacionales calculados no es igual a 400, para corregir este error
multiplicamos cada uno de estos ndices por una constante de ajuste que determinamos as.
Constante de ajuste
EJEMPLO 4
Para las importaciones trimestrales de materiales de construccin en miles de dlares del ejemplo 3.
i) Calcule los ndices estacionales para los 4 trimestres por el mtodo del cociente del promedio
mvil. Haga una representacin grfica de los ndices estacionales.
159
1
2
90
104
113
4
2001
407
101.75
400
100.00
100
395
98.75
408
102.00
435
108.75
477
119.25
548
137.0
587
146.75
604
-
151.0
-
83
99
126
4
2002
127
125
170
3
4
165
144
100.9
112.0
99.4
100.6
100.4
82.7
105.4
93.9
114.0
110.5
128.1
99.1
141.9
88.1
148.9
114.2
5. Los porcentajes del promedio mvil (SI) para los mismos trimestre se promedian para eliminar
I quedando solamente los ndices estacionales pero sin ajustar
AO
2000
2001
2002
Indice estacional sin ajustar
Indice estacional ajustado (S)
1
82.7
88.1
85.4
85.3
Trimestres
2
3
112.0
93.9
110.5
114.2
104.0
111.2
103.9
111.1
4
100.6
99.1
99.8
99.7
400
400.4
0.9990
160
120
100
80
60
40
20
0
Trimestres
Figura 4.6
ii)
Interprete los ndices estacionales ajustados que corresponden al primero y tercer trimestre.
Las importaciones trimestrales del primer trimestre han estado por lo general un 14.7% por debajo
de las importaciones trimestrales promedio del ao cuyo centro corresponde a ese trimestre.
Las importaciones trimestrales del tercer trimestre han estado por lo general un 11.1% por encima de
las importaciones trimestrales promedio del ao cuyo centro corresponde a ese trimestre.
iii) Prediga las importaciones para el primer trimestre de 2003 utilizando la tendencia y los ndices
estacionales.
= 123.5781 + 6.1562 (6 ) = 160.5153
Para X = 6, Y
161
Para desestacionalizar los valores de una serie dividimos los valores reales de la serie entre el ndice
estacional correspondiente y luego multiplicamos por 100, esto es,
Yi
(100)
Si
Yi
Si
(100)
Debido a que
S C I
Y
i
i
i
i
Si
C I (100)
(100) Y
i
i
i
los datos desestacionalizados de una serie pueden verse como una tendencia cclica irregular
expresada en las mismas unidades que los datos originales, pero que no representan ocurrencias
reales, ms bien son valores que slo tienen sentido para propsitos de comparacin.
EJEMPLO 5.
Para las importaciones trimestrales de materiales de construccin en miles de dlares del ejemplo 3.
i) Calcule las importaciones trimestrales desestacionalizadas para 2002.
Trim
1
2
3
4
Yi
125
170
165
144
S
85.3
103.9
111.1
99.7
Yi desestacionalizado
146.5
163.6
148.5
144.4
ii) Comente la comparacin de las importaciones trimestrales de los trimestres primero y segundo
de 2002, con base en los valores trimestrales reales y los valores trimestrales desestacionalizados.
Al pasar del primero al segundo trimestre hay un aumento de las importaciones trimestrales de 45
mucho mayor que lo esperado estacionalmente 152.3 - 125 = 27.3, pues se considera que la
tendencia cclica irregular de las importaciones trimestrales la levant al pasar de 146.5 a 163.6
iii) Comente la comparacin de las importaciones trimestrales de los trimestres segundo y tercero
de 2002, con base en los valores trimestrales reales y los valores trimestrales desestacionalizados
Al pasar del segundo al tercer trimestre las importaciones trimestrales disminuyen 5 contrario a lo
que estacionalmente se esperaba que era un aumento de 181.8 - 170 = 11.8 , se considera que la
tendencia cclica irregular de las importaciones trimestrales la baj al pasar de 163.6 a 148.5
162
b)
c)
d)
e)
f)
g)
h)
i)
j)
k)
2. Supongamos que se dispone de datos sobre las ventas trimestrales de libros de texto en la librera
de la Universidad durante los ltimos 10 aos.
a) Cree usted que estos datos acusaran una tendencia definida? Explicar por qu.
b) Cree usted que estos datos trimestrales mostraran un esquema estacional? Si as fuera,
porqu?
c) Qu factores podran causar una variacin cclica en las ventas trimestrales?
d) Qu factores tenderan a causar variaciones irregulares en los datos?
3. La produccin en Nicaragua de cierto artculo en millones de unidades durante los aos 19962002 aparece en la siguiente tabla.
Ao
1996
1997
1998
1999
2000
2001
2002
a)
b)
c)
d)
Produccin
10
9
8
8
5
6
3
4. Una compaa de productos alimenticios tiene los siguientes datos sobre el nmero de cajas de
cereal en miles que ha vendido en los ltimos 6 aos.
Ao
1997
Produccin
21.0
163
1998
1999
2000
2001
2002
19.4
22.6
28.2
30.4
25.0
Ventas
21
24
29
29
34
Produccin
24
17
20
18
14
15
Produccin
80
82
164
2000
2001
2002
85
84
89
Ovino
caprino
Total
1999
2000
2001
2002
56
63
81
90
24
20
17
15
80
83
98
105
Origen: 1 - 7 - 2000
X en aos
a)
b)
Interprete los elementos que intervienen en esta ecuacin dentro del contexto del problema.
Pronostique la produccin de azcar para el 2 trimestre de 2003
10. La ecuacin de tendencia para las producciones trimestrales de cierto artculo (en miles de
unidades) es:
= 12.25 + 0.50 X
Y
Origen:15 - 08 - 2001
X en trimestres
a) Interprete los elementos que intervienen en esta ecuacin dentro del contexto del problema.
b) Prediga la produccin para el 1er trimestre de 2003.
11. Los datos que aparecen a continuacin son las ventas trimestrales en millones de una empresa
durante el perodo 2000-2002.
Trimestres
Ao
1
2
3
4
2000
4.9
5.9
6.1
7.6
165
2001
2002
5.0
5.7
6.3
7.0
6.6
7.5
8.3
9.2
3.8
3.3
2.5
2.6
4.7
4.4
4.0
3.8
3.3
3.5
3.2
3.4
2.7
2.9
2.6
2.2
50
45
35
35
35
20
25
20
15
40
30
25
a) Construya un grfico de las ventas trimestrales y observe si hay un patrn estacional constante.
b) Determinar la ecuacin de tendencia lineal de las ventas trimestrales. Trace sobre el grfico
anterior la recta de tendencia e interprete la pendiente estimada.
c) Calcule los ndices estacionales para los cuatro trimestres. Haga una representacin grfica de
los ndices estacionales e interprete el 3er. ndice estacional.
14. Una compaa constructora ha reunido datos trimestrales sobre nmero de casas que ha iniciado
durante los ltimos cuatro aos.
Trimestres
Ao
1
2
3
4
1999
166
2000
2001
2002
8
8
9
10
11
12
7
7
8
4
5
6
7.8
6.9
8.9
10.7
10.2
11.6
9.7
12.4
14.7
17.5
15.3
16.8
9.3
9.3
10.1
10.7
Fila
1
2
1
10480
22368
10
11
12
13
14
15011
46573
01536
25595
02011
85393
81647
30995
91646
89198
69179
27982
14194
53402
62590
93965
36207
34095
20969
52666
99570
19174
91291
39615
90700
99505
167
3
4
5
24130
42167
37570
48360
93093
39975
22527
06243
81837
97265
61680
16656
76393
07856
06121
64809
16376
91782
15179
39440
60468
24830
53537
81305
49340
71341
49684
32081
57004
60672
30680
00849
14110
19655
74917
06927
63348
97758
01263
58629
16379
54613
6
7
8
9
10
77921
99562
96301
89579
85475
06907
72905
91977
14342
36857
11008
56420
05463
63661
53342
42751
69994
07972
10281
53988
27756
98472
18876
17453
53060
53498
31016
20922
18103
59533
18602
71194
94595
57740
38867
70659
18738
56869
84378
62300
90655
44013
69014
25331
08158
15053
48840
60045
12566
17983
21916
63213
18425
58678
16439
81825
21069
84903
44947
11458
44394
10634
42508
05585
18593
42880
12952
32307
56941
64952
11
12
13
14
15
28918
63553
09429
10356
07119
69578
40961
93969
61129
97336
88231
48235
52636
87529
71048
33276
03427
92737
85689
08178
70997
49626
88974
48237
77233
79936
69445
33488
52267
13916
56865
18663
36320
67689
47564
05859
72695
17617
93394
81056
90106
52180
30015
01511
97735
31595
20847
08272
26358
85977
01547
12234
84115
85104
29372
85590
90511
27156
20285
74461
91610
33703
30613
29975
28551
78188
90322
74952
89868
90707
16
17
18
19
20
51085
02368
01011
52162
07056
12765
21382
54092
53916
97628
51821
52404
33362
46369
33787
51259
60268
94904
58586
09998
77452
89368
31273
23216
42698
16308
19885
04146
14513
06691
60756
55322
18594
83149
76988
92144
44819
29852
98736
13602
49442
01188
71585
23495
51851
53900
65255
85030
64350
46104
70960
64835
51132
94738
88916
63990
44919
01915
17752
19509
75601
05944
92747
35156
25625
40719
55157
64951
35749
58104
21
22
23
24
25
48663
54164
32639
29334
02488
91245
58492
32363
27001
33062
85828
22421
05597
87637
28834
14346
74103
24200
87308
07351
09172
47070
13363
58731
19731
30168
25306
38005
00256
92420
90229
76468
94342
45834
60952
04734
26384
28728
15398
61280
59193
58151
35806
46557
50001
22178
06646
06912
41135
67658
30421
21524
17012
10367
32586
61666
15227
64161
07684
86679
99904
96909
18296
36188
50720
32812
44592
22851
18510
94953
26
27
28
29
30
81525
29676
00742
05366
91921
72295
20591
57392
04213
26418
04839
68086
39064
25669
64117
96423
26432
66432
26422
94305
24878
46901
84673
44407
26766
82651
20849
40027
44048
25940
66566
89768
32832
37937
39972
14778
81536
61362
63904
22209
76797
86645
98947
45766
71500
14780
12659
96067
66134
64568
13300
92259
64760
75470
91402
87074
57102
64584
66520
42416
79666
80428
96096
34693
07844
95725
25280
98253
90449
69618
31
32
33
34
35
00582
00725
69011
25976
09763
04711
69884
65795
57948
83473
87917
62797
95876
29888
73577
77341
56170
55293
88604
12908
42206
86324
18988
67917
30883
35126
88072
27354
48708
18317
74087
76222
26575
18912
28290
99547
36086
08625
82271
35797
81817
84637
40801
65424
05998
42607
93161
59920
69774
41688
43808
76038
29841
33611
34952
76655
65855
80150
54262
37888
62028
77919
12777
85963
38917
76630
88006
18501
03547
88050
36
37
38
39
40
91567
17955
46503
92157
14577
42595
56349
18584
89634
62765
27958
90999
18845
94824
35605
30134
49127
49618
78171
81263
04024
20044
02304
84610
39667
86385
59931
51038
82834
47358
29880
06115
20655
09922
56873
99730
20542
58727
25417
56307
55536
18059
28168
44137
61607
84855
02008
15475
48413
49518
29080
73708
56942
25555
89656
09250
83517
53389
21246
20103
79656
36103
20562
35509
77490
73211
42791
87338
20468
18062
41
42
43
44
45
98427
34914
70060
53976
76072
07523
63976
28277
54914
29515
33362
88720
39475
06990
40980
64270
82765
46476
67245
07391
01638
34476
23219
68350
58745
92477
17032
53416
82948
25774
66969
87589
94970
11398
22987
98420
40836
25832
42878
80059
04880
32427
69975
80287
39911
45585
70002
94884
88267
96189
46565
70663
19661
47363
41151
04102
88863
72828
46634
14222
46880
77775
00102
06541
60697
45709
69348
66794
97809
59583
46
47
48
49
50
90725
64364
08962
95012
15664
52210
67412
00358
68379
10493
93974
33339
31662
93526
20492
29992
31926
25388
70765
38391
65831
14883
61642
10592
91132
38857
24413
34072
04542
21999
50490
59744
81249
76463
59516
83765
92351
35648
54328
81652
55657
97473
56891
02349
27195
14361
89286
69352
17247
48223
31720
35931
48373
28865
46751
57375
04110
45578
14777
22923
56228
23726
78547
62730
32261
41546
51900
81788
92277
85653
51
16408
81899
04153
53381
79401
21438
83035
92350
36693
31238
59649
91754
72772
02338
Tabla 2
z
(Areas a la izquierda de z)
8
168
-3.
.0013
-2.9
-2.8
-2.7
-2.6
-2.5
.0019
.0026
.0035
.0047
.0062
.0018
.0025
.0034
.0045
.0060
.0017
.0024
.0033
.0044
.0059
.0017
.0023
.0032
.0043
.0057
.0016
.0023
.0031
.0041
.0055
.0016
.0022
.0030
.0040
.0054
.0015
.0021
.0029
.0039
.0052
.0015
.0021
.0028
.0038
.0051
.0014
.0020
.0027
.0037
.0049
.0014
.0019
.0026
.0036
.0048
-2.4
-2.3
-2.2
-2.1
-2.0
.0082
.0107
.0139
.0179
.0227
.0080
.0104
.0136
.0174
.0222
.0078
.0102
.0132
.0170
.0217
.0075
.0099
.0129
.0166
.0212
.0073
.0096
.0125
.0162
.0207
.0071
.0094
.0122
.0158
.0202
.0069
.0091
.0119
.0154
.0197
.0068
.0089
.0116
.0150
.0192
.0066
.0087
.0113
.0146
.0188
.0064
.0084
.0110
.0143
.0183
-1.9
-1.8
-1.7
-1.6
-1.5
.0287
.0359
.0446
.0548
.0668
.0281
.0351
.0436
.0537
.0655
.0274
.0344
.0427
.0526
.0643
.0268
.0336
.0418
.0516
.0630
.0262
.0329
.0409
.0505
.0618
.0256
.0322
.0401
.0495
.0606
.0250
.0314
.0392
.0485
.0594
.0244
.0307
.0384
.0475
.0582
.0239
.0300
.0375
.0465
.0571
.0233
.0294
.0367
.0455
.0559
-1.4
-1.3
-1.2
-1.1
-1.0
.0808
.0968
.1151
.1357
.1587
.0793
.0951
.1131
.1335
.1562
.0778
.0934
.1112
.1314
.1539
.0764
.0918
.1093
.1292
.1515
.0749
.0901
.1075
.1271
.1492
.0735
.0885
.1056
.1251
.1469
.0721
.0869
.1038
.1230
.1446
.0708
.0853
.1020
.1210
.1423
.0694
.0838
.1003
.1190
.1401
.0681
.0823
.0985
.1170
.1379
-.9
-.8
-.7
-.6
-.5
.1841
.2119
.2420
.2743
.3085
.1814
.2090
.2389
.2709
.3050
.1788
.2061
.2358
.2676
.3015
.1762
.2033
.2326
.2643
.2981
.1736
.2005
.2297
.2611
.2946
.1711
.1977
.2266
.2578
.2912
.1685
.1949
.2236
.2546
.2877
.1660
.1921
.2206
.2514
.2843
.1635
.1894
.2177
.2483
.2810
.1611
.1867
.2148
.2451
.2776
-.4
-.3
-.2
-.1
-.0
.3446
.3821
.4407
.4602
.5000
.3409
.3783
.4168
.4562
.4960
.3372
.3745
.4129
.4522
.4920
.3336
.3707
.4090
.4483
.4880
.3300
.3669
.4052
.4443
.4840
.3264
.3632
.4013
.4404
.4801
.3228
.3594
.3974
.4364
.4761
.3192
.3557
.3936
.4325
.4721
.3156
.3520
.3897
.4286
.4681
.3121
.3483
.3859
.4247
.4641
.0
.1
.2
.3
.4
.5000
.5398
.5793
.6179
.6554
.5040
.5438
.5832
.6217
.6591
.5080
.5478
.5871
.6255
.6628
.5120
.5517
.5910
.6293
.6664
.5160
.5557
.5948
.6331
.6700
.5199
.5596
.5987
.6368
.6736
.5239
.5636
.6026
.6406
.6772
.5279
.5675
.6064
.6443
.6808
.5319
.5714
.6103
.6480
.6844
.5359
.5753
.6141
.6517
.6879
.5
.6
.7
.8
.9
.6915
.7257
.7580
.7881
.8159
.6950
.7291
.7611
.7910
.8186
.6985
.7324
.7642
.7939
.8212
.7019
.7357
.7673
.7967
.8238
.7054
.7389
.7704
.7995
.8264
.7088
.7422
.7734
.8023
.8289
.7123
.7454
.7764
.8051
.8315
.7157
.7486
.7794
.8079
.8340
.7190
.7517
.7823
.8106
.8365
.7224
.7549
.7852
.8133
.8389
1.0
1.1
1.2
1.3
1.4
.8413
.8643
.8849
.9032
.9192
.8438
.8665
.8869
.9049
.9207
.8461
.8686
.8888
.9066
.9222
.8485
.8708
.8907
.9082
.9236
.8508
.8729
.8925
.9099
.9251
.8531
.8749
.8944
.9115
.9265
.8554
.8770
.8962
.9131
.9279
.8577
.8790
.8980
.9147
.9292
.8599
.8810
.8997
.9162
.9306
.8621
.8830
.9015
.9177
.9319
1.5
1.6
1.7
1.8
1.9
.9332
.9452
.9554
.9641
.9713
.9345
.9463
.9564
.9649
.9719
.9357
.9474
.9573
.9656
.9726
.9370
.9484
.9582
.9664
.9732
.9382
.9495
.9591
.9671
.9738
.9394
.9505
.9599
.9678
.9744
.9406
.9515
.9608
.9686
.9750
.9418
.9525
.9616
.9693
.9756
.9429
.9535
.9625
.9700
.9761
.9441
.9545
.9633
.9706
.9767
2.0
2.1
2.2
2.3
2.4
.9773
.9821
.9861
.9893
.9918
.9778
.9826
.9864
.9896
.9920
.9783
.9830
.9868
.9898
.9922
.9788
.9834
.9871
.9901
.9925
.9793
.9838
.9875
.9904
.9927
.9798
.9842
.9878
.9906
.9929
.9803
.9846
.9881
.9909
.9931
.9808
.9850
.9884
.9911
.9932
.9812
.9854
.9887
.9913
.9934
.9817
.9857
.9890
.9916
.9936
2.5
2.6
2.7
2.8
2.9
.9938
.9953
.9965
.9974
.9981
.9940
.9955
.9966
.9975
.9982
.9941
.9956
.9967
.9976
.9982
.9943
.9957
.9968
.9977
.9983
.9945
.9959
.9969
.9977
.9984
.9946
.9960
.9970
.9978
.9984
.9948
.9961
.9971
.9979
.9985
.9949
.9962
.9972
.9979
.9985
.9951
.9963
.9973
.9980
.9986
.9952
.9964
.9974
.9981
.9986
3.
.9987
Tabla 3
Distribucin t de Student
169
0.10
0.05
0.025
1
2
3
4
5
3.078
1.886
1.638
1.533
1.476
6.314
2.920
2.353
2.132
2.015
12.706
4.303
3.182
2.776
2.571
6
7
8
9
10
1.440
1.415
1.397
1.383
1.372
1.943
1.895
1.860
1.833
1.812
11
12
13
14
15
1.363
1.356
1.350
1.345
1.341
16
17
18
19
20
0.01
0.005
0.0005
31.821
6.965
4.541
3.747
3.365
63.657
9.925
5.841
4.604
4.032
636.619
31.598
12.941
8.610
6.859
2.447
2.365
2.306
2.262
2.228
3.143
2.998
2.896
2.821
2.764
3.707
3.499
3.355
3.250
3.169
5.959
5.405
5.041
4.781
4.587
1.796
1.782
1.771
1.761
1.753
2.201
2.179
2.160
2.145
2.131
2.718
2.681
2.650
2.624
2.602
3.106
3.055
3.012
2.977
2.947
4.437
4.318
4.221
4.140
4.073
1.337
1.333
1.330
1.328
1.325
1.746
1.740
1.734
1.729
1.725
2.120
2.110
2.101
2.093
2.086
2.583
2.567
2.552
2.539
2.528
2.921
2.898
2.878
2.861
2.845
4.015
3.965
3.922
3.883
3.850
21
22
23
24
25
1.323
1.321
1.319
1.318
1.316
1.721
1.717
1.714
1.711
1.708
2.080
2.074
2.069
2.064
2.060
2.518
2.508
2.500
2.492
2.485
2.831
2.819
2.807
2.797
2.787
3.819
3.792
3.767
3.745
3.725
26
27
28
29
30
1.315
1.314
1.313
1.311
1.310
1.706
1.703
1.701
1.699
1.697
2.056
2.052
2.048
2.045
2.042
2.479
2.473
2.467
2.462
2.457
2.779
2.771
2.763
2.756
2.750
3.707
3.690
3.674
3.659
3.646
40
60
120
1.303
1.296
1.289
1.282
1.684
1.671
1.658
1.645
2.021
2.000
1.980
1.960
2.423
2.390
2.358
2.326
2.704
2.660
2.617
2.576
3.551
3.460
3.373
3.291
170
BIBLIOGRAFIA
Elementos de Muestreo
Richard L. Scheaffer
William Mendenhall
Lyman Ott
Grupo Editorial Iberoamrica, 1986