Estadistica II

Descargar como doc, pdf o txt
Descargar como doc, pdf o txt
Está en la página 1de 170

1

TEMA 1: MUESTREO Y ESTIMACION


OBJETIVOS
1. Explicar las razones por las cuales se hace uso del muestreo.
2. Comprender la necesidad de utilizar estimadores para los parmetros.
3. Resaltar la ayuda que presta el conocimiento de la distribucin muestral de un estimador para la
determinacin de la precisin de las estimaciones.
4. Identificar las propiedades deseables de un estimador para hacer las mejores inferencias sobre
los parmetros.
5. Conocer los principales mtodos para seleccionar una muestra
6. Hacer estimaciones puntuales y por intervalo de parmetros en muestreo aleatorio simple,
sistemtico, estratificado y por conglomerado.
7. Hacer determinaciones de tamaos de muestras requeridos para estimar la media poblacional en
muestreo aleatorio simple, estratificado y por conglomerado.
8. Aplicar correctamente las frmulas de los estimadores por intervalo y de tamao de muestra en
la solucin de problemas.
1.1 INTRODUCCION
Recordemos algunos conceptos de la Estadstica que sern importantes en el desarrollo de este curso
POBLACIN
Es un conjunto de elementos de naturaleza cualquiera de los cuales estamos interesados en estudiar
al menos una caracterstica comn y observable de dichos elementos en un determinado lugar y en
un momento dado.
Observacin: La poblacin en estudios debe estar definida sin ambigedad de manera que no de
lugar a confusiones. Los elementos consideramos que se encuentran localizados en un determinado
lugar o regin geogrfica y en un periodo de tiempo dado.

Ejemplo
El conjunto de todos los supermercados de Nicaragua en un momento dado
Elementos: Supermercados.
Caractersticas : ventas mensuales, N empleados, nombre, atencin, N cajeras, etc.
VARIABLES
Utilizaremos variables como X, Y, Z, etc. para representar las caractersticas de los elementos
Para el ejemplo anterior podemos hacer que X represente las ventas mensuales
DATOS ESTADISTICOS
Los valores posibles de una caracterstica X los denotaremos por x , mientras que los valores
realmente observados de esa caracterstica X , los llamaremos datos y los denotaremos por x i donde
el valor del subndice i nos indica que es la i-sima observacin de X.
Con frecuencia usaremos el trmino poblacin para referirnos a la totalidad de datos que podran
recopilarse en una situacin dada.
x1 , x2 , , xN

PARAMETROS
Es una medida que proviene de todos los datos de la poblacin. Los parmetros son constantes que
representan por lo general caractersticas de la poblacin. Generalmente se representan por letras
griegas.
Por ejemplo, la media poblacional es un parmetro que se denota y define como
N

x x 2 ... x N
1

N
N

El total poblacional es otro parmetro que se denota y define como

Si para el ejemplo anterior X representa la venta mensual entonces representa la venta mensual
promedio y la venta mensual total
MUESTRA
Es una parte de la poblacin que se espera sea representativa de ella.
Con frecuencia usaremos el trmino muestra para referirnos a los datos muestrales x1 , x2 , , xn
Poblacin tamao N
X
x1
x2
.

muestra tamao n
x1, x2,.xn

.
xN

datos muestrales

POR QUE SE MUESTREA


Tomar decisiones con base en informacin incompleta no es algo novedoso.
Por ejemplo, muchos compradores prueban un poco de queso antes de adquirirlo. De un pedazo
deducen el sabor de un trozo mayor.
En medicina, una muestra de sangre puede llevar a inferir que el paciente est anmico.
Como el inters primordial de la Estadstica es conocer parmetros, facilitaremos la inferencia
acerca de los parmetros, utilizando la informacin de una muestra para estimar los parmetros.
Una muestra de familias de un barrio puede ser til para estimar el nmero promedio de nios por
familia del barrio.
En la industria una muestra de artculos puede servirnos para estimar la proporcin de artculos
defectuosos producidos en cierto momento.

VENTAJAS DEL MUESTREO.

1. Rapidez y bajo costo de la informacin requerida.


El muestreo es una tcnica que utiliza recursos materiales, econmicos y humanos disponibles, para
obtener en el menor tiempo, al menor costo y con cierta exactitud aceptable informacin necesaria
acerca de algunos parmetros.
2. Es un procedimiento prctico cuando la poblacin es muy grande o infinita.
Decimos que una poblacin es finita cuando sabemos cuntos elementos existen en ella, esto es,
cuando posee un tamao que denotaremos por N.
Existen poblaciones finitas tan grandes que resulta imposible observar sus elementos en un perodo
de tiempo razonable, por ejemplo, todas las familias de una ciudad. Otras son tan inmensas que
muchos de sus elementos son inaccesibles y su tamao puede ser desconocido, por ejemplo, todos
los pequeos agricultores de un pas.
Tambin existen poblaciones infinitamente grandes, esto es, con un nmero ilimitado de elementos,
razn por la cual le llamaremos poblaciones infinitas.
Podriamos considerar que los procesos contnuos de produccin de algn bien generan poblaciones
infinitas porque, tericamente, podra suponerse que estos procesos operan indefinidamente, por
ejemplo, el proceso de produccin de chips de computadoras.
3. Evita la destruccin de toda la poblacin.
Esta situacin se da cuando la medicin de la caracterstica de inters destruye al mismo elemento.
Los catadores de vino pueden evaluarlo con unos cuntos sorbos sin necesidad de consumir toda la
produccin.
En una compaa slo se prueba la germinacin de unas cuantas semillas antes de la temporada de
siembra.
Los censos, debido a la gran cantidad de recursos que requieren, se realizan en perodos retirados de
tiempo. Sin embargo su aplicacin es ventajosa cuando la poblacin es muy pequea o se requiere
una exactitud completa.

1.2 METODOS DE MUESTREO

En todo muestreo lo deseable bsicamente es obtener una muestra que sea una buena representacin
de la poblacin en miniatura y que adems su costo sea el menor posible, ya que a mayor
representatividad de la muestra se espera mayor precisin en las estimaciones de los parmetros.
Existen dos mtodos que tratan de obtener la muestra anterior: el muestreo no probabilstico y el
muestreo probabilstico.
1.2.1

MUESTREO NO PROBABILISTICO

- En este mtodo no todos los elementos poblacionales tendrn posibilidad de integrar la muestra,
motivo por el cual se espera poca representatividad de la muestra.
- Se usan el conocimiento, la experiencia y la opinion personal para identificar los elementos de la
poblacin que van a incluirse en la muestra.
El conocimiento y la experiencia ayudan a aumentar la precisin de las estimaciones y la opinin
personal para minimizar el costo.
- La precisin de sus resultados generalmente no se puede medir en forma objetiva porque no hay
ninguna ley del azar que permita medir su error de muestreo.
A pesar de esta falta de objetividad los mtodos de muestreo no probabilsticos son importantes en
los negocios y la investigacin econmica.
1.2.2

MUESTREO PROBABILISTICO

- Es un mtodo de muestreo en el cual cada elemento de la poblacin tiene una probabilidad


conocida (no igual a cero) de ser incluido en la muestra.
- Las unidades muestrales se seleccionan conforme a las leyes del azar en vez del criterio personal.
- La precisin de sus resultados se puede medir objetivamente porque, segn veremos ms adelante,
los estimadores de parmetros seguirn las leyes del azar, esto es, una distribucin de probabilidad
conocida de la cual podremos considerar su desviacin estndar como un error de muestreo
esperado (promedio).
Aunque el error de muestreo es de naturaleza aleatoria podremos controlarlo, es decir hacerlo ms
pequeo, seleccionando el tipo de muestreo ms adecuado.
Tambin controlaremos el costo del muestreo seleccionando un tipo de muestreo que logre reducir
sustancialmente ese costo.
1.2.3

TIPOS DE MUESTREOS PROBABILISTICOS.

Algunos tipos de muestreos probabilsticos son los siguientes: muestreo aleatorio simple,
muestreo aleatorio sistemtico, muestreo aleatorio estratificado y muestreo aleatorio por
conglomerado.

1.3 MUESTREO ALEATORIO SIMPLE Y MUESTREO ALEATORIO SISTEMATICO

En el muestreo aleatorio simple se seleccionan las muestras mediante mtodos que permitan a cada
muestra posible tener igual probabilidad de ser seleccionada y a cada elemento de la poblacin tener
igual probabilidad de quedar incluido en la muestra.
El muestreo aleatorio simple es un procedimiento prctico si:
i) La poblacin tiene una desviacin estandar pequea en comparacin a la magnitud de los
datos y su tamao no es muy grande.
ii) Es fcil y poco costoso llegar a los elementos poblacionales.
El muestreo aleatorio sistemtico es un procedimiento que se aplica a situaciones donde los
elementos poblacionales pueden ser seleccionados con un intervalo uniforme que se mide en el
orden , en el tiempo o en el espacio. Este procedimiento trata de garantizar de que cada elemento
poblacional tuvo la misma probabilidad de integrar la muestra.
El muestreo aleatorio sistemtico es un procedimiento prctico si:
i)

Se dispone de una lista de los elementos poblacionales y se considera que dichos elementos no
son muchos y estn en un orden aleatorio.

Por ejemplo, podemos tomar cada sexto estudiante de una lista de estudiantes de la Escuela de
Economa.
ii) Se tiene un proceso contnuo de produccin de algn artculo, el cual consideramos que genera
una poblacin infinita, y que por lo tanto, la manera ms prctica de tomar una muestra es fijar un
intervalo uniforme que me permita ir tomando artculos para control de calidad de la produccin.
Por ejemplo, podemos tomar cada quincuagsima pieza que sale de una planta de ensamblaje.
1.3.1 COMO SELECCIONAR LA MUESTRA ALEATORIA SIMPLE.

1. Construir el marco muestral.


El primer paso al seleccionar una muestra de una poblacin es hacer lo que llamaremos un marco
muestral, esto es, una lista completa y actualizada de todos los elementos de la poblacin.

2. Especificar si el muestreo ser con o sin reposicion.


Tambin debe especificarse si la muestra se va a obtener con reposicin o sin reposicin.
Cuando muestreamos con reposicin de una poblacin de tamao N (el elemento seleccionado se
devuelve a la poblacin y por tanto puede seguir siendo considerado en cualquier otra extraccin) la
probabilidad de que cualquier elemento sea seleccionado es siempre la misma

l
N

para cualquier

extraccin.
El muestreo sin reposicin es el ms usual en la prctica, motivo por el cual le daremos mayor
atencin.
Cuando muestreamos sin reposicin de una poblacin de tamao N (el elemento seleccionado no se
devuelve a la poblacin y por tanto no puede seguir siendo considerado para otra extraccin) las

probabilidades de seleccionar los elementos restantes despus de cada extraccin van aumentando
porque el tamao de la poblacin se va reduciendo en uno tras cada extraccin. De manera que la
probabilidad de seleccionar un elementor particular en la primera extraccin es

l
N

, la probabilidad

de seleccionar otro elemento particular en una segunda extraccin consecutiva es

l
N -1

y as

sucesivamente.
Al seleccionar sin reposicin una muestra aleatoria simple de tamao n de una poblacin finita de
tamao N puede demostrar que:

l
i) Cada muestra posible tiene una probabilidad

N

n

de ser seleccionada.

ii) Cada elemento de la poblacin tiene una probabilidad

n
N

de ser incluido en la muestra.

3. Utilizar una tabla de numeros aleatorios.


Una tabla de nmeros aleatorios consiste en una serie de dgitos generados en forma aleatoria y en
listados en la secuencia en la que fueron generados. Del conjunto de dgitos 0, 1, 2, 3, 4, 5, 6, 7, 8,
9 se seleccion con reposicin y con el apoyo de una computadora los dgitos que componen la
tabla, de tal forma que cada dgito tuvo siempre la misma probabilidad

l
10

de ser seleccionado.

Antes de aprender a utilizarla hay que observar como est construida. La tabla esta compuesta de
nmeros de 5 dgitos cada uno, arreglados en filas y columnas.
La utilizacin de la tabla constar de los siguientes pasos:
1. Asignar nmeros de cdigos a los elementos de la poblacin utilizando cierto nmero de
dgitos.
El nmero de dgitos a utilizar depender del tamao de la poblacin N y ser el mismo para cada
situacin.
Ejemplo, si N = 140 sus elementos se codificarn as: 001, 002, ... ,139, 140
Si N = 10 sus elementos se codificarn as: 1, 2, .... , 9, 0 donde 0 debe leerse como 10.
Si N = 100 sus elementos se codificarn as: 01, 02, , 99, 00 donde 00 debe leerse como 100.
Si N = 1000, N = 10,000, etc, se utilizar el mismo criterio anterior parar asignar nmeros de
cdigos a los elementos poblacionales.
2.

Escoja una entrada a la tabla.

La entrada se especificar dando un nmero de fila y un nmero de columna de manera arbitraria.

Un mtodo satisfactorio consiste en cerrar los ojos y colocar la punta de un lpiz en la tabla, el
nmero sealado por la punta ser la entrada a la tabla.

3.

Escoja una direccin.

Por ejemplo: Descendente , horizontal de izquierda a derecha , etc.


Si el nmero a seleccionar es mayor que N (o fue seleccionado previamente en un muestreo sin
reposicin) se descarta y se selecciona el siguiente.
Si al terminar la fila o columna en la direccin escogida, no se tienen an los n nmeros que
requiere la muestra, continue en la siguiente fila o columna.
4.

Hgale corresponde a cada nmero seleccionado de cdigo su elemento correspondiente.

EJEMPLO 1.1
Utilice la tabla de nmeros aleatorios para obtener una muestra aleatoria de 5 estudiantes de esta
clase.
EJEMPLO 1.2
La poblacin de supermercados de una ciudad se dan en la siguiente tabla.
*
*
N Super
01 02 03 04 05 06 07 08 09 10 11 12
Ventas diarias
8.1 7.5
(en miles de C$)

*
13

*
14

15

16

5.4 3.0 6.2 7.0 8.0 2.5 1.8 4.3 3.8 5..5 4.6 8.3 9.0 3.6

Si X representan las ventas diarias.


i)
Diga que representan y en el problema.
representa la venta diaria promedio de los supermercados y
total de los supermercados.
ii)

representa la venta diaria

Iniciando en la fila 26 y columna 4 de la tabla de nmeros aleatorios y con una direccin


horizontal de izquierda a derecha, tome una muestra aleatoria simple de 4 supermercados.
Luego mrquelos con un *.

Cada nmero de cdigo tendr dos dgitos porque la poblacin es de tamao N = 16. Observando,
para la fila 26 y columna 4, los dos primeros dgitos, obtenemos el nmero 96 que es rechazado
porque es mayor que 16.
Siguiendo en la direccin horizontal de izquierda a derecha, nos fijaremos ahora slo en los menores
o iguales que 16 y que no se repitan porque el muestreo se est realizando sin reposicin.
El resultado sern los nmeros:
14, 13, 12 y 05

que corresponden a los supermercados 14, 13, 12 y 05 sealados con un *.

1.3.2

COMO SELECCIONAR LA MUESTRA ALEATORIA SISTEMATICA

1. Numerar u ordenar los elementos poblacionales


Por ejemplo:

1, 2, 3, . . . . . . . N.

O bien:

1, 2, 3, . . . . . . . . . , N - simo.

2. Obtener el intervalo de muestreo


Si vamos a seleccionar una muestra de tamao n de una poblacin de tamao N, el intervalo de
muestreo se denota y define as
k

N
n

3. Seleccionar al azar un punto de arranque r


Para que cada elemento poblacional tenga igual probabilidad de integrar la muestra, se selecciona al
azar el punto arranque que ser un nmero r tal que 1 r k

4. Tomar cada k-simo elemento a partir del punto de arranque r


A partir del punto de arranque r aumente consecutivamente k, segn se muestra abajo, hasta obtener
n nmeros.
La muestra estar formada por los n nmeros:
r, r + k, r + 2k, . . . . .
Esto es, cada octavo, dcimo, vigsimo, trigsimo, cuadragsimo, etc. elemento a partir del
arranque.

Nota: Si k no es un entero, considere un k nuevo que ser el k original sin el punto decimal.
Luego seleccione un nmero aleatorio entre 1 y k nuevo al cual se le sumar consecutivamente k
nuevo hasta obtener n nmeros.
Finalmente suprima en estos n nmeros tantas cifras a la derecha como decimales existan en el k
original. Los nmeros resultantes formarn la muestra.
EJEMPLO 1.3
Tome una muestra sistemtica de 6 casas a partir de una manzana que comprende 78 casas.
1.

Haga una lista de las 78 casas y numere las 78 casas as:


1, 2, 3, 4, . . . . . . . . . . 78

2.

Obtenga el intervalo de muestreo


Como N = 78 y n = 6

N 78

13
n
6

3. Utilicemos la tabla de nmeros aleatorios para seleccionar de las primeras 13 casas, aquella con
la cual debemos comenzar.

Utilizando dos dgitos para codificar las casas, y entrando en la fila 2 columna 4 con una direccin
descendente obtenemos la casa 07

4. Si seleccionemos cada dcimotercera casa, arrancando con la casa 07, obtenemos los siguientes
nmeros de casas:
07, 20, 33, 46, 59, 72
EJEMPLO 1.4
A partir de una lista de 70 solicitudes de crdito tome una muestra sistemtica de 8 solicitudes.
1.

Numeremos las solicitudes as:

2.

Obtenga el intervalo de muestreo.


k original

3.

1, 2, 3, . . . . . . 70

N 70

8.75
n
8

k nuevo 875

Utilicemos la tabla de nmeros aleatorios para seleccionar un nmero entre 1 y 875

Usando tres dgitos, y entrando por la fila 28 columna 6 con una direccin de izquierda a derecha
obtenemos el nmero 400
4.

A partir de 400 aumente consecutivamente 875 hasta obtener los 8 nmeros


400, 1275, 2150, 3025, 3900, 4775, 5650, 6525

Finalmente se suprimen tantas cifras a la derecha como decimales existan en 8.75


La muestra estar formada por los siguientes nmeros de solicitudes:
4, 12, 21, 30, 39, 47, 56, 65
Hay situaciones donde es imposible proceder en la forma que hemos descrito, obligndonos, por tal
motivo, a implementar otros tipos de muestreos aleatorios. A continuacin presentamos una de estas
situaciones:
Cuando muestreamos una poblacin finita muy grande resulta tedioso numerar cada uno de sus
elementos, elegir nmeros aleatorios y despus localizar los elementos correspondientes.
Lo mismo suceder si tratamos numerar u ordenar sus elementos para despus tener que tomar cada
k-simo elemento sobre toda la poblacin.
Aqu lo que haremos es tratar de encontrar procedimientos que no favorezcan ni ignoren ninguna
parte de la poblacin por su accesibilidad o falta de ella, sino por el contrario tratar de que todos sus
elementos tengan posibilidad de ser incluidos en la muestra para que pueda tratarse como muestra
aleatoria.
Por ejemplo, si queremos obtener una muestra aleatoria de pequeos agricultores de un pas o
regin, tendremos que utilizar un mtodo o procedimiento que garantice que todos los pequeos
agricultores del pas tuvieron posibilidad de ser incluidos en la muestra.

10

1.3.3

MUESTRA ALEATORIA DE UNA VARIABLE ALEATORIA

Recordemos algunos experimentos aleatorios:


- Registrar el nmero de personas que llegan a un supermercado en un da.
- Anotar el tiempo que tarda un bus en llegar a su destino.
- Registrar la precipitacin pluvial anual en una regin determinada.
- Seleccionar al azar un elemento de una poblacin y observar la caracterstica de inters.
Asociado a cada uno de los experimento aleatorios anteriores existe una variable aleatoria que
representaremos por X. Qu representa X en cada una de los experimentos aleatorios anteriores ?
Si repetimos un experimento aleatorio cualquiera n veces (independientemente uno de otro y bajo
las mismas condiciones) y hacemos que la variable aleatoria Xi represente la observacin de X en la
i-sima realizacin del experimento. Entonces diremos que las variables aleatorias X1, X2,...,Xn
constituyen una muestra aleatoria de X.
Por ejemplo, seleccionemos una pieza electrnica de un proceso contnuo de produccin de una
fbrica y hagamos que la variable aleatoria X representa la duracin de la pieza.
La duracin de la primera pieza seleccionada puede representarse por la variable aleatoria X 1, la
duracin de la segunda pieza seleccionada por X2 y as sucesivamente hasta la duracin de la nsima pieza seleccionada por Xn. Para poder decir que X1, X2,...,Xn es una muestra aleatoria de X,
debemos asegurarnos de que las observaciones sean independientes y estn hechas bajo las mismas
condiciones normales de trabajo, esto es, que no se haya obtenido una observacin en un momento
en que el proceso de produccin estaba fallando.
Otro ejemplo, supongamos que la variable aleatoria X representa la precipitacin pluvial anual de
cierta localidad. La precipitacin pluvial anual durante el presente ao podra representarse por la
variable aleatoria X1 . Durante los aos siguientes las variables aleatorias X 2,...,Xn pueden definirse
anlogamente. Podemos considerar X1, X2,...,Xn como una muesta aleatoria de tamao n, obtenida
de la poblacin de todas las precipitaciones pluviales anuales posibles en esa localidad y podra
suponerse que las Xi son variables aleatorias independientes e idnticamente distribuidas.
1.3.4 ESTADISTICOS
Sea X1, X2,...,Xn una muestra aleatoria de una variable aleatoria X. Sea h una funcin de las
variables aleatorias X1, X2,...,Xn . Definimos que Y = h(X1, X2,...,Xn) es un estadstico
Observacin: Un estadstico es una variable aleatoria.
1.3.5 ESTIMADOR DE UN PARAMETRO
Sea X una variable aleatoria con una distribucin de probabilidades que depende de un parmetro
desconocido (theta). Sea X1, X2,...,Xn una muestra aleatoria de X. Sea g una funcin de las
= g(X1, X2,...,Xn) es un estimador de , donde
variables aleatorias X1, X2,...,Xn. Se define que

se leer theta con acento cincunflejo


Un estimador de un parmetro ser entonces un procedimiento o frmula que proporciona estimados
de ese parmetro a partir de los datos muestrales.

11

Observacin: Un estimador es un estadstico, es decir una variable aleatoria.

Por ejemplo, sea X1, X2,...,Xn una muesta aleatoria de tamao n de una variable aleatoria X cuya
distribucin de probabilidad depende de la media poblacional desconocida . Entonces
N

ser un estimador de la media poblacional

que llamaremos media muestral

Para una poblacin finita de tamao N


ser un estimador del total poblacional

NX

que llamaremos total muestral

EJEMPLO 1.5
1) Con la muestra del inciso ii) del ejemplo 1.2
Estime , y
Las ventas diarias que corresponden a los supermercados 14, 13, 12 y 05 son presentadas en la
siguiente tabla.
X i2
No. Super
Xi
05
12
13
14

6.2
5.5
4.6
8.3

38.44
30.25
21.16
68.89

24.6

158.74

Xi
24.6
X .

6.15 ( en miles de C$)


n
4

N X 16 ( 6.15 ) 98.4 ( en miles C$)

Xi
S2 .

2
( X )2
i

24.6
.
158.74 158.74 - 151.29
n
4

n -1
4 1
3
7.45

2.4833

S
2.4833 1.5758 (en miles de C$ )
3

12

2) Con la muestra del ejemplo 1.1, realice una encuesta dentro del aula de clase para estimar la
cantidad promedio de dinero que trajo hoy un estudiante. Cmo estimara la cantidad total de
dinero que trajeron hoy los estudiantes de esta clase.

1.3.6 PRECISION Y EXACTITUD DE UNA ESTIMACION.


Cuando hacemos una encuesta o una investigacin estadstica, los datos pueden ser recopilados a
travs de un cuestionario escrito o una entrevista personal o telefnica, lo cual da lugar a que se
cometan dos tipos de errores.
1. Errores de muestreo.
Estos errores ocurren debido a que slo se hace una observacin parcial de la poblacin.
El error de muestreo es la diferencia absoluta entre el resultado de la muestra y el parmetro.
Por ejemplo, si estamos estimando la media poblacional entonces el error de muestreo de una
estimacin se denota y define as
em

X-

Estos errores no son medibles porque los parmetros son desconocidos y aunque son aleatorios
pueden ser controlados.
De manera que a menor error de muestreo mayor precisin de la estimacin.
Mas adelante miraremos que lo que realmente tratamos de medir es un error de muestreo esperado
(promedio) al utilizar un determinado estimador.
2. Errores ajenos al muestreo.
Estos errores no ocurren debido al muestreo en s, sino a otras causas, motivo por el cual este tipo de
error puede ocurrir en un censo o muestreo.
Algunas causas de estos errores son:
i) Los intrumentos de medida (cuestionarios, entrevistas, etc.) no son precisos, esto es, no miden lo
que se pretende.
ii) Los entrevistados dan respuestas incorrectas.
iii) El entrevistador anota las respuestas en lugares inapropiados.
Estos errores no son medibles pero pueden ser controlados evitando la causa que los producen.
La exactitud de una estimacin tiene que ver con lo que llamaremos el error total, esto es, un
resultado del error de muestreo y los errores ajenos del muestreo.
Una preocupacin importante de toda encuesta o investigacin estadstica es hacer lo ms pequeo
posible el error total, es decir tratar de maximizar la exactitud aunque no sea medible directamente.
Para el ejemplo 1.5 parte 1), obtenga el error de muestreo correspondiente a la estimacin de

13
N

Como

x
N

88.6
5.5375 entonces e m
16

x -

= 6.15 5.5375 = 0.6125 (en miles

C$)
Cmo obtendra para el ejemplo 1.5 parte 2), el error de muestreo de la estimacin de
1.3.7

DISTRIBUCION MUESTRAL DE UN ESTIMADOR

A partir de aqu utilizaremos la teora de la probabilidad en la obtencin de instrumentos que


facilitarn la inferencia de los parmetros.
Supongamos que tenemos un estimador cualquiera de un parmetro de cierta poblacin
Consideremos todas las muestras posibles de tamao n que pueden seleccionarse de esa poblacin y
calculemos para cada muestra un estimado del parmetro. A partir de todos los estimados podemos
obtener una distribucin de probabilidad del estimador, que ser llamada la distribucin muestral
del estimador.
Es precisamente la media y la varianza de la distribucin muestral del estimador lo que nos ayudar
a conocer las propiedades deseables de un estimador para hacer las mejores inferencias sobre los
parmetros.
DISTRIBUCION MUESTRAL DE LA MEDIA
Para una poblacin con caracterstica de inters X y media poblacional , presentamos
grficamente la idea anterior aplicable a la media muestral donde hemos supuesto que se pudieron
seleccionar M muestras de tamao n de la poblacin.

Poblacion

muestras

media muestral

x1

x2

xM

Distribucin de probabilidad de X
(Distribucin muestral de X )

Fig. 1.1

14

EJEMPLO 1.6
Consideremos la poblacin compuesta por 5 representantes de ventas y el nmero de seguros de
vida que vendieron el mes pasado.
Representante
A
B
C
D
E

No. Seguros
8
6
4
10
6

Suponiendo que X representa el nmero de seguros vendidos.


i)

Construya la distribucin de la poblacin de X representndola grficamente.

Seleccionando todos los valores posibles de X y hacindoles corresponder a cada uno su


probabilidad obtenemos.
xi

f ( xi )

4
6
8
10

0.20
0.40
0.20
0.20
1.00

Tabla 1.1

f(X) 0.5
0.4
0.3
0.2
0.1
0
0

10

12
X

15

Fig. 1.2
ii)
Considerando todas las muestras posibles de tamao dos que pueden seleccionarse sin
reposicin y sin orden de la poblacin.
Construya la distribucin muestral de X representndola grficamente.
Seleccionando todas las muestras posibles de tamao n = 2 de la poblacin de tamao N = 5 y
calculando para cada una su media muestral obtenemos.
.
xi
Muestras
8, 6
8, 4
8, 10
8, 6
6, 4
6, 10
6, 6
4, 10
4, 6
10, 6
Verifique que hay

7
6
9
7
5
8
6
7
5
8


N
n


5
2

= 10 muestras posibles

Seleccionando todas las medias muestrales posibles y hacindoles corresponder a cada una su
probabilidad obtenemos.
xi

f (x i )

5
6
7
8
9

0.20
0.20
0.30
0.20
0.10
1.00

Tabla 1.2

16

f( X) 0.4
0.3
0.2
0.1
0
0

10

X
Fig. 1.3
1.3.8 PROPIEDADES DE UN ESTIMADOR
Podemos evaluar la calidad de un estimador de un parmetro analizando su distribucin muestral,
esto es, tomando en cuenta su media y su varianza.
( theta
Supondremos que (theta) representa un parmetro cualquiera de cierta poblacin y que
con acento circunflejo ) representa su estimador correspondiente.
Un buen estimador de un parmetro debe cumplir bsicamente las siguientes propiedades:
1. Insesgadura.
tiene una distribucin muestral con media de
de un parmetro es insesgado si
Un estimador
igual a , lo cual denotaremos as


se llama sesgado y a la diferencia
De otra manera,

le llamaremos sesgo.

Esto quiere decir que si utilizamos un estimador insesgado para hacer una estimacin particular de
un parmetro, sta puede ser menor o mayor que el parmetro, pero si utilizamos muchas veces el
mismo estimador entonces tendramos que el valor medio de todas las estimaciones sera igual al
parmetro.
Las distribuciones muestrales para un estimador insesgado y un estimador sesgado se ilustran en la
figura siguiente.

17

Estimador insesgado

Estimador sesgado

Fig. 1.4

Fig. 1.5

2. Eficiencia
Otra propiedad deseable de un estimador es que tenga distribucin muestral con varianza lo ms
pequea posible. Esto asegura una probabilidad alta de que una estimacin particular se encuentre
cerca del parmetro.
1 y
2 de un mismo parmetro y la varianza del estimador
1
Si se tienen dos estimadores
2 , lo cual denotaremos as.
es menor que la varianza del estimador
2 2
1 es ms eficiente que el estimador
2
Entonces el estimador
1

Las distribuciones muestrales de dos estimadores de un mismo parmetro se ilustran en la figura


siguiente.

Fig. 1.6

Fig. 1.7
Qu estimador preferira usted?

1 porque proporciona estimados ms cerca de que el estimador


2 ,
Naturalmente el estimador
2
2
esto es, porque
1

El mejor estimador posible es aquel que es insesgado y que posee una varianza menor que la de
cualquier otro estimador, motivo por el cual lo llamaremos estimador insesgado de mnima varianza.
, denotada por ,como un error de
Consideraremos la desviacin estndar del estimador
y que vendr a
muestreo esperado (promedio) que ser llamado error estndar del estimador
ser un indicador de la precisin del estimador.
EJEMPLO 1.7
i) Para la distribucin poblacional del ejemplo 1.6 calcule y 2
xi

f ( xi )

xi fi

4
6

0.20
0.40

0.80
2.40

( xi - 6.8 )2 f(xi )
1.568
0.256

18

8
10

0.20
0.20

1.60
2.00

0.288
2.048

1.00

6.80

4.160

= x i f (x i ) 6.8
2
2 = (x i - ) f (x i ) 4.16
2 = 4.16 seguros2
4.16 2.0396 seguros

ii) Para la distribucin muestral de la media del ejemplo 1.6 calcule X y X2 y verifique que
X

xi

f( x i )

x i f( x i )

5
6
7
8
9

0.2
0.2
0.3
0.2
0.1

1.0
1.2
2.1
1.6
0.9

0.648
0.128
0.012
0.288
0.484

1.0

6.8

1.560

X x i f (x i ) 6.8

(x i - 6.8 )

Por tanto

f (x i )

2
X = (x i - X ) 2 f (x i ) 1.56

Puede demostrarse (no lo haremos aqu) que X2 es menor que la de cualquier otro estimador de .
Como X representa el error estndar de la media muestral X , ser de inters saber que
X

1.560 1.2490 seguros

Debido a que X es considerado como un error de muestreo esperado (promedio) utilizaremos esta
medida para apreciar la precisin de X como estimador de .
1.3.9 MUESTREO EN POBLACIONES CON UNA DISTRIBUCION DE PROBABILIDAD
Puede demostrarse que si tenemos un poblacin cuya variable de inters X tiene una distribucin de
probabilidad con media y desviacin estndar entonces X seguir una distribucin de
probabilidad con
X

para cualquier n

siempre que el muestro se haya realizado de una poblacin infinita o bien muestreamos con
reposicin de una poblacin finita.

19

En smbolos tendramos que


X

(, )

( X

)
n

Si el muestreo se hizo sin reposicin de una poblacin finita de tamao N, se debe usar el factor de
correccin para poblacin finita (F C P F) al expresar el error estndar de X as
X

N - n
N - l

La introduccin del F C P F hace que X se vuelva ms pequeo porque

N - n
N - l

Algunas observaciones importantes relacionadas con el X son las siguientes:


X
i)
ii)
A menor menor X
iii)
A mayor tamao de muestra n menor X
iv)
A menor X mayor precisin del estimador X
EJEMPLO 1.8
Para la distribucin muestral de la media del ejemplo 1.6 calculemos ahora X
basndonos en la distribucin poblacional, esto es, aplicando las frmulas anteriores.

Sabemos que = 6.8 seguros y que = 2.0396 seguros


Por tanto X = 6.8 seguros
Como las muestras de tamao n = 2 se seleccionaron sin reposicin de una poblacin finita de
tamao N tenemos que
X

2.0396
2

N - n
N - l
5-2
2.0396

5 -1
2

0.75 2.0396

0.375 1.2490 seguros

Comparando estos resultados con los del ejemplo 1.7 concluimos que son iguales.

Muestreo en poblaciones normales


Cuando la caracterstica de inters X de los elementos de una poblacin sigan una distribucin
normal diremos que estamos ante una poblacin normal.
Puede demostrarse que si tenemos una poblacin normal con media y desviacin estndar
entonces X seguir tambin una distribucin normal
En smbolos tendramos que

20
X

Normal (

, )

~ Normal

( X

siempre que el muestro se haya realizado de una poblacin infinita


Si el muestreo se hizo sin reposicin de una poblacin finita de tamao N,
el error estndar de X se expresa as

N - n
N - l

Una representacin grfica de la idea anterior es la siguiente.

Fig. 1.8

Muestreo en poblaciones no normales


No es realista suponer siempre que la poblacin es normal.
En muchos casos no se tiene nign conocimiento de la distribucin de la poblacin.
Cuando se muestrea de una poblacin no normal no sabemos qu distribucin muestral seguir X
Observemos la distribucin muestral de X de la figura 1.3 del ejemplo 1.6 y preguntmonos qu
aspecto tomara si el tamao de la muestra hubiera sido ms grande; probablemente la distribucin
muestral de X sera ms simtrica.
La pregunta anterior nos conduce al teorema ms importante en la Estadstica bsica, el teorema del
lmite central.
Teorema del lmite central
Si muestreamos una poblacin no normal, con media y desviacin estandar , utilizando un
tamao de muestra suficientemente grande, esto es n 30, entonces X tendr una distribucin
aproximadamente normal.
En smbolos tendramos que

21
X

No Normal ( , ) y n 30

aprox. Normal ( X

)
n

siempre que el muestro se haya realizado de una poblacin infinita


Si el muestreo se hizo sin reposicin de una poblacin finita de tamao N,
el error estndar de X se expresa as

N - n
N - l

Este teorema es importante porque le permite al investigador hacer inferencias en cuanto a la media
poblacional sin tener que conocer la forma especfica de la distribucin de la poblacin.
1.3.10

ESTIMADOR PUNTUAL Y POR INTERVALO

Un estimador puntual de un parmetro es aquel que proporciona un nico estimado de ese


parmetro al utilizar los datos muestrales.
Un estimador por intervalo de confianza de un parmetro es aquel que define un par de variables
aleatorias Li y Ls (que llamaremos lmite inferior y lmite superior del intervalo) entre los cuales
diremos que hay una probabilidad de 1 - (que llamaremos nivel de confianza) de que el
parmetro se encuentre entre dichos lmites; y tambin diremos que hay una probabilidad (que
llamaremos riesgo) de que no se encuentre entre dichos lmites.
Cada muestra particular proporcionar un intervalo conocido que llamaremos intervalo de confianza
del (1 - )100% para el parmetro.
En un muestreo repetido esperamos que un (1 - )100% de los intervalos particulares cubran el
parmetro y que un ( ) 100% no lo cubran.
Las frmulas que presentaremos para los estimadores puntuales y por intervalo de cualquier
parmetro en un muestreo aleatorio simple sern aplicables tambin al muestreo aleatorio
sistemtico.
1.3.11 ESTIMADOR PUNTUAL DE Y
N

Un estimador puntual de la media poblacional

es la media muestral

Xi

n
N

Un estimador puntual del total poblacional x i es el total muestral

ERROR ESTANDAR DE X Y NX

NX

22

El error estndar de la media muestral X se denota y define as

si la poblacin es infinita y

N - n
N - l

si la poblacin es finita.

El error estndar del total muestral NX se denota y define as


NX N X

1.3.12 ESTIMADOR POR INTERVALO PARA y

CUANDO ES CONOCIDA.

Puesto que X vara de una muestra a otra, se necesita contar con un estimador de ms aplicable a
la realidad, objetivo que se logra cuando tomamos en cuenta la distribucin muestral de X , segn
veremos a continuacin.
Cuando la desviacin estndar poblacional sea conocida y utilicemos X como estimador de ,
supondremos que tiene una distribucin aproximadamente normal y que por tanto podemos expresar
el error de muestreo, X - , en unidades del error estndar de X , es decir, podemos estandarizar
la variable aleatoria X as
X -
Z
X
Obteniendo otra variable aleatoria Z que tendr distribucin normal estndar.
Como P( z /2 Z z /2 ) 1 donde z /2 es un valor de la normal estndar que tiene

a su derecha una rea acumulada de


y a su izquierda un rea acumulada de 1 2
2
Podemos sustituir la expresin anterior de Z en esta desigualdad y obtener

X -
z /2
P - z /2
X

1 -

Haciendo algunas manipulaciones algebraicas dentro de la desigualdad llegamos a que:


P

X - z/2 x X z /2 x 1 -

El resultado anterior es equivalente a decir que hay una confianza del (1 - )100% de que

23
X - z /2 x

z /2 x

O de una manera ms breve, diremos que un estimador por intervalo de confianza del (1 - )100%
para estar dado por
X

donde X - z/2 X ser el lmite inferior


intervalo.

z /2 x

z/2 x

ser el lmite superior del

Con un razonamiente similar podemos llegar a la conclusin de que un estimador por intervalo de
confianza del (1 - )100% para est dado por
NX z /2 NX

donde

NX N X

Si sustituimos X o NX por su correspondiente frmula segn la poblacin sea infinita o finita,


llegamos al siguiente resultado:
Si una poblacin es normal, esto es, si su caracterstica de inters X tiene una distribucin normal
con desviacin estndar conocida, entonces:
1) Un estimador por intervalo de confianza del ( 1 - ) 100% para est dado as:
i)

Para una poblacin infinita.


X z /2

para cualquier n

donde z /2 es un valor de la normal estndar que tiene a su izquierda una rea acumulada de

1 -

y el lmite inferior ( Li ) es la diferencia sealada por las expresiones anteriores y el lmite


superior ( Ls ) es la suma sealada por las mismas expresiones.
ii)

Para una poblacin finita.


X z/2

N - n
N - 1

para cualquier n

donde el lmite inferior ( Li ) es la diferencia sealada por las expresiones anteriores y el lmite
superior ( Ls ) es la suma sealada por las mismas expresiones.
2) Un estimador por intervalo de confianza del ( 1 - ) 100% para est dado as:
N X z /2 N

N - n
N - 1

para cualquier n

donde el lmite inferior ( Li ) es la diferencia sealada por las expresiones anteriores y el lmite
superior ( Ls ) es la suma sealada por las mismas expresiones.

24

Notas:

z /2 es un valor que se obtiene de la expresin

P( Z < z/2 ) = 1 -

n
N - n
0.05 podemos omitir el factor de correccin
N
N -1
N-n
La introduccin del factor
en la frmula reduce el error estndar del estimador.
N -1
n
La proporcin muestral
representa la proporcin de la poblacin que se ha muestreado.
N
n
n
N-n
1Podemos utilizar
como una aproximacin de
donde 1 representa la
N
N
N -1

Si la fraccin muestral

proporcin de la poblacin que no se ha incluido en la muestra.

Si la poblacin es no normal pero n 30 podemos aplicar el teorema del lmite central


para garantizar la aplicacin de las frmulas anteriores a esas circunstancias.

1.3.13 DETERMINACION DEL TAMAO DE MUESTRA PARA


La determinacin del tamao de muestra podemos decir que es un procedimiento sujeto a
restricciones de presupuesto, tiempo y facilidad de seleccin.
Tratemos ahora de obtener una frmula para el tamao de muestra.
Supongamos que X es un estimador de
X -

y que queremos estimar

de tal forma

Esto es, que los errores de muestreo tengan un valor mximo E que llamaremos error mximo
permitido en la estimacin de .
Si queremos tener una confianza del ( 1 - ) 100% de que E sea el mximo error permitido,
escribiremos
P ( X - E) 1 -
Manipulando algebraicamente esta expresin llegamos a que
P

X -E X E 1-

El resultado anterior es equivalente a decir que hay una confianza del (1 - )100% de que
X - E

X E

o de una manera ms breve, diremos que un estimador por intervalo de confianza del (1 - )100%
para estar dado por

25
X

lo cual es otra manera equivalente de representar el estimador por intervalo de confianza del ( 1 - )
100% para .
X

z/2 x

Comparando las dos expresiones equivalentes concluimos que el error mximo permitido en la
estimacin de es
E z /2 x

De manera similar podemos concluir tambin que el error mximo permitido en la estimacin de
es
E z/2 N x
Si sustituimos x por su correspondiente frmula en E z/2 x segn la poblacin sea
infinita o finita y luego solucionamos para n llegamos al siguiente resultado:

El tamao de muestra requerido n para estimar con error mximo permitido E y un nivel de
confianza de ( 1 - ) 100% es
i)

Para una poblacin infinita


2

z
n /2
E

ii)

Para una poblacin finita


2

z /2

no

Si

no
0.05,
N

n0 puede ser reducida a

no

noN
( N - 1)

Por consiguiente para determinar el tamao de la muestra, se tienen que conocer tres factores:
1. El nivel de confianza deseado, que determina el valor de z /2
2. El error mximo permitido, E
3. La desviacin estndar poblacional,
Observe que el cuadrado del error mximo permitido es inversamente proporcional al tamao de la
muestra.

26

Para el error de muestreo permitido se debe pensar qu tanto error se puede aceptar y con qu
nivel de confianza de manera que an se puedan proporcionar conclusiones adecuadas.
Cuando no se conozca utilizaremos su estimador S.
Tambin, cuando estemos determinando el tamao de la muestra, cualquier resultado decimal
siempre se redondear hacia el entero inmediato superior.
Finalmente, si la poblacin no es normal y el tamao de muestra que se est calculando est por
debajo de 30 entonces debe incrementarse a 30, porque las frmulas anteriores se basan en el uso de
la distribucin normal.

EJEMPLO 1.9
Una mquina empaca azcar en bolsas plsticas. Se quiere estimar el peso promedio de las bolsas
de azcar sabiendo por estudios anteriores que la desviacin estndar poblacional es de 0.10 lbs.
Del flujo de produccin se toma una muestra aleatoria sistemtica de 10 bolsas, obteniendo los
siguientes pesos en libras.
5.10, 4.90, 4.80, 5.15, 5.05, 4.95, 4.97, 4.85, 5.03, 5.00
Suponiendo que el peso de las bolsas de azcar se distribuye normalmente:
i)

Obtenga un intervalo de confianza del 80% para el peso promedio de las bolsas de azcar.

Iniciaremos el planteo de este problema as:


Los elementos son las bolsas de azcar. La poblacin se considera infinita
X representa el peso de las bolsas de azcar. La poblacin es normal con conocida
representa el peso promedio de las bolsas de azcar. n = 10 bolsas de azcar.
La frmula para esta situacin es

X z/2

27
n

donde

X
n

lbs. y z /2 lo determinamos de P( Z < z/2 ) = 1 49.8


2
4.98
10

as
Como la tabla de la distribucin Z slo presenta reas acumuladas a la izquierda, encontremos el

valor de 1 as: 1 - = 0.80


= 0.20
= 0.10
1=
2

0.90
Segn la tabla de la distribucin de Z el rea ms cercana a 0.90 es 0.8997. Trace a partir de esta
rea una lnea horizontal imaginaria hacia la izquierda (que sealar 1.2 ) y luego otra lnea vertical
imaginaria hacia arriba (que sealar 8). Se dir que al rea 0.90 le corresponde z /2 = 1.28
Sustituyendo X , z /2 , y n por su valores co rrespondientes obtenemos
0.10

10

4.98 1.28

4.98 1.28 ( 0.0316 )


4.98 0.0404

Podemos decir con un 80% de confianza de que

Li = 4.9396 lbs. y Ls = 5.0204 lbs.


4.9396 5.0204

y con un 20% de riesgo de que no est comprendida entre esos lmites.


ii) Identifique el error muestral promedio en la estimacin por intervalo del inciso i)
x = 0.0316 lbs.
iii) Con la misma muestra anterior, obtenga otro intervalo de confianza para el peso promedio de
las bolsas de azcar, pero con un nivel de confianza del 97%. Compare la longitud de este intervalo
con el obtenido en el inciso i) haciendo los comentarios pertinentes.

z /2 lo determinamos de P( Z < z/2 ) = 1 - as


2

1 - = 0.97

= 0.03

= 0.015
2

1-

= 0.985

Segn la tabla de la distribucin de Z, al rea acumulada 0.985 le corresponde z /2 = 2.17


Sustituyendo X , z /2 , y n por su valores correspondientes obtenemos
0.10

10

4.98 2.17

4.98 0.0686

Li = 4.9114 lbs. y Ls = 5.0486 lbs.

28

Podemos decir con un 97% de confianza de que


4.9114 5.0486
Observemos que la longitud de este intervalo es mayor que la longitud del intervalo del inciso i),
esto significa que entre ms confiable sea nuestra estimacin menos precisa ser.
iv) Identifique el valor del error mximo permitido con una confianza del 80% en la estimacin
del inciso i)
E = 0.0404 lbs
v) Si quiero estimar el peso promedio de las bolsas de azcar con una confiabilidad del 90% de que
el error mximo permitido sea de 0.0313 lbs, Cul debe ser el tamao de la muestra?
Como la poblacin es infinita, la frmula es
z/2
E

n =

Sustituyendo z /2 , y E por sus valores correspondientes obtenemos


n

1.65 (0.10)

0.0313

= 27.7894 28 bolsas

Se necesita una muestra de tamao n = 28 bolsas para tener una confiabilidad del 90% de que el
error mximo permitido sea de 0.0313 lbs.

EJEMPLO 1.10
Consideremos el conjunto de todas las pequeas industrias de un determinado artculo. Se quiere
estimar la produccin anual total de las industrias y se sabe, en base a estudios anteriores, que la
desviacin estndar poblacional de las producciones anuales es igual a 2 en miles de unidades. Con
tal propsito se selecciona de un listado actualizado de 826 industrias una muestra aleatoria de 50
industrias, obteniendo una produccin anual promedio de 5.52 en miles de unidades.
i)

Encuentre un intervalo de confianza del 90% para la produccin anual total de las industrias.

Los elementos son las pequeas industrias. La poblacin es finita de tamao N = 826
X representa la produccin anual por industria. La poblacin se supone que no es normal y
es conocido.
representa la produccin anual promedio. representa la produccin anual total
n = 50 pequeas industrias
Aunque la poblacin no sea normal podemos aplicar, segn el teorema del lmite central, la siguiente
frmula:

29

NX

Observe que

n
N

z/2 N

50
826

N-n
N -1

porque n 30

0.0605 0.05 y que por tanto no podemos omitir el factor de

correccin.
Sustituyendo X , z /2 , , n y N por sus valores correspondientes obtenemos
826 (5.52) 1.65 (826)

2
50

826 - 50
826 - 1

4559.52 1.65 (826) (0.2828) (0.9698)


4559.52 373.7882

Li = 4185.7318

y Ls = 4933.3082

Podemos decir con un 90% de confianza de que


4185.7318 4933.3082 (en miles de unidades)
ii) Con una confianza del 95% calcule el valor del error mximo permitido en la estimacin de la
produccin anual total del inciso i)
E z/2 N X = 1.96 (226.5383) = 444.0151
iii)
Si quiero estimar la produccin anual promedio de las industrias con una confiabilidad del
80% de que el error mximo permitido sea de 300 unidades, Cul debe ser el tamao de la
muestra?
Como la poblacin es finita, la frmula es
2

z/2
E

no =

Compruebe que z /2 = 1.28 y que E =

300
= 0.3 en miles de unidades.
1000

Sustituyendo z /2 , y E por sus valores correspondientes obtenemos


no =

Como =

n =

1.28 (2)
0.3

= 72.8178

no
72.8178

= 0.0882 0.05, podemos reducir no a


N
826

no
industrias.

n0 N
72.8178 (826)
60147.5028

( N - 1)
72.8178 825
897.8178

= 66.9930 67 pequeas

30

1.3.14

LA DISTRIBUCION t DE STUDENT

Cuando la desviacin estndar poblacional sea desconocida y X tenga una distribucin normal o
aproximadamente normal, tendremos primero que estimar para poder estimar x .
ERROR ESTANDAR ESTIMADO DE X Y NX

El error estndar estimado de la media muestral X se denota y define as.

S
n

si se muestre de una poblacin infinita

S N - n si se muestre sin reposicin de una poblacin finita de tamao N


n N - 1

donde S es un estimador insesgado de

El error estndar estimado del total muestral NX se denota y define as.

NX N
X

De manera que la estandarizacin de X estar dada por la siguiente expresin


X -

la cual incluye una variable aleatoria en el denominador porque S es variable aleatoria, y por lo tanto

X , tambin es una variable aleatoria.

Esto da como resultado que la estandarizacin de X ya no sea la variable aleatoria Z sino otra
variable aleatoria que representaremos por t y que tendr una distribucin de probabilidad conocida
con el nombre de distribucin t de Student con n 1 grados de libertad, ya que fue investigada
originalmente por William Gossett, quien public sus escritos con el seudnimo Student.
El hecho de tener que estimar el parmetro

con los mismos n datos que se utilizan para poder

calcular el valor del estadstico t, hace que t pierda un grado de libertad, esto es, que quede con n
1 grados de libertad (g.l).
CARACTERISTICAS
1. Es una familia de distribuciones t de tal forma que cada vez que se especifiquen sus grados de
libertad n 1, se produce una distribucin t particular.

31

2. Es simtrica y de forma acampanada con


t 0

n
,
n - 2

n 2

3. Como es ligeramente superior a 1, la distribucin t es aplastada en comparacin a la normal


t
estndar, es decir, platicrtica.
4. Cuando el nmero de grados de libertad tiende a infinito, la distribucin t se convierte en
distribucin Z.
La distribucin t se considera muy parecida a la distribucin Z cuando n 30
dist. Z

dist. t

Fig. 1.9

1.3.15 ESTIMADOR POR INTERVALO PARA Y CUANDO ES DESCONOCIDA


Ahora que ya estudiamos la distribucin t de student, podemos utilizar el mismo razonamiento que
se utiliz para la distribucin Z para demostrar que las expresiones que definen los lmites inferior y
superior de un intervalo de confianza para y son:
X

t/2
X

N X

t /2
NX

respectivamente.
donde t /2 es el valor de la distribucin t con n 1 grados de libertad que tiene a su derecha un rea

acumulada de
2

32

X o
Si sustituimos
N X por su correspondiente frmula segn la poblacin sea infinita o finita,
llegamos al siguiente resultado:
Suponga que estamos ante una poblacin normal y que S es una estimador de

1) Un estimador por intervalo de confianza del ( 1 - ) 100% para est dado as:
i)

Para una poblacin infinita


X t/2

S
n

siempre que n 30

donde t /2 es un valor de la distribucin t de Student que tiene a su derecha una rea de

y el lmite inferior ( Li ) es la diferencia sealada por las expresiones anteriores y el lmite


superior ( Ls ) es la suma sealada por las mismas expresiones.
ii)

Para una poblacin finita


X t /2

S
n

N-n
N -1

siempre que n 30

donde el lmite inferior ( Li ) es la diferencia sealada por las expresiones anteriores y el lmite
superior ( Ls ) es la suma sealada por las mismas expresiones.
2) Un estimador por intervalo de confianza del ( 1 - ) 100% para est dado as
N X t /2 N

S
n

N-n
N -1

siempre que n 30

Notas:

t /2 se obtiene de la expresin P(t t /2 ) =

Si

n
0.05 podemos omitir el factor de correccin
N

N-n
N -1

Observacin 1.
Si la poblacin es normal y n 30 entonces segn la caracterstica 4 de la distribucin t,
podemos escribir en todas las frmulas anteriores z como una aproximacin de t
Observacin 2.
Si la poblacin es no normal, pero n 30 entonces segn el teorema del lmite central y la
caracterstica 4 de la distribucin t, tambin podemos escribir en todas las frmulas anteriores z
como una aproximacin de t.
Segn la distribucin poblacional y el tamao de muestra se presentan en la tabla de abajo distintas
situaciones en las cuales los estadsticos Z o t pueden ser utilizados.

33

DISTRIBUCION DE LA POBLACION
Normal
No Normal

Tamao
de
muestra n

conocido

desconocido

n 30

n 30

conocido

desconocido

Con un razonamiento similar al realizado en la situacin cuando era conocido llegamos a que:
El error muestral mximo permitido en la estimacin de es E t / 2 X

El error muestral mximo permitido en la estimacin de es E t/2 N X


EJEMPLO 1.11
Un auditor quiere estimar el saldo promedio y el saldo total de una poblacin de 1000 cuentas por
cobrar. Con tal propsito selecciona al azar una muestra de 6 cuentas, obteniendo los siguientes
resultados en miles de crdobas.
2.6 ,

3.0 ,

3.5 ,

2.4 ,

2.0

1.5

Si suponemos que los saldos de las cuentas se distribuyen aproximadamente normal.


1) Determine un intervalo de confianza del 90% para:
i) el saldo promedio de las cuentas
ii) el saldo total de las cuentas
Los elementos son las cuentas por cobrar. La poblacin es finita de tamao N = 1000
X representa el saldo de la cuenta. Asumimos que la poblacin es normal pero se desconoce
representa el saldo promedio. representa el saldo total.
n=6

i)

La frmula correspondiente para esta situacin es


X t/2

Como

n
=
N

S
n

N-n
N -1

6
= 0.006 0.05 podemos omitir el factor
1000

N-n
N -1

X y S lo determinamos a partir de la muestra de la siguiente manera:

34
n

Xi
2.6

Xi

9.00

3.5

12.25

2.4

5.76

2.0

4.00

1.5

2.25

15
2.5 (en miles de C$)
6

6.76

3.0

15.0

Xi

S2

40.02

( X i ) 2
.

n 1
40.02 - 37.5
5

40.02 -

15 2
6

6 -1

2.52
0.5040
5

(en miles de C$)

0.5040 0.7099

El valor t /2 lo determinaremos de la expresin P(t t /2 ) =

Como la tabla de la distribucin t de Student slo presenta reas acumuladas a la derecha,

0.05
encontremos el rea
as:
1 - = 0.90 = 0.10
2

Ahora tracemos dos lneas imaginarias, una horizontal que pase por n -1 = 6 1 = 5 y otra vertical
que pase por 0.05. En la interseccin de las lneas anteriores encontraremos el valor t /2 = 2.015
Sustituyendo X , t /2 , S y n por sus valores correspondientes obtenemos.
2.5 2.015

0.7099
6

2.5 2.015 ( 0.2898 )


2.5 0.5839

Li = 1.9161 y Ls = 3.0839 (en miles de C$.)

Podemos decir con un 90% de confianza de que


1.9161 3.0839

ii) La frmula correspondiente para esta situacin es


N X t /2 N

donde tambin se puede omitir el factor

S
n

N-n
N -1

Como t /2 no cambia, podemos sacar de factor comn N

N-n
N -1

35

N X t/2

1000 ( 2.5 0.5839 )

Li = 1916.1 y Ls = 3083.9 (en miles de C$.)

Luego podemos decir con un 90% de confianza de que


1916.1 3083.9

(en miles de C$.)

2) Con una confianza del 98% calcule el valor del error mximo permitido en la estimacin del
saldo promedio de las cuentas del punto 1) inciso i)
E t/2 X = 3.365 (0.2898) = 0.9752

(en miles de C$.)

3) Si el auditor quiere estimar el saldo promedio de las cuentas con un error de ms o menos C$
500 y con una confianza del 98%, qu tamao mnimo de muestra se requiere?
Como la poblacin es finita y es desconocida, la frmula es
z/2 S
E

no =

Compruebe que z /2 = 2.33 y que E =

500
= 0.50
1000

(en miles de C$.)

Sustituyendo z /2 , s y E por sus valores correspondientes obtenemos


no =

Como =

2.33 ( 0.7099 )

0.5

n0
10.9438

= 0.0109 0.05,
N
1000

= 10.9438

no no puede ser reducida

Luego n 11 cuentas por cobrar.

EJEMPLO 1.12
Suponga para el ejemplo 1.11 que ahora el auditor decide seleccionar una muestra aleatoria de 36
cuentas por cobrar, obteniendo los siguientes resultados en miles de crdobas.
X = 2.6

S = 0.5

(en miles de C$)


(en miles de C$)

i) Determine un intervalo de confianza del 95% para el saldo promedio de las cuentas.

36

Como la poblacin es normal, desconocida y n 30 podemos escribir z como una


aproximacin de t en la frmula del intervalo de confianza para , quedando as
S
n

X z /2

Como

n
=
N

N-n
N -1

36
= 0.036 0.05 podemos omitir el factor
1000

N-n
N -1

Sustituyendo X , z /2 , S y n por sus valores correspondientes


2.6 1.96

0.5
36

2.6 1.96 ( 0.0833 )


2.6 0.1633

Li = 2.4367 y Ls = 2.7633 (en miles de C$)

Entonces podemos decir con un 95% de confianza de que


2.4367 2.7633

(en miles de C$)

ii)
Identifique el valor del error muestral promedio en la estimacin del saldo promedio de las
cuentas del inciso i)
X = 0.0833

(en miles de C$)

EJEMPLO 1.13
Se va a vender un nuevo cereal para desayuno como prueba de mercados durante un mes en las
tiendas de una cadena de autoservicio. Los resultados de una muestra de 36 tiendas indicaron ventas
promedio de C$ 1200 con una desviacin estndar de C$ 180.
i) Establezca un intervalo de confianza del 99% para las ventas promedios reales de este nuevo
cereal.
Los elementos son las tiendas. La poblacin se considera muy grande o infinita
X representa las ventas por tienda. Se supone que la poblacin no es normal y que se desconoce
representa las ventas promedios de las tiendas
n = 36 , X = 1200 y
S = 180
La poblacin no es normal, pero n 30, esto nos permite utilizar el teorema del lmite central
y la caracterstica 4 de la distribucin t, para escribir z como una aproximacin de t en la
frmula del intervalo de confianza para , quedando as
X z /2

S
n

Sustituyendo X , z /2 , S y n por sus valores correspondientes

37

1200 2.58

180
36

1200 77.40

Li = C$ 1122.60 y Ls = C$ 1277.40

Podemos decir con un 99% de confianza de que


C$ 1122.60 C$ 1277.60
ii) Si la cadena tiene 200 tiendas, establezca un intervalo de confianza del 99% para las ventas
promedios reales de este producto.
Si N = 200 tiendas, la poblacin es finita y la frmula es
S
n

X z /2

Como

N-n
N -1

n
36
=
= 0.18 0.05, no podemos omitimos el factor
N
200

N-n
N -1

Sustituyendo X , z /2 , S , n y N por sus valores correspondientes


1200 2.58

180
36

200 - 36
200 - 1

1200 77.40 (0.9078)


1200 70.2637 Li = C$1129.7363 y Ls = C$1270.2637
Podemos decir con un 99% de confianza de que
C$1129.7363 C$1270.2637
Al comparar este intervalo con el obtenido en el inciso i) notamos que tiene una longitud menor,
esto es, que proporciona mejor precisin al mismo nivel de confianza.

1.3.16 POBLACIONES CON DISTRIBUCIONES DE BERNOULLI


En estas poblaciones la caracterstica de inters Y es una variable aleatoria que presenta solamente
dos resultados mutuamente excluyentes y exhaustivos que llamaremos xito (E) y fracaso (F).
Estos resultados pueden ser cuantificados as

38

1 si se tiene un E
Y
0 si se tiene un F
Bajo las circunstancias anteriores diremos que Y tiene una distribucin de Bernoulli dada por la
siguiente expresin.

p si y 1
f ( y)
1 - p si y 0
Se demuestra fcilmente que Y = p y que Y =

p (1- p )

En esta poblacin ser de nuestro inters la estimacin de dos parmetros:


N

El total poblacional =

yi

y la media poblacional

Y =

El total poblacional lo definiremos as


= N total de xitos en la poblacin
Debido al hecho de que Y = p , donde p es una probabilidad (un nmero entre 0 y 1 ), la media
poblacional ser llamada proporcin poblacional y la denotaremos y definiremos as
p

N 0 total de xitos en la poblacin


Tamao de la poblacin

1.3.17 ESTIMADOR PUNTUAL DE p Y


La seleccin de muestras aleatorias de poblaciones con distribuciones de Bernoulli, nos permitirn
la utilizacin de los siguientes estimadores.

El estimador de p ser la proporcin muestral que denotaremos y definiremos as.


n

pS

X
No. total de xitos en la muestra

n
Tamao de la muestra

El estimador de ser el total muestral que denotaremos y definiremos as

39

N ps
1.3.18 DISTRIBUCION MUESTRAL DE pS
Cuando n sea suficientemente grande, es decir cuando n p 5 y n ( 1 p ) 5, entonces pS
por ser una media muestral tendr segn el teorema del limite central una distribucin muestral
aproximadamente normal con
pS Y p

Y p(1 p) p (1 p)

si la poblacin es infinita

n
n
n
pS
Y N n p (1 p) N n si la poblacin es finita
n N 1
n
N 1
1.3.19 ERROR ESTANDAR ESTIMADO DE pS Y N pS

El error estndar estimado de la proporcin muestral pS se denota y define as.

p S (1 p S )

si la poblacin es infinita

pS

p S (1 p S ) N n si la poblacin es finita

n
N 1

donde pS es el estimador de p

El error estndar estimado del total muestral NpS se denota y define as.
Np S N p S

40

1.3.20 ESTIMADOR POR INTERVALO PARA p Y


Puede demostrarse que las expresiones que definen los limites inferior y superior de un intervalo de
confianza para p y son:
p S z p S
/2

Np S

z /2

Np S

respectivamente.

p o NpS por su correspondiente frmula, segn la poblacin sea infinita o finita,


Si sustituimos
llegamos al siguiente resultado:
S

Supongamos que estamos ante una poblacin con distribucin de Bernoulli y que hemos
seleccionado una muestra suficientemente grande, esto es, n p 5 y n ( 1 p ) 5
1) Un estimador por intervalo de confianza del ( 1 - )100 % para p esta dado as
i)

Para una poblacin infinita


p S z/2

pS ( 1 - p S )
n

donde z /2 es un valor de la normal estndar que tiene a su derecha una rea acumulad de

y el lmite inferior ( Li ) es la diferencia sealada por las expresiones anteriores y el lmite superior
( Ls ) es la suma sealada por las mismas expresiones.
ii)

Para una poblacin finita

p S z/2

p S ( 1 - pS )
n

N-n
N -1

donde el lmite inferior ( Li ) es la diferencia sealada por las expresiones anteriores y el lmite
superior ( Ls ) es la suma sealada por las mismas expresiones.
Si

n
0.05 , podemos omitir el factor de correccin
N

N-n
N -1

2) Un estimador por intervalo de confianza del ( 1 - ) 100% para est dado as


Np S z/2 N

pS ( 1 - pS )
n

N-n
N -1

donde el lmite inferior ( Li ) es la diferencia sealada por las expresiones anteriores y el lmite
superior ( Ls ) es la suma sealada por las mismas expresiones.

41

Si

n
0.05 , podemos omitir el factor de correccin
N

N-n
N -1

1.3.21 DETERMINACION DEL TAMAO DE MUESTRA PARA p


Haciendo un razonamiento similar al utilizado para el tamao de muestra para podemos concluir
que el error mximo permitido en la estimacin de p es
E z/2 p S
p por su correspondiente frmula, segn la poblacin sea infinita o finita y luego
Si sustituimos
resolvemos para n llegamos al siguiente resultado:
S

El tamao de muestra requerido n para estimar p con un error mximo permitido E y un nivel de
confianza de ( 1 - ) 100% es
i)

Para una poblacin infinita


2

z /2

n p(1 p)

ii)

donde p puede ser estimado con pS

Para una poblacin finita.


2

z/2

n 0 p(1 p)

Si

no
0.05,
N

donde p puede ser estimado con pS

n0 puede ser reducida a


n

no

noN
( N - 1)

Si no se cuenta con una estimacin de p , utilizaremos en la frmula anterior el valor de p que hace
mxima la expresin p ( 1 p ), es decir tomaremos p = 0.50
EJEMPLO 1.14
El gerente de una cadena de tiendas de departamentos desea determinar la proporcin de poseedores
de tarjetas de crdito que compraran en las tiendas si estuvieran abiertos los domingos. Con tal
propsito decide seleccinar una muestra aleatoria de 100 tarjetahabientes, la cual inform que 60
compraran los domingos.
i) Encuentre un intervalo de confianza del 99% para la proporcin real de tarjetahabientes que
compraran los domingos.

42

Iniciaremos el problema plantendolo as


Los elementos son los tarjetahabientes
La poblacin se considera muy grande o infinita
Y representa la disposicin de los tarjetahabientes en comprar o no comprar.
Como estamos interesados en los que estn dispuestos a comprar, el xito ser comprar.esto es,

1 si compra
Y
0 si no compra
La poblacin tiene una distribucin de Bernoulli
p representa la proporcin de tarjetahabientes que compraran los domingos.
n = 100 tarjetahabientes, X = 60 tarjetahabientes y pS =

X
60

= 0.60
n
100

Como n pS = 100 (0.60) = 60 5 y n ( 1 - pS ) ) = 100 (0.40) = 40 5,


la frmula es
pS z /2

pS ( 1 - pS )
n

donde z /2 = 2.58
El gerente seleccion un elevado nivel de confianza del 99% en la estimacin de p porque quiere
sentirse seguro antes de tomar esta importante decisin de comercializacin.
Sustituyendo pS , z /2 y n por sus valores correspondiente obtenemos
0.60 2.58

0.60 (0.40))
100

0.60 2.58 (0.0490)


0.60 0.1264

Li = 0.4736

Podemos decir con un 99% de confianza de que


0.4736 p 0.7264

Ls = 0.7264

43

ii)

Identifique el valor del error mximo permitido en la estimacin de la proporcin real de


tarjetahabientes que compraran los domingos del inciso i)
E = 0.1264

iii)
Si el gerente quiere estimar la proporcin real de tarjetahabientes que compraran los
domingos con un 99% de confianza de tener una tolerancia de 0.025, qu tamao de muestra se
requiere?
Como la poblacin es muy grande, la frmula correspondiente es
z/2

n = p(1p)

Utilizando pS como una estimacin de p y sustituyendo z /2 y E por sus valores correspondientes


n = 0.60 (0.40 )

2.58

0.025

= 0.24 (10650.24) = 2556.0576 2557 tarjetahabientes.

Observe que la muestra de tamao 100 del inciso i) tiene el mismo nivel de confianza (99%), pero
tiene alrededor de 5 veces ms error muestral que el permitido aqu al estimar la proporcin
verdadera.
EJEMPLO 1.15
Suponga para el ejemplo 1.14 que la cadena de tiendas de departamentos cuenta con 10,000
poseedores de tarjetas de crdito.
i) Encuentre un intervalo de confianza del 95% para el total de tarjetahabientes que compraran
los domingos.

representa el total de tarjetahabientes que comprara los domingos.

Como la poblacin es finita de tamao N = 10,000 tarjetahabientes, la frmula es

Np S z/2 N
Como

n
=
N

pS ( 1 - p S )
n

N-n
N -1

100
= 0.010 0.05 se puede omitir el factor
10000

Sustituyendo N , pS , z /2 ,

N-n
N -1

y n por sus valores correspondientes

44

10,000 (0.60) 1.96 (10,000)

0.60(0.40)
100

6000 1.96 (10,000) ( 0.049 )


6000 960.40

Li = 5039.60 y Ls = 6960.40

Podemos decir con un 95% de confianza de que


5040 6960 tarjetahabientes.
ii) Determine el tamao de muestra necesario para estimar la proporcin real de tarjetahabientes
que compraran los domingos con un 95% de confianza de tener una tolerancia de 0.025.
Como la poblacin es finita, la frmula es
z/2

no = p ( 1 p )

Utilizando pS como una estimacin de p y sustituyendo z /2 y E por sus valores obtenemos


no = 0.60 (0.40 )

1.96

0.025

Como

n =

n0
=
N

no

= 0.24 (6146.56) = 1475.1744

1475.1744
= 0.1475 0.05 , n0 puede ser reducido a
10000

no N
1475.1744 (10,000)
14,751744

=
( N - 1)
1475.1744 9999
11474.1744

= 1285.6475 1286 tarjetahabientes.

45

1.4 MUESTREO ALEATORIO ESTRATIFICADO


Este muestreo exige tener un conocimiento previo de la poblacin y es prctico utilizarlo en
poblaciones heterogneas, esto es, en poblaciones donde la caracterstica de inters X tenga una gran
variabilidad ( es grande en comparacin a la magnitud de los datos).
Consiste en dividir la poblacin en subpoblaciones o estratos de manera de que cada estrato debe
presentar una pequea variacin en su interior con respecto a la caracterstica de inters X que
estemos investigando, y entre los distintos estratos las diferencias sean las ms grandes posibles.
Luego seleccionamos una submuestra de cada estrato utilizando muestreo aleatorio simple para
finalmente conformar la muestra aleatoria estratificada.
Los motivos principales para utilizar muestreo aleatorio estratificado en lugar de muestreo aleatorio
simple son los siguientes:
1. Reduccin del error mximo de estimacin.
2. Reduccin del costo por observacin.
3. Se pueden obtener estimaciones de parmetros para las subpoblaciones.
Antes de presentar las frmulas de estimacin de los parmetros introduzcamos la siguiente
notacin.
X

representa la caracterstica de inters de los elementos

representa el nmero de estratos en que se divide la poblacin.

Ni representa el nmero de unidades muestrales del estrato i o tamao del estrato i.


i representa la media poblacional para el estrato i.
i2 representa la varianza poblacional para el estrato i.
i representa el total poblacional para el estrato i.
L

N =

N
.

representa el tamao de la poblacin.

46

representa el total poblacional

=
ni

representa la media poblacional.

representa el tamao de la submuestra del estrato i.


L

n =

representa el tamao de la muestra estratificada.

Suponga que Xij es la j-sima observacin en los elementos del estrato i.


La media, la varianza y total de la submuestra del estrato i son dadas a continuacin:
ni

Xi

X ij

1
j

ni

2
i

ij

Xi

Ni Xi

ni
ni - 1
2
que representan estimadores de i , i y i respectivamente.
Una ilustracin grfica del muestreo aleatorio estratificado es la siguiente.
POBLACION

SUBMUESTRAS

N1

n
1

N2

.
.
.
Estrato i

Ni

.
.
.
Xi

M.A.S
ni

.
.
.

.
.
.
NL

n
L

Fig. 1.10
1.4.1

ESTIMADOR DE Y

S i2
Ni Xi

47

Como =

1 2 ... L
N

Un estimador insesgado de la media poblacional se denota y obtiene as


X st

Xst

N1 X1 N 2 X 2 N L X L
N

=
1
N

NX
i

Luego

Xi

donde el subndice st indica que se ha utilizado muestreo aleatorio estratificado.


A X st se le
denomina media de la muestra aleatoria estratificada o simplemente media muestral estratificada.

Un estimador insesgado del total poblacional se denota y obtiene as


N X st = N

l
N

N i Xi
.

NXst N i Xi
.

que llamaremos total de la muestra aleatoria estratificada o simplemente total muestral


estratificado.
1.4.2 ERROR ESTANDAR ESTIMADO DE Xst Y N Xst
1 L
Como X st =
N i Xi , la varianza estimada de X st se denota y obtiene aplicando la
N .
regla del producto de una constante por una variable.
2

Xst

1
N

2
N i2
Xi

El error estndar estimado de la media muestral estratificada X st se denota y obtiene de la


siguiente manera:
X st

X st

1
N
1
N

Ni2 2X i

donde

N i2
.

S i2
n
(1 i )
ni
Ni

2X i

Si2
n
(1 i )
ni
Ni

48

Si la fraccin muestral
correcin (1

ni
0.05 para los estratos i = 1, 2, ... , L , podemos omitir el factor de
Ni

ni
) dentro del radical.
Ni

El error estndar estimado del total muestral estratificado N X st se denota y obtiene as.
NX st N
X st

NX st

1.4.3
1.

NX st N

o bien

N i2

1
N

N i2

Si2
n
(1 - i )
ni
Ni

S i2
n
(1 - i )
ni
Ni

ESTIMADOR POR INTERVALO PARA Y

Un estimador por intervalo de confianza del 95% para est dado por
X st 1.96
Xst

o bien la aproximacin

Xst 2
X st

El error mximo permitido en la estimacin de es


E 2 X st

X por sus correspondientes frmulas obtenemos otra manera equivalente


Si sustituimos X st y
de expresar el intervalo
st

1 L
1
N i Xi 2

N .
N

N i2

S i2
n
(1 - i )
ni
Ni

donde el lmite inferior (Li) es la diferencia sealada por las expresiones anteriores y el lmite
superior (Ls) es la suma sealada por las mismas expresiones.
ni
Si la fraccin muestral
0.05 para los estratos i = 1, 2, ... , L, podemos omitir el factor de
Ni
ni
) dentro del radical.
correccin (1
Ni
2.

Un estimador por intervalo de confianza del 95% para est dado as

NXst 2
N X st

N X st 2 N X

El error mximo permitido en la estimacin de es


E 2
NX st

st

N( X st 2 X st )

49

NX por sus correspondientes frmulas obtenemos otra manera


Si sustituimos N X st y
equivalente de expresar el intervalo
st

N i Xi 2

N i2

S i2
n
(1 - i )
ni
Ni

donde el lmite inferior (Li) es la diferencia sealada por las expresiones anteriores y el lmite
superior (Ls) es la suma sealada por las mismas expresiones.
ni
Si la fraccin muestral
0.05 para los estratos i = 1, 2, ... , L, podemos omitir el factor de
Ni
ni
) dentro del radical.
correccin (1
Ni
EJEMPLO 1.16
Una cadena de 3 almacenes est interesada en estimar el saldo promedio de sus cuentas por cobrar.
En los almacenes 1, 2, y 3 hay respectivamente 150, 200, y 250 cuentas por cobrar. Un
muestreo aleatorio estratificado con cada almacen como estrato le seala al gerente de la cadena que
debe tomar de los almacenes 1, 2, y 3 submuestras de tamao 3, 4, y 5 respectivamente. Con
los resultados presentados en la siguiente tabla
Almacen

ni

1
2
3

Xij ( Saldos de las cuentas en miles de C$ )

3
4
5

3.5, 4.5, 5.5


6.5, 7.0, 8.0, 8.5
6.5, 8.0, 10.5, 12.5, 10

a) Estime el saldo promedio de las cuentas por cobrar de la cadena.


b) Estime el saldo total de las cuentas por cobrar de la cadena
c) Calcule el error mximo permitido con una confianza del 95% en la estimacin del inciso b)
Los elementos son las cuentas por cobrar, la caracterstica de inters X representa el saldo y Xij es el
j-simo saldo observado en las cuentas correspondientes al almacen i. Teniendo presente esto
formemos la siguiente tabla

Almacen
1
2
3

Ni

ni

150
200
250
600

3
4
5

Xi

4.5
7.5
9.5

NX i

675
1500
2375
4550

2
i

1.0000
0.8333
5.3750

Segn las frmulas correspondientes y los resultados anteriores tenemos que:

S i2
ni
7500
8333
67187.5
83020.5
N i2

50

1 L
N i Xi
N .

a)

Xst

b)

NXst N i Xi

4550
7.5833 (en miles de C$)
600

4550

(en miles de C$)

c)

E 2 NX st = 2

N i2

2 83020.5

S i2
ni

porque

ni
Ni

0.05 para los estratos i = 1, 2, 3

= 2(288.1328) = 576.2656

(en miles de C$)

EJEMPLO 1.17
Una empresa publicitaria esta interesada en estimar el nmero promedio de horas por semana que
los hogares de un determinado municipio dedican a ver la televisin.
El municipio comprende dos pueblos, pueblo A y pueblo B, y un rea rural. En el pueblo A existen
155 hogares de los cuales la mayora son de trabajadores fabriles con nios en edad escolar. El
pueblo B consta de 62 hogares con personas mayores que tienen pocos nios. En el rea rural
existen 93 hogares. Suponga que la empresa decide realizar una encuesta por muestreo a 40
hogares, tomando 20 del pueblo A y 8 del pueblo B y 12 del rea rural. Los resultados presentados
en la siguiente tabla corresponden a la media y la varianza de cada submuestra obtenida del pueblo
A, el pueblo B y el rea rural.
ESTRATO
(Pueblo A)
(Pueblo B)
(Area rural)

1
2
3

Ni
155
62
93
310

ni
20
8
12
40

Xi

Si2

33.900
25.125
19.000

35.358
232.411
87.636

1.
a) Estime el nmero promedio de horas por semana que los hogares del municipio dedican a ver
televisin.
b) Estime el nmero total de horas por semana que los hogares del municipio dedican a ver
televisin.
c) Calcule el error muestral promedio para la estimacin del inciso a) y b)
Los elementos son los hogares y X representa el nmero de horas por semana dedicados a ver T.V.

ESTRATO
1
2
3

Ni X i

ni
(1
)
Ni

5254.50
1557.75
1767.00

0.871
0.871
0.871

N i2

Si2
ni

(1

ni
)
Ni

36994.6776
97267.6059
55015.5365

51

189,277.8200

8579.25

Segn las frmulas correspondientes y los resultados anteriores tenemos que:


a) Xst

1 L
N i Xi
N .

1
=
310

(8579.25) = 27.675 horas b) NXst N i Xi

= 8579.25

horas
c)

1
N

X st

N i2
.

NX st

N i2

S i2
n
(1 i )
ni
Ni

S i2
n
(1 - i )
ni
Ni

1
189277.82 1.4034
310

189277.82

horas

= 435.0607 horas

2.
Obtenga un intervalo de confianza del 95% para el nmero promedio de horas por semana
que los hogares del municipio dedican a ver televisin.
Sustituyendo los resultados de la tabla anterior anterior en la frmula de un intervalo de confianza
del 95% para
1
N

Ni Xi 2

1
N

1
1
( 8579.2) 2
310
310

N i2

S i2
n
(1 - i )
ni
Ni

189277.82

27.675 2 ( 1.4034 )
X
Observe que cuando hay conocimiento de los valores de X st y
se puede llegar fcilmente al
resultado anterior mediante la sustitucin directa de esos valores en la frmula.
st

X st 2
Xst

Continuando llegamos a que


27.675 2.8068

Li = 24.8682 horas

Luego podemos decir con un 95% de confianza de que

Ls = 30.4818 horas.
24.8682 30.4818

3.
Obtenga un intervalo de confianza del 95% para el nmero total de horas por semanas que
los hogares del municipio dedican a ver televisin.
Sustituyendo los resultados de la tabla anterior en la frmula de un intervalo de confianza del 95%
para .

52
L

Xi 2

8579.2 5

S i2
ni

2
i

(1 -

ni
)
Ni

189277.82

8579.25 2 ( 435.0607 )
NX
Observe que cuando hay conocimiento de los valores de N X st y
resultado anterior mediante la simple sustitucin de esos valores en la frmula.

st

se puede llegar al

NXst
N X st 2

Continuando llegamos a que


8579.25 870.1214 Li = 7709.1286 horas y Ls = 9449.3714 horas.
Luego podemos decir con un 95% de confianza de que
1.4.4

7709.1286 9449.3714 horas.

SELECCIN DEL TAMAO DE LA MUESTRA PARA ESTIMAR

Suponga que X st debe estar dentro de E unidades de la media poblacional con una probabilidad
aproximadamente igual a 0.95, esto es, que E represente el error mximo permitido.
Simblicamente queremos
X
E = 1.96

Es decir que

2
E2

Xst =

st

o bien

X
E = 2

o sea
1
N2

2
i

st

S i2
n
E2
(1 i )
ni
Ni
4

De esta ecuacin no podemos despejar n, a menos que sepamos algo acerca de la relacin entre ni y
n. Hay muchas maneras para asignar un tamao de muestra n a los diversos estratos.
El mejor esquema de asignacin est influido por tres factores.
1. El nmero de elementos en cada estrato (Ni)
2. La variabilidad de las observaciones dentro de cada estrato ( i)
3. El costo por obtener una observacin de cada estrato (ci)
Asignacin de costo mnimo y menor error de muestreo.
Aqu nuestro objetivo es usar una asignacin que presente una cantidad especificada de informacin
a un costo mnimo.
N iS i / ci
ni n
L
N iS i / ci
donde ci representa el costo para obtener una observacin individual del estrato i.
El resultado anterior nos permite ahora poder despejar n de la ecuacin

53

1
N2

S i2
n
E2
(1 i )
ni
Ni
4

2
i

y obtener la siguiente frmula para el tamao de muestra requerido.


N i S i / ci

2
E

N 2
4

N
L

Si

ci

S i2

Asignacin de Neyman.
En algunos problemas el costo por obtener informacin es el mismo para todos los estratos. Si los
costos son desconocidos, podramos suponer que los costos por observacin son iguales.
Si c1 = c2 = = cL = c, entonces los trminos de costos en la frmula de asignacin de costo
mnimo se cancelan y queda as
ni n

N iS i
L

N S
i

Este mtodo para seleccionar los ni se denomina asignacin de Neyman.


Observe tambin que la frmula para el tamao de muestra total n toma la forma

n
N 2

E2
4

N i S i

S i2

Asignacin proporcional.
Adems de encontrar costos iguales podemos suponer que las varianzas dentro de los estratos son
iguales, esto implica que, S12 = S22 = = S 2L = S 2 En tal caso se cancelan las desviaciones
estndar en la frmula de asignacin Neyman y queda
ni n

Ni

Ni

54

Este mtodo es llamado asignacin proporcional porque los tamaos de submuestras n 1 , n 2 , ,


nL son proporcionales a los tamaos de los estratos N 1 , N 2 , , N L respectivamente.
Tambin podemos comprobar que la frmula para el tamao de muestra total n toma la forma.
n

N S2
E2
S2
4

donde S2 es la varianza comn de cada estrato.

EJEMPLO 1.18
La empresa publicitaria del ejemplo 1.17 encontr que cuesta ms obtener una observacin del rea
rural que una del pueblo A o del pueblo B. El incremento es debido a los costos de traslado de un
hogar rural a otro. El costo por observacin en cada pueblo se ha estimado en C$ 9 y los costos por
observacin en el rea rural se han estimado en C$ 16.
De una encuesta previa se estim que las varianzas de las submuestras de los estratos 1, 2 y 3 son
S12 = 25, S 22 = 225 y S 32 = 100 respectivamente.
i)
Encuentre el tamao de muesta n y los tamaos de submuestras n 1 , n 2 y n 3 para los
estratos 1, 2, y 3 respectivamente que permiten a la empresa estimar, al mnimo costo, el tiempo
promedio que se ve televisin con un error mximo permitido de 2 horas.
Ni
ESTRATO
1
155
2
62
3
93
310

S i2

Si

ci

Ni Si / c i

25
225
100

5
15
10

9
9
16

258.3333
310.0000
232.5000
800.8333

Ni Si

Ni S i2

ci

2325
2790
3720
8,835

3875
13950
9300
27,125

Como el costo de obtener una observacin no es el mismo en todos los estratos y como las varianzas
tampoco son iguales tenemos que

Si /

N 2


ci

2
E

4

Si
Si2

ci

donde

E2
4

N 2

310 2 (1) 96100

porque N = 310 y E = 2
=

800.8333

( 8835 )
(800.8333) (8835)

= 57.4182 58 hogares
96100 27125
123225

55

La asignacin del tamao de muestra a los tres estratos corresponder a una asignacin de costo
mnimo
n1 n

N 1S1 / c i

258.3333
=58(0.3226) = 18.7108 19 hogares
800.8333

= 58

N S
i

/ ci

310

800.8333

n 2 58

n 3 58

= 58(0.3871) = 22.4518 22 hogares

232.5

800.8333

= 58(0.2903) = 16.8374 17 hogares

ii) Determine el costo mnimo de la informacin muestral anterior


L

Costo mnimo =

c n
i

Costo mnimo = c1n1 c 2 n 2 c3n 3 = 9(19) + 9(22) + 16(17) = 171+ 198 + 272 = C$ 641
iii) Suponga que la empresa publicitaria tiene nicamente C$ 500 para gastar en muestreo,
determine el tamao de muestra y los tamaos de submuestras por estrato necesarios para ese
presupuesto.
Ya que el costo total debe ser C$ 500, tenemos que

c1 n 1 c 2 n 2 c 3 n 3 500

9n 1 9n 2 16n 3 500

O bien

Ya que cada

ni n

N i Si / c i
3

N S
i

n1= n(0.3226) ,

/ ci

n2 = n(0.3871) ,

podemos escribir segn los resultados anteriores que


n3 = n(0.2903)

y por tanto podemos hace la siguiente sustitucin en la ecuacin 9n 1 9n 2 16n 3 500


9 n (0.3226) + 9 n (0.3871) + 16 n (0.2903) = 500
2.9034 n + 3.4839 n + 4.6448 n = 500
11.0321 n = 500
Al despeja n, obtenemos:
n

500
= 45.3223 46 hogares
11 .0321

La asignacin correspondiente est dada por:


n 1 46

0.3226

= 14.8396 15 hogares

56

n 2 46

0.3871

= 17.8066 18 hogares

n 3 46

0.2903

= 13.3538 13 hogares

EJEMPLO 1.19
Suponga que la firma publicitaria del ejemplo 1.18 decide utilizar entrevistas por telfono en lugar
de entrevistas personales, porque todos los hogares en el municipio tienen telfono y este mtodo
reduce los costos. El costo de obtener una observacin es entonces el mismo en los 3 estratos..
Las varianzas de las submuestras de los estratos 1, 2 y 3 son de nuevo aproximadas por S12 = 25,
S 22 = 225 y S 32 = 100 respectivamente. Encuentre el tamao de muestra n y los tamaos de
submuestras n1, n 2 y n 3 para los estratos 1, 2 y 3 respectivamente, que permiten a la empresa
estimar el tiempo promedio que se ve televisin con un error mximo permitido de 2 horas.

ESTRATO
1
2
3

Como

E2
4

N 2

N 2

E2
4

Si

Ni Si
775
930
930
2635

Ni S i2
3875
13950
9300
27125

y el costo de obtener una observacin es el mismo.

Si
5
15
10

25
225
100

310 2 (1) 96100

S i2

Ni
155
62
93
310

Si2

2635 2
96100 27125

2635 2 = 56.3459 57 hogares


123225

El tamao de muesta obtenido en el inciso i) del ejemplo 1.18 es casi igual al de este ejemplo, pero
la asignacin del tamao de la muestra a los 3 estratos corresponde a una asignacin de Neyman.
n1 n

N 1S1
3

N S
i

775
= 16.7647 17 hogares
2635

= 57

57

930

2635

n 2 57

= 20.1176 20 hogares

930
= 20.1176 20 hogares
2635

n 3 57

Observe que para el rea rural se toman ahora ms hogares porque el costo se ha reducido.

EJEMPLO 1.20
La empresa publicitaria del ejemplo 1.18 considera ahora que las varianzas de los estratos son
iguales. El valor comn S2 fue aproximado por 100 en un estudio preliminar. Se van a efectuar
entrevistas por telfono, por lo que los costos sern iguales en todos los estratos.
La empresa desea estimar el nmero promedio de horas por semana que se ve la televisin en los
hogares del municipio, con un error mximo permitido de 2 horas. Encuentre el tamao de muestra
y los tamaos de submuestras por estrato necesarios para lograr esta exactitud.
Como el costo de obtener una observacin es el mismo en todos los estratos y las varianzas se
suponen iguales tenemos que

N S2
E2
S2
4

310 100
310 100

donde

31000
410

E2
310(1) 310
4

porque N = 310, E = 2 y S2 = 100

= 75.6098 76 hogares

La asignacin del tamao de muestra a los tres estratos corresponder a una asignacin proporcional

n1

n2 n

n3 n

N1

155
= 38 hogares
310

= 76

N2

= 76

N3

= 76

62
= 15. 2 15 hogares
310
93
= 22.8 23 hogares
310

58

1.5 MUESTREO ALEATORIO POR CONGLOMERADOS.


Consiste en dividir la poblacin en colecciones de elementos que llamaremos conglomerados de tal
forma que lo ideal es que cada conglomerado se parezca a los dems.
Considerando a estos conglomerados como unidades muestrales tomemos una muestra aleatoria
simple de conglomerados y despus hagamos un censo a cada conglomerado seleccionado para
finalmente obtener la muestra aleatoria por conglomerado buscada.
El muestreo por conglomerados es menos costoso que el muestreo aleatorio estratificado o simple si
se cumple lo siguiente:
1. No se encuentra disponible o es muy costoso obtener un buen marco que liste los elementos de
la poblacin.
2.

El costo por obtener observaciones se incrementa con la distancia que separa los elementos.

Por lo tanto al aplicar este mtodo se logra fcilmente la construccin de un marco que liste todos
los conglomerados y la reduccin del costo por observar un elemento.
Introduciremos ahora la siguiente notacin.
X

representa la caracterstica de inters de los elementos.

representa el nmero de conglomerados en la poblacin.

mi representa el nmero de elementos en el conglomerado i


N

M =

M =

M
representa el tamao promedio de los conglomerados en la poblacin.
N

representa el nmero de elementos en la poblacin o tamao de la poblacin.

Suponga que xij es la j-sima observacin de X en los elementos del conglomerado i entonces
mi

i x ij
j 1

representa el total de las observaciones en el conglomerado i

59

representa el total poblacional

representa la media poblacional.

n representa el nmero de conglomerados en la muestra


n

m =

representa el tamao promedio de los conglomerados en la muestra.

Una ilustracin grfica del muestreo por conglomerado es la siguiente:


POBLACIN

MUESTRA

m1

m1

m2

m2

.
.
.

.
.
.
mi

mi

Censo
mi

i x ij
j 1

.
.
.

.
.
.
mn

mN

Fig. 1.11
1.5.1

ESTIMADOR DE

El estimador de la media poblacional se denota y obtiene as:

60
n

Xc

A X c le llamaremos media muestral por conglomerado

Un estimador del total poblacional se denota y obtiene as:


n

i
M Xc

m
i

M X c le llamaremos total muestral por

conglomerado.
Como M
porque

M
N

M NM

Nm
M puede ser estimado con M

m es un aproximado de M

1.5.2 ERROR ESTANDAR ESTIMADO DE X c Y M X c

El error estndar estimado de la media muestral por conglomerado X c se denota y


presenta de la siguiente manera:

Xc

n
( i - m i Xc ) 2

nM 2

n -1

Si M es desconocido, M puede ser estimado por


Si

n
N

0.05 podemos aproximar el factor ( 1 -

n
) dentro del radical a 1.
N

El error estndar estimado del total muestral por conglomerado M X c se denota y obtiene
de la siguiente manera:
MX c M X c

MXc M

n
n i - m i X c 2
1-
N
n M2
n -1

61

MX c

N2

n
N

n -1

Si

n
2
i - m i Xc

0.05 podemos aproximar el factor ( 1 -

n
) dentro del radical a 1
N

1.5.3

ESTIMADOR POR INTERVALO PARA Y

1.

Un estimador por intervalo de confianza del 95% para esta dado por
Xc

2
X

El error muestral mximo permitido en la estimacin de es E 2 X

Si sustituimos X c y Xc por sus correspondientes frmulas obtenemos otra manera equivalente


de expresar el intervalo.

n
i
n
mi

n
n i - m i Xc 2
1-
N
n M2
n -1

donde el lmite inferior (Li) es la diferencia sealada por las expresiones anteriores y el lmite
superior (Ls) es la suma sealada por las mismas expresiones.
Si
2.

n
N

0.05 podemos aproximar el factor ( 1 -

n
) dentro del radical a 1
N

Un estimador por intervalo de confianza del 95% para est dado as:
M Xc

2
MX

M Xc

2 M

Xc

62

El error muestral mximo permitido en la estimacin de es E 2 MX

Si sustituimos M X c y MX c por sus correspondientes frmulas obtenemos otra manera


equivalente de expresar el intervalo.
n

m i

n
1
N
N2
n

n
2
i - m i Xc
.
n -1

donde el lmite inferior (Li) es la diferencia sealada por las expresiones anteriores y el lmite
superior (Ls) es la suma sealada por las mismas expresiones.
EJEMPLO 1.21
Los municipios de un pas hipottico estn distribuidos de manera natural en 20 departamentos. Se
quiere estimar el nmero promedio de agricultores por municipio de cierta hortaliza.
Considerando los departamentos como conglomerados, se toma una muestra aleatoria de 4
departamentos y se registra para cada departamento el nmero de municipios y luego para cada
municipio el nmero de agricultores. Los resultados se presentan en la siguiente tabla
Departamentos

N de municipios

1
2
3
4

8
11
5
6

i)

N de agricultores
5,
2,
8,
9,

8, 7, 3, 6, 4, 6, 8
4, 6, 5, 5, 3, 5, 5, 3, 9, 3
10, 4, 6, 7
6, 5, 4, 7, 11

Estime el nmero promedio de agricultores por municipio.

Los elementos son los municipios, la caracterstica de inters X representa el nmero de agricultores
mi

y i x ij (donde xij es el j-simo nmero de agricultores observado en los municipios del


j 1

departamento i ) representa el total de agricultores en el departamento i.


Departamentos
1
2
3
4

mi

8
11
5
6

47
50
35
42

30

174

63

Segn los resultados de la tabla anterior tenemos que:


n
i
Xc

n
mi

174
30

5.8

agricultores

ii) Si en el pas hay 160 municipios estime el nmero total de agricultores en el pas.
M X c = 160 (5.8) = 928 agricultores

Como M = 160 municipios,

EJEMPLO 1.22
Se quiere estimar el ingreso anual promedio por adulto en cierta ciudad pequea. Como no existe
una lista disponible de adultos residentes, la ciudad es dividida en 100 bloques rectangulares
tomando cada bloque rectangular como un conglomerado.
Suponga que se selecciona una muestra aleatoria simple de 6 bloques rectangulares y entrevista a los
adultos de cada hogar dentro de cada conglomerado, obteniendo los siguientes resultados.

BLOQUES

No. adultos
residentes

( en miles $ )
Ingreso
total

18

36

14

40

15

60

16

48

17

50

10

27

1.
Obtenga un intervalo de confianza del 95% para el ingreso anual promedio por adulto en la
ciudad.
mi

Los elementos son los adultos , X representa su ingreso anual y i x ij (donde xij es el j-simo
j 1

ingreso anual observado en los adultos del conglomerado i) representa el ingreso anual total en el
bloque i.

i - m i Xc 2

BLOQUES

mi

18

36

262.44

14

40

0.36

15

60

272.25

64
4

16

48

2.56

17

50

0.49

10
90

27
261

4.00
542.10

Segn los resultados de la tabla anterior tenemos que:


n

Xc

mi

261
2.9 en miles de $
90

Sabemos que N = 100 y n = 6 , como M es desconocido, M ser estimado por


n
mi
m

90
6

15

Luego

n
n i - mi Xc 2
1-
N
nM2
n -1

X
c

0.94

1350

108.42

6
100
6 (15)2

542.10

= 0.2748 en miles de $

Sustituyendo los resultados anteriores en la frmula de un estimador por intervalo de confianza del
95% para
Xc

2
X

obtenemos
2.9 2 ( 0.2748 )
2.9 0.5496

Li = 2.3504

Podemos decir con un 95% de confianza de que

Ls = 3.4496 en miles de $

65

2.3504 3.4496 (en miles de $)


Observe que este intervalo se pudo haber obtenido tambin con la siguiente frmula de un intervalo
de confianza del 95% pora .

n
i
n
mi

n
n i - mi Xc 2
1-
N
n M2
n -1

Sabemos que N = 100, n = 6 y que M es estimado en 15. Sustituyendo los resultados de la tabla
anterior llegamos a que:
261
90

2.9

6
100
6(15) 2

1 -

542.10

0.94
108.42
1350

2.9 2 ( 0.2748 )
2.9 0.5496
2.
a)

Li = 2.3504

LS = 3.4496 (en miles de $)

Estime el ingreso anual total de todos los adultos residentes de la ciudad.

N m 100(15) 1500 adultos .


Como M es desconocido, ser aproximado con M

Segn las frmulas correspondientes y los resultados anteriores tenemos que:


M X c = 1500 (2.9) = 4350 (en miles de $)

b) Con un 95% de confianza calcule el error mximo permitido para la estimacin anterior.
2 MX c

2M
X

= 2(1500)(0.2748) = 2(412.2) = 824.4 (en miles de $)

c) Obtenga un intervalo de confianza del 95% para el ingreso anual total de los adultos de la
ciudad.

66
M Xc

Utilicemos la frmula
Sustituyendo M X c
4350 2(412.2)

4350 824.4

MX

2
MX

por sus valores

Li = 3525.6

Ls = 5174.4

(en miles de $)

Luego podemos decir con un 95% de confianza de que


3525.6 5174.4

1.5.4 SELECCIN DEL NUMERO DE CONGLOMERADOS EN LA MUESTRA PARA


ESTIMAR
Suponiendo que E representa el error mximo que se desea tolerar al estimar , queremos que con
una confianza del 95%
E 2

n
N

nM 2

i - mi Xc

1-

De la ecuacin

es decir que

Xc

n -1

Xc

E2

E2
4

podemos despejar n, esto es, el nmero de

conglomerados en la muestra y obtener la siguiente frmula


2
N Sc

E2
4

N M 2

2
Sc

donde

S c2

2
i - m i X c

puede calcularse de una muestra preliminar y M puede ser

n -1
estimado por m con la misma muestra para finalmente obtener el nmero de conglomerados en la
muestra.
EJEMPLO 1.23
Tomando los resultados de la encuesta del ejemplo 1.22 como una muestra preliminar, determine el
nmero necesario de bloques rectangulares en la muestra para estimar el ingreso anual promedio por
adulto con un error mximo permitido de C$ 300.

i - m i X c
n

Usando los clculos del ejemplo tenemos que

m = 15

S c2

n -1

542.10
108.42
5

67

2
Como N M

E2
4

0.32

100 (15) 2

2
N Sc

n
N M 2

E2
4

2
Sc

100 (108.42)
10842

506.25 108.42
614.67

100 (225) (0.0225) 506.25

=
17.6387

Entonces se deben muestrear 18 bloques rectangulares.

EJERCICIOS PROPUESTOS DEL TEMA 1: MUESTREO Y ESTIMACIN


1. A continuacin se presenta una poblacin de 5 cuentas por pagar de una empresa con sus
correspondientes montos en decena de miles de crdobas.
Cuenta
C
D
E
F
G

Monto
3
3
7
10
14

Suponiendo que X representa el monto de las cuentas.


i) Construya la distribucin poblacional de X y represntela grficamente.
ii) Para la distribucin poblacional del inciso i) calcule y
iii) Considerando tadas las muestras posibles de tamao 2 que pueden seleccionarse sin reposicin
y sin orden, construya la distribucin muestral de X y represntela grficamente.
Para la distribucin muestral de X pedida por el inciso iii) del ejercicio 1, calcule X y X
y verifique que X
2.

3. Para el ejercicio 1 tome todas las muestras posibles de tamao 3 y construya la distribucin
muestral de X representndola grficamente.
4.

Para la distribucin muestral de X pedida por el ejercicio 3, calcule X y X

5. Consideremos la poblacin compuesta por 4 agentes de ventas con sus correspondientes gastos
de representacin en cientos de crdobas de la semana pasada.
Representante

Gasto

68

B
C
D

4
6
8

Suponiendo que X representa el gasto de representacin.


i) Construya la distribucin poblacional de X y represntela grficamente.
ii) Considerando todas las muestras posibles de tamao 2 que pueden seleccionarse sin reposicin y
sin orden. Construya la distribucin muestral de X y represntela grficamente.
iii) Para la distribucin muestral del inciso ii) calcule la media de X y el error estndar de X
iv) Con todas las muestras posibles de tamao 3 que pueden seleccionarse sin reposicin y sin
orden, construya la distribucin muestral de X y represntela grficamente. Luego calcule X y
X

6.

Considere la siguiente poblacin de cuentas por cobrar de una compaa.

01
No. Cuenta
Monto
(en miles de C$) 1.5

02

03

04

05

06

07

08

2.3 1.0

1.8

1.9

2.0

3.5 1.5

09

10

11

12

13

14

15

2.4 1.2

1.8

4.5

3.0

2.1

3.5

1) Utilizando la fila 3 columna 4 como una entrada a la tabla de nmeros aleatorios, seleccione
una muestra aleatoria de 4 cuentas sealndolas con un *
2) Suponiendo que X representa el monto de las cuentas.
i) Diga que representa y segn el problema.
ii) Estime el monto promedio de las cuentas y el monto total de las cuentas utilizando la
muestra seleccionada en 1)
3) Obtenga los errores de muestreo correspondientes a las estimaciones de y hechas en el
inciso ii) de la parte 2)
7.

La poblacin de supermercados de una ciudad se presenta en la siguiente tabla.

01
No. Super
Ventas diarias
(en miles de C$) 84

02

03

04

05

06

07

08

09

10

11

12

13

14

15

73

50

35

62

38

26

25

56

45

90

20

87

30

40

1) Tome una muestra aleatoria sistemtica de 3 Supermercados. Luego sealelos con un *


2) Suponiendo que X representa las ventas diarias.

69

i)

Diga que representa y segn el problema.

ii)

Estime , y utilizando la muestra del inciso 1)

iii) Obtenga los errores de muestreo correspondientes a las estimaciones de y


hechas en el inciso ii)

8. Se quiere investigar el nmero total de calculadoras que hay en inventario en un centro


comercial.
En el siguiente plano se presentan los mdulos que componen el centro.

i) Entrando en la fila 11 y columna 8 de la tabla de nmeros aleatorios y con una direccin


descendente ( ) , seleccione una muestra aleatoria de 4 mdulos, sealndolos con un *
ii) Suponiendo que la encuesta revel para el primer mdulo seleccionado en el inciso i) la
existencia de 10 calculadoras, para el segundo mdulo la existencia de 15 calculadoras, para el
tercer mdulo 20 calculadoras y para el cuarto mdulo 3 calculadoras.
Estime el nmero promedio de calculadoras por mdulo y el nmero total de calculadoras en el
centro.
9. Se desea investigar en un barrio la cantidad de nios en edad escolar con el fin de estudiar las
necesidades educativas a nivel primario (se piensa construir una escuela). Con tal fin se dispone del
siguiente mapa del barrio.
Parque
Iglesia
Predio
vaco

70

i) Seleccione una muestra aleatoria sistemtica de 4 manzanas. Luego ubquelas ponindoles


un *
ii) Suponiendo que la encuesta revel para la primera manzana seleccionada en el inciso i) la
existencia de 18 nios, para la segunda manzana la existencia de 21 nios, para la tercera
manzana la existencia de 27 nios y para la cuarta manzana la existencia de 10 nios.
Estime el nmero promedio de nios por manzana y el total de nios en el barrio.

10. Un auditor quiere investigar el total de pginas que tienen los documentos de una empresa.
En su poder hay 280 documentos numerados del 001 al 280.
i) Entrando en la fila 1 y columna 4 de la tabla de nmeros aleatorios, seleccione una muestra
de 20 documentos, escribiendo el nmero de documento de cada uno.
ii) Suponiendo que los 20 documentos muestreados del inciso i) resultaron con un promedio
de13.4 pginas
Estime el nmero total de pginas en todos los documentos.
11. Suponga que los salarios mensuales de los trabajadores a destajo de una empresa tienen una
distribucin normal y que adems se sabe que la desviacin estndar de los salarios es de C$ 100.
El jefe del departamento de personal selecciona al azar los expedientes de 16 trabajadores y
encuentra que el salario mensual promedio es de C$ 2500
i) Suponiendo que el nmero de trabajadores a destajo es muy grande, estime el salario
mensual promedio de los trabajadores de la empresa utilizando un intervalo de confianza del
80%.
ii)
Identifique el valor del error muestral promedio en la estimacin del salario mensual
promedio de los trabajadores de la empresa del inciso i)
iii) Suponiendo que la empresa tiene 150 trabajadores a destajo, estime el salario mensual
promedio de los trabajadores de la empresa utilizando un intervalo de confianza del 90%.
12. Se desea estimar la venta promedio por cliente, en crdobas, de una tienda. Sobre la base de
datos de otras tiendas similares, se sabe que la desviacin estndar de ese tipo de ventas es de
aproximadamente C$ 3200.
Qu tamao de muestra se debe utilizar, como mnimo, si desea estimar la venta promedio con un
margen de error de C$ 1000 y una confianza del 99%?

71

13. Para una cadena de 250 tiendas suponga que se conoce por experiencias anteriores que la
desviacin estndar de las ventas anuales por tienda para un producto determinado es de C$
200,000.
Si una muestra aleatoria de 40 tiendas del ao pasado nos informa que hubo una venta promedio de
C$ 3,425,000.
1) Determine un intervalo de confianza del 98% para:
i)
ii)

la venta promedio por tienda durante el ao pasado.


la venta total de todas las tiendas durante el ao pasado.

2) Si quiero estimar la venta promedio de las tiendas con un error de ms o menos C$ 30,000
y con una confianza del 95%, qu tamao de muestra se requiere?

14. Se quiere estimar el consumo mensual promedio en crdobas de energa elctrica por casa en el
mes de Diciembre. Con base en estudios efectuados en otras ciudades, se supone que la desviacin
estndar de los consumos es de C$ 20. La estimacin del consumo mensual promedio se quiere
hacer con una aproximacin de C$ 3 del promedio real y con un 99% de confianza.
i)

Si la ciudad se considera muy grande, qu tamao de muestra se necesita?

ii) Si la ciudad tuviera un total de 3000 casas, qu tamao de muestra se necesita?


15. Una empresa comercializadora de granos bsicos est estudiando la posibilidad de comprar 1000
sacos de frijol. Con el fin de determinar el peso promedio de materias extraas por saco y el peso
total de materias extraas tom una muestra aleatoria de 40 sacos obteniendo un promedio de 2.4 lbs
y una desviacin estndar de 0.62 lbs de materias extraas.
a) Obtenga un intervalo de confianza del 95% para el peso promedio de materias extraas por
saco.
b) Obtenga un intervalo de confianza del 90% para el peso total de materias extraas en los 1000
sacos.
c) Si se quiere estimar el peso promedio de las materias extraas por saco con una confiabilidad
del 98% de que el error mximo permitido sea de 0.10 lbs, Cul debe ser el tamao de la
muestra?
16. Una muestra aleatoria de 100 medidores de agua es controlada dentro de una comunidad para
estimar el consumo mensual promedio de agua por casa durante un perodo estacional seco. La
media muestral fue de 30.5 m3 y la desviacin estndar muestral de 5m3. Si suponemos que hay
10,000 casas dentro de la comunidad.

72

i) Obtenga un intervalo de confianza del 98% para el consumo mensual promedio de agua por
casa.
ii) Estime el total de m3 de agua usado mensualmente durante el perodo seco, luego determine con
un 95% de confianza el error mximo permitido en esta estimacin.
17. Como supervisor del proceso de empacado de caf en sobres, suponga que se toma una muestra
aleatoria de 12 sobres de la planta empacadora, de la cual resulta un peso neto promedio por sobre
de 15.97 gramos y una desviacin estndar del peso neto por sobre de 0.15 gramos. Suponiendo que
el peso neto del caf por sobre tiene distribucin normal:
i) Estime el peso neto promedio por sobre de caf utilizando un intervalo de confianza del 95%.
ii) Identifique el valor del error mximo permitido con una confianza del 95% en la estimacin del
peso neto promedio por sobre de caf del inciso i)
ii) Qu tamao de muestra debo utilizar para tener una confianza del 95% de que el error mximo
tolerado sea de 0.04 gramos?

18. Para una muestra de 50 empresa tomadas de una industria determinada, se encuentra que el
nmero promedio de trabajadores por empresa es de 420.4, con una desviacin estndar de 55.7.
Suponiendo que existe un total de 380 empresas en esa rama industrial.
i) Determine un intervalo de confianza del 90% para estimar el nmero total de trabajadores
empleados en esa industria.
ii)
Identifique el valor del error muestral promedio en la estimacin del nmero total de
trabajadores del inciso i)
19. Los ingresos del impuesto sobre ventas en una comunidad particular se recogen cada trimestre.
Los siguientes datos representan los ingresos (en miles de crdobas), cobrados durante el primer
trimestre en una muestra de 9 establecimientos de menudeo en la comunidad.
16, 18, 11, 17 13, 10,

22, 15, 16

Suponiendo que los ingresos trimestrales del impuesto sobre ventas se distribuyen aproximadamente
normal.
a) Establezca un intervalo de confianza del 98% para el ingreso trimestral promedio del impuesto
sobre ventas de los establecimientos de menudeo.
b) Si hay un total de 300 establecimientos de menudeo en esta comunidad, establezca un intervalo
de confianza del 95% de los ingresos totales por impuestos sobre ventas que se lograrn este
trimestre.
c)
Si quiero estimar el ingreso trimestral promedio del impuesto sobre ventas de los
establecimientos con una confianza del 95% de que el error mximo sea de C$ 1000.
qu tamao de muestra se requiere ?

73

20. Consideremos que cierta regin del pas cuenta con 500 establecimientos comerciales. Con el
fin de estimar el nmero promedio de empleados por establecimiento y el nmero total de
empleados, se seleccion una muestra aleatoria simple de 20 establecimientos con los siguientes
nmeros de empleados.
5
9

8
4

8
6

5
2

7
3

3
4

7
3

8
5

2
4

5
6

Suponiendo que el nmero de empleados por establecimiento se distribuye normalmente.


i) Encuentre un intervalo de confianza del 95% para el nmero promedio de empleados por
establecimiento.
ii) Encuentre un intervalo de confianza del 98% para el nmero total de empleados.
iii) Si quisiera estimar el nmero promedio de empleados por establecimiento con una confiabilidad
del 95% de que el error mximo permitido sea de 1 empleado, cul debe ser el tamao de la
muestra?
21. Un auditor detecta que cierta empresa regularmente exagera las cantidades de dinero en dlares
de los inventarios, a causa de los retrasos en el registro de los retiros. El auditor quiere estimar la
cantidad total exagerada sobre 800 artculos listados, obteniendo las cantidades exactas (revisadas)
del inventario mediante una muestra aleatoria de 6 artculos, y comparando estas cifras exactas con
las cantidades registradas. Los datos en dlares para los artculos seleccionados se muestran en la
siguiente tabla.
Cantidad
Cantidad
No. Artculo
revisada
registrada
1
2
3
4
5
6

175
295
68
74
128
241

210
305
91
82
140
250

Suponiendo para las cantidades exageradas una distribucin aproximadamente normal


i) Estime la cantidad total exagerada sobre los 800 artculos.
ii) Con una confianza del 95% establezca el error mximo permitido en la estimacin del inciso i
iii) Si quiero estimar la cantidad promedio exagerada por artculo con una confianza del 99% de que
el error mximo sea de 10 dlares, Qu tamao de muestra se requiere ?
22. Un auditor muestrea aleatoriamente 12 cuentas por cobrar de las 500 cuentas de una empresa.
El auditor lista el monto de cada cuenta y verifica si los documentos respectivos cumplen con los
procedimientos establecidos. Los datos son como sigue (cantidad en dlares, S = si , N = no ):
No. cuenta

Monto

Verificacin

74

1
2
3
4
5
6
7
8
9
10
11
12

278
192
310
94
86
335
310
290
221
168
200
300

N
S
S
N
S
S
N
S
S
S
N
N

Suponiendo que los montos de las cuentas tienen una distribucin aproximadamente normal.
1) Obtenga un intervalo de confianza del 95% para el monto total de las 500 cuentas de la empresa.
2) Obtenga un intervalo de confianza del 95% para la proporcin de cuentas de la empresa que no
cumplen con los procedimientos establecidos.
23. Un auditor de una compaa mayorista de productos metlicos quiere estimar la proporcin de
facturas para los clientes con errores en los precios. Una muestra aleatoria de 300 facturas de las
operaciones del mes anterior, indic que 45 contenan errores en los precios.
i) Establezca un intervalo de confianza del 95% para las proporcin real de facturas con errores en
los precios.
ii) Si en el mes anterior se expidieron 5000 facturas, establezcas un intervalo de confianza del 95%
para el total real de facturas con errores en los precios.
iii) Si el auditor desea un 95% de confianza de estar en lo correcto con aproximacin de 2.5% del
porcentaje real de facturas con errores en los precios y si se supone segn experiencia previa que el
porcentaje de facturas con errores es 10% Qu tamao de muestra necesita?
24. Un auditor de una dependencia gubernamental de proteccin al consumidor quiere determinar la
proporcin de reclamaciones sobre plizas de enfermedades que paga la compaa de seguros en un
plazo de dos meses de haber recibido la reclamacin. Se selecciona una muestra de 200
reclamaciones y se determina que 80 fueron pagadas en un plazo de dos meses despus de recibirlas.
Establezca un intervalo de confianza del 99% para la proporcin real de reclamaciones pagadas en
ese plazo de dos meses.
25. El gerente de una sucursal bancaria en una ciudad pequea quiere determinar la proporcin de
sus cuentahabientes a los cuales se les paga el inters por trimestre. Se selecciona una muestra
aleatoria de 100 cuentahabientes, en la cual 30 indican que se les paga por trimestre.
i) Establezca un intervalo de confianza del 90% para la proporcin real de cuentahabientes a
quienes se les paga por trimestre.

75

ii) Con un 96% de confianza calcule el error mximo permitido en la estimacin de la proporcin
real de cuentahabiente del inciso i)
ii) Si el banco tiene 1000 cuentahabientes, establezca un intervalo de confianza del 90% para el
total real de cuentahabientes a quienes se les paga por trimestre.
iii) Si el gerente quiere tener 90% de confianza de que est en lo correcto con aproximacin de
0.05 de la proporcin de sus cuentahabientes a quienes se les paga por trimestre, qu tamao de
muestra necesita?
26. Una compaa de televisin por cable (Cablevisin) quiere estimar la proporcin de sus
suscriptores que compararan su revista con la programacin. La compaa quiere tener 95% de
confianza de que su estimacin est correcta con aproximacin de 0.05 de la proporcin real. La
experiencia previa en otras reas indica que el 30% de los suscriptores compararon la revista. Qu
tamao de muestra se necesita?

27. Una corporacin desea estimar el nmero total de horas-hombre perdidas debido a accidentes de
los empleados en un mes determinado. Ya que los obreros, los tcnicos y los administrativos tienen
diferentes tasas de accidentes, el investigador decide usar muestreo aleatorio estratificado con cada
grupo formando un estrato. Datos de aos previos sugieren las varianzas, mostradas en la tabla
anexa, para el nmero de horas-hombre perdidas por empleado en los 3 grupos, y de datos actuales
se obtienen los tamaos de los estratos.
Si2
Estrato
Ni
Obreros

132

36

Tcnicos

92

25

Administrativos

27

1) Determine la asignacin de Neyman para una muestra de 30 empleados.


2) Estime el nmero total de horas-hombre perdidas durante el mes indicado y establezca el
mximo error muestral para esa estimacin. Use los datos de la tabla siguiente, obtenida de una
muestra de 18 obreros, 10 tcnicos y 2 administrativos.
Estrato

ni

Nmero de horas-hombres perdidas

Obreros

18

8, 24, 0, 0, 16, 32, 6, 0, 16, 7, 4, 4, 9, 5, 8,18, 2, 0

Tcnicos

10

4, 5, 0, 24, 8, 12, 3, 2, 1, 8

Administrativos

2
30

1, 8

76

28. Una empresa desea estimar con la mxima precisin posible el monto promedio y total de sus
cuentas por cobrar, mediante una muestra aleatoria de 50 cuentas. Suponga por previa disposicin
que las cuentas se van arreglando as: en el archivo 1 se guardan las cuentas que tienen un monto
inferior a 1000 dlares, en el archivo 2 las cuentas que tienen un monto entre 1000 y 2000 dlares,
en el archivo 3 se guardan las cuentas que tienen un monto superior a los 2000 dlares. El nmero
de cuentas guardadas en los archivos 1, 2 y 3 es respectivamente 250, 150 y 50.
1) Considerando por conveniencia administrativa que cada archivo es un estrato y que el costo del
muestreo es el mismo para los 3 archivos y que las desviaciones estndar de los montos de las
cuentas son iguales a 50 dlares para cada uno de los archivos, cmo asignara las 50 cuentas de la
muestra a los 3 archivos?
2) Suponiendo que para las submuestras de los archivos 1, 2 y 3 del inciso 1) se obtuvieron montos
promedios de 800, 1400 y 2600 dlares, establezca un intervalo de confianza del 95% para:
i) el monto promedio de las cuentas
ii) el monto total de las cuentas

29. Una regin que comprende 800 granjas ganaderas se ha dividido en 5 estratos de acuerdo con el
rea de cada una.
ESTRATOS
No. granjas
1
2
3
4
5

300
200
160
100
40
800

1) Suponga que se planea seleccionar una muestra aleatoria estratificada de 40 granjas. Como no
tiene informacin previa respecto a las varianzas de los estratos, y como el costo del muestreo es el
mismo en cada estrato, decide aplicar asignacin proporcional. Qu tamao tendran las
submuestras de cada estrato?
2)
Suponiendo que para las submuestras del inciso 1) se obtuvieron nmeros promedios de
cabezas por granja en miles de 4, 6, 10, 13 y 15 para las submuestras de los estratos 1, 2, 3, 4 y 5
respectivamente y varianzas en miles2 de 1.20, 1.00, 0.90, 1.50 y 0.80 para las submuestras de los
estratos 1, 2, 3, 4 y 5 respectivamente.
i) Estime el nmero promedio de cabezas por granja en la regin.
ii) Estime el total de cabezas en la regin.
iii) Calcule el error muestral promedio para cada una de las estimacines de los incisos i) y ii)
iv) Establezca un intervalo de confianza del 95% para el total de cabezas en la regin.
30. Un distribuidor de comestibles al mayoreo en una gran ciudad desea saber si la demanda es lo
bastante grande como para justificar la inclusin de un nuevo producto a sus existencias. Para tomar
la decisin, planea aadir este producto a una muestra de los almacenes a los que abastece para

77

estimar el promedio de las ventas mensuales. l nicamente suministra a 4 grandes cadenas en la


ciudad. As que, por conveniencia administrativa, decide usar muestreo aleatorio estratificado con
cada cadena como un estrato. Hay 24 almacenes en el estrato 1, 36 en el estrato 2, 30 en el estrato 3
y 30 en el estrato 4. El distribuidor tiene suficiente tiempo y dinero para obtener datos sobre ventas
mensuales en 20 almacenes.
1) Dado que no tiene informacin previa respecto a las varianzas de los estratos, y como el costo
del muestreo es el mismo en cada estrato, decide aplicar la asignacin proporcional. Qu tamao
tendran las submuestras de cada estrato?
Suponga que el nuevo producto es introducido en cada submuestra del inciso 1) obteniendo
despus de un mes ventas promedios en crdobas de 99, 100, 98 y 100 para las submuestras de los
estratos 1, 2, 3 y 4 respectivamente y varianzas en crdobas2 de 78.67, 55.60, 39.50 y 112.50 para
las submuestras de los estratos 1, 2, 3 y 4 respectivamente.
Obtenga un intervalo de confianza del 95% para la venta mensual promedio del nuevo producto.
2)

3) Identifique el valor del error mximo permitido en la estimacin de la venta mensual promedio
del nuevo producto del inciso 2)
31.
Un investigador que desea estimar la venta anual promedio de 56 empresas ha decidido
estratificar la poblacin segn sus ventas anuales de la siguiente manera
Estrato
1
2
3

(en miles de C$)


Venta
100 - 200
200 - 350
350 - 500

N empresas
25
18
13
56

Si2
16
9
4

Datos de aos anteriores sugieren las varianzas, que muestra la tabla de arriba, para las ventas
anuales en miles de C$
1. Suponiendo que planea seleccionar una muestra aleatoria estratificada de 15 empresas, qu
tamao tendrn las submuestras de cada estrato al aplicar una asignacin de Neyman?
2. Suponiendo que para las submuestras del inciso 1. se obtuvieron ventas promedios en miles de
C$ de 150, 300 y 400 para las submuestras de los estratos 1, 2 y 3 respectivamente.
i) Establezca un intervalo de confianza del 95% para la venta anual promedio de las empresas
ii) Estime la venta anual total de las empresas sealando el error mximo permitido en la
estimacin
32. Un servicio forestal estatal est realizando un estudio de la gente que utiliza las instalaciones de
campamentos operados por el estado. El estado tiene 2 reas para acampar, una localizada en las
montaas y otra localizada a lo largo de la costa. Las dos reas para acampar forman
convenientemente 2 estratos, la localidad de la montaa como el estrato 1 tiene 120 sitios para
acampar y la localidad de la costa como el estrato 2 tiene 80 sitios para acampar.
Suponiendo que el servicio desea estimar el nmero promedio de personas por sitio dentro de los
campamentos con un error mximo tolerado de 1 persona y que los costos de muestreo son los

78

mismos en cada estrato, encuentre el tamao de muestra y los tamaos de submuestras por estrato
necesarios considerando que:
i) las varianzas de los estratos 1 y 2 son aproximadas por 4 y 9 respectivamente.
ii) las varianzas de cada estrato son iguales con un valor comn aproximado de 4.

33. Una corporacin desea obtener informacin acerca de la efectividad de una mquina comercial.
Se va a entrevistar por telfono a un nmero de jefes de divisin, para pedirles que califiquen la
maquinaria con base en una escala numrica. Las divisiones estn localizadas en Norteamrica,
Europa y Asia, motivo por el cual, usaremos muestreo estratificado. La tabla siguiente proporciona
los costos en dlares por entrevista, varianzas aproximadas de las calificaciones y los tamaos de los
estratos que se han establecido.
Estrato

Ni

Si2

ci

Norteamrica

112

2.25

Europa

68

3.24

25

Asia

39

3.24

36

i) Si la corporacin quiere estimar la calificacin promedio con un error mximo permitido de


0.6325, determine el tamao de muestra requerido, y segn la asignacin apropiada, los tamaos de
submuestras por estrato.
ii) Suponga que la corporacin tiene nicamente 400 dlares para gastar en muestreo, determine el
tamao de muestra y los tamaos de submuestras por estrato necesarios para ese presupuesto.
34. Supongamos que una regin tiene 20 municipios. Se quiere estimar el nmero promedio de
cabezas de ganado por granja y el nmero total de cabezas en esa regin. Se decide usar muestreo
por conglomerado tomando cada municipio como un conglomerado. Con tal fin seleccionamos una
muestra aleatoria simple de 4 municipios obteniendo los resultados que presenta la tabla siguiente.
Municipio
1

No. granjas
3

No. de cabezas (en miles)


1, 3, 2

79

2
3
4

5
4
3

4, 3, 2, 5, 6
4, 3, 3, 2
3, 4, 2

Obtenga un intervalo de confianza del 95% para:


i) el nmero promedio de cabezas por granja
ii) el nmero total de cabezas en la regin

35. El gerente de circulacin de un peridico desea estimar el nmero promedio de ejemplares


comprados por familia en determinada comunidad. Los costos de transporte de un hogar a otro son
sustanciales. Es por eso que se listan los 4000 hogares de la comunidad en 400 conglomerados
geogrficos de 10 hogares cada uno, y se selecciona una muestra aleatoria simple de 4
conglomerados. Se realizan las entrevistas con los resultados que se muestran en la tabla anexa.
Conglomerado
1
2
3
4

Nmero de peridicos
1
1
2
1

2
3
1
1

1
2
1
3

3
2
1
2

3
3
1
1

2
1
3
5

1
4
2
1

4
1
1
2

1
1
3
3

1
2
1
1

1)
a) Obtenga un intervalo de confianza del 95% para el nmero promedio de peridicos comprados
por hogar en la comunidad.
b) Establezca el error mximo permitido para la estimacin anterior.
2) Cuntos conglomerados debe seleccionar en la muestra para estimar el nmero promedio de
peridicos comprados por hogar con un error mximo permitido de 0.12 peridicos?
3) Estime el nmero total de peridicos comprados por todos los hogares de la comunidad.
36. Los comercios solicitan frecuentemente a los contadores la realizacin de inventarios. Ya que
un inventario completo es costoso, a travs del muestreo se pueden realizar inventarios cada cuatro
meses. Supngase que una empresa abastecedora de artculos de plomera desea un inventario para
muchos artculos pequeos en existencia. La obtencin de una muestra aleatoria de artculos es muy
difcil. Sin embargo, los artculos se encuentran dispuestos en anaqueles, y la seleccin de una
muestra aleatoria de anaqueles es relativamente fcil, considerando a cada anaquel como un
conglomerado de artculos.

80

Una muestra de 10 anaqueles de un total de 48 di los resultados que se muestran en la tabla


siguiente.
(en dlares)
Conglomerado
No. Artculos Cantidad registrada
1
2
3
4
5
6
7
8
9
10

42
27
38
63
72
12
24
14
32
41

83
62
45
112
96
58
75
58
67
80

Obtenga un intervalo de confianza del 95% para la cantidad total en dlares de los artculos en los
48 anaqueles.
37. El nmero de casas, el nmero de residentes y el nmero el nmero de cuartos dentro de las
casas para una muestra aleatoria de 5 manzanas seleccionadas al azar, de una ciudad donde
suponemos que el nmero de manzanas es 500, se presenta en la siguiente tabla
Manzana
1
2
3
4
5

N casas
12
14
10
20
8

N residentes N cuartos
60
38
89
56
61
30
92
45
52
25

Considerando a cada manzana como un conglomerado de casas


i) Estime el nmero promedio de residentes por casa y seale el error mximo permitido de esa
estimacin.
ii) Estime el nmero promedio de cuartos por casa y seale el error mximo permitido de esa
estimacin.
38. Un fabricante de sierras quiere estimar el costo de reparacin promedio mensual para las sierras
que ha vendido a ciertas industrias. El fabricante no puede obtener un costo de reparacin para cada
sierra, pero puede obtener la cantidad total gastada en reparacin y el nmero de sierras que tiene
cada industria. Entonces decide usar muestreo por conglomerados con cada industria como un
conglomerado. El fabricante selecciona una muestra aleatoria simple de 10 industrias de 96
industrias a las que da servicio. Los datos sobre costo total de reparaciones por industria del mes
pasado y el nmero de sierras por industria se presentan en la tabla anexa.
(en dlares)
Industria
No. sierras
Costo total
1
2
3

3
7
11

50
110
230

81

4
5
6
7
8
9
10

9
2
12
14
3
5
9

140
60
280
240
45
60
230

1) Estime el costo promedio de reparacin por sierra para el mes pasado estableciendo el error
mximo permitido para esa estimacin.
2) Estime la cantidad total gastada por las 96 industrias en la reparacin de sierras el mes pasado
estableciendo el error mximo permitido para esa estimacin.
3) Si el fabricante quiere estimar el costo de reparacin promedio por sierra para el mes siguiente,
Cuntos conglomerados (industrias) debe seleccionar en la muestra si quiere que el error mximo
tolerado sea de 2 dlares?

TEMA 2: PRUEBA DE HIPOTESIS


OBJETIVOS
1.
2.
3.
4.
5.

Definir que es una hiptesis y una prueba de hiptesis.


Describir el procedimiento de la prueba de hiptesis.
Identificar si la prueba es unilateral o bilateral.
Realizar pruebas de hiptesis respecto a una media poblacional.
Realizar pruebas de hiptesis respecto a una proporcin poblacional.

2.1. INTRODUCCION.
Se conoce como prueba de hiptesis a una rama de la Estadstica inferencial que podra verse como
un procedimiento especial de toma de decisiones.
LA PRUEBA DE HIPOTESIS COMO UN PROBLEMA DE DECISION.
El problema de decisin a estudiar tendr:
i) 2 estados de la naturaleza mutuamente excluyentes y exhaustivos (Hiptesis). Cualquiera de las
hiptesis ser una negacin de la otra.
ii) 2 cursos de accin (Alternativas).
EJEMPLO 2.1.
Al juzgar a una persona por asesinato, se presume que el acusado es inocente, es decir no culpable,
hasta que se demuestre lo contrario, segn la justicia conservadora.
La situacin anterior implica que estamos en presencia de un problema de decisin a resolver que
tiene 2 hiptesis que definiremos as:

82

Inocente
Culpable
y 2 alternativas que definiremos as
Dejarlo libre
Echarlo preso
Hiptesis estadstica.
Le llamaremos hiptesis estadstica a un supuesto que se hace acerca del valor de un parmetro de
una poblacin o acerca de valores de parmetros que corresponden a distintas poblaciones.

EJEMPLO 2.2
Supongamos que cierta regin del pas cuenta con 200 plantaciones donde se cultiva maz sin hacer
uso de ningn abono. Por muchos aos el rendimiento promedio ha sido de 44 quintales por
manzana. El MAG est tratando de convencer a los agricultores de la aplicacin de cierto
fertilizante, lo que significara un mayor rendimiento promedio y por lo tanto un mejor beneficio
econmico. A manera de prueba los agricultores usaron el fertilizante en 36 plantaciones
seleccionadas aleatoriamente, obtenindose un rendimiento promedio de 47.30 quintales por
manzana y una desviacin estndar de 6.60 quintales por manzana.
Debemos aplicar el fertilizante a un nivel de significacin del 5%?
En este problema los elementos a estudiar son las plantaciones y la caracterstica de inters X ser
el rendimiento de las plantaciones en quintales por manzana. Estaremos interesados en suposiciones
que se hagan acerca de la media poblacional que representar el rendimiento promedio de las
plantaciones.
Observemos que estamos ante un problema de decisin con 2 hiptesis que definimos as:
= 44
44
y 2 alternativas que definimos as:
No aplicar el fertilizante.
Aplicar el fertilizante.
Ahora trataremos de desarrollar un procedimiento general de la prueba porque, en principio, todas
las pruebas estadsticas son similares a las que vamos a estudiar en este tema.

83

PROCEDIMIENTO DE LA PRUEBA DE HIPOTESIS


Una prueba de hiptesis ser un procedimiento en el cual una de las hiptesis que llamaremos nula
se probar contra otra hiptesis que llamaremos alterna, tomando como base la informacin
proporcionada por una muestra aleatoria, la cual nos permitir poder rechazar o no rechazar la
hiptesis nula, con el fin de poder seleccionar la alternativa ms adecuada.
Debido al gran parecido que tiene este procedimiento en la manera de razonar con el empleado en
un juicio, retomaremos el ejemplo 2.1 como una motivacin al tema.
1.

Supongamos que la presuncin de inocencia es la hiptesis nula y que la culpabilidad es la


hiptesis alterna. Esto es probaremos las hiptesis:
Inocente
Culpable

2.

El juicio presenta 4 situaciones presentadas abajo


Altenativas
Dejarlo libre
Echarlo preso

Estados de la naturaleza
Inocente es V
Culpable es V
Correcta
Error II
Error I
Correcta

donde pueden cometerse dos tipos de errores:


Error I: Echarlo preso cuando en realidad es inocente.
Error II: Dejarlo libre cuando en realidad es culpable.
Cul de los dos tipos de error se considera ms grave?
Naturalmente el error tipo I, motivo por el cual se quiere que la probabilidad de caer en este error I
sea mnima. Por tanto mantendremos la probabilidad de caer en este error I debajo de una frontera,
sin preocuparnos por la probabilidad de caer en el error II.
3.

Antes de investigar al acusado las leyes tienen establecida la siguiente regla de decisin:

i) Si rechazamos la hiptesis nula de inocencia entonces estamos aceptando la hiptesis alterna de


culpabilidad.
ii) Si no podemos rechazar la hiptesis nula de inocencia, entonces aceptamos la hiptesis nula
de inocencia.
4. Ahora la acusacin trata de recoger y presentar suficiente evidencia (documentos, testigos
oculares, huellas dactilares, retratos hablados, etc) para que sea valorada por el jurado.

84

5. Finalmente con la evidencia ya valorada se aplica la regla de decisin que nos permitir
seleccionar la alternativa ms adecuada.
i) Si el jurado valora que hay suficiente evidencia para rechazar la hiptesis nula de inocencia
entonces estamos aceptando la hiptesis alterna de culpabilidad lo cual implica que debemos
seleccionar la alternativa de echarlo preso.
ii) Si el jurado valora que no hay suficiente evidencia para rechazar la hiptesis nula de inocencia
entonces aceptamos la hiptesis nula de inocencia, pero dbilmente porque talvez la acusacin fue
deficiente en la recoleccin de evidencias, lo cual implica seleccionar la alternativa de dejarlo
libre o bien no tomar ninguna alternativa y reanudar el jucio en otra ocacin.

2.2 PROCEDIMIENTO DE LA PRUEBA ACERCA DE .


Para fines de estudio consideraremos la prueba de hiptesis dividida en los siguientes pasos:
1. FORMULACION DE LAS HIPOTESIS.
Consiste en especificar las hiptesis e indentificar a una de ellas como la hiptesis nula y a la otra
como las hiptesis alterna.
Hiptesis nula.
La hiptesis nula ser generalmente la que afirma en los problemas ausencia de efecto alguno para
determinadas accin o tratamiento y la denotaremos por Ho.

Como esta hiptesis es la que siempre debe especificarse en una forma ms exacta, el signo =
siempre la acompaar.
Hiptesis alterna.
A cualquier hiptesis que diga lo contrario de la hiptesis nula, esto es que hay presencia del efecto
para la accin o tratamiento, la llamaremos hiptesis alterna y la denotaremos por H1.
Como esta hiptesis es generalmente especificada con menos exactitud, los signos , o la
acompaan.
Para el ejemplo 2.1 en que se juzga a una persona por asesinato, podemos ver el juzgar como la
accin y la culpabilidad como el efecto. Por tanto podemos escribir.
H0 : Inocente o no es culpable
H1 : Culpable

A0 : Dejarlo libre
A1 : Echarlo preso

85

donde la hiptesis nula H0 est suponiendo ausencia de culpabilidad mientras que la hiptesis
alterna H1 supone presencia de culpabilidad.
Para el ejemplo 2.2 podemos ver la fertilizacin de las plantaciones como la accin y el aumento
de rendimiento promedio con respecto a 44 como el efecto. Por tanto podemos escribir.
H0 : = 44
H1 : 44

A0 : No aplicar el fertilizante
A1 : Aplicar el fertilizante

donde la hiptesis nula H0 est suponiendo que no hay aumento en el rendimiento promedio,
mientras que la hiptesis alterna H1 supone que hay aumento en el rendimiento promedio.
La aceptacin de cada una de las hiptesis anteriores tendr asociada una alternativa.
A la aceptacin de H0 le corresponder la alternativa A0 y a la aceptacin de H1 le corresponder la
alternativa A1

Tipos de pruebas.
De acuerdo a la forma en que pueden estructurarse las hiptesis tendremos:
1) Pruebas unilaterales.
Son aquellas en las cuales la presencia del efecto en la hiptesis alterna se traduce como un inters
por slo las desviaciones hacia un lado con respecto a un valor supuesto 0 de
i) Pruebas de cola izquierda
H0 : = 0 ( 0 )
H1 : 0

ii) Pruebas de cola derecha


H0 : = 0 ( 0 )
H1 : 0

Note que la hiptesis nula puede tambin especificarse de una manera menos exacta como
o 0.

2) Pruebas bilaterales.
Son aquellas en las cuales la presencia del efecto en la hiptesis alterna se traduce como un inters
por las desviaciones tanto hacia la izquierda como hacia la derecha con respecto a un valor supuesto
0 de
H0 : = 0
H1 : 0
Para el ejemplo 2.2 observe que la prueba es de cola derecha porque slo nos interesan los
aumentos en el rendimiento promedio con respecto a 44.
2. ELEGIR UN NIVEL DE SIGNIFICACION

86

En el procedimiento de la prueba pueden presentarse 4 situaciones indicadas por la siguiente tabla.


Altenativas
Seleccionar A0
Seleccionar A1

Estados de la naturaleza
H0 es V
H1 es V
Correcta
Error II
Error I
Correcta

donde puede observarse que se pueden cometer dos tipos de errores.


Error I : Seleccionar A1 cuando H0 es V
Error II : Seleccionar A0 cuando H1 es V
A la probabilidad mxima de cometer el error I le llamaremos nivel de significacin de la prueba y
la denotaremos por . Esto es
P ( error I )

La probabilidad mxima de cometer un error II, la denotaremos por . Esto es


P ( error II )
y representan los riesgos mximos asociados con alternativas incorrectas.
Los valores y son probabilidades condicionales que estn estrechamente relacianadas.
Cuando el tamao de la muesta n es fijo, y varan inversamente, esto es, cuando nos alejamos
de un peligro aumentamos el otro. La prueba se llevar acabo controlando sin preocuparnos por .
Cmo se har la eleccin de ?
Generalmente el error I es ms grave que el error II, razn por la cual le daremos a un valor
pequeo, usualmente se toma
= 0.01 = 0.05
segn el caso
En casos en que las consecuencias de cometer un error I son muy graves debemos tomar = 0.01
( un riesgo an menor).
Si las consecuencias de cometer el error I no son tan graves podemos tomar = 0.05 ( un riesgo
an mayor).
Para el ejemplo 2.2
Observemos que el procedimiento de la prueba presenta 4 situaciones indicadas abajo.

87

Altenativas

Hiptesis
H0 : = 44 es V H1 : 44 es V
A0: No aplicar el fertilizante
Correcta
Error II
A1: Aplicar el fertilizante
Error I
Correcta

donde podemos observar que:


Error I : Aplicar el fertilizante cuando en realidad no aumenta el rendimiento promedio de maz.
Error II : No aplicar el fertilizante cuando en realidad aumenta el rendimiento promedio de maz.
Restringiremos el error I suponiendo que
P ( error I ) 0.05
As que hemos elegido un nivel de significacin = 0.05

3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE


DECISIN.
Si observamos el ejemplo 2.2 notamos que hay una diferencia entre la media muestral X y el valor
supuesto 0 , esto es, existe una diferencia que expresamos as X - 0 = 47.30 44 = 3.30
quintales por manzana.
La hiptesis nula H0 como representa ausencia de efecto de una accin determinada mantendr que
la diferencia X - 0 no es significativa.
La hiptesis alterna H1 como representa presencia de efecto de la accin mantendr que la diferencia
X - 0 es significativa.
Cmo saber si esta diferencia X - 0 es significativa o no es significativa ?
Como las hiptesis son suposiciones acerca de , el estadstico de prueba que utilizaremos ser la
media muestral X pero estandarizada, esto es, la diferencia X - 0 expresada en unidades del
error estndar de X , lo cual expresamos as
X
X
que puede ser igual al estadstico Z o t segn la tabla que presentamos abajo.
Tamao
de
muestra n

DISTRIBUCION DE LA POBLACION
Normal
No Normal
conocido

desconocido

conocido

desconocido

88

n 30

n 30

Esto significa que el valor del estadstico de prueba Z o t se obtendr de una muestra de tamao n y
representar en una prueba de hiptesis una diferencia que puede ser considerada
significativamente distinta de cero o no significativamente distinta de cero.
Pero cmo sabremos si esta diferencia Z o t es significativamente distinta de cero o no?
Por el momento diremos simplemente si Z o t est suficientemente alejada de cero.
Estableceremos un valor de referencia o valor crtico que depender del tipo de prueba y del nivel
de significacin

Prueba de cola derecha


La diferencia Z es considerada significativamente distinta de cero si existe un valor crtico z tal
que Z z donde z se determina de P( Z z | Z = 0 ) = utilizando la tabla Z y su propiedad de
simetra, o bien la diferencia t es considerada significativamente distinta de cero si existe un valor
crtico t tal que t t donde t se determina de P( t t | t = 0) = utilzando la tabla t.

Esto quiere decir que Z o t est suficientemente alejado de cero si cae a la derecha de z o t
segn se observa en la figura de abajo

Z o t
0

z
t
NR

Figura 2.2
Como decir que Z es significativamente distinto de cero es equivalente a decir que rechazamos H0
La regla de decisin dir: Rechazamos H0 a un nivel de significacin si
Z z

t t

En caso contrario no rechazaremos H0 , es decir, "aceptamos" H0

89

Prueba de cola izquierda


La diferencia Z es considerada significativamente distinta de cero si existe un valor crtico
-z tal que Z < - z donde -z se determina de P( Z < -z | Z = 0 ) = utilizando la tabla Z,
o bien la diferencia t es considerada significativamente distinta de cero si existe un valor crtico -t
tal que t < -t donde -t se determina de P( t < -t | t = 0 ) = utilizando la tabla t y su propiedad de
simetra.
Esto quiere decir que Z o t est suficientemente alejado de cero si cae a la izquierda de -z o -t
segn se observa en la figura de abajo

Z o t
-z
-t
R

0
NR
Figura 2.1

Por tanto la regla de decisin dir: Rechazamos H0 a un nivel de significacin si


Z - z

t - t

En caso contrario no rechazaremos H0 , es decir, "aceptamos" H0


Para cada nivel de significacin que nos fijemos en una prueba de una cola existir un valor
crtico que dividir el rango de Z o t en dos regiones disjuntas, una regin de no rechazo o
aceptacin y otra de rechazo.

Prueba de dos colas


La diferencia Z es considerada significativamente distinta de cero si existen dos valores crticos
-z/2 y z/2 tales que Z -z/2 o Z z/2 donde -z/2 y z/2 se determinan partiendo de P(
Z < -z/2 | Z = 0 ) =

P(Z z/2 | Z = 0) =
, utilizando la tabla Z y su propiedad de
2

simetra,
o bien la diferencia t es considerada significativamente distinta de cero si existen dos valores crticos
-t/2 y t /2 tales que t -t/2 o t t /2 donde -t/2 y t /2 se determinan de P(t t /2 ) =

utilizando la tabla t y su propiedad de simetra.

Esto quiere decir que Z o t est suficientemente alejado de cero si cae a la izquierda de -z/2 o a
la derecha de z/2 ( a la izquierda de -t/2 o a la derecha de t /2 ) segn se observa en la figura de
abajo

90

Z o t
- z/2
- t/2
R

z/2

t/2

NR

Fig. 2.3
Por tanto la regla de decisin dir: Rechazamos H0 a un nivel de significacin si
Z -z/2

Z z/2

o bien

t -t/2

t t /2

En caso contrario no rechazaremos H0 , es decir, "aceptamos" H0

Para cada nivel de significacin que nos fijemos en una prueba de dos colas existirn 2 valores
crticos que dividirn el rango de Z o t en tres regiones disjuntas, una regin de no rechazo o
aceptacin y dos regiones de rechazo.
Las reglas de decisin para probar H0 : = 0 ( 0 , 0 ) contra H1 , pueden resumirse en
la siguiente tabla.

Tipo de
Prueba segn H1
Cola derecha 0
Cola izquierda 0
Dos colas 0

Reglas de decisin
Estadstico Z
Estadstico t
Rechazo H0 si
Rechazo H0 si
Z z
t t
Z - z
t - t
Z - z/2 o Z

z/2
t - t/2 o t

t/2

En caso contrario diremos que no podemos rechazamos H0 ,es decir, aceptamos H0.
Cuando a partir de la informacin muestral H0 sea rechazada con un nivel de significacin =
0.05, diremos que el resultado de la prueba fue significativo, esto es, que si hicieramos un muestro

91

repetido podramos esperar que slo en 5 ocaciones de 100 cometeriamos el error I, en otras
palabras se tendra un 95% de confianza de que se tom la alternativa adecuada.
Cuando H0 sea rechazada a un nivel = 0.01 diremos que el resultado fue altamente significativo.

Para ejemplo 2.2


Para una poblacin no normal con desconocido y n 30 le corresponde una casilla con Z en la
tabla, por tanto el estadstico de prueba ser:
Z =

Como la prueba es de cola derecha y el nivel de significacin es = 0.05


El valor crtico z se determina de P( Z z | Z = 0 ) = = 0.05, pero como la tabla de la
distribucin de Z slo proporciona valores de z que tiene a su izquierda el rea acumulada que
seala dicha tabla, determinemos el valor z de P( Z < z | Z = 0 ) = 1 - = 0.95 as
Los valores ms cercanos a 0.95 son 0.9495 y 0.9505. Tomaremos 0.9505 al cual le corresponde
z = 1.65
Es decir que Z es significativamente distinto de cero si cae a la derecha de 1.65 segn se observa en
la figura de abajo

92

0.05
Z
0

1.65
NR

Fig. 2.4
Por tanto la regla de decisin dir:
Rechazo H0 : = 44 a un nivel de significacin = 0.05 si Z z = 1.65
En caso contrario no rechazo H0 : = 44 . Acepto H0 : = 44.

4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL


ESTADISTICO DE PRUEBA.
Es importante destacar que la muestra se selecciona despus de haber establecido la regla de
decisin. Con la informacin muestral vamos a valorar el estadstico de prueba
X

que puede ser igual a Z o t

Para el ejemplo 2.2.


De una muestra aleatoria de tamao n = 36 plantaciones se obtuvo un rendimiento promedio y una
desviacin estndar dados por
X = 47.30 qq/mz
S = 6.60 qq/mz
Como la poblacin es finita de tamao N = 200 plantaciones.
El valor del estadstico de prueba es
Z =

donde X =

S
n

N - n
=
N -1

6.60
36

200 - 36
= 0.9986
199

93

As que Z =
5.

47.30 - 44
3.30
=
= 3.3046
0.9986
0.9986

SELECCIONAR UNA ALTERNATIVA.

Ahora estamos listos para aplicar la regla de decisin que nos permitir seleccionar la alternativa
ms adecuada.
Si el valor del estadstico de prueba Z o t cae en la regin de rechazo entonces diremos que
rechazamos H0 a un nivel , esto es, que aceptamos H1
Luego debemos seleccionar la alternativa correspondiente a la aceptacin de H1 que es A1 con un
nivel de confianza del ( 1 - ) 100%.

Si el valor del estadstico de prueba Z o t cae en la regin de no rechazo o aceptacin entonces


diremos que no hay suficiente evidencia para rechazar H0, esto es, aceptamos H0 , pero
dbilmente.
Luego podemos seleccionar la alternativa correspondiente a la aceptacin de H0 que es A0

Para el ejemplo 2.2


Como Z = 3.3046, cae en la regin de rechazo
Rechazamos H0 : = 44 a un nivel = 0.05 ,esto es, aceptamos H1 : 44.
Luego debemos seleccionar la alternativa A1 de aplicar el fertilizante con un nivel de confianza de
95%.
EJEMPLO 2.3
Suponga que se tiene un proceso de produccin de llenado de cajas de cereal del cual se supone que
el peso neto de cereal en las cajas tiene una distribucin normal, y que adems, proporciona un peso
neto promedio de cereal en las cajas de 2 libras.
Puesto que este proceso esta sujeto a inspecciones peridicas por representantes de la Oficina local
de proteccin a los consumidores, quienes nicamente les interesa la falta de peso en los
productos, se tom una muestra aleatoria de 6 cajas obteniendo los siguientes pesos netos en libras.
1.85 ,

2.10 ,

1.95 ,

1.83 ,

2.18 ,

1.97

Existe evidencia suficiente para decir que el proceso no est funcionando correctamente a un nivel
de significacin del 1%?
1. FORMULACION DE LAS HIPOTESIS
En este problema los elementos a estudiar son las cajas de cereal y la caracterstica de inters X ser
el peso neto de cereal en las cajas. Estaremos interesados en suposiciones que se hagan acerca de la
media poblacional que representar el peso neto promedio de las cajas.
Podemos ver el proceso de produccin de llenado de las cajas como la accin y la disminucin de
peso neto promedio de los productos con respecto a las 2 lbs como el efecto.

94

Por tanto podemos escribir.


H0 : = 2

El proceso est funcionando correctamente

H1 : 2

El proceso no est funcionando correctamente

donde H0 : = 2 est suponiendo que no hay disminucin del peso neto promedio con respecto a
las 2 lbs mientras que la hiptesis alterna H1 : 2 supone que hay disminucin del peso neto
promedio con respecto a las 2 lbs.
Observe que la prueba es de cola izquierda porque slo nos interesan las disminuciones en el peso
neto promedio con respecto a 2.
2.

ELEGIR UN NIVEL DE SIGNIFICACION.

La prueba presenta 4 situaciones indicadas abajo.


Altenativas

Hiptesis
H0: = 2 es V H1: 2 es V
El proceso est funcionando correctamente.
Correcto
Error II
El proceso no est funcionando correctamente.
Error I
Correcto

donde el error I consiste en decir que el proceso no est funcionando correctamente cuando en
realidad el proceso est llenando las cajas con un peso neto promedio de 2 lbs.
Controlaremos el error I suponiendo que
P ( error I ) 0.01

As que hemos elegido un nivel de significacin = 0.01

3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE


DECISION.
Para una poblacin normal con desconocida y n 30 le corresponde el estadstico de prueba t
dado por
t =

Como la prueba es de cola izquierda y = 0.01


El valor crtico -t se determina de P( t < -t | t = 0 ) = = 0.01, pero como la tabla de la
distribucin de t slo proporciona valores de t que tiene a su derecha el rea acumulada que seala
arriba dicha tabla, apliquemos su propiedad de simetra para determinar el valor positivo t de P( t
> t | t = 0 ) = = 0.01 as
Para = 0.01 y n - 1 = 6 - 1 = 5 g.l.
t = 3.365 y su opuesto ser - t = - 3.365

95

Es decir que t es significativamente distinto de cero si cae a la izquierda de - 3.365 segn se observa
en la figura de abajo

0.01
- 3.365
R

NR
Fig. 2.5

Por tanto la regla de decisin dir:


Rechazo H0 : = 2 a un nivel de significacin = 0.01 si t - t = - 3.365
En caso contrario no rechazo H0 : = 2, es decir acepto H0 : = 2

4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL


ESTADISTICO DE PRUEBA.
El anlisis de la informacin muestral proporcionada por n = 6 cajas se da a continuacin.
Xi

Xi 2

1.85
2.10

3.4225
4.4100

1.95
1.83

3.8025
3.3489

2.18

4.7524

1.97
11.88

3.8809
23.6172

96

S2

S2

Xi

Xi

11.88
1.98 lbs.
6

Xi 2
n

n -1
0.0948
5

0.01896

11.88 2

23.6172 -

6
5

0.01896 0.1377 lbs

Como la poblacin se considera infinita el valor del estadstico de prueba es:


t =

5.

X
X -
=

X
S/ n

1.98 - 2.00
0.1377 / 6

- 0.02
= - 0.3559
0.0562

SELECCIONAR UNA ALTERNATIVA.

Como t cae en la regin de no rechazo diremos que no hay suficiente evidencia para rechazar H0 :
= 2 , es decir, aceptamos H0 : = 2. Luego debemos seleccionar la alternativa que dice que
el proceso de produccin est funcionando correctamente.

EJEMPLO 2.4.
Suponga que una empresa tiene una cantidad muy grande de cuentas por cobrar y que los saldos de
esas cuentas tienen aproximadamente una distribucin normal.
En los libros de la empresa aparece registrado un saldo promedio para esas cuentas de C$ 25850.
Un auditor con el fin de reducir la cantidad de revisin detallada que necesita utiliza muestreo
estadstico para seleccionar una muestra de 100 cuentas, obteniendo un saldo promedio de C$
27,550 y una desviacin estndar de los saldos de C$ 1200.
Deber el auditor concluir que el saldo es distinto a C$ 25850 y que, por lo tanto, debe hacer un
asiento de ajuste al valor en libros a un nivel de significacin del 2%?
1.

FORMULACION DE LAS HIPOTESIS

En este problema los elementos a estudiar son las cuentas y la caracterstica de inters X ser el
saldo de las cuentas. Ser de inters hacer suposiciones acerca de la media poblacional que
representar el saldo promedio de las cuentas.

97

Podemos ver la revisin de los saldos de las cuentas por cobrar como la accin y la diferencia del
saldo promedio con respecto a C$ 25850 como el efecto.
Por tanto podemos escribir las hiptesis as
H0 : = 25850

No hacer un asiento de ajuste al valor en libros

H1 : 25850

Hacer un asiento de ajuste al valor en libros.

donde H0 : = 25850 est suponiendo que no hay diferencia en el saldo promedio con respecto a
C$ 25850 mientras que la hiptesis alterna H1 : 25850 supone que hay diferencia en el saldo
promedio con respecto a C$ 25850.
Observe que la prueba es de dos colas porque nos interesan tanto las diferencias del saldo promedio
hacia la izquierda de C$ 25850 como hacia la derecha de C$ 25850.

2.

ELEGIR UN NIVEL DE SIGNIFICACION.

La prueba presenta 4 situaciones indicadas abajo.


Altenativas

Hiptesis
H0: = 25850 es V
H1: 25850 es V
No hacer asiento de ajuste
Correcta
Error II
Hacer asiento de ajuste
Error I
Correcta

donde Error I se da cuando hacemos un asiento de ajuste en libros cuando en realidad el saldo
promedio de las cuentas es igual a C$ 25850.
Controlaremos el error I suponiendo que
P ( error I ) 0.02

De esta manera hemos elegido un nivel de significacin = 0.02

3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE


DECISION.

98

Para una poblacin normal con desconocida y n 30 le corresponde el estadstico de prueba Z,


como una aproximacin de t , dado por
Z =

Como la prueba es de dos colas quedar repartido en las dos colas as


= 0.02

= 0.01

Los valores crticos -z/2 y z/2 se determinan respectivamente de P( Z < -z/2 | Z = 0) =


=
2

0.01 y

P(Z z/2 | Z = 0) =
= 0.01, pero como la tabla de la distribucin de Z slo
2

proporciona valores de z que tienen a su izquierda el rea acumulada que seala dicha tabla,

podemos determinar primero el valor negativo -z/2 de P( Z < -z/2 | Z = 0) =


= 0.01, o bien
2

podemos determinar primero el valor positivo. Una vez determinado el primero, el segundo ser,
segn la propiedad de simetra, el opuesto.
Determinemos primero el valor negativo - z 2 encontrando el rea ms cercana a 0.01, que es
0.0099, a la cual le corresponde - z 2 = - 2.33. El otro valor crtico ser el opuesto del anterior,
esto es, z 2 = 2.33

Es decir que Z es significativamente distinto de cero si cae a la izquierda de -2.33 o a la derecha de


2.33 segn se observa en la figura de abajo

0.01

0.01
Z
- 2.33
R

0
NR
Fig. 2.6

Por tanto la regla de decisin dir:

2.33
R

99

Rechazo H0 : = 25850 a un nivel = 0.02 si Z - z = - 2.33 o Z z = 2.33


En caso contrario no rechazo H0 : = 25850. Acepto H0 : = 25850.
4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL
ESTADISTICO DE PRUEBA.
De una muestra aleatoria de tamao n = 100 cuentas se obtuvo la siguiente informacin.
X = C$ 27550

S = C$ 1200
Como la poblacin se considera muy grande el valor del estadstico de prueba es:
Z =

5.

X
X -
=

X
S/ n

27550 - 25850
1700
=
= 14.1667
1200/ 100
120

SELECCIONAR UNA ALTERNATIVA.

Como el valor de Z cae en la regin de rechazo diremos que hay suficiente evidencia para rechazar
H0 : = 25850 a un nivel de significacin = 0.02, lo cual implica que estamos aceptando H1 :
25850.
Luego debemos hacer un asiento de ajuste al valor en libros.

2.3 PROCEDIMIENTO DE LA PUEBA ACERCA DE p


Del tema anterior recordemos que cuando la caracterstica de inters Y de los elementos
poblacionales siguen una distribucin de Bernoulli, se demuestra fcilmente que:
Y p

p (1 - p)

Motivo por el cual a la media poblacional de Y le llamamos proporcin poblacional y la denotamos


por p.
Ahora como la proporcin poblacional es una media poblacional, el procedimiento para probar
hiptesis acerca de p ser el mismo que se utiliz para .
Como las hiptesis sern suposiciones acerca de p, el estadstico de prueba ser naturalmente la
proporcin muestral pS pero estandarizada, esto es, la diferencia pS - p0 expresada en unidades del
error estndar de pS
pS - p 0
p S

p0 es el valor supuesto de p

100

donde p
S

o p
S

Y
n

Y
n

=
N-n
N -1

p0 (1 - p0 )
n

si la poblacin es infinita

p0 (1 - p0 )

N-n

N -1

si la poblacin es finita.

Esta expresin puede ser aproximadamente igual al estadstico Z si n es suficientemente


grande, esto es, si
np0 5
y
n (1 p0) 5
Esto significa que el valor del estadstico de prueba Z se obtendr de una muestra de tamao n y
representar tambin una diferencia que puede ser significativa o no significativa.
EJEMPLO 2.5.
Suponga que se tiene un proceso de produccin de llenado de envases plsticos de caf.
Con base en la experiencia acumulada se sabe que por lo menos el 4% de los envases no cumplen
con los estndares de sellado y tienen que ser reprocesados.
Despus de haber desarrollado un nuevo sistema de envase el gerente de control de calidad decide
tomar una muestra aleatoria de 400 envases la cual seala que es necesario reprocesar 10.
Tiene suficiente evidencia el gerente para concluir a un nivel de significacin del 5% que el nuevo
sistema es mejor que el anterior, esto es, que la proporcin de envases defectuosos ha descendido?

1.

FORMULACION DE LAS HIPOTESIS.

En este problema los elementos a estudiar son los envases plsticos y la caracterstica de inters Y es
la seguridad que ofrece el envase en cuanto a si cumple o no cumple los estndares de sellado.
Como estamos interesados en los envases defectuosos el xito ser que no cumplen.
Por tanto estamos en presencia de una poblacin de Bernoulli de la cual nos interesan las
suposiciones acerca de la proporcin p de envases que no cumplen los estndares de sellado.
Podemos ver el proceso de produccin de llenado de los envases plsticos como la accin y el
descenso de la proporcin de envases defectuosos con respecto a 0.04 como el efecto.
As que las hiptesis sern:
H0 : p 0.04
H1 : p 0.04

El nuevo sistema no es mejor


El nuevo sistema es mejor

donde H0 : p 0.04 est suponiendo que no hay descenso en la proporcin de envases que no
cumplen con respecto a 0.04 mientras que la hiptesis alterna H1 supone que hay descenso en la
proporcin de envases que no cumplen.

101

Observe que la prueba es de cola izquierda porque slo nos interesan los descensos de la
proporcin de envases que no cumplen con respecto a 0.04.
2.

ELEGIR UN NIVEL DE SIGNIFICACION.

La prueba presenta las 4 situaciones indicadas abajo.


Alternativas

Hiptesis
H0: p 0.04 es V H1: p 0.04 es V
Correcta
Error II
Error I
Correcta

El nuevo sistema no es mejor


El nuevo sistema es mejor

donde el error I consiste en decir que el nuevo sistema es mejor cuando en realidad no hay descenso
en la proporcin de envases que no cumplen.
Controlaremos el error I suponiendo que P (error I) 0.05
De esta manera hemos elegido un nivel de significacin = 0.05
3.

IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE


DECISION.
Como la poblacin tiene una distribucin de Bernoulli, el estadstico de prueba es
Z =
Porque

pS - p 0
p S

np0 = 400 (0.04) = 16 5

n ( 1 p0 ) = 400 (0.96) = 384 5

Como la prueba es de cola izquierda y = 0.05 , el valor crtico -z se determina de


P( z < -z | Z = 0 ) = = 0.05, como la tabla de la distribucin de Z slo proporciona valores de z
que tiene a su izquierda el rea acumulada que seala dicha tabla, determinemos el valor negativo -z
as
El rea ms cercana a 0.05 es 0.0505 0.0495
Tomemos 0.0505 a la cual le corresponde - z = - 1.64
Es decir que z es significativamente distinto de cero si cae a la izquierda de - 1.64 segn se observa
en la figura de abajo

0.05

102

- 1.64
R

NR

Fig. 2.7
Por tanto la regla de decisin dir lo siguiente:
Rechazo H0 : p 0.04 a un nivel de significacin = 0.05 si Z - z = - 1.64
En caso contrario no rechazo H0 : p 0.04 , esto es acepto H0 : p 0.04
4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL
ESTADISTICO DE PRUEBA.
De la muestra aleatoria de tamao n = 400 envases se puede obtener la siguiente informacin
pS =

X
n

10
400

= 0.025

Como la poblacin se considera infinita el valor del estadstico de prueba es

pS - p 0
Z =
p S

pS - p0
=

p0 (1 p0 )
n

0.025 - 0.04
- 0.015
0.04 (0.96) =
=
= -1.5306
0.0098
400

5. SELECCIONAR UNA ALTERNATIVA


Como el valor de Z cae en la regin de no rechazo diremos que no hay suficiente evidencia para
rechazar H0 : p 0.04 , es decir, aceptamos H0 : p 0.04.
Luego el nuevo sistema no es mejor que el anterior.
EJEMPLO 2.6.
Una empresa tiene 1500 cuentas por cobrar.
En los libros de la empresa aparece registrado que slo el 2% de los documentos no satisfacen los
requisitos establecidos.
Un auditor selecciona una muestra aleatoria de 300 y verifica que 12 no satisfacen los requisitos
establecidos.
Hay evidencia suficiente para que el auditor declare a un nivel de significacin del 1% que ms del
2% de las cuentas no satisfacen los requisitos establecidos por la institucin?
1.

FORMULACION DE LA HIPOTESIS.

Ahora los elementos a estudiar son las cuentas por cobrar y la caracterstica de inters Y es la
verificacin de las cuentas en cuanto a si satisfacen o no satisfacen los requisitos. Por lo tanto hay
una poblacin de Bernoulli de la cual nos interesan las suposiciones acerca de la proporcin p de
cuentas que no satisfacen los requisitos establecidos.
Podemos ver la verificacin de las cuentas como la accin y son ms del 2% la proporcin de
cuentas que no satisfacen los requisitos como el efecto.

103

La hiptesis quedan formuladas as:


H0 : p = 0.02
H1 : p 0.02

Declarar que el 2% de las cuentas no satisfacen los requisitos


Declarar que ms del 2% de las cuentas no satisfacen los requisitos

donde H0 : p = 0.02 est suponiendo que no son ms del 2% la proporcin de cuentas que no
satisfacen los requisitos, mientras que la hiptesis alterna H1 : p 0.02 supone que son ms del 2%
la proporcin de cuentas que no satisfacen los requisitos.
Observemos que la prueba es de cola derecha porque slo nos interesa si son ms del 2% la
proporcin de cuentas que no satisfacen los requisitos.
2.

ELEGIR UN NIVEL DE SIGNIFICACION

La prueba presenta las 4 situaciones indicadas abajo.


Alternativas

Hiptesis
H0: p = 0.02 es V H1: p 0.02 es V
El 2% de las cuentas no satisfacen.
Correcta
Error II
Ms del 2% de las cuentas no satisfacen.
Error I
Correcta
donde Error I consiste en declarar que ms del 2% de las cuentas no satisfacen los requisistos
cuando en realidad slo el 2% de las cuentas no satisfacen los requisitos.
Controlaremos el error I suponiendo que
P ( error I ) 0.01

As que hemos elegido un nivel de significacin = 0.01

3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE


DECISION.
Como la poblacin tiene una distribucin de Bernoulli el estadstico de prueba ser:
Z =
Porque np0 = 300 (0.02) = 6 5

pS - p 0
p S
y

n (1 p0 ) = 300 (0.98) = 294 5

Como la prueba es de cola derecha y el nivel de significacin es = 0.01


El valor crtico z se determina de P( Z z | Z = 0 ) = = 0.01, pero como la tabla de la
distribucin de Z slo proporciona valores de z que tiene a su izquierda el rea acumulada que
seala dicha tabla, determinemos el valor z de P( Z < z | Z = 0 ) = 1 - = 0.99 as
El rea ms cercana a 0.99 es 0.9901 a la cual le corresponde z = 2.33

104

Es decir que Z es significativamente distinto de cero si cae a la derecha de 2.33 segn se observa en
la figura de abajo

0.01
Z
0

2.33
NR

Fig. 2.8
Por tanto la regla de decisin dir:
Rechazo H0 : p = 0.02 a un nivel de significacin = 0.01 si Z z = 2.33
En caso contrario no rechazo H0 : p = 0.02. Acepto H0 : p = 0.02

4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL


ESTADISTICO DE PRUEBA.
De la muestra de tamao n = 300 cuentas se obtiene la siguiente informacin.
pS =

X
n

12
= 0.04
300

El valor del estadstico de prueba es


pS - p 0
Z =
p S

pS - p 0
=

p0 (1- p0 )
n

Porque la poblacin es finita con

N - n
N -1

n
300
=
= 0.20 0.05
N
1500

105

As que

Z =

5.

0.04 - 0.02
0.02 (0.98) 1200
300
1499

0.02

= (0.0081) (0.8947) = = 2.7597

SELECCIONAR UNA ALTERNATIVA

Como Z cae en la regin de rechazo diremos que hay suficiente evidencia para rechazar H0 : p =
0.02 a un nivel de significacin = 0.01, lo cual implica que aceptamos H1 : p 0.02
Luego el auditor debe declarar que ms del 2% de las cuentas no satisfacen los requisitos
institucionales.

EJERCICIOS PROPUESTOS DEL TEMA 2: PRUEBA DE HIPOTESIS


1. Suponga, segn registros histricos de la industria de la langosta en Nicaragua, que la captura
de langosta por trampa tiene una distribucin normal y que adems la captura promedio de langostas
ha sido de 30.31 libras. Hace unos aos el gobierno de un pas vecino declar que se prohiba a los
pescadores nicaragenses operar en la parte de su plataforma continental, razn por la cual se cree la
captura promedio de langosta en libras por trampa ha disminuido notablemente.
Una muestra aleatoria de 10 trampas para langostas, desde que la restriccin entr en vigor,
proporcion los siguientes resultados:
17.4, 18.9, 39.6, 34.4, 19.6, 33.7, 37.2, 27.5, 41.7, 24.1
Ha disminuido la captura promedio de langosta por trampa a un nivel de significacin del 1% ?
2. El rendimiento promedio de maz en las plantaciones hace un tiempo era de 50qq. por manzana
con una desviacin estndar de 4qq. Se utiliz un nuevo fertilizante a un grupo de 52 plantaciones
seleccionadas al azar obteniendo un rendimiento promedio de 55qq. por manzana. Suponiendo que
la desviacin estndar de los rendimientos con el nuevo fertilizante sigue siendo la misma, Se

106

puede afirmar que ha habido un incremento significativo en el rendimiento? Use un nivel de


significacin del 5%.
3. Suponga que se tiene un proceso de produccion de llenado de cajas de pasas del cual se supone
que el peso neto de las pasas en las cajas tiene una distribucin aproximadamente normal, y que
adems, proporciona un peso neto promedio de pasas por caja de 15 onzas.
Debido a que ha habido quejas de consumidores que dicen que las cajas contienen un peso neto
menor que el anunciado por la etiqueta del producto, se tom una muestra aleatoria de 20 cajas para
aclarar el asunto obtenindose un peso neto promedio de 13.5 onzas y una desviacin estndar de 1
onza.
Podemos decir a un nivel de significacin del 1% que el reclamo de los consumidores es justo ?
4. Un vendedor de neumticos est interesado en comprar unidades cuya duracin promedio sea
mayor de 15,000 millas. Una firma productora le informa que posee neumticos que cumplen con
ese requisito. El vendedor selecciona una muestra aleatoria de 25 unidades y determine que:
X 25,000 millas

S2 = 625,000 millas2

Suponiendo que la duracin de los neumticos sigue una distribucin normal.


Habr acuerdo entre la firma productora y el vendedor a un nivel de significacin del 10%?
5. Un fabricante vende ejes traseros de camiones. Los ejes han de soportar una capacidad
promedio de resistencia de 80,000 lbs por plg2 en las pruebas de esfuerzo, pero los ejes demasiados
fuertes elevan considerablemente los costos de produccin. La experiencia indica que la desviacin
estndar de los ejes es de 4,000 lbs por plg2. El fabricante selecciona una muestra de 100 ejes en la
ltima serie de produccin, los somete a prueba y averigua que la capacidad promedio de resistencia
de la muestra es de 79,000 lbs por plg2.
Puede decir el fabricante que los ejes no cumplen los requisitos de esfuerzo a un nivel de
significacin del 5%?
6. Un laboratorio lanza al mercado un nuevo producto logrado a base de hormonas afirmando que
al ser suministrado a las aves de corral el peso promedio de sus huevos ser igual o mayor que 3
onzas. En una de nuestras granjas avcolas se aplic el tratamiento masivamente y un da
determinado se tomaron de forma aleatoria 80 huevos, y se comprob que el peso promedio de los
mismos era de 2.9 onzas, con una desviacin estndar de 0.2 onzas. Podra decir usted que la
afirmacin del laboratorio no es cierta a un nivel de significacin del 5%?
7. La biblioteca de una universidad sospecha que el nmero promedio de libros prestados a cada
alumno por visita ha cambiado en los ltimos aos. Anteriormente, un promedio de 3.4 litros se
prestaba a los alumnos. Sin embargo, una muestra reciente de 23 estudiantes dio un promedio de 4.3
libros por visita, con una desviacin estndar de 1.5 libros.
Suponiendo que el nmero de libros prestados sigue una distribucin normal
Ha cambiado el promedio de libros prestados? En un nivel de significacin de 0.01.
8. Una tienda ha iniciado una promocin especial para su horno de gas propano y piensa que la
promocin deber culminar en un cambio de precios. Sabe desde antes de comenzar la promocin
que el precio de menudeo de los hornos sigue una distribucin normal y que el precio promedio de
menudeo de los hornos era de C$ 419.50, con una desviacin estndar de C$53.60. La tienda

107

muestrea 16 de sus detallistas una vez iniciada su promocin y descubre que el precio promedio al
menudeo de los hornos es de C$ 389.50. En un nivel de significacin de 0.02. tiene motivos para
pensar que el precio promedio al menudeo ha disminuido?
9 Un proceso industrial usado por una fbrica durante algunos aos da una produccin promedio
de 100 unidades por hora con una desviacin estndar de 8 unidades. Acaba de ponerse en el
mercado una nueva mquina para producir el mismo producto. Aunque es muy costosa comparada
con la que se usa actualmente, su adopcin sera muy lucrativa , si su produccin promedio fuera
mayor de 150 unidades por hora. La gerencia de la fbrica compra una de las nuevas mquinas
como un experimento y la prueba durante 35 horas encontrando una produccin promedio de 160
unidades por hora.
Suponiendo que la desviacin estndar de la produccin para la nueva mquina es idntica a la de
las antiguas, deber ser adquirida la nueva mquina a un nivel de significacin del 1% ?
10. Un nuevo sistema de enseanza de cierto curso de Estadsticas asegura que proporciona un
rendimiento promedio de 75 puntos. En una muestra aleatoria de 10 estudiantes se comprob que
sus calificaciones fueron:
70, 80, 75, 55, 65, 85, 90, 60, 75, 55.
Suponiendo que la distribucin de las calificaciones es normal, Podemos decir que el nuevo
sistema no alcanza el rendimiento promedio que asegura? Use un nivel de significacin del 5%.
11. El gerente de una compaa financiera se queja de que el 7% de los pagos parciales de
prstamos hechos a consumidores no se cubren a tiempo. Podramos afirmar que esta cifra es
diferente, si 80 de 1500 pagos de prstamos no se hacen a tiempo? Utilice un nivel de significacin
del 1%?

12. Un corredor de bolsas sostiene que puede predecir con un 85% de exactitud si una accin del
mercado burstil cambiar de valor durante el prximo mes. A manera de prueba predice el
resultado de 60 acciones y acierta en 45 de sus pronsticos. Ofrecen los datos evidencia
concluyente, cuando el nivel de significacin es del 2%, de qu la exactitud de su prediccin es
significativamente diferente al 85% afirmado por el corredor?.
13. ENEL utiliza decenas de miles de luminarias cada ao. La marca que ha utilizado hasta ahora
tiene una vida promedio de 1,000 horas con una desviacin estndar de 90 horas. Se le ofrece una
nueva marca al director de ENEL a un precio mucho ms bajo que el que ha estado pagando. El
director decide que se debiera comprar la nueva marca ahora a menos que tengan una vida promedio
menor de 1,000 horas en un nivel de significacin de 0.05. Se prueba 100 luminarias de la nueva
marca, que dan promedio de 990 horas. Suponiendo que la desviacin estndar para la nueva marca
es la misma que la vieja. Cul sera la decisin del director de ENEL?.
14. Una empresa de camiones de carga sospecha que la duracin promedio de 25,000 Kms que se le
adjudica a ciertos neumticos es demasiado larga. Para demostrar la afirmacin la empresa coloca
una muestra tomada al azar de 35 neumticos en sus camiones y descubre despus que su duracin

108

promedio es de 24410 Kms y la desviacin estndar es de 1348 Kms. Se podra concluir a un nivel
de significacin de 0.01 que la duracin promedio no es tan larga como se afirma?
15. Una persona que planea abrir un restaurante cerca de una zona residencial de cierta ciudad,
informa al banco al que desea pedir el capital necesario, que por lo menos el 50% de los residentes
en ese distrito patrocinarn su restaurante espordicamente cuando este abierto. Suponga que Ud. Es
el encargado de prstamos del banco y desea verificar si lo que dice la persona no es cierto con un
nivel de significacin del 5%. Adems suponga que de una muestra aleatoria de 50 residentes de ese
distrito solamente el 44% indicaron su intencin de patrocinar el restaurante propuesto.
a)

No debo autorizarle el prstamo ?.

b) Suponga que la muestra ha sido de 200 en lugar de 50, y que la proporcin muestral fuera an
de 0.44, Sera diferente su conclusion ?
16. Un fabricante de salsa de tomate est a punto de decidir si producir una marca nueva de mucho
condimento. El departamento de investigacin de la fabrica aplic una encuesta telefnica a nivel
nacional a 6,000 familias y averigu que la salsa sera comprada por 335 de ellas. Un estudio mucho
ms exhaustivo hecho dos aos antes revel que el 5% de las familias compraran la marca. En un
nivel de significacin de 1% Debera la compaa concluir que hay un mayor inters en el sabor
tan condimentado?
17. La experiencia de un comerciante en aparatos y accesorios mostr que el 10% de clientes que
compran a plazos liquidan sus cuentas antes del vencimiento de la ltima mensualidad. Al sospechar
un incremento en este porcentaje, el comerciante muestre 200 compradores a crdito para saber sus
intenciones, 33 de ellos afirmaron tener planeado pagar sus deudas antes de la ltima mensualidad.
Son los datos suficientes para indicar que el porcentaje de compradores a plazos que pagarn sus
deudas antes de la ltima mensualidad excede de 10% ?. Haga la prueba con un nivel de
significacion de 0.02.

18. El departamento de personal de una empresa quiere estimar los gastos mdicos promedios por
familia de sus empleados, a fin de determinar un plan de seguro mdico. Una muestra aleatoria de
10 empleados mostr los gastos mdicos familiares siguientes en un ao:
$110 , 362 , 246 , 85 , 510 , 208 , 173 , 425 , 316 , 179 .
Suponiendo que los gastos mdicos por familia siguen una distribucin normal
A un nivel de significacin de 0.10. Podra concluir el gerente de personal que los gastos mdicos
promedios por familia de todos los empleados es distinto a $200.
19. El departamento de servicio a cliente de una empresa local de servicios pblicos telefnicos
quiere estimar el tiempo promedio entre la llegada de la solicitud de servicio y la conexin del
mismo. De los registros disponibles del ao anterior se seleccion una muestra aleatoria de 15 casos.
Los resultados en das fueron los siguientes:
114 , 78 , 96 , 137 , 78 , 103 , 117 , 126 , 86 , 99 , 114 , 72 , 104 , 73 , 86 .

109

Suponiendo que la distribucin de los tiempos entre la llegada de la solicitud y la conexin es


normal. Aun nivel de significacin de 0.01. es posible que el tiempo promedio de espera en el ao
anterior haya sido mayor de 90 dias?.
20. Un fabricante de televisores anuncia que el 90% de sus aparatos no necesitan ninguna
reparacin durante los dos primeros aos de uso. La oficina de proteccin al consumidor selecciona
una muestra de 100 aparatos y encuentra que 14 necesitan alguna reparacin durante los dos
primeros aos de uso. A un nivel de significacin de 0.05. a qu conclusin puede llegar la oficina
de proteccin al consumidor?
21. El editor de una revista encontr basndose en su experiencia que el 60% de sus suscriptores
renuevan sus suscripciones. Como la compaa se encaminaba a una recesin en sus negocios,
decidi seleccionar una muestra de clientes para determinar si planeaban renovar sus suscripciones.
108 personas de una muestra de 200 indicadores que si pensaban renovarlas. Proporcionan los
datos suficiente evidencia para detectar una reduccin en la proporcin de los suscriptores que si
renovarn? Realice la prueba usando un nivel de significacin del 5%.
22. Aproximadamente uno de cada diez consumidores de una regin determinada prefieren el
refresco de cola marca A. Despus de una campaa de promocin en esa regin, se seleccion
aleatoriamente 200 consumidores de ese producto resultando que 26 expresaron su preferencia por
el refresco de cola marca A. Hubo aumento en la preferencia del refresco de cola marca A en la
regin a un nivel de significacin del 10% ?
23. Un fabricante de azcar que la empaca en bolsas de plstico dice que cuando el proceso est
bajo control cada bolsa debe contener 10 onzas como promedio. Peridicamente se toma una
muestra de 9 bolsas para comprobar el proceso. Se acaba de tomar una muestra aleatoria de 9 bolsas
y se encontr que el peso promedio es de 10.3 onzas con una desviacin estndar de 0.45 onzas.
Suponiendo que los pesos de las bolsas de azcar siguen una distribucin normal, podr decirse
que el proceso est fuera de control a un nivel de significacin del 2%?

TEMA 3. ANALISIS DE REGRESION LINEAL SIMPLE


OBJETIVOS
1. Conocer el establecimiento formal del modelo de regresin lineal normal con dos variables.
2. Estimar la funcin de regresin poblacional e interpretar sus coeficientes obtenidos.
3. Trazar la lnea de regresin estimada sobre el diagrama de dispersin y conocer algunas
propiedades de ella.
4. Hacer un anlisis de varianza cuando se ajusta una lnea de regresin a los datos determinando
medidas de asociacin entre las dos variables e interpretando sus valores
5. Probar si existe relacin lineal significativa entre las dos variables.
6. Utilizar el modelo de regresin lineal simple en la estimacin o prediccin (puntual o por
intervalo) de variables econmicas.
3.1. INTRODUCCION

110

El propsito fundamental del anlisis de regresin es estimar la relacin que puede existir entre dos
o ms variables, con el fin de que la media de una variable pueda ser estimada o predicha a partir de
valores conocidos o fijados de la otra u otras.
La variable que va a ser estimada o predicha la denotaremos por Y y la llamaremos variable
explicada, predicha o dependiente. Las otras variables generalmente se denotan por Xi y las
llamaremos variables explicativas, predictoras o independientes.
Algunas situaciones ilustrativas son las siguientes:
1. Un economista puede esta interesado en estudiar la relacin entre las siguientes variables.
Y : Consumo familiar mensual.
X1 : Ingreso familiar mensual.
X2 : No de hijos.
2. En contabilidad de costos, un contador o un administrador de una empresa puede estar
interesado en estudiar la relacin entre las siguientes variables:
Y : Costo de mano de obra directa de una orden de produccin.
X1 : No horas mquinas utilizadas.
X2 : No artculos producidos.
3. En agricultura, un economista agrcola o un ingeniero agrnomo puede estar interesado en
estudiar la relacin entre las siguientes variables:
Y : Rendimiento en qq/mz de una plantacin de maz.
X1 : Cantidad de fertilizante utilizado en lbs/mz.
X2 : Cantidad de insecticida utilizado.
X3 : Cantidad de lluvia.
En este tema slo estudiaremos la relacin entre 2 variables, motivo por el cual al anlisis de
regresin se le llama simple.
3.2 EL MODELO DE REGRESION LINEAL NORMAL CON DOS VARIABLES.
Este modelo considera solamente la relacin entre las variables X, Y, en cuya poblacin de
observaciones suponemos que:
1. Para cada valor que tome X hay una distribucin normal de Y.
2. Las medias de las distribuciones de Y varan linealmente con X.
Una representacin grfica de este modelo es la siguiente:

111

Yi 4300

Yi 3500

Fig. 3.1
A la lnea que pasa por las medias de Y la llamaremos lnea de regresin poblacional
Por ejemplo, supongamos que las caractersticas de inters en las familias de una comunidad estn
dadas por las siguientes variables:
X representa el ingreso mensual y Y representa el consumo mensual.
Si xi representa el i-simo valor que toma X y Yi la i-sima observacin de Y, entonces podemos
decir que para un nivel de ingreso xi = C$ 4000 hay una subpoblacin en la cual podemos suponer
que Yi tiene una distribucin normal con un consumo promedio dado por Yi | x i C$3800
Supongamos que para el nivel xi = C$ 4000 se selecciona al azar una familia y se registra la
observacin Yi = C$ 4300
Supongamos ahora que para el nivel x i = C$ 4000 se selecciona al azar una familia y se registra la
observacin Yi = C$ 3500
En la figura 3.1 pueden apreciarse estas observaciones y toda la poblacin de observaciones con la
lnea de regresin poblacional pasando sobre las medias de Yi.

3.2.1 ESTABLECIMIENTO FORMAL DE MODELO.


Supongamos que xi representa el i-simo valor que toma X y Yi la i-sima observacin de Y
Para cada xi existe una subpoblacin de observaciones de Y que pueden apreciarse en la figura 3.2 y
que consideramos provienen de una variable aleatoria Yi que ser vista como la suma de 2
componentes:

112

Fig. 3.2
i)

Un trmino constante explicado linealmente por X y que denotaremos por


o + 1 xi

donde o y 1 son los parmetros de regresin que llamaremos respectivamente intercepto y


pendiente de la lnea de regresin.
ii)

Un trmino aleatorio o error aleatorio, no explicado por X, que denotaremos por


i
y que se ver como una variable aleatoria sustituta de todas las dems variables omitidas en el
modelo y que pueden estar relacionadas con Y.
Esta componente i es la que le imparte aleatoriedad a Yi
Por lo tanto el modelo queda establecido con la expresin
Yi = o + 1 xi + i

y los siguientes supuestos:

Supuesto 1. X no es variable aleatoria.


Este supuesto plantea que X toma valores xi fijados por el investigador y stos se mantienen
constantes en muestreos repetidos.
Si X toma valores al azar, pero con una distribucin de probabilidad independiente de los i,
entonces para cualquier fin prctico podemos continuar trabajando como si X fuera no aleatoria.

Supuesto 2. Los i son variables aleatorias distribuidas normalmente.


Este supuesto implica que tambin Yi es una variable aleatoria con distribucin normal.
Esto quiere decir que cada observacin particular yi se considerar que proviene de una distribucin
normal de Yi.

113

Su presencia simplificar la teora del anlisis de regresin cuando estemos utilizando


procedimientos de estimacin y prueba ms adelante.
Supuesto 3. Los i son variables aleatorias independientes
Este supuesto plantea que para dos observaciones diferentes i y j los errores i y j , adems de estar
distribuidos normalmente, no estn correlacionados. La anterior implica que i y j son
independientes.
Como consecuencia de este supuesto podemos decir que tambin las observaciones Yi y Yj son
independientes, esto es, que cada observacin es independiente de cualquier otra observacin que se
haya dado.
Supuesto 4. La media de los i es cero ( Neutralizacin de los i )
i | x i 0

Yi | x i 0 1x i

donde la expresin | x se leer, la media de i cuando que X toma el valor xi , y la expresin


Yi | x i se leer la media de Yi cuando que X toma el valor xi
i

Sustituyendo o + 1 xi por Y | x en el modelo obtenemos Yi = Y | x + i donde podemos


observar que el error aleatorio puede expresarse as:
i = Yi - Yi | x i
Adems i es positivo si Yi est encima de Y | x , y negativo si Yi est debajo de Y | x
Por ejemplo, suponiendo que las familias de la comunidad con un nivel de ingreso de x i = C$4000
tienen siempre un consumo promedio dado por Yi | x i C$3800 entonces los errores aleatorios para
los consumos de las familias seleccionadas al azar anteriormente estaran determinadas as:
i

i = Yi - Y

| xi

= 4300 3800 = C$500

i = Yi - Y | x = 3500 3800 = C$ -300


i

y pueden apreciarse en la figura 3.1


Este supuesto plantea que aquellas variables que no estn incluidas en el modelo, incorporadas, por
tanto, en i , no afectan sistemticamente la media de Yi.
En otras palabras, los valores positivos de i se cancelan con los valores negativos de tal manera que
su efecto sobre la media de Yi es cero.
En las figuras 3.1 y 3.2 puede apreciarse una poblacin de observaciones y una lnea de regresin
poblacional neutralizando los errores aleatorios i , esto es, pasando sobre las medias de Yi

Le llamaremos funcin de regresin poblacional de Y sobre X a la expresin.


Y | X 0 1 X

para cualquier valor X dentro del alcance del modelo.

114

Observe que las medias de Y estn relacionados linealmente con los valores conocidos de X.
Al grfico de esta funcin le llamaremos lnea de regresin poblacional.
Los parmetros de regresin o y 1 sern interpretados as:
1 es la pendiente de la lnea de regresin. Representa el cambio en la media de Y por cambio
unitario en X.
El valor de 1 puede ser positivo o negativo.
Si 1 es positiva diremos que hay una relacin lineal positiva entre X , Y ; lo cual significa que si X
aumenta, Y| X tambin aumenta. En las figuras 3.1 y 3.2 pueden apreciarse una relacin lineal
positiva.
Si 1 es negativa diremos que hay una relacin lineal negativa entre X , Y; lo cual significa que si X
aumenta, Y| X disminuye. En la figura 3.3. puede apreciarse una relacin lineal negativa.

Fig.3.3
o es el intercepto de la lnea de regresin.
Representa la media de Y en X = 0
Si el alcance del modelo no incluye X = 0, o no tiene ningn significado a menos que el contexto
del problema lo sugiera, esto es, cuando se considera que X = 0 no se aleja mucha del alcance del
modelo.
El valor de o puede ser positivo o negativo. En las figuras 3.1, 3.2 y 3.3 se aprecia un o positivo,
mientras que en la figura 3.4 se aprecia un o negativo.
Supuesto 5.

Homoscedasticidad o igual varianza de los i

2i | x i 2

2Yi | x i 2

2
2
La expresin i | x i se leer, la varianza de i cuando que X toma el valor xi y la expresin Yi | x i
se leer la varianza de Yi cuando que X toma el valor xi

115
2
En este supuesto observe que 2 no tiene el subndice i, lo cual significa que i para cada xi es
2
una constante igual a 2 , lo cual implica que Yi para cada xi es tambin una constante igual a 2 .
En otras palabras las distribucin de probabilidad de Yi tienen siempre la misma varianza
independientemente del valor que tome X.
En las figuras 3.4 y 3.5 pueden apreciarse dos lneas punteadas trazadas a una distancia de la lnea
de regresin poblacional y paralelas a esa misma lnea de regresin, que nos seala que
posiblemente la mayor parte de las observaciones quedan dentro de esos lmites.
La magnitud de me indicar qu tanto se alejan o se acercan las observaciones Yi de las medias de
Yi que estn sobre la lnea de regresin poblacional.
Al comparar la figura 3.4 con la figura 3.5 pueden apreciarse distintos valores para . En qu figura
las observaciones estn ms alejadas de su lnea de regresin?

Fig 3.4

Fig. 3.5
Finalmente todos los supuestos anteriores pueden resumirse diciendo que los x i son valores
constantes y que los Yi son variables aleatorias independientes distribuidas normalmente con
Yi | x i 0 1 x i y
2Yi | x i 2

3.3 ESTIMACION DE LA FUNCION DE REGRESION POBLACIONAl.

116

Como en la funcin de regresin poblacional Y | X 0 1 X los parmetros de regresin o y


1 no son conocidos necesitamos estimarlos a partir de una muestra.
Antes de establecer cmo estimar los parmetros, digamos algo acerca del significado de una
muestra aleatoria en el contexto presente.
Denotemos el i-simo experimento por el par ordenado (xi , Yi) donde xi se considera una constante
y Yi una variable aleatoria
Por ejemplo, el primer experimento se considera que es la primera familia seleccionada al azar de
la comunidad con el primer ingreso mensual fijado x 1 por el investigador y con el primer consumo
mensual observado Y1, el segundo experimento se considera que es la segunda familia seleccionada
al azar de la comunidad con el segundo ingreso mensual fijado x2 por el investigador y con el
segundo consumo mensual observado Y2 ,y as sucesivamente.
Si consideramos n experimentos entonces al conjunto de pares ordenados ( x 1 , Y1 ) , ( x2 , Y2 ) , . . . ,
( xn , Yn ) le llamaremos muestra aleatoria de tamao n , y la presentaremos as
xi
x1
x2
.
.
.

Yi
Y1
Y2
.
.
.

xn

Yn

Cuando los pares ordenados (xi , Yi) de la muestra tomen sus propios valores los ubicaremos sobre
un plano cartesiano para obtener una nube de puntos que llamaremos diagrama de dispersin.

Fig. 3.6
La impresin visual de este diagrama nos va a sugerir si existe posiblemente una relacin lineal
entre X , Y

117

Para estimar los parmetros de regresin o y


denotaremos as

1 necesitaremos estimadores insesgados que

bo ser el estimador de o
b1 ser el estimador de 1
Teniendo los estimadores b0 y b1 resulta natural definir la funcin de regresin muestral as
b 0 b1 X
Y

( lea Y sombrero ) es el valor de la funcin de regresin muestral para el nivel X.


donde Y
es un estimador puntual insesgado de Y | X , razn por la cual se identificar como una media
Y
estimada de Y para el nivel X.

Al grfico de esta funcin le llamaremos lnea de ajuste o lnea de regresin estimada.


Para un valor particular xi de X
i b 0 b1x i
Y

ser llamado valor ajustado de Y para el nivel xi


Los estimados bo y b1 se llamarn y se interpretarn as:
b1 es la pendiente estimada. Representa una estimacin del cambio en el valor medio de Y por
cambio unitario de X.
bo es el intercepto estimado. Representa una estimacin del valor medio de Y en X = 0.

118

3.3.1. METODO DE LOS MINIMOS CUADRADOS.


Supongamos que a un valor particular xi de X le corresponde una observacin Yi
Denotaremos y definiremos el i-simo resduo de una observacin Yi como
i
ei = Yi - Y
i
Esto es la diferencia entre el valor observado Yi y el valor ajustado Y

Cuando conocemos el intercepto y la pendiente de una lnea decimos que dicha lnea est claramente
especificada. La lnea de regresin estimada quedar determinada cuando conozcamos las frmulas
que definen a los estimadores bo y b1.
Un buen mtodo para encontrar las frmulas para bo y b1 es buscar una lnea que mejor se ajuste a
la nube de puntos, esto es, que pase por ella minimizando la suma de los cuadrados de la resduos,
segn se muestra en la figura siguiente.

Lnea de regresin estimada

Yi

ei

b1

i
Y
b0
b 0 b1 x i

xi

Fig. 3.7
Hagamos que Q

2
i

entonces

Q Yi - Yi
.

Y
b
b
x
i 0 1 i en donde n es el tamao de la muestra.
.

Sabemos que Q es una funcin que depende de bo y b1 , esto es,


Q = f ( bo , b1 )

119

Minimicemos Q aplicando el calculo diferencial as


Q
bo

Q
b1

Yi - b o - b1

x i ( -1 )

Yi - bo - b1 x i ( - x i )
.

igualando a cero ambas ecuaciones y arreglando trminos nos queda.


n

1.

Yi n bo b1 x i
.

2.

x i Yi b o x i b1 x i 2

que son llamadas ecuaciones normales.


Despejando bo y b1 de este sistema de ecuaciones se tiene
n

b1

x Y
i

x i Yi -

x -
2
i

x
.

b0

Yi - b1

Una vez calculado los valores b0 y b1 procedemos a sustituirlos en la funcin de regresin


muestral
b 0 b1 X
Y

cuyo grfico, segn este mtodo, podr llamarse lnea de ajuste o lnea de los mnimos cuadrados.
3.3.2 PROPIEDADES PRINCIPALES DE LA LINEA DE AJUSTE
1.

La suma de los resduos es cero.


n

0
n

2.. Siempre pasa por el punto ( x, Y ) donde

xi
n

120

EJEMPLO 3.1.
La gerente de una compaa desea estimar la relacin entre los costos de materiales usados en un
proceso qumico (Y) y las horas de operacin (X). Con esta informacin ella espera ser capaz de
preparar un presupuesto ms preciso y tener un mejor control sobre los costos.
Datos sobre los costos en centenas de dlares para varias horas de operacin del proceso son
presentados abajo.
Horas
50
20
30
50
40
30
30
10
40
20

i)

Costos
6.5
4.0
4.5
6.0
5.5
5.0
5.5
3.5
6.0
4.5

Construya un diagrama de dispersin.


Y 7
Lnea de ajuste

6
5
4
3
2
1
0
0

10

20

30

Fig. 3.8

40

50

X 60

121

ii)

Encuentre la funcin de regresin lineal muestral e interprete los coeficientes de regresin


estimados.
xi
50
20
30
50
40
30
30
10
40
20
320
n

b1

Yi -

Yi
6.5
4.0
4.5
6.0
5.5
5.0
5.5
3.5
6.0
4.5
51.0

xi

x -
2
i

Y i2
42.25
16.00
20.25
36.00
30.25
25.00
30.25
12.25
36.00
20.25
268.50

320 ( 51 )
10
=
=
( 320) 2
11800 10
1740 -

xi Yi
325
80
135
300
220
150
165
35
240
90
1740

n
.

xi2
2500
400
900
2500
1600
900
900
100
1600
400
11800

1740 - 1632
108

0.0692
11800 - 10240
1560
n

b0

Yi - b1

2.8856

x
.

51 - 0.0692 ( 320 )
10

51 - 22.1440
28.8560

10
10

= 2.8856 + 0.0692 X
Y

b1 se interpreta as: Por cada hora adicional de operacin el costo promedio de materiales usados en
el proceso aumenta en 0.0692 (en centenas de $)
iii)

Estime el costo promedio de materiales utilizados cuando el proceso opere 15 horas.


= 2.8856 + 0.0692 (15) = 2.8856 + 1.038 = 3.9236
Y

iv)

(en centenas de $)

Trace sobre el diagrama de dispersin anterior la lnea de ajuste

Determinaremos los pares ordenados de dos puntos cualesquiera:


= 2.8856 + 0.0692 (45) = 2.8856 + 3.114 = 5.9996 (en centenas de $)
Para X = 45 , Y
Para

= 3.9236
X = 15 , Y

(en centenas de $)

122

En la figura 3.8 se han unido estos puntos con una recta.


3.4. ANALISIS DE VARIANZA DE Y
Para cualquier nivel xi , la diferencia Yi - Y cuando no se ha ajustado ninguna lnea de regresin
se llama desviacin total.
Al ajustar la lnea de regresin Yi - Y puede ser descompuestos en dos partes:
Para la i-sima observacin de Y.
Yi - Y =

( Y i - Y ) ( Yi Y i )

Desviacin total = Desviacin explicada por X + Desviacin no explicada por X.


i con respecto Y
La desviacin explicada por X es la desviacin del valor ajustado Y
i , esto
La desviacin no explicada por X es la desviacin de Yi con respecto al valor ajustado Y
es, el i-simo resduo ei.

La siguiente figura muestra la descomposicin de Yi - Y

Fig. 3.9
Para las n observaciones de Y la suma de los cuadrados de estas desviaciones puede demostrarse
que es
n

Yi

- Y

Y i

SSR

- Y

SSE

i
- Y

que denotaremos as
SST

donde

123

SST
Ser llamada suma de cuadrados total y representa una medida de variacin de las
observaciones Yi alrededor de Y . Esta medida tendr asociada n 1 grados de libertad. Un
grado de libertad es perdido debido a la restriccin

( Yi - Y) 0 que tienen sus


.

desviaciones.

SSE Ser llamada suma de cuadrados debida al error y representa una medida de variacin de
Y no explicada por X alrededor de la lnea de regresin estimada.
Esta medida tendr asociada n - 2 grados de libertad. Dos grados de libertad son perdidos
debido a la estimacin de los dos parmetros o y 1.

SSR
Ser llamada suma de cuadrados debida a la regresin y representa una medida de
variacin de Y, explicada por X, y asociada con la lnea de regresin estimada.
Esta medida tendr asociada 1 grado de libertad.

Las frmulas computacionales para SST, SSR y SSE puede demostrarse que son las siguientes.

SST

SSE

2
Yi

2
i

Yi

- bo

SSR = SST - SSE

- b 1 x i Yi

124

3.4.1 TABLA DE ANALISIS DE VARIANZA DE Y


Las sumas de cuadrados anteriores y sus grados de libertad correspondientes son presentados en lo
que llamaremos una tabla de anlisis de varianza o simplemente tabla ANOVA.
Fuente de variacin
Regresin
Error

SS
SSR
SSE
SST

GL
1
n-2
n-1

MS
MSR = SSR/1
MSE = SSE/n -2

Una suma de cuadrados dividida por sus correspondientes grados de libertad la llamaremos media
cuadrtica y la denotaremos por MS.
Estaremos interesados en la media cuadrtica de regresin denotada y definida as:
MSR =

SSR
1

= SSR

y la media cuadrtica del error denotada y definida as: MSE =

SSE
n - 2

3.4.2 EL ESTIMADOR DE
Recordemos que 2 representa la varianza de Y alrededor de la lnea de regresin poblacional y que
representa la desviacin estndar de Y para cualquier nivel de X.
Puede demostrarse que MSE es un estimador insesgado de 2.
En otras palabras que la varianza estimada de Y alrededor de la lnea de regresin podemos
denotarla y obtenerla as:
Y2 MSE
y la desviacin estndar estimada de Y por

MSE

SSE
n-2

Y es un estimador insesgado de que proporciona medidas expresadas en las


Observe que
mismas unidades que los datos originales, logrando con esto una mejor apreciacin de la
variabilidad de Y entorno a la lnea de regresin.

Una frmula alternativa para calcular la desviacin estndar estimada de Y es la siguiente:

2
i

- b o Yi - b 1 x i Yi
n-2

Y nos ser de gran utilidad para hacer inferencias sobre 1.


El estimador

EJEMPLO 3.2
Utilizando los resultados del ejemplo 3.1
i) construya la tabla de anlisis de varianza

125

ii) obtenga un estimado de .


i)

Sabemos que

320 ,

= 51 ,

2
i

= 268.5

xY
i

= 1740

= 2.8856 + 0.0692 X
y que Y

SST

SSE

2
i

= 268.5 -

(51) 2
= 268.5 - 260.1 = 8.4
10

- b o Yi - b 1 x i Yi = 268.5 - 2.8856 (51) - 0.0692 (1740)

2
i

= 268.5 - 147.1656 - 120.408 = 0.9264


SSR = SST - SSE = 8.4 - 0.9264 = 7.4736
Arreglando estas sumas de cuadrados con sus correspondientes grados de libertad llegamos a la
siguiente tabla ANOVA.
Fuente de variacin
Regresin
Error

SS
7.4736
0.9264
8.4000

GL
1
8
9

Y=
Observe que MSE = 0.1158 y que por lo tanto

ii)

MS
7.4736
0.1158

MSE

0.1158

0.3403

Con la frmula alternativa tenemos que


n

- b o Yi - b 1 x i Yi
n-2

0.9264
8

0.1158

0.3403

3.4.3 MEDIDAS DE ASOCIACION ENTRE X,Y


Dos medidas de asociacin son frecuentemente usadas en la prctica para describir el grado de
relacin entre X, Y.
COEFICIENTE DE DETERMINACION.
Podramos considerar que SST es una medida de variacin total de las observaciones Yi que refleja
la incertidumbre en estimar o predecir Y cuando ninguna variable independiente X es tomada en

126

cuenta. Cuando un modelo de regresin que utilice la variable independiente X es utilizado SST se
dividir en dos componentes SSE y SST tales que el cociente
SSE
SST

representar una medida de la proporcin de la variacin de Y no explicada por X que an queda y


el complemento
r2 1

SSE SST SSE SSR

SST
SST
SST

donde 0 r 2 1

una medida de la proporcin de la variacin total de Y explicada por X que llamaremos coeficiente
de determinacin muestral. Esta medida podr verse tambin como una reduccin proporcional
de la variacin total de Y (incertidumbre) cuando la variable independiente X es introducida.
De manera que r2 podr interpretarse as:
Es la proporcin de la variacin total de Y que es explicada por X.
Es la reduccin proporcional de la variacin total de Y cuando la variable independiente X es
introducida.
Lmites de los valores de r2
n

1. r2 = 1

SSE = 0

i )2 0
(Yi Y

i
Yi Y

La relacin entre X,Y es perfecta en los datos muestrales. Aqu toda variacin en las observaciones
Yi es explicada por X. Este caso es mostrado en la siguiente figura.

b0 b1X
Y

Yi

Fig. 3.10
n

2. r2 = 0

SSR = 0

i - Y)
(Y

i Y b1 = 0
Y

No hay relacin entre X , Y en los datos muestrales. Aqu la variacin en las observaciones Yi no
son explicadas por X. X no ayuda a reducir la variacin en las observaciones Yi
Este caso es mostrado en la siguiente figura.

127

En la prctica r2 toma valores entre 0 y 1. La cercana de r2 a 1 implica un alto grado de asociacin


entre X , Y.
Y

Y
Y

Fig. 3.11
EJEMPLO 3.3.
Para el ejemplo 3.1 determine el coeficiente de determinacin e interprtelo.
Utilizando la tabla ANOVA del ejemplo 3.2 llegamos a que:
r

7.4736
8.4000

0.8897

El 88.97% de la variacin en el costo de materiales se puede explicar por las horas de operacin del
proceso.
La variacin total en el costo de materiales es reducida en un 88.97% cuando las horas de operacin
es considerada.
COEFICIENTE DE CORRELACION.
La raz cuadrada de r2.
r

r2

-1 r 1

r tiene el mismo signo que b1

es llamada coeficiente de correlacin.


Observe que r2 < | r | o sea que r puede dar la impresin de una relacin ms fuerte entre X , Y
que la correspondiente. Por ejemplo r2 = 0.10 indica que la variacin total en Y es reducida en slo
un 10% cuando X es introducida, y | r | = 0.3162 puede dar la impresin de una mayor asociacin
entre X , Y.
Interpretacin de r
No tiene una interpretacin tan clara como la de r2 , sin embargo podemos decir que a medida que
| r | se acerque a 1 mayor ser el grado de relacin entre X, Y, lo cual permitir hacer inferencias
ms precisas sobre Y a partir de X.
EJEMPLO 3.4
Para el ejemplo 3.1 determine el coeficiente de correlacin.

128

Como la pendiente b1 = 0.0692 es positiva


r

0.9432

0.8897

La cercana de r con 1 implica que posiblemente hay alto grado de relacin entre X, Y
3.5 INFERENCIAS SOBRE 1
Frecuentemente estaremos interesados en hacer inferencias sobre la pendiente de la lnea de
regresin poblacional.
Por ejemplo ser de inters saber si hay una relacin lineal significativa entre X , Y para la cual
haremos una prueba de hiptesis sobre 1.
Tambin puede ser que queramos obtener un intervalo de confianza para 1.
Antes de considerar inferencias sobre 1 necesitamos considerar la distribucin muestral de b1.
3.5.1 DISTRIBUCION MUESTRAL DE b1
Puede demostrarse que el estimador b1 es una combinacin lineal de las observacin Yi . Esto es,
b1 =

ki

Yi

donde los ki son constantes.

Como las observaciones Yi tienen distribucin normal (segn el supuesto 2) b1 tiene tambin una
distribucin normal con

b1

b1 1

x
.

2
i

2
n
xi
.

ERROR ESTANDAR ESTIMADO DE b1


El error estndar estimado de la pendiente b1 se denota y obtiene as
Y

b1

3.5.2

2
xi

xi
.

Y es el estimador de
donde

PRUEBA DE SIGNIFICACION SOBRE 1

Recordemos que la funcin de regresin poblacional estaba dada por Y | X 0 1 X


Si suponemos 1 0 en la expresin anterior nos queda que
Y|X

Es decir no habra relacin entre X, Y


Por tanto para que haya relacin entre X, Y debemos suponer que 1 0

129

El procedimiento de la prueba ser el siguiente:


1. FORMULACION DE LAS HIPOTESIS.
Podemos ver la verificacin del valor que toma la pendiente 1 como la accin y la diferencia de 1
con respecto a cero como el efecto.
Por tanto podemos escribir las hiptesis as
H 0 : 1 0

No hay relacin entre X , Y


Hay relacin entre X , Y

H1 : 1 0

donde H 0 : 1 0 esta suponiendo que no hay diferencia de 1 con respecto a cero, mientras que la
hiptesis alterna H 1 : 1 0 supone que hay diferencia de 1 con respecto a cero.
Observe que la prueba es bilateral porque nos interesan tanto las diferencias de 1 hacia la izquierda
de cero como hacia la derecha de cero.
2. ELEGIR UN NIVEL DE SIGNIFICACION.
El error I consiste en decir que hay relacin entre X , Y cuando en realidad no hay.
Controlaremos el error I suponiendo que P (error I )
3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE
DECISION.
Como las hiptesis son suposiciones acerca de 1 el estadstico de prueba ser su estimador b1 pero
estandarizado, esto es,
b1 - 0
b

puede demostrarse que

b1
b

sigue una distribucin t de Student con n 2 grados de libertad.

Por tanto el estadstico de prueba ser

b1
Pendiente estimada

b
El error estndar de b1

donde b
1

2
xi
.

La regla de decisin ser

xi
.

-
n

130

o
t t /2
Rechazo H 0 : 1 0 a un nivel de significacin si t - t /2
En caso contrario no podemos rechazar H 0 : 1 0 , es decir, aceptamos H 0 : 1

Una ilustracin grfica de la regla se muestra abajo.

- t / 2

t /2

0
NR

Figura 3.12
4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL
ESTADISTICO DE PRUEBA.
Con la informacin muestral calculemos primero b1 y b para obtener el valor de t
1

5. SELECCIONAR UNA ALTERNATIVA


Si t cae en la regin de rechazo entonces diremos que rechazamos H 0 : 1
esto es, que aceptamos H 1 : 1 0 .
Luego hay relacin lineal entre X , Y.

a un nivel ,

Si t cae en la regin de no rechazo entonces diremos que no hay suficiente evidencia para rechazar
H 0 : 1 0 , esto es, aceptamos H 0 : 1 0 . Luego no hay relacin lineal entre X , Y.

EJEMPLO 3.5.
Para el ejemplo 3.1 pruebe si hay una relacin lineal significativa entre el nmero de horas de
operacin del proceso y el costo de los materiales a un nivel de significacin del 5%.
1. FORMULACION DE LAS HIPOTESIS.
Las hiptesis se escribirn as
H 0 : 1 0

H1 : 1 0

No hay relacin entre X , Y


Hay relacin entre X , Y

131

donde H 0 : 1 0 esta suponiendo que no hay diferencia de 1 con respecto a cero mientras que
la hiptesis alterna H 1 : 1 0 supone que hay diferencia de 1 con respecto a cero.
Observe que la prueba es bilateral porque nos interesan tanto las diferencias de 1 hacia la izquierda
de cero como hacia la derecha de cero.
2. ELEGIR UN NIVEL DE SIGNIFICACION.
El error I consiste en decir que hay relacin entre el nmero de horas de operacin del proceso y el
costo de materiales cuando en realidad no hay.
Controlaremos el error I suponiendo que P (error I ) 0.05. Luego hemos elegido un nivel de
significacin = 0.05.
3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE
DECISION.
El estadstico de prueba ser
b
t 1
donde
b
1

b1

x i2

xi
.

-
n

y la regla de decisin:
t - t /2 - 2.306

Rechazo H 0 : 1 0 a un nivel = 0.05 si


En caso contrario no podemos rechazar H 0 : 1

0,

esto es, "aceptamos"

t t /2 2.306
H 0 : 1 0

Los valores crticos - t / 2 y t / 2 se determinaron con la tabla de la distribucin t de Student as


0.05

0.025

n - 2 10 - 2 8 g.l.

Luego t /2 2.306 y - t /2 - 2.306

Una ilustracin grfica de esta regla se presenta debajo.

0.025

0.025

t
- 2.306

0
NR

2.306

132

Figura 3.13
4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL
ESTADISTICO DE PRUEBA.
Con la informacin muestral calculemos primero b1 y

Sabemos del ejemplo 3.1 que b1 = 0.0692 ,

320

x i 11800

Adems sabemos del ejemplo 3.2 que Y 0.3403


Por tanto
Y

b1
n

xi .

320 2

11800 - 10240

11800 -

0.3403

n x
i

0.3403

0.3403
1560

0.3403
39.4968

10
0.0086

0.0692

8.0465
Luego t
0.0086
b1

5. SELECCIONAR UNA ALTERNATIVA.


Como t cae en la regin de rechazo diremos que hay suficiente evidencia para rechazar
H 0 : 1 0 a un nivel = 0.05, lo cual implica que aceptamos H 1 : 1 0 .
Luego hay relacin entre el nmero de horas de operacin y el costo de materiales del proceso.

ESTIMADOR POR INTERVALO DE CONFIANZA PARA Yh


Si x h es un valor dentro del alcance modelo y Y es la media de la distribucin de Y cuando
X = x entonces el valor ajustado de Y para el nivel x h que denotamos as Yh b 0 b1 x h es un
3.5.3

estimador puntual e insesgado de Yh


h es una combinacin lineal de las observaciones Yi
Puede demostrarse que Y
h sigue tambin una distribucin
Como las observaciones Yi siguen una distribucin normal, Y
normal con

133

Yh Yh

Y Y

xh

xi .

-x

2
2

n x
i
.

h se denota y obtiene as:


El error estndar estimado del valor ajustado Y

Y Y
h

1
n

xh

xi .
Como

h - Y
Y
h
Y h

- x

2
2

n x
i
.

donde Y es el estimador de

sigue una distribucin t de Student con n 2 grados de libertad

puede demostrarse que un estimador por intervalo de confianza del ( 1 - ) 100% para Yh esta
dado por
h t /2 Y h
Y

Fig. 3.14
Observe el efecto del trmino (x h x) 2 en
A medida que x h se aleja de

x mayor es

Y
h

Y
h

y a medida que x h se acerque a

La mayor precisin de la estimacin se obtiene cuando x h

x porque

Y
h

x menor ser .

Y
h

toma su valor mnimo.

EJEMPLO 3.6
Para el ejemplo 3.1 construya un intervalo de confianza del 99% para el costo promedio de
materiales utilizados cuando el proceso opere 40 horas.

134

h = 2.8856 + 0.0692(40) = 2.8856 + 2.768 = 5.6536 ( en centenas de $ ),


Para x h 40 horas , Y
n

Sabemos que Y 0.3403 y que

320
32
10

Por tanto

Y Y
h

xh

- x

10

(40 - 32)

11800 -

n x
i

xi .

( 0.3403 )

n
2

(320)

( 0.3403 )

10

64
1560

( 0.3403 )

0.1410

10

0.3403 (0.3755) 0.1278

Para 0.01

0.005
2

n 2 = 10 - 2 = 8 g.l.

tenemos que t /2 3.355

Sustituyendo estos valores en la frmula del intervalo de confianza.


5.6536 3.355 (0.1278)
5.6536 0.4288
Luego podemos decir con un 99% de confianza de que
5.2248 Yh 6.0824

(en centenas de $)

3.5.4 ESTIMADOR POR INTERVALO DE PREDICCION PARA UN VALOR INDIVIDUAL


Yh

Para un valor xh supongamos que queremos predecir los lmites del valor individual Yh
h
Como los lmites de prediccin de Yh tienen que tomar en cuenta tanto la variabilidad de Y
asociada a la posicin que puede tener Yh como la variabilidad de Y alrededor de esa posicin.
La varianza estimada del valor individual Yh ser la suma de dos componentes:
h y la varianza estimada de Y.
La varianza estimada de Y

Esto es,

135

2
Yh

Y
h

2
Y

2
Y

(x

xi
.

x)

xi
.

2
Y

1 1

2
Y

1
n

xh

xi .

t /2
Yh

donde

- x

n x
. i

Yh se ver como un error estndar estimado del valor individual Yh y


t /2 es un valor de la distribucin t de Student con n 2 grados de libertad que tiene a su

derecha un rea de

Hay una diferencia conceptual entre un estimador por intervalo de prediccin y un estimador por
intervalo de confianza. Un estimador por intervalo de confianza representa una inferencia sobre un
parmetro. Un estimador por intervalo de prediccin es una proposicin acerca del valor que puede
tomar una variable aleatoria.

EJEMPLO 3.7
Para el ejemplo 3.1 determine un intervalo de prediccin del 99% del costo de materiales que sern
utilizados en un proceso particular que operar 40 horas.
La frmula correspondiente es

h
Y

t /2
Yh

h = 5.6536 ( en centenas de $ ) y sabemos que Yh 0.3403


Para x h 40 horas , Y

Por tanto

xi
.

Puede demostrarse que un estimador por intervalo de prediccin del (1 - )100% para una valor
individual Yh est dado por
h
Y

(x

136

Yh Y

1
1

xh
n

2
i

- x

2
n
xi
.

=
Como

0.3403

1 0.1410 0.3403

t /2 3.355

1.1410 0.3403 ( 1.0682) 0.3636

tenemos que

5.6536 3.355 ( 0.3636 )


5.6536 1.2199
Luego hay una confianza del 99% de que
4.4337

Yh

6.8735

( en centenas de $ )

Observe que el intervalo de prediccin del 99% para un valor individual Yh aqu obtenido es ms
ancho que el intervalo de confianza del 99% para Y obtenido en el ejemplo 3.6, la razn es que
h como la
cuando predecimos un valor individual tomamos en cuenta tanto la variabilidad en Y
variacin dentro de la distribucin de probabilidad de Y.

EJERCICIOS PROPUESTO DEL TEMA 3: ANALISIS DE REGRESION LINEAL.


1. El Vicepresidente de investigacin y desarrollo de una empresa de productos qumicos piensa
que las utilidades anuales (Y) dependen de la cantidad que invierta (X) en investigacin y
desarrollo. Suponga que se dispone de los siguientes datos histricos en millones de C$

Ao
1997
1998
1999
2000

Cantidad
Invertida
2
3
4
5

Utilidad
anual
20
25
30
34

137

2001
2002

11
5

40
31

a) Dibuje un diagrama de dispersin y comente las impresiones visuales que le ofrece la figura.
b) Obtenga la funcin de regresin muestral de Y sobre X e interprete la pendiente.
c) Prediga la utilidad anual para 2003 suponiendo una inversin de 8 millones de C$ en
investigacin y desarrollo.
d) Trace sobre el diagrama del inciso a) la lnea de ajuste.
2. El ministerio de Agricultura hizo un estudio para determinar la relacin que existe entre la
produccin de caf (Y) y la cantidad de fertilizante utilizado (X) en una regin determinada. Se
tom una muestra aleatoria de 6 haciendas y se recopil la siguiente informacin:

Hac.
1
2
3
4
5
6

(en qq) (miles de qq)


Cantidad Produccin
fertilizante
de Caf
34
15
40
18
48
19
49
15
51
20
51
22

a) Construya un diagrama de dispersin.


b) Obtenga la funcin de regresin muestral de Y sobre X e interprete los coeficientes de regresin
estimados.
c) Estime la produccin promedio de caf cuando se utilicen 45 qq de fertilizante.
d) Trace sobre el diagrama del a) la lnea de regresin estimada.

3. La demanda de un artculo en toneladas (Y) para diferentes precios en crdobas (X) se presenta
en la tabla de abajo.
X
20.5
21.0
21.0
21.5
21.5
21.5
22.0
22.0
22.5

Y
4.5
4.0
4.7
3.5
3.0
4.0
3.5
2.5
2.0

138

23.0
a)
b)
c)
d)

1.8

Construya un diagrama de dispersin y comente las impresiones visuales que le ofrece la figura.
Determine la funcin de regresin muestral de Y sobre X e interprete la pendiente estimada.
Obtener la demanda esperada si el precio del bien fuese de C$ 22.40
Trace sobre el diagrama de dispersin del inciso a) la lnea de los mnimos cuadrados.

4. Para probar en cierto tipo de fbricas el efecto de un filtro purificador que absorbe parte de la
emisin de gases residuales, se han medido los niveles de CO 2 (dixido de carbono) emitidos por 7
fbricas donde ste se ha instalado.
Hemos supuesto que X representa el nmero de das despus de la instalacin y Y representa la
emisin de CO2 en mg/dl para presentar los siguientes resultados.
X
5
10
15
20
25
30
35

Y
5.2
4.8
4.6
4.5
4.3
4.0
3.8

a) Construya un diagrama de dispersin.


b) Determine la ecuacin de regresin lineal que mejor exprese la variacin de la contaminacin
en funcin de los das transcurridos despus de la instalacin del filtro. Interprete la pendiente
estimada
c) Si una fabrica tiene 30 das de tener instalado el filtro, qu emisin de CO2 espera tener?
d) Trace sobre el diagrama de dispersin del inciso a) la lnea de ajuste.
e) En qu porcentaje la variacin de la emisin de CO2 es explicada por el nmero de das
transcurridos desde la instalacin del filtro?

5. El Banco Central quiere estimar la relacin entre la cantidad de dinero circulante (X) y el
ingreso nacional (Y).
Suponga que dispone de los siguientes datos histricos en millones de dlares.

Ao
1997
1998
1999
2000
2001
2002

Cantidad
Circulante
3.3
4.0
4.2
4.6
4.8
5.0

Ingreso
Nacional
7.2
7.3
8.4
9.0
9.7
10.0

139

a) Construya un diagrama de dispersin.


b) Obtenga la funcin de regresin muestral de Y sobre X e interprete la pendiente estimada.
c) Prediga para 2003 el Ingreso nacional correspondiente a un circulante de 5.6 millones de
dlares.
d) Trace sobre el diagrama de dispersin anterior la lnea de ajuste.
6. El gerente de personal de una empresa intuye que quizs haya relacin entre el ausentismo en
das (Y) y la edad en aos (X) por lo que quiere tomar la edad de un trabajador para desarrollar un
modelo de prediccin de das de ausencia durante un ao laboral. Se selecion una muestra aleatoria
de 10 trabajadores con los resultados que se presentan a continuacin:
X
27
61
37
23
46
58
29
36
64
40

Y
15
06
10
18
09
07
14
11
05
08

Construya un diagrama de dispersin y comente las impresiones visuales que le ofrece la


figura..
b) Obtenga la funcin de regresin muestral de Y sobre X e interprete la pendiente
c) Cuntos das espero que un trabajador de 45 aos se ausente durante el ao?
d) Trace sobre el diagrama de dispersin anterior la lnea de mnimos cuadrados.
a)

7. Supngase que una cadena de supermercados financia un estudio sobre los gastos anuales en
comestibles de familias de 4 miembros. La investigacin se limit a familias con ingresos netos
(despus de los impuestos) que van de C$20000 a C$60000. Se obtuvo la siguiente ecuacin de
regresin lineal:
=
Y

- 200 + 0.10X

En la cual Y representa los gastos anuales estimados en comestibles y X representa los ingresos
netos anuales
Supngase que la ecuacin proporciona un ajuste razonablemente bueno, y que se obtuvieron
los datos por medio de mtodos de muestreo aleatorio,
a)

Estime los gastos de una familia de 4 miembros, con un ingreso anual de C$25000.

140

b) Uno de los vicepresidentes de la compaa se preocupa por el hecho de que la ecuacin


aparentemente indica que una familia que tiene un ingreso de C$2000 no gastara nada en alimentos.
Cul sera su respuesta?
c) Explique brevemente por qu no se podra usar la ecuacin anterior en cada uno de los
siguientes casos:
c.1 Estimacin de los gastos en comestibles de familias de cinco miembros.
c.2 Estimacin de los gastos en comestibles de familias que tengan ingresos netos de ms de 60000
crdobas anuales.
8. Un asegurador de propiedades realiz un estudio para investigar el pago anual (Y) por concepto
de demandas por daos a propiedades (en miles de dlares) en la regin norte de Nicaragua
como una funcin del nmero X de huracanes que azotan esa regin durante el ao. Un modelo
de regresin lineal, que se ajusta a los datos de un perodo de 10 aos, produjo la siguiente
ecuacin:
= 22.4 + 15.8 X
Y

con

x i 15

2
i

= 27.45

, Y2

= 41.2

a) Proporcionan los datos evidencia suficiente para indicar que el nmero X de huracanes aportan
informacin para predecir la cantidad anual pagada por el asegurador por concepto de daos a
propiedades a un nivel de significacin del 5%?
b) Encuentre un intervalo de confianza del 90% para el pago anual promedio si un huracn azota la
regin en un ao dado.
c) Obtenga un intervalo de prediccin del 90% para el pago anual si dos huracanes azotan la
regin en un ao dado.

9. Un estudio de mercado trata de cuantificar el efecto que sobre la demanda de un artculo tiene
una campaa publicitaria en televisin. Para ello se miden las cantidades demandadas, en miles de
unidades, antes de la campaa (X) y la cantidades demandadas, en miles de unidades, despus de la
campaa (Y). Despus de 3 semanas de emisin del anuncio en 10 regiones se obtuvo la siguiente
relacin lineal estimada entre X, Y.
= 65.5812 + 0.3547X
Y

con un error estndar de su pendiente de 0.1826


Existe relacin lineal significativa entre X, Y a un nivel de significacin = 0.02 ?
10. Un investigador esta interesado en conocer la relacin entre los aos de experiencia en ventas
(X) y el volumen de ventas en millones de crdobas (Y) de los vendedores de cierta compaa.

141

Los datos muestrales resumidos para tal fin, se dan a continuacin.


n = 5 ,

x i = 15 ,

x i Yi = 84.6 ,

2
i

x i2 = 55 ,

= 23 ,

= 130.98

Si con la informacin anterior se obtuvo la siguiente relacin lineal estimada.


= - 0.08 + 1.56 X
Y

y la tabla de anlisis de varianza que aparece abajo


Fuente
Regresin
Error

SS
24.336
0.844
25.180

G.L
1
3
4

MS
24.3360
0.2813

i) Interprete la pendiente.
ii) Qu proporcin de la variacin total del volumen de ventas puede ser explicada por los aos de
experiencia?
iii) Estime la varianza de Y alrededor de la lnea de regresin.
iv) Existe relacin lineal significativa entre los aos de experiencia y el volumen de ventas a un
nivel de significacin del 2%?
v) Determine un intervalo de confianza del 99% para el volumen esperado de ventas de un
vendedor que tiene 3.5 aos de experiencia.

11.
Un economista desea establecer la relacin entre las exportaciones FOB (X) y las
importaciones FOB (Y). De los Indicadores Econmicos publicados por el Banco Central de
Nicaragua para los aos 1994 2002 resume la siguiente informacin. (no incluye importaciones ni
exportaciones de Zona Franca).
n = 9 , x i = 3791.1 ,
x i2 = 1846729.93 ,

Y
Y

2
i

= 7705.2 ,
= 7072151.74

x Y =
i

3548993.65

donde X representa las Exportaciones FOB (en millones de dlares)


Y representa las Importaciones FOB (en millones de dlares)
a) Suponiendo una relacin lineal, use el mtodo de mnimos cuadrados para encontrar los
coeficientes de regresin bo y b1.
b) Interprete el significado del intercepto bo y la pendiente b1.

142

c) Prediga el valor de las importaciones cuando las exportaciones asciendan a 500 millones de
dlares.
d) Calcule el coeficiente de determinacin y el coeficiente de correlacin e interprete sus
significados.
e) A un nivel de significacin de 0.01 Hay alguna relacin lineal significativa entre las
exportaciones y las importaciones para los aos mencionados?.
12.
Una cadena de tiendas de repostera ha tenido grandes fluctuaciones en sus ingresos durante
los ltimos aos. Abundantes ofertas y tcnicas de publicidad se han utilizado durante este tiempo,
por lo cual es difcil determinar cules de esos factores tienen la influencia ms profunda en las
ventas. El departamento de mercadotecnia ha estudiado varias relaciones y piensa que los gastos
mensuales destinados a carteles pueden ser significativos.
Se muestre 7 meses con los siguientes resultados:

167

203

x Y
i

5427 ,

2
i

4703

2
i

6527

donde X representa el gasto mensual en carteles (en centenas de C$)


y
Y representa el ingreso mensual por ventas (en decenas de miles de C$).
Si con la informacin anterior se obtuvo la siguiente relacin lineal estimada
= 9.6185 + 0.8124X
Y

a) Interprete el intercepto y la pendiente.


b) Obtenga la tabla de anlisis de varianza.
c) Existe relacin lineal significativa entre el ingreso mensual por ventas y los gastos mensuales
destinados a carteles a un nivel de significacin del 1%?
d) Encuentre los coeficientes de determinacin y correlacin. Luego interprtelos.
e) Para un mes con un gasto de C$2800 en carteles, desarrolle un intervalo de confianza del 90%
para las ventas mensuales esperadas en ese mes.

13. Con los siguientes datos sobre el costo de construccin de residencias unifamiliares en miles
de dlares (Y) y el tamao del lote en miles de pies cuadrados (X).
n = 12 , x i = 198 , Yi = 625.5 ,
x i2 = 4396 , Yi2 = 34878.58

x Y =
i

11840.1

a) Encontrar la funcin de regresin muestral de X sobre Y e interprete la pendiente.


b) Cul debera ser el costo promedio de construccin de casas que se van a construir en un lote de
15000 pies cuadrados?
14. Una investigacin del departamento de publicidad de una empresa en la que se buscaba la
relacin entre las ventas en unidades (Y) y el nmero de comerciales televisados (X) di los
siguientes resultados:

143

n = 7 , x i = 340 , Yi = 751 ,
x i2 = 19000 , Yi2 = 90571

x Y =
i

41450

a) Encontrar la funcin de regresin muestral de Y sobre X e interprete el intercepto y la pendiente.


b) Obtenga la tabla de anlisis de la varianza.
c) Existe relacin lineal significativa entre el nmero de comerciales televisados y las ventas a un
nivel de significacin del 5%?
d) Calcule el coeficiente de determinacin e interprtelo.
e) Obtenga un intervalo de prediccin del 90% para el numero de unidades vendidas si el nmero
de comerciales televisados es de 30.
15. Un analista toma una muestra aleatoria de 10 embarques recientemente enviados por camin y
registra la distancia en kilmetros (X) y el tiempo de entrega en das (Y) para determinar si existe
relacin entre ellos y obtiene los siguientes resultados:

= 7620 ,

= 28.5 ,

x Y
i

= 26370 ,

2
i

= 7104300 ,

2
i

= 99.75

Si con la informacin anterior se obtuvo la siguiente relacin lineal estimada:


= 0.1181 + 0.0036X
Y

a) Existe relacin lineal significativa entre X y Y a un nivel del 1%?


b) Obtenga un intervalo de confianza del tiempo promedio de entrega para una distancia de 350
km y una confiabilidad del 90%.
f) Encuentre el coeficiente de determinacin e interprtelo.

16. El gerente de mercadotecnia de una cadena de supermercados quiere determinar el efecto del
espacio de las estanteras en pies (X) sobre la venta semanal de cosmticos en cientos de crdobas
(Y). Seleccion una muestra aleatoria de 12 tiendas de igual tamao obteniendo los resultados
siguientes:

= 150 ,

= 28.5 ,

x Y =
i

384 ,

2
i

= 1.45 + 0.074X
Encontr la ecuacin de regresin: Y

y construy la tabla de anlisis de varianza:


Fuente
Regresin
Error

SS
2.0535
1.0490
3.1025

G.L
1
10
11

MS
2.0535
0.1049

= 2250 ,

2
i

= 70.79

144

a) Interprete la pendiente.
b) Pruebe al nivel de significacin de 0.05 si los resultados de la muestra permiten llegar a la
conclusin de que hay una relacin lineal significativa entre el espacio en las estanteras y la venta
semanal de cosmticos.
c) Calcule los coeficientes de determinacin y de correlacin e interprtelos.
d) Obtenga un intervalo de prediccin del 90% de las ventas semanales de una tienda con 8.6 pies
de espacio en estantes destinados a cosmticos.
17. Los economistas a menudo quieren estimar las funciones consumo. Esto lo hacen obteniendo
la regresin del consumo Y sobre el ingreso X (en esta regresin, los economistas dan a la
pendiente el nombre de propension marginal al consumo). En una muestra de 15 familias, se
calcul una pendiente de 0.9 y un error estndar de la pendiente de regresin de 0.25.
A un nivel de significacin = 0.05 existe alguna relacin lineal significativa entre el consumo y
el ingreso?
18. Con el propsito de determinar el efecto del precio del galn de diesel en el costo de la
canasta bsica de 53 productos de la ciudad de Managua se extrajeron los datos que se presentan a
continuacin:
Ao

1993

1994

1995

1996

X
1.14 5.67
5.88
Y 517.27 718.01 730.02

7.02
887.00

1997

1998

1999

2000

2001

7.75
8.4
10.38
12.31
13.94
19.81
970.61 1078.89 1225.59 1402.82 1552.64 1624.11

Fuente: Banco Central de Nicaragua. Gerencia de Estudios Econmicos.


X representa el precio promedio del diesel (en crdobas por galn).
Y representa el costo de la canasta bsica (en crdobas)

Al utilizar el paquete estadstico denominado SPSS, se obtuvo los siguientes resultados:


Mltiple R
.95772
R Square
.91723
Adjusted R Square .90689
Standard Error 114.32865
Analysis of Variance
Regression
Residual
F=

88.65582

DF
1
8

2002

Sum of Squares
1158823.72109
104568.31455
Signif F = .0000

Mean Square
1158823.72109
13071.03932

145

------------------ Variables in the Equation -----------------Variable


X
(Constant)

SE B

69.193900 7.348762
432.036306 76.862781

Beta
.957722

T
9.416
5.621

Sig T
.0000
.0005

Los resultados obtenidos que se relacionan con nuestro curso son los siguientes:
Coeficiente de correlacin, r = 0.95772
Coeficiente de determinacin, r2 = 0.91723
SSR = 1158823.72109;
SSE = 104568.31455; SSE/(n-2) = 13071.03932
b0 = 432.036306; b1 = 69.193900; Error estndar del estimador b1 = 7.348762
tn-2 = 9.416.
Ahora conteste:
a) Escriba la ecuacin de la lnea de mnimos cuadrados que nos permitir predecir el costo
promedio de la canasta bsica de la ciudad de Managua en trminos del precio del diesel.
b) Interprete b1 .
c) Suponiendo que para el ao 2003 que el precio del diesel ser de C$ 21.50, estime el costo
promedio de la canasta bsica para ese ao en la ciudad de Managua
d) Interprete el coeficiente de determinacin y el coeficiente de correlacin.
e) Existe relacin lineal significativa entre el precio del diesel y el costo de la canasta bsica a un
nivel de significacin del 5%?.

TEMA 4: SERIES DE TIEMPO


OBJETIVOS.
1.
2.
3.
4.
5.
6.

Saber que es una serie de tiempo y que utilidad tiene su estudio.


Explicar la naturaleza de cada componente de una serie de tiempo.
Determinar la ecuacin de tendencia lineal utilizando el mtodo de los mnimos cuadrados.
Saber convertir una ecuacin de tendencia anual a una de tendencia trimestral.
Determinar los ndices estacionales utilizando el mtodo del cociente del promedio mvil.
Hacer predicciones de una variable en base a lo que ha ocurrido en el pasado.

4.1. INTRODUCCION
Toda institucin (la familia, la escuela, la empresa, el gobierno) tiene que hacer planes para el futuro
si ha de sobrevivir y progresar.

146

La familia:

Sus planes tienen que ver con el ingreso, el consumo.

La Escuela: Sus planes tienen que ver con su desarrollo futuro para ofrecer servicios educativos
adecuados a la siempre creciente poblacin.
La empresa: Sus planes tienen que ver con la demanda de sus productos, la produccin, la
financiacin, el personal, las ventas, las inversiones, el mercadeo.
El gobierno: Sus planes tienen que ver con los ingresos y gastos futuros para influir de esta manera
en la actividad comercial agregada de modo que el progreso econmico del pas no se vea demorado
por la inflacin o la deflacin.
La tcnica ms importante para hacer inferencias sobre el futuro con base en lo ocurrido en el
pasado es el anlisis de las series de tiempo que se puede definir as:
Un conjunto de observaciones de una variable que se refieren a diferentes perodos sucesivos de
tiempo usualmente de la misma magnitud (aos, trimestres, meses, etc).
Ejemplos de series de tiempo:

Los ingresos totales anuales por ventas de una firma determinada.


Los informes trimestrales del Producto Nacional Bruto (PNB).
La publicacin mensual del Indice de Precios al Consumidor.
Los cambios semanales en porcentajes de ventas de un supermercado.

La creencia de que el comportamiento pasado de una serie puede continuarse en el futuro constituye
una base racional para la prediccin estadstica.
Los movimientos de las series de tiempo son causados por una variedad de factores, algunos
econmicos, algunos naturales y otros institucionales. Ms an, algunos de los factores tienden a
afectar los movimientos a largo plazo de las series, mientras que otros tienden a producir
fluctuaciones a corto plazo.
4.2. COMPONENTES DE UNA SERIE DE TIEMPO
Una serie la consideraremos constituida por los siguientes componentes que son las que explican los
cambios observados en un perodo de tiempo.
i)
ii)
iii)
iv)

La tendencia.
Las variaciones estacionales.
Las variaciones cclicas.
Las variaciones irregulares.

Para obtener una impresin visual de los movimientos de una serie de tiempo, se contruye sobre un
plano cartesiano una grfica en la cual la variable de inters Y estar en el eje vertical y los perodos
sucesivos de tiempo en el eje horizontal.

147

Ejemplo. Los siguientes datos representan producciones trimestrales de cierto artculo en miles de
unidades de un pas hipottico durante 1999 - 2003.
Y 11
10
9
8
7
6
5
4
3
2
1
0

tendencia lineal

datos originales
variaciones

variaciones cclicas

estacionales

1999

2000

2001

2002

2003

Figura 4.1
LA TENDENCIA
Es el movimiento suave y regular de una serie que refleja un crecimiento o una declinacin en
un perodo de tiempo muy prolongado (al menos de 15 aos) (debe incluir 2 ms ciclos).
Observe que los movimientos de la serie de tiempo de la figura 4.1 tienden en promedio a
desplazarse continuamente hacia arriba a travs del tiempo. Se representa mediante una recta a
travs de la curva irregular.
La tendencia mide el cambio de la variable de inters por unidad de tiempo.

LAS VARIACIONES ESTACIONALES


Si estudiamos la serie de la figura 4.1 de ao en ao vemos que en el primer trimestre comienza
siendo baja, luego crece, despus alcanza la mayor altura alrededor del tercer trimestre de cada ao y
finalmente desciende nuevamente.
Las variaciones estacionales pueden definirse como los movimientos peridicos que vuelven
con cierta regularidad dentro de un perodo especificado (un ao)
Factores que influyen en estas variaciones: las estaciones del ao, condiciones climticas,
costumbres sociales, festividades religiosas.
En condiciones climticas y estaciones del ao tenemos: la produccin agrcola, los trabajos de
construccin, la explotacin de bosques y aserraderos, el consumo energa elctrica, etc.

148

En costumbres Sociales y festividades religiosas tenemos: la demanda de ciertos artculos para el


da de la madre, del padre, de los enamorados, por navidad, por semana santa, etc.
LAS VARIACIONES CICLICAS
Observando la curva en forma de zig-zag sobre la serie irregular original encontramos fluctuaciones
pronunciadas que se desplazan hacia arriba y hacia abajo.
Las variaciones cclicas pueden definirse como los movimientos recurrentes ascendentes y
descendentes con respecto a la tendencia que tienen por lo general una duracin de 2 ms
aos.
Cada ciclo puede diferir de todo el resto en duracin, amplitud y causas. Ello explica la existencia
de tantas teoras de los ciclos como casi nmeros de ciclos registrados.
En general son de naturaleza econmica y reflejan el estado de las actividades comerciales.
A continuacin se ilustra grficamente un ciclo.

Prosperidad

Recesin
Pico

Pico

Recuperacin

depresin

bache

Lnea de tendencia

bache
Figura 4.2

Un ciclo se mide de bache a bache o de pico a pico.


LAS VARIACIONES IRREGULARES
Las pequeas irregularidades en forma de dientes de serrucho en la serie original es lo que se llama
variaciones irregulares.
Las variaciones irregulares pueden definirse como movimientos que son por lo general de
corta duracin y que son causados por fuerzas aleatorias o por fuerzas espordicas tales como:
huelgas, terremotos, inundaciones, cortes de energa, guerras, sequas y otras calamidades
naturales.
Observaciones: A veces las series contiene todas las componentes anteriores, otras veces contienen
solamente algunas de ellos. A veces hay tanto predominio de una componente que se le puede
reconocer a partir de los datos originales como:

149

La produccin de fibras sintticas y la produccin de alimentos congelados que tienen una fuerte
tendencia ascendente.
Los bienes duraderos que sufren grandes cambios cclicos.
Las ventas de tiendas que son predominantemente estacionales.
4.3. ANALISIS DE LAS SERIES DE TIEMPO CON DATOS ANUALES
La componente que se estudia con ms frecuencia en estas series de tiempo es la tendencia.
Estudiaremos la tendencia como una ayuda para hacer pronsticos a mediano y largo plazo.
4.3.1 CALCULO DE LA TENDENCIA LINEAL.
Consiste en obtener la ecuacin de una lnea recta que me indique el comportamiento de la variable
de inters a travs de los aos.
Utilizaremos los mtodos que exponemos a continuacin tomando la mitad de cada ao (1 de Julio)
como punto de representacin de los datos de ese ao.
METODO DE LOS MINIMOS CUADRADOS PARA UN NUMERO PAR DE AOS
Para una serie de datos con un nmero par de aos el mtodo dice que hagamos lo siguiente:
i)

Codificacin del tiempo.

Le asignamos al primer ao de la serie el cdigo 0, convirtiendo de esta manera el primer ao de la


serie en el ao origen.
Despus, a cada ao sucesivo se le asignan los cdigos 1, 2, 3, 4, ..., de modo que el ltimo ao en la
serie, el n-simo ao, tenga el cdigo n-1.

ii)

Aplicar las mismas frmulas que utilizamos para estimar la funcin de regresin poblacional.
n

b1

x Yi
i

x Y
i

x -
2
i

x
.

Representa el cambio anual estimado del valor anual de Y.

150
n

b0

iii)

Yi - b1

Representa el valor anual estimado de Y para X 0.

n
Obtener la ecuacin de tendencia lineal

Sustituir bo y b1 en la expresin:
= bo + b1X
Y
Origen: 1 de julio del ao X = 0
X en aos

EJEMPLO 1
Las ventas anuales de una empresa desde el ao 1997 al 2002 se presentan a continuacin en
decenas de miles de C$
AO
1997
1998
1999
2000
2001
2002

xi
0
1
2
3
4
5
15

a) Construya el grfico de la serie

Yi
Ventas
78
70
65
46
46
35
340

xi Yi
0
70
130
138
184
175
697

x i2
0
1
4
9
16
25
55

151

90
80
70
60
50
40
30
20
10
0
1996

1997

1998

1999 2000
2

2001

2002

2003
X

Figura 4.3
b) Encuentre la ecuacin de tendencia lineal e interprete bo y b1

b1

(15) (340)
6
( 15) 2
55 6

bo

340 8.7429 (15)


6

697 -

697 - 850
- 153

- 8.7429
55 - 37.5
17.5

340 131.1435
471.1435

78.5239
6
6

La ecuacin de tendencia lineal es


= 78.5239 - 8.7429 X
Y
Origen: 1- Jul - 97
X en aos
La disminucin anual estimada de las ventas anuales es 8.7429 en decenas de miles de C$.
La venta anual estimada para el ao 97 es 78.5239 en decenas de miles de C$.
c) Trace la lnea de tendencia sobre el grfico de la serie
Determinaremos los pares ordenados de dos puntos cualesquiera suficientemente alejados, digamos
= 78.5239
Para x = 0, Y
en decenas de miles de C$
= 78.5239 - 8.7429 (5) = 78.5239 - 43.7145 = 34.8094
Para x = 5, Y
en dec. miles C$
En la figura 4.3 se han unido estos puntos con una recta
d) Prediga las ventas anuales para el ao 2003
= 78.5239 - 8.7429 (6) = 78.5239 - 52.4574 = 26.0665 en dec. de miles de C$
Para x = 6, Y
METODO DE LOS MINIMOS CUADRADOS PARA UN NUMERO IMPAR DE AOS
Para una serie de tiempo con un nmero impar de aos el mtodo dice que hagamos lo siguiente:

152

i)

Codificacin del tiempo.

El esquema ms eficiente de codificacin que se puede seleccionar para facilitar los clculos es
elegir el ao central de la sucesin como origen y asignarle el cdigo x = 0. Despus, a todos los
aos posteriores se les asignan cdigos crecientes de enteros 1, 2, 3, 4, ... , mientras que a todos los
aos anteriores se les asignan cdigos decrecientes de enteros -1, -2, -3, -4, ... , de modo que
n

xi

siempre ocurrir que

ii)

Aplicar las mismas frmulas que utilizamos para estimar la funcin de regresin poblacional.

El esfuerzo de los clculos se reduce haciendo

xi

0 en dichas frmulas, con lo cual quedan

as:
n

b1

Yi

Representa el cambio anual estimado del valor anual de Y


2
i

b0
iii)

Representa el valor anual estimado de Y para

X 0.

Obtener la ecuacin de tendencia lineal

Sustituir los valores bo y b1 en la expresin


= b o + b1 X
Y
Origen: 1 de Julio del ao X = 0
X en aos

EJEMPLO 2
Las ventas anuales de una empresa desde el ao 1999 al 2003 se presentan a continuacin en
decenas de miles de C$
Yi

153

AO
1999
2000
2001
2002
2003

xi
-2
-1
0
1
2
0

Ventas
32
46
50
66
68
262

x i2
4
1
0
1
4
10

xi Yi
-64
-46
0
66
136
92

a) Haga el grfico de la serie


Y

80
70
60
50
40
30
20
10
0
1998

1999

2000

-2

-1

2001
0

2002
1

2003

2004

X
Figura 4.4
b) Encuentre la ecuacin de tendencia lineal e interprete bo y b1
92
9.2
10
El incremento anual estimado de las ventas anuales es 9.2 en dec miles C$

b1

bo
La venta anual estimada para el ao 2001 es 52.4 en dec miles C$

La ecuacin de tendencia lineal es


= 52.4 + 9.2 X
Y
Origen: 1 Jul - 2001
X en aos

c) Trace la lnea de tendencia sobre el grfico de la serie


= 52.4 + 9.2 (-2) = 34
Para x = -2, Y
= 52.4 + 9.2 (2) = 70.8
Para x = 2, Y

262
5

52.4

154

d) Prediga las ventas para el ao 2004


= 52.4 + 9.2 (3) = 80 en dec. miles C$
Para x = 3, Y
4.4 ANALISIS DE LAS SERIES DE TIEMPO CON DATOS TRIMESTRALES
Las observaciones de una variable de inters Y de una serie de tiempo pueden corresponder a
perodos ms pequeos que los de un ao tales como: trimestres, meses, semanas, das, etc.
Analicemos ahora las series de tiempo con datos trimestrales.
4.4.1 CALCULO DE LA TENDENCIA
Cuando se trabaja con una serie de tiempo con datos trimestrales y queremos obtener su tendencia
lineal, se ahorrar mucho esfuerzo sin demasiada prdida de exactitud si se forman los totales
anuales (la suma de los valores trimestrales de cada ao) y se ajusta una lnea de tendencia de
mnimos cuadrados a los datos anuales.
La expresin resultante, en trminos anuales, se puede convertir con facilidad a trminos
trimestrales al dividir el intercepto entre 4 y la pendiente entre 16. Luego se hace el desplazamiento
del origen de la serie desde el 1 de Julio hasta el centro del siguiente trimestre formado por Julio,
Agosto y Septiembre (15 de Agosto), sumando la mitad del valor de la pendiente en la ecuacin de
tendencia trimestral anterior.
La idea anterior queda reflejada as:
Ecuacin de tendencia lineal anual
b 0 b1X
Y
Origen : 1 de Julio del ao X 0
X en aos

donde
y

Ecuacin de tendencia lineal trimestral

b 0 b1 ( X 0.5 )
Y
4
16
Origen :15 de Agosto del ao X 0
X en trimestres

b1
representa el cambio trimestral estimado del valor trimestral de Y
16

b 0 b1
(0.5) representa el valor trimestral estimado de Y para X = 0 (el trimestre origen)
4 16

EJEMPLO 3
Los datos que aparecen a continuacin son las importaciones trimestrales de materiales de
construccin en miles de dlares durante el perodo 2000 - 2002
Trimestre

155

AO
2000
2001
2002
a)

1
90
83
125

2
104
99
170

3
113
126
165

4
100
127
144

Construir un grfico de las importaciones trimestrales.


Y

180
170
160
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
0
1

2000

2001

2002

Figura 4.5
b) Determinar la ecuacin de tendencia lineal de las importaciones trimestrales e interprete el
intercepto y la pendiente estimada.
Yi
AO
xi
Imp
xi Yi
x i2
2000
-1
407
-407
1
2001
0
435
0
0
2002
1
604
604
1
0
1446
197
2
n

b1

Yi

2
i

197
2

98.5 en miles de $,

de $

La ecuacin de tendencia lineal de los totales anuales es


= 482 + 98.5 X
Y
Origen: 1 Jul -2001

b0

1446
3

482 en miles

156

X en aos
Para convertir la ecuacin de tendencia anual anterior a una de tendencia trimestral cuyo origen sea
el 15 de Agosto de 2001 procedemos as.

Y

482
4

98.5
( X 0.5 )
16

= 120.5 + 6.1562 ( X + 0.5 ) = 120.5 + 3.0781 + 6.1562 X


Y
= 123.5781 + 6.1562 X
Y

Origen: 15 Ago - 2001


X en trimestres
Interpretacin de la pendiente y el intercepto:
El aumento trimestral estimado de las importaciones trimestrales es 6.1562 en miles de dlares.
La importacin trimestral estimada para el tercer trimestre del ao 2001 es 123.5781 en miles de
dlares.
c) Trace sobre el grfico anterior la recta de tendencia
Determinaremos los pares ordenados de dos puntos cualesquiera suficientemente alejados, digamos
los correspondientes al primer trimestre del ao 2000 y al cuarto trimestre del ao 2002.
Como X toma el valor 0 para el tercer trimestre del ao 2001 (porque es el trimestre origen) , X
tomar el valor -6 para el primer trimestre del ao 2000 y el valor 5 para el cuarto trimestre del ao
2002.
Para X = -6,

= 123.5781 + 6.1562 (-6 ) = 123.5781 - 36.9372 = 86.6409


Y

= 123.5781 + 6.1562 (5 ) = 123.5781 + 30.781 = 154.3591


Para X = 5, Y

En la figura 4.5 se han unido estos puntos con una recta


d) Prediga las importaciones trimestrales para el primer trimestre de 2003
= 123.5781 + 6.1562 (6 ) = 123.5781 + 36.9372 = 160.5153 en miles de dlares
Para X = 6, Y

4.4.2 CALCULO DE LOS INDICES ESTACIONALES


Las variacines estacionales de una serie de tiempo pueden detectarse haciendo que las
observaciones de la variable de inters Y correspondan a periodos de tiempo pequeos (das,
semanas, meses o trimestres).

157

Las medidas de las variaciones estacionales sern expresadas por nmeros ndices estacionales.
Un procedimiento para determinar los ndices estacionales es el siguiente.
METODO DEL COCIENTE DEL PROMEDIO MOVIL
Este mtodo esta basado en el modelo multiplicativo de una serie que expresa que cualquier valor
observado Yi es el producto de los valores de las cuatro componentes, es decir,
i Si Ci Ii
Yi = Y
i es la tendencia que expresaremos en las mismas unidades de los datos originales,
donde Y
mientras que las componentes Si , Ci , Ii son los valores de las variaciones estacionales, cclicas e
irregulares respectivamente que expresaremos como porcentajes cuyo valor medio es 100.
i , Ci e Ii de las observaciones originales Yi
Los ndices estacionales sern obtenidos eliminando Y
en base a cocientes segn los siguientes pasos.
1. Determinar el total mvil de 4 trimestres para la serie de tiempo.
De la suma de los valores de los 4 trimestres del primer ao obtenemos el total mvil de esos
trimestres, el cual se asociar al punto medio de dichos trimestres. El siguiente total mvil se
obtiene eliminando del total mvil anterior el valor del primer trimestre del primer ao y agregando
el valor del primer trimestre del segundo ao, el cual se asociar al punto medio de los 4 trimestres
que se conservan.
Continuamos de esta manera el proceso de desplazar el total mvil de 4 trimestres sobre la serie de
tiempo hasta incluir el ltimo valor de ella.
2. Asociarle a cada total mvil un promedio mvil de 4 trimestres.
La divisin de cada total mvil por 4 proporciona un promedio mvil.
3. Calcular los promedios mviles centrados.
Asociamos a cada trimestre (excepto los dos primeros y los dos ltimos de la serie de tiempo) el
promedio de los dos promedios mviles que caen arriba y abajo, que llamaremos promedio mvil
centrado. Con este proceso de divisiones se han eliminado los componentes estacionales e
irregulares (Si Ii) quedando los componentes cclicos y los de tendencia, esto es, la tendencia cclica
iCi )
(Y

4. Determinar qu porcentaje de cada promedio mvil centrado es igual a su valor trimestral


correspondiente.
Para determinar este porcentaje dividimos cada valor trimestral entre su correspondiente promedio
mvil centrado, luego multiplicamos el resultado por 100. Este paso nos permite aislar los
componentes estacional e irregular as

158

Yi
i Ci
Y

(100)

i Si C i I i
Y
i Ci
Y

(100) S i I i (100)

5. Arreglar los porcentajes de los promedios mviles centrados Si Ii(100) del paso anterior segn el
nmero de trimestre de cada ao luego calculamos el promedio de los primeros, segundos, terceros y
cuartos trimestres de los aos de la serie.
Los valores Si Ii para los mismos trimestres se promedian para eliminar I i quedando aislado de esta
manera el ndice estacional Si . Por tanto cada nmero de trimestre tendr asociado un ndice
estacional, esto es, habrn 4 ndices estacionales.
6. Ajustar los ndices estacionales.
La base de un ndice estacional es 100, en consecuencia, los 4 ndices debern sumar 400.
Si la suma de los 4 ndices estacionales calculados no es igual a 400, para corregir este error
multiplicamos cada uno de estos ndices por una constante de ajuste que determinamos as.
Constante de ajuste

Suma deseada de los ndices


Suma real de los ndices

Los ndices estacionales ajustados S se obtienen as:


S = (Indice sin ajustar) (Constante de ajuste)
Logrndose de esta manera que la suma de los 4 ndices estacionales sea 400.

EJEMPLO 4
Para las importaciones trimestrales de materiales de construccin en miles de dlares del ejemplo 3.
i) Calcule los ndices estacionales para los 4 trimestres por el mtodo del cociente del promedio
mvil. Haga una representacin grfica de los ndices estacionales.

159

METODO DEL COCIENTE DEL PROMEDIO MOVIL


( 1)
(2)
(3)
(4)
DATOS
TOTAL MOVIL DE PROMEDIO
PROMEDIO
PORCENTAJE DEL
AO TRIMESTRE YI = YSCI
4 TRIMEST.
MOVIL
MOVIL CENTRADO PROMEDIO MOVIL
2000

1
2

90
104

113

4
2001

407

101.75

400

100.00

100

395

98.75

408

102.00

435

108.75

477

119.25

548

137.0

587

146.75

604
-

151.0
-

83

99

126

4
2002

127

125

170

3
4

165
144

100.9

112.0

99.4

100.6

100.4

82.7

105.4

93.9

114.0

110.5

128.1

99.1

141.9

88.1

148.9

114.2

5. Los porcentajes del promedio mvil (SI) para los mismos trimestre se promedian para eliminar
I quedando solamente los ndices estacionales pero sin ajustar

AO
2000
2001
2002
Indice estacional sin ajustar
Indice estacional ajustado (S)

1
82.7
88.1
85.4
85.3

Trimestres
2
3
112.0
93.9
110.5
114.2
104.0
111.2
103.9
111.1

4
100.6
99.1
99.8
99.7

Suma real = 400.40


Suma deseada = 400

6. Ajustemos ahora los ndices estacionales


Constante de ajuste =

Suma deseada de los indices


Suma real de los ndices

400
400.4

0.9990

Indice estacional ajustado = (Indice sin ajustar)( constante de ajuste)

160

Una representacin grfica de los ndices estacionales ajustados S es dada a continuacin


S

120
100
80
60
40
20
0

Trimestres
Figura 4.6
ii)

Interprete los ndices estacionales ajustados que corresponden al primero y tercer trimestre.

Las importaciones trimestrales del primer trimestre han estado por lo general un 14.7% por debajo
de las importaciones trimestrales promedio del ao cuyo centro corresponde a ese trimestre.
Las importaciones trimestrales del tercer trimestre han estado por lo general un 11.1% por encima de
las importaciones trimestrales promedio del ao cuyo centro corresponde a ese trimestre.
iii) Prediga las importaciones para el primer trimestre de 2003 utilizando la tendencia y los ndices
estacionales.
= 123.5781 + 6.1562 (6 ) = 160.5153
Para X = 6, Y

Importaciones trimestrales para el primer trimestre del 2003


85.3% de 160.5153 = 160.5153 (0.853) = 136.9196 en miles de dlares.

APLICACIONES DE LOS INDICES ESTACIONALES


Una aplicacin frecuente de los ndices estacionales consiste en eliminar los efectos de la
estacionalidad en los datos de una serie de tiempo. A esos datos se les denomina datos ajustados
estacionalmente o datos desestacionalizados.
Los ajustes estacionales son de particular importancia cuando se desea comparar datos con perodos
tales como (trimestres,meses, etc.) con el objeto de determinar si se ha presentado un aumento o una
disminucin con respecto a las expectativas estacionales.

161

Para desestacionalizar los valores de una serie dividimos los valores reales de la serie entre el ndice
estacional correspondiente y luego multiplicamos por 100, esto es,
Yi
(100)
Si
Yi
Si

(100)

Debido a que

S C I
Y
i
i
i
i
Si

C I (100)
(100) Y
i
i
i

los datos desestacionalizados de una serie pueden verse como una tendencia cclica irregular
expresada en las mismas unidades que los datos originales, pero que no representan ocurrencias
reales, ms bien son valores que slo tienen sentido para propsitos de comparacin.
EJEMPLO 5.
Para las importaciones trimestrales de materiales de construccin en miles de dlares del ejemplo 3.
i) Calcule las importaciones trimestrales desestacionalizadas para 2002.
Trim
1
2
3
4

Yi
125
170
165
144

S
85.3
103.9
111.1
99.7

Yi desestacionalizado
146.5
163.6
148.5
144.4

ii) Comente la comparacin de las importaciones trimestrales de los trimestres primero y segundo
de 2002, con base en los valores trimestrales reales y los valores trimestrales desestacionalizados.
Al pasar del primero al segundo trimestre hay un aumento de las importaciones trimestrales de 45
mucho mayor que lo esperado estacionalmente 152.3 - 125 = 27.3, pues se considera que la
tendencia cclica irregular de las importaciones trimestrales la levant al pasar de 146.5 a 163.6
iii) Comente la comparacin de las importaciones trimestrales de los trimestres segundo y tercero
de 2002, con base en los valores trimestrales reales y los valores trimestrales desestacionalizados
Al pasar del segundo al tercer trimestre las importaciones trimestrales disminuyen 5 contrario a lo
que estacionalmente se esperaba que era un aumento de 181.8 - 170 = 11.8 , se considera que la
tendencia cclica irregular de las importaciones trimestrales la baj al pasar de 163.6 a 148.5

EJERCICIOS PROPUESTOS DEL TEMA 4: SERIES DE TIEMPO.


1. Con qu componente de una serie de tiempo asociara usted cada uno de los siguientes factores:
a)

Un aumento en las ventas de televisores en el mes de Diciembre.

162

b)
c)
d)
e)
f)
g)
h)
i)
j)
k)

Una declinacin durante dos aos en la construccin de viviendas.


Una huelga de trabajadores de la industria automotriz
Un aumento de las ventas de helados en un trimestre de verano.
Un descenso de la mortalidad infantil en el perodo 1990 2003.
Una cada sbita en la produccin tabacalera debido a una plaga (moho azul).
Un aumento de la produccin de papas en el perodo de marzo y abril.
Una declinacin en las ventas de helados en el mes de Diciembre a causa del fro.
Un aumento en el rendimiento de arroz debido al desarrollo de nuevas variedades de este cereal.
La repeticin sistemtica de la crisis en la economa capital.
Un aumento del Producto Nacional Bruto (PNB) durante 3 aos.

2. Supongamos que se dispone de datos sobre las ventas trimestrales de libros de texto en la librera
de la Universidad durante los ltimos 10 aos.
a) Cree usted que estos datos acusaran una tendencia definida? Explicar por qu.
b) Cree usted que estos datos trimestrales mostraran un esquema estacional? Si as fuera,
porqu?
c) Qu factores podran causar una variacin cclica en las ventas trimestrales?
d) Qu factores tenderan a causar variaciones irregulares en los datos?
3. La produccin en Nicaragua de cierto artculo en millones de unidades durante los aos 19962002 aparece en la siguiente tabla.
Ao
1996
1997
1998
1999
2000
2001
2002
a)
b)
c)
d)

Produccin
10
9
8
8
5
6
3

Haga el grfico de la serie.


Encuentre la ecuacin de tendencia lineal e interprete el intercepto y la pendiente.
Pronostique la produccin para el ao 2003.
Trace la lnea de tendencia sobre el grfico de la serie.

4. Una compaa de productos alimenticios tiene los siguientes datos sobre el nmero de cajas de
cereal en miles que ha vendido en los ltimos 6 aos.
Ao
1997

Produccin
21.0

163

1998
1999
2000
2001
2002

19.4
22.6
28.2
30.4
25.0

a) Construya el grfico de la serie.


b) Determine la ecuacin de tendencia lineal que mejor se ajuste a los datos anteriores e interprete
la pendiente y el intercepto.
c) Prediga la venta del nmero de cajas de cereal para 2003
d) Trace la lnea de tendencia sobre el grfico del inciso a).
5. El total de ventas anuales de una compaa estn dadas en millones de crdobas por la siguiente
tabla.
Ao
1998
1999
2000
2001
2002

Ventas
21
24
29
29
34

a) Encontrar la ecuacin de la recta de tendencia por el mtodo de mnimos cuadrados. Interprete


la pendiente.
b) Cul sera la venta estimada para 2003?
c) Encontrar la ecuacin de la recta de tendencia de las ventas trimestrales de la compaa con
origen en el 15-08-2000
6. Dados los siguientes datos sobre produccin de una compaa en millones de unidades.
Ao
1997
1998
1999
2000
2001
2002

Produccin
24
17
20
18
14
15

a) Calcule la ecuacin de la recta de tendencia por el mtodo de los mnimos cuadrados.


b) Pronostique la produccin para los aos 2003 y 2004 Cul de estos pronsticos sera ms
seguro? Argumente su respuesta.
c) Convierta la ecuacin calculada en a) a una ecuacin de tendencia de producciones trimestrales
con origen en el 15-8-1997.
7. Dados los siguientes datos sobre produccin de caf
Ao
1998
1999

Produccin
80
82

164

2000
2001
2002

85
84
89

Pronostique la produccin trimestral de caf para el 2 trimestre de 2003.


8. Dada la siguiente serie relativa a la existencia de ganado ovino y caprino en miles de cabezas en
una Empresa Agropecuaria..
Ao

Ovino

caprino

Total

1999
2000
2001
2002

56
63
81
90

24
20
17
15

80
83
98
105

a) Determine la ecuacin de tendencia lineal de la existencia total de ganado. Interprete la


pendiente y el intercepto.
b) Determine la ecuacin de tendencia lineal de la existencia de ganado caprino. Interprete la
pendiente.
c) Pronostique la existencia de ganado ovino para 2003.
9. Suponga que la siguiente ecuacin nos expresa la estimacin de tendencia de la produccin
anual de azcar refinada en miles de toneladas mtricas.
= 677.7 + 1.4 X
Y

Origen: 1 - 7 - 2000
X en aos
a)
b)

Interprete los elementos que intervienen en esta ecuacin dentro del contexto del problema.
Pronostique la produccin de azcar para el 2 trimestre de 2003

10. La ecuacin de tendencia para las producciones trimestrales de cierto artculo (en miles de
unidades) es:
= 12.25 + 0.50 X
Y
Origen:15 - 08 - 2001
X en trimestres
a) Interprete los elementos que intervienen en esta ecuacin dentro del contexto del problema.
b) Prediga la produccin para el 1er trimestre de 2003.

11. Los datos que aparecen a continuacin son las ventas trimestrales en millones de una empresa
durante el perodo 2000-2002.
Trimestres
Ao
1
2
3
4
2000

4.9

5.9

6.1

7.6

165

2001
2002

5.0
5.7

6.3
7.0

6.6
7.5

8.3
9.2

a) Construir un grfico de las ventas trimestrales.


b) Determinar la ecuacin de tendencia lineal de las ventas trimestrales. Trace sobre el grfico
anterior la recta de tendencia e interprete la pendiente estimada.
c) Calcule los ndices estacionales para los cuatro trimestres. Haga una representacin grfica de
los ndices estacionales e interprete el 4 ndice estacional.
d) Calcule las ventas trimestrales desestacionalizada para 2001.
e) Comente la comparacin de las importaciones trimestrales de los trimestres tercero y cuarto de
2001, con base en los valores trimestrales reales y los valores trimestrales desestacionalizados.
12. La siguiente tabla muestra la produccin trimestral de mantequilla en millones de libras de un
cierto pas hipottico durante los aos 1999 - 2002.
Trimestres
Ao
1
2
3
4
1999
2000
2001
2002

3.8
3.3
2.5
2.6

4.7
4.4
4.0
3.8

3.3
3.5
3.2
3.4

2.7
2.9
2.6
2.2

a) Construir un grfico de las producciones trimestrales.


b) Determinar la ecuacin de tendencia lineal de las producciones trimestrales. Trace sobre el
grfico anterior la recta de tendencia.
c) Calcule los ndices estacionales para los cuatro trimestres e interprete el 2 ndice estacional
d) Pronostique las producciones trimestrales para el 3er trimestre de 2003 utilizando la ecuacin de
tendencia y los ndices estacionales.
13. A continuacin aparecen datos trimestrales de ventas ( en miles de crdobas ) para una pequea
empresa de materiales de construccin en 3 aos recientes.
Trimestres
Ao
1
2
3
4
1
2
3

50
45
35

35
35
20

25
20
15

40
30
25

a) Construya un grfico de las ventas trimestrales y observe si hay un patrn estacional constante.
b) Determinar la ecuacin de tendencia lineal de las ventas trimestrales. Trace sobre el grfico
anterior la recta de tendencia e interprete la pendiente estimada.
c) Calcule los ndices estacionales para los cuatro trimestres. Haga una representacin grfica de
los ndices estacionales e interprete el 3er. ndice estacional.
14. Una compaa constructora ha reunido datos trimestrales sobre nmero de casas que ha iniciado
durante los ltimos cuatro aos.
Trimestres
Ao
1
2
3
4
1999

166

2000
2001
2002

8
8
9

10
11
12

7
7
8

4
5
6

a) Construir un grfico del nmero de casas que ha iniciado trimestralmente.


b) Determinar la ecuacin de tendencia lineal del nmero de casas iniciadas trimestralmente.
Trace sobre el grfico anterior la recta de tendencia e interprete la pendiente estimada.
c) Calcule los ndices estacionales para los cuatro trimestres. Haga una representacin grfica de
los ndices estacionales e interprete el 2 ndice estacional.
e) Pronostique el nmero de casas que se iniciarn para el 2 trimestre de 2003 utilizando la
ecuacin de tendencia y los ndices estacionales.
15. La produccin trimestral de madera de pino, en miles de pies cuadrados del aserradero
LUMBER, desde 1999 es:
Trimestres
Ao
1
2
3
4
1999
2000
2001
2002

7.8
6.9
8.9
10.7

10.2
11.6
9.7
12.4

14.7
17.5
15.3
16.8

9.3
9.3
10.1
10.7

a) Determine el patrn estacional para los datos de produccin e interprtelo.


b) Desestacionalice los datos correspondientes a 2002.
c) Comente la comparacin de las importaciones trimestrales de los trimestres segundo y tercero de
2002, con base en los valores trimestrales reales y los valores trimestrales desestacionalizados.
16. Un fabricante de cierto artculo comprueba que el ndice estacional de ventas en el 1 er trimestre
es de 40%, en tanto que en el 2 trimestre es de 160%. Cmo interpretara usted estos resultados?
17. El ndice estacional de ventas para la compaa ABC en el 1er trimestre fue de 40%. Si en el
primer trimestre de 2002 las ventas totalizaron 120 millones de crdobas A qu son iguales las
ventas desestacionalizadas?
18. El personal empleado por una industria de productos qumicos agrcolas aument de 10 mil en
el 2 trimestre a 15 mil en el 3 er trimestre. La informacin desestacionalizada ndica una declinacin
de 10 mil a 7.5 mil.
a) Cul es el ndice estacional para el 3er trimestre?
b) Cmo explicara la declinacin en esta informacin desestacionalizada?.
Tabla 1

Tabla de nmeros aleatorios


Columna

Fila
1
2

1
10480
22368

10

11

12

13

14

15011
46573

01536
25595

02011
85393

81647
30995

91646
89198

69179
27982

14194
53402

62590
93965

36207
34095

20969
52666

99570
19174

91291
39615

90700
99505

167
3
4
5

24130
42167
37570

48360
93093
39975

22527
06243
81837

97265
61680
16656

76393
07856
06121

64809
16376
91782

15179
39440
60468

24830
53537
81305

49340
71341
49684

32081
57004
60672

30680
00849
14110

19655
74917
06927

63348
97758
01263

58629
16379
54613

6
7
8
9
10

77921
99562
96301
89579
85475

06907
72905
91977
14342
36857

11008
56420
05463
63661
53342

42751
69994
07972
10281
53988

27756
98472
18876
17453
53060

53498
31016
20922
18103
59533

18602
71194
94595
57740
38867

70659
18738
56869
84378
62300

90655
44013
69014
25331
08158

15053
48840
60045
12566
17983

21916
63213
18425
58678
16439

81825
21069
84903
44947
11458

44394
10634
42508
05585
18593

42880
12952
32307
56941
64952

11
12
13
14
15

28918
63553
09429
10356
07119

69578
40961
93969
61129
97336

88231
48235
52636
87529
71048

33276
03427
92737
85689
08178

70997
49626
88974
48237
77233

79936
69445
33488
52267
13916

56865
18663
36320
67689
47564

05859
72695
17617
93394
81056

90106
52180
30015
01511
97735

31595
20847
08272
26358
85977

01547
12234
84115
85104
29372

85590
90511
27156
20285
74461

91610
33703
30613
29975
28551

78188
90322
74952
89868
90707

16
17
18
19
20

51085
02368
01011
52162
07056

12765
21382
54092
53916
97628

51821
52404
33362
46369
33787

51259
60268
94904
58586
09998

77452
89368
31273
23216
42698

16308
19885
04146
14513
06691

60756
55322
18594
83149
76988

92144
44819
29852
98736
13602

49442
01188
71585
23495
51851

53900
65255
85030
64350
46104

70960
64835
51132
94738
88916

63990
44919
01915
17752
19509

75601
05944
92747
35156
25625

40719
55157
64951
35749
58104

21
22
23
24
25

48663
54164
32639
29334
02488

91245
58492
32363
27001
33062

85828
22421
05597
87637
28834

14346
74103
24200
87308
07351

09172
47070
13363
58731
19731

30168
25306
38005
00256
92420

90229
76468
94342
45834
60952

04734
26384
28728
15398
61280

59193
58151
35806
46557
50001

22178
06646
06912
41135
67658

30421
21524
17012
10367
32586

61666
15227
64161
07684
86679

99904
96909
18296
36188
50720

32812
44592
22851
18510
94953

26
27
28
29
30

81525
29676
00742
05366
91921

72295
20591
57392
04213
26418

04839
68086
39064
25669
64117

96423
26432
66432
26422
94305

24878
46901
84673
44407
26766

82651
20849
40027
44048
25940

66566
89768
32832
37937
39972

14778
81536
61362
63904
22209

76797
86645
98947
45766
71500

14780
12659
96067
66134
64568

13300
92259
64760
75470
91402

87074
57102
64584
66520
42416

79666
80428
96096
34693
07844

95725
25280
98253
90449
69618

31
32
33
34
35

00582
00725
69011
25976
09763

04711
69884
65795
57948
83473

87917
62797
95876
29888
73577

77341
56170
55293
88604
12908

42206
86324
18988
67917
30883

35126
88072
27354
48708
18317

74087
76222
26575
18912
28290

99547
36086
08625
82271
35797

81817
84637
40801
65424
05998

42607
93161
59920
69774
41688

43808
76038
29841
33611
34952

76655
65855
80150
54262
37888

62028
77919
12777
85963
38917

76630
88006
18501
03547
88050

36
37
38
39
40

91567
17955
46503
92157
14577

42595
56349
18584
89634
62765

27958
90999
18845
94824
35605

30134
49127
49618
78171
81263

04024
20044
02304
84610
39667

86385
59931
51038
82834
47358

29880
06115
20655
09922
56873

99730
20542
58727
25417
56307

55536
18059
28168
44137
61607

84855
02008
15475
48413
49518

29080
73708
56942
25555
89656

09250
83517
53389
21246
20103

79656
36103
20562
35509
77490

73211
42791
87338
20468
18062

41
42
43
44
45

98427
34914
70060
53976
76072

07523
63976
28277
54914
29515

33362
88720
39475
06990
40980

64270
82765
46476
67245
07391

01638
34476
23219
68350
58745

92477
17032
53416
82948
25774

66969
87589
94970
11398
22987

98420
40836
25832
42878
80059

04880
32427
69975
80287
39911

45585
70002
94884
88267
96189

46565
70663
19661
47363
41151

04102
88863
72828
46634
14222

46880
77775
00102
06541
60697

45709
69348
66794
97809
59583

46
47
48
49
50

90725
64364
08962
95012
15664

52210
67412
00358
68379
10493

93974
33339
31662
93526
20492

29992
31926
25388
70765
38391

65831
14883
61642
10592
91132

38857
24413
34072
04542
21999

50490
59744
81249
76463
59516

83765
92351
35648
54328
81652

55657
97473
56891
02349
27195

14361
89286
69352
17247
48223

31720
35931
48373
28865
46751

57375
04110
45578
14777
22923

56228
23726
78547
62730
32261

41546
51900
81788
92277
85653

51

16408

81899

04153

53381

79401

21438

83035

92350

36693

31238

59649

91754

72772

02338

Tabla 2
z

Funcin de distribucin acumulada de Z


0

(Areas a la izquierda de z)
8

168
-3.

.0013

-2.9
-2.8
-2.7
-2.6
-2.5

.0019
.0026
.0035
.0047
.0062

.0018
.0025
.0034
.0045
.0060

.0017
.0024
.0033
.0044
.0059

.0017
.0023
.0032
.0043
.0057

.0016
.0023
.0031
.0041
.0055

.0016
.0022
.0030
.0040
.0054

.0015
.0021
.0029
.0039
.0052

.0015
.0021
.0028
.0038
.0051

.0014
.0020
.0027
.0037
.0049

.0014
.0019
.0026
.0036
.0048

-2.4
-2.3
-2.2
-2.1
-2.0

.0082
.0107
.0139
.0179
.0227

.0080
.0104
.0136
.0174
.0222

.0078
.0102
.0132
.0170
.0217

.0075
.0099
.0129
.0166
.0212

.0073
.0096
.0125
.0162
.0207

.0071
.0094
.0122
.0158
.0202

.0069
.0091
.0119
.0154
.0197

.0068
.0089
.0116
.0150
.0192

.0066
.0087
.0113
.0146
.0188

.0064
.0084
.0110
.0143
.0183

-1.9
-1.8
-1.7
-1.6
-1.5

.0287
.0359
.0446
.0548
.0668

.0281
.0351
.0436
.0537
.0655

.0274
.0344
.0427
.0526
.0643

.0268
.0336
.0418
.0516
.0630

.0262
.0329
.0409
.0505
.0618

.0256
.0322
.0401
.0495
.0606

.0250
.0314
.0392
.0485
.0594

.0244
.0307
.0384
.0475
.0582

.0239
.0300
.0375
.0465
.0571

.0233
.0294
.0367
.0455
.0559

-1.4
-1.3
-1.2
-1.1
-1.0

.0808
.0968
.1151
.1357
.1587

.0793
.0951
.1131
.1335
.1562

.0778
.0934
.1112
.1314
.1539

.0764
.0918
.1093
.1292
.1515

.0749
.0901
.1075
.1271
.1492

.0735
.0885
.1056
.1251
.1469

.0721
.0869
.1038
.1230
.1446

.0708
.0853
.1020
.1210
.1423

.0694
.0838
.1003
.1190
.1401

.0681
.0823
.0985
.1170
.1379

-.9
-.8
-.7
-.6
-.5

.1841
.2119
.2420
.2743
.3085

.1814
.2090
.2389
.2709
.3050

.1788
.2061
.2358
.2676
.3015

.1762
.2033
.2326
.2643
.2981

.1736
.2005
.2297
.2611
.2946

.1711
.1977
.2266
.2578
.2912

.1685
.1949
.2236
.2546
.2877

.1660
.1921
.2206
.2514
.2843

.1635
.1894
.2177
.2483
.2810

.1611
.1867
.2148
.2451
.2776

-.4
-.3
-.2
-.1
-.0

.3446
.3821
.4407
.4602
.5000

.3409
.3783
.4168
.4562
.4960

.3372
.3745
.4129
.4522
.4920

.3336
.3707
.4090
.4483
.4880

.3300
.3669
.4052
.4443
.4840

.3264
.3632
.4013
.4404
.4801

.3228
.3594
.3974
.4364
.4761

.3192
.3557
.3936
.4325
.4721

.3156
.3520
.3897
.4286
.4681

.3121
.3483
.3859
.4247
.4641

.0
.1
.2
.3
.4

.5000
.5398
.5793
.6179
.6554

.5040
.5438
.5832
.6217
.6591

.5080
.5478
.5871
.6255
.6628

.5120
.5517
.5910
.6293
.6664

.5160
.5557
.5948
.6331
.6700

.5199
.5596
.5987
.6368
.6736

.5239
.5636
.6026
.6406
.6772

.5279
.5675
.6064
.6443
.6808

.5319
.5714
.6103
.6480
.6844

.5359
.5753
.6141
.6517
.6879

.5
.6
.7
.8
.9

.6915
.7257
.7580
.7881
.8159

.6950
.7291
.7611
.7910
.8186

.6985
.7324
.7642
.7939
.8212

.7019
.7357
.7673
.7967
.8238

.7054
.7389
.7704
.7995
.8264

.7088
.7422
.7734
.8023
.8289

.7123
.7454
.7764
.8051
.8315

.7157
.7486
.7794
.8079
.8340

.7190
.7517
.7823
.8106
.8365

.7224
.7549
.7852
.8133
.8389

1.0
1.1
1.2
1.3
1.4

.8413
.8643
.8849
.9032
.9192

.8438
.8665
.8869
.9049
.9207

.8461
.8686
.8888
.9066
.9222

.8485
.8708
.8907
.9082
.9236

.8508
.8729
.8925
.9099
.9251

.8531
.8749
.8944
.9115
.9265

.8554
.8770
.8962
.9131
.9279

.8577
.8790
.8980
.9147
.9292

.8599
.8810
.8997
.9162
.9306

.8621
.8830
.9015
.9177
.9319

1.5
1.6
1.7
1.8
1.9

.9332
.9452
.9554
.9641
.9713

.9345
.9463
.9564
.9649
.9719

.9357
.9474
.9573
.9656
.9726

.9370
.9484
.9582
.9664
.9732

.9382
.9495
.9591
.9671
.9738

.9394
.9505
.9599
.9678
.9744

.9406
.9515
.9608
.9686
.9750

.9418
.9525
.9616
.9693
.9756

.9429
.9535
.9625
.9700
.9761

.9441
.9545
.9633
.9706
.9767

2.0
2.1
2.2
2.3
2.4

.9773
.9821
.9861
.9893
.9918

.9778
.9826
.9864
.9896
.9920

.9783
.9830
.9868
.9898
.9922

.9788
.9834
.9871
.9901
.9925

.9793
.9838
.9875
.9904
.9927

.9798
.9842
.9878
.9906
.9929

.9803
.9846
.9881
.9909
.9931

.9808
.9850
.9884
.9911
.9932

.9812
.9854
.9887
.9913
.9934

.9817
.9857
.9890
.9916
.9936

2.5
2.6
2.7
2.8
2.9

.9938
.9953
.9965
.9974
.9981

.9940
.9955
.9966
.9975
.9982

.9941
.9956
.9967
.9976
.9982

.9943
.9957
.9968
.9977
.9983

.9945
.9959
.9969
.9977
.9984

.9946
.9960
.9970
.9978
.9984

.9948
.9961
.9971
.9979
.9985

.9949
.9962
.9972
.9979
.9985

.9951
.9963
.9973
.9980
.9986

.9952
.9964
.9974
.9981
.9986

3.

.9987

Tabla 3

Distribucin t de Student

169

(Areas acumuladas a la derecha de t)


G.L.

0.10

0.05

0.025

1
2
3
4
5

3.078
1.886
1.638
1.533
1.476

6.314
2.920
2.353
2.132
2.015

12.706
4.303
3.182
2.776
2.571

6
7
8
9
10

1.440
1.415
1.397
1.383
1.372

1.943
1.895
1.860
1.833
1.812

11
12
13
14
15

1.363
1.356
1.350
1.345
1.341

16
17
18
19
20

0.01

0.005

0.0005

31.821
6.965
4.541
3.747
3.365

63.657
9.925
5.841
4.604
4.032

636.619
31.598
12.941
8.610
6.859

2.447
2.365
2.306
2.262
2.228

3.143
2.998
2.896
2.821
2.764

3.707
3.499
3.355
3.250
3.169

5.959
5.405
5.041
4.781
4.587

1.796
1.782
1.771
1.761
1.753

2.201
2.179
2.160
2.145
2.131

2.718
2.681
2.650
2.624
2.602

3.106
3.055
3.012
2.977
2.947

4.437
4.318
4.221
4.140
4.073

1.337
1.333
1.330
1.328
1.325

1.746
1.740
1.734
1.729
1.725

2.120
2.110
2.101
2.093
2.086

2.583
2.567
2.552
2.539
2.528

2.921
2.898
2.878
2.861
2.845

4.015
3.965
3.922
3.883
3.850

21
22
23
24
25

1.323
1.321
1.319
1.318
1.316

1.721
1.717
1.714
1.711
1.708

2.080
2.074
2.069
2.064
2.060

2.518
2.508
2.500
2.492
2.485

2.831
2.819
2.807
2.797
2.787

3.819
3.792
3.767
3.745
3.725

26
27
28
29
30

1.315
1.314
1.313
1.311
1.310

1.706
1.703
1.701
1.699
1.697

2.056
2.052
2.048
2.045
2.042

2.479
2.473
2.467
2.462
2.457

2.779
2.771
2.763
2.756
2.750

3.707
3.690
3.674
3.659
3.646

40
60
120

1.303
1.296
1.289
1.282

1.684
1.671
1.658
1.645

2.021
2.000
1.980
1.960

2.423
2.390
2.358
2.326

2.704
2.660
2.617
2.576

3.551
3.460
3.373
3.291

170

BIBLIOGRAFIA

Elementos de Muestreo
Richard L. Scheaffer
William Mendenhall
Lyman Ott
Grupo Editorial Iberoamrica, 1986

Elementos bsicos de Estadstica Ecnomica y Empresarial


A. M. Montiel Torres
F. Rius Daz
F. J Barn Lpez
Prentice Hall, Espaa, 1997

Serie Schaum, Estadstica aplicada a la Administracin y a la Economa


Leonard J. Kasmier.
Mc Graw Hill, Mexico, 1988

Estadstica Bsica en Administracin.


Mark L. Berenson
David M Levine
Mexico, Cuarta edicin, Prentice Hall 1992

Estadstica para Administradores


Richard I. Levine
Prentice Hall Hispanoamericana, S. A.
Mexico, segunda edicin, 1988

Applied Linear Statistical Models


John Neter
William Wasserman
Richard D. Irwin, INC, 1974

Introduction to Mathematical Statistics


Robert V. Hagg
Allen T. Craig
USA, Fourth Edition, Mcmillan Publishing, 1978

También podría gustarte