Estadistica II

1
TEMA 1: MUESTREO Y ESTIMACION

OBJETIVOS
1. Explicar las razones por las cuales se hace uso del muestreo.
2. Comprender la necesidad de utilizar estimadores para los parámetros.
3. Resaltar la ayuda que presta el conocimiento de la distribución muestral de un estimador para la
determinación de la precisión de las estimaciones.
4. Identificar las propiedades deseables de un estimador para hacer las mejores inferencias sobre
los parámetros.
5. Conocer los principales métodos para seleccionar una muestra
6. Hacer estimaciones puntuales y por intervalo de parámetros en muestreo aleatorio simple,
sistemático, estratificado y por conglomerado.
7. Hacer determinaciones de tamaños de muestras requeridos para estimar la media poblacional en
muestreo aleatorio simple, estratificado y por conglomerado.
8. Aplicar correctamente las fórmulas de los estimadores por intervalo y de tamaño de muestra en
la solución de problemas.
1.1 INTRODUCCION
Recordemos algunos conceptos de la Estadística que serán importantes en el desarrollo de este curso
POBLACIÓN
Es un conjunto de elementos de naturaleza cualquiera de los cuales estamos interesados en estudiar
al menos una característica común y observable de dichos elementos en un determinado lugar y en
un momento dado.
Observación: La población en estudios debe estar definida sin ambigüedad de manera que no de
lugar a confusiones. Los elementos consideramos que se encuentran localizados en un determinado
lugar o región geográfica y en un periodo de tiempo dado.
Ejemplo
El conjunto de todos los supermercados de Nicaragua en un momento dado
Elementos: Supermercados.
Características : ventas mensuales, N° empleados, nombre, atención, N° cajeras, etc.
VARIABLES
Utilizaremos variables como X, Y, Z, etc. para representar las características de los elementos
Para el ejemplo anterior podemos hacer que X represente las ventas mensuales
DATOS ESTADISTICOS
Los valores posibles de una característica X los denotaremos por x , mientras que los valores
realmente observados de esa característica X , los llamaremos datos y los denotaremos por x i donde
el valor del subíndice i nos indica que es la i-ésima observación de X.
Con frecuencia usaremos el término población para referirnos a la totalidad de datos que podrían
recopilarse en una situación dada.
x1 , x2 , … , xN
2
PARAMETROS
Es una medida que proviene de todos los datos de la población. Los parámetros son constantes que
representan por lo general características de la población. Generalmente se representan por letras
griegas.
Por ejemplo, la media poblacional es un parámetro que se denota y define como
N
x  x 2  ...  x N
x i
μ 1  .
N N
El total poblacional es otro parámetro que se denota y define como τ x i
Si para el ejemplo anterior X representa la venta mensual entonces  representa la venta mensual
promedio y  la venta mensual total
MUESTRA
Es una parte de la población que se espera sea representativa de ella.
Con frecuencia usaremos el término muestra para referirnos a los datos muestrales x1 , x2 , … , xn
Población tamaño N
X
x1 muestra tamaño n
x2
. x1, x2,….xn
.
xN datos muestrales
POR QUE SE MUESTREA
Tomar decisiones con base en información incompleta no es algo novedoso.

Por ejemplo, muchos compradores prueban un poco de queso antes de adquirirlo. De un pedazo
deducen el sabor de un trozo mayor.
En medicina, una muestra de sangre puede llevar a inferir que el paciente está anémico.
Como el interés primordial de la Estadística es conocer parámetros, facilitaremos la inferencia
acerca de los parámetros, utilizando la información de una muestra para estimar los parámetros.
Una muestra de familias de un barrio puede ser útil para estimar el número promedio de niños por
familia del barrio.
En la industria una muestra de artículos puede servirnos para estimar la proporción de artículos
defectuosos producidos en cierto momento.
VENTAJAS DEL MUESTREO.

3
1. Rapidez y bajo costo de la información requerida.
El muestreo es una técnica que utiliza recursos materiales, económicos y humanos disponibles, para
obtener en el menor tiempo, al menor costo y con cierta exactitud aceptable información necesaria
acerca de algunos parámetros.
2. Es un procedimiento práctico cuando la población es muy grande o infinita.
Decimos que una población es finita cuando sabemos cuántos elementos existen en ella, esto es,
cuando posee un tamaño que denotaremos por N.
Existen poblaciones finitas tan grandes que resulta imposible observar sus elementos en un período
de tiempo razonable, por ejemplo, todas las familias de una ciudad. Otras son tan inmensas que
muchos de sus elementos son inaccesibles y su tamaño puede ser desconocido, por ejemplo, todos
los pequeños agricultores de un país.
También existen poblaciones infinitamente grandes, esto es, con un número ilimitado de elementos,
razón por la cual le llamaremos poblaciones infinitas.
Podriamos considerar que los procesos contínuos de producción de algún bien generan poblaciones
infinitas porque, teóricamente, podría suponerse que estos procesos operan indefinidamente, por
ejemplo, el proceso de producción de chips de computadoras.
3. Evita la destrucción de toda la población.
Esta situación se da cuando la medición de la característica de interés destruye al mismo elemento.

Los catadores de vino pueden evaluarlo con unos cuántos sorbos sin necesidad de consumir toda la
producción.
En una compañía sólo se prueba la germinación de unas cuantas semillas antes de la temporada de
siembra.
Los censos, debido a la gran cantidad de recursos que requieren, se realizan en períodos retirados de
tiempo. Sin embargo su aplicación es ventajosa cuando la población es muy pequeña o se requiere
una exactitud completa.
1.2 METODOS DE MUESTREO

4
En todo muestreo lo deseable básicamente es obtener una muestra que sea una buena representación
de la población en miniatura y que además su costo sea el menor posible, ya que a mayor
representatividad de la muestra se espera mayor precisión en las estimaciones de los parámetros.
Existen dos métodos que tratan de obtener la muestra anterior: el muestreo no probabilístico y el
muestreo probabilístico.
1.2.1 MUESTREO NO PROBABILISTICO
- En este método no todos los elementos poblacionales tendrán posibilidad de integrar la muestra,
motivo por el cual se espera poca representatividad de la muestra.
- Se usan el conocimiento, la experiencia y la opinion personal para identificar los elementos de la
población que van a incluirse en la muestra.
El conocimiento y la experiencia ayudan a aumentar la precisión de las estimaciones y la opinión
personal para minimizar el costo.
- La precisión de sus resultados generalmente no se puede medir en forma objetiva porque no hay
ninguna ley del azar que permita medir su error de muestreo.
A pesar de esta falta de objetividad los métodos de muestreo no probabilísticos son importantes en
los negocios y la investigación económica.
1.2.2 MUESTREO PROBABILISTICO
- Es un método de muestreo en el cual cada elemento de la población tiene una probabilidad

conocida (no igual a cero) de ser incluido en la muestra.
- Las unidades muestrales se seleccionan conforme a las leyes del azar en vez del criterio personal.
- La precisión de sus resultados se puede medir objetivamente porque, según veremos más adelante,
los estimadores de parámetros seguirán las leyes del azar, esto es, una distribución de probabilidad
conocida de la cual podremos considerar su desviación estándar como un error de muestreo
esperado (promedio).
Aunque el error de muestreo es de naturaleza aleatoria podremos controlarlo, es decir hacerlo más
pequeño, seleccionando el tipo de muestreo más adecuado.
También controlaremos el costo del muestreo seleccionando un tipo de muestreo que logre reducir
sustancialmente ese costo.
1.2.3 TIPOS DE MUESTREOS PROBABILISTICOS.
Algunos tipos de muestreos probabilísticos son los siguientes: muestreo aleatorio simple,
muestreo aleatorio sistemático, muestreo aleatorio estratificado y muestreo aleatorio por
conglomerado.
1.3 MUESTREO ALEATORIO SIMPLE Y MUESTREO ALEATORIO SISTEMATICO

5
En el muestreo aleatorio simple se seleccionan las muestras mediante métodos que permitan a cada
muestra posible tener igual probabilidad de ser seleccionada y a cada elemento de la población tener
igual probabilidad de quedar incluido en la muestra.
El muestreo aleatorio simple es un procedimiento práctico si:
i) La población tiene una desviación estandar  pequeña en comparación a la magnitud de los

datos y su tamaño no es muy grande.
ii) Es fácil y poco costoso llegar a los elementos poblacionales.
El muestreo aleatorio sistemático es un procedimiento que se aplica a situaciones donde los

elementos poblacionales pueden ser seleccionados con un intervalo uniforme que se mide en el
orden , en el tiempo o en el espacio. Este procedimiento trata de garantizar de que cada elemento
poblacional tuvo la misma probabilidad de integrar la muestra.
El muestreo aleatorio sistemático es un procedimiento práctico si:
i) Se dispone de una lista de los elementos poblacionales y se considera que dichos elementos no
son muchos y están en un orden aleatorio.
Por ejemplo, podemos tomar cada sexto estudiante de una lista de estudiantes de la Escuela de
Economía.
ii) Se tiene un proceso contínuo de producción de algún artículo, el cual consideramos que genera
una población infinita, y que por lo tanto, la manera más práctica de tomar una muestra es fijar un
intervalo uniforme que me permita ir tomando artículos para control de calidad de la producción.
Por ejemplo, podemos tomar cada quincuagésima pieza que sale de una planta de ensamblaje.
1.3.1 COMO SELECCIONAR LA MUESTRA ALEATORIA SIMPLE.
1. Construir el marco muestral.

El primer paso al seleccionar una muestra de una población es hacer lo que llamaremos un marco
muestral, esto es, una lista completa y actualizada de todos los elementos de la población.
2. Especificar si el muestreo será con o sin reposicion.

También debe especificarse si la muestra se va a obtener con reposición o sin reposición.
Cuando muestreamos con reposición de una población de tamaño N (el elemento seleccionado se
devuelve a la población y por tanto puede seguir siendo considerado en cualquier otra extracción) la
l
probabilidad de que cualquier elemento sea seleccionado es siempre la misma N
para cualquier
extracción.
El muestreo sin reposición es el más usual en la práctica, motivo por el cual le daremos mayor
atención.
Cuando muestreamos sin reposición de una población de tamaño N (el elemento seleccionado no se
devuelve a la población y por tanto no puede seguir siendo considerado para otra extracción) las
6
probabilidades de seleccionar los elementos restantes después de cada extracción van aumentando
porque el tamaño de la población se va reduciendo en uno tras cada extracción. De manera que la
l
probabilidad de seleccionar un elementor particular en la primera extracción es N
, la probabilidad
l
de seleccionar otro elemento particular en una segunda extracción consecutiva es N -1
y así
sucesivamente.
Al seleccionar sin reposición una muestra aleatoria simple de tamaño n de una población finita de
tamaño N puede demostrar que:
l
i) Cada muestra posible tiene una probabilidad  N de ser seleccionada.
 
n
n
ii) Cada elemento de la población tiene una probabilidad N
de ser incluido en la muestra.
3. Utilizar una tabla de numeros aleatorios.

Una tabla de números aleatorios consiste en una serie de dígitos generados en forma aleatoria y en
listados en la secuencia en la que fueron generados. Del conjunto de dígitos  0, 1, 2, 3, 4, 5, 6, 7, 8,
9  se seleccionó con reposición y con el apoyo de una computadora los dígitos que componen la
l
tabla, de tal forma que cada dígito tuvo siempre la misma probabilidad 10
de ser seleccionado.
Antes de aprender a utilizarla hay que observar como está construida. La tabla esta compuesta de
números de 5 dígitos cada uno, arreglados en filas y columnas.
La utilización de la tabla constará de los siguientes pasos:
1. Asignar números de códigos a los elementos de la población utilizando cierto número de

dígitos.
El número de dígitos a utilizar dependerá del tamaño de la población N y será el mismo para cada
situación.
Ejemplo, si N = 140 sus elementos se codificarán así: 001, 002, ... ,139, 140
Si N = 10 sus elementos se codificarán así: 1, 2, .... , 9, 0 donde “0” debe leerse como 10.
Si N = 100 sus elementos se codificarán así: 01, 02, , 99, 00 donde “00” debe leerse como 100.
Si N = 1000, N = 10,000, etc, se utilizará el mismo criterio anterior parar asignar números de
códigos a los elementos poblacionales.
2. Escoja una entrada a la tabla.
La entrada se especificará dando un número de fila y un número de columna de manera arbitraria.

7
Un método satisfactorio consiste en cerrar los ojos y colocar la punta de un lápiz en la tabla, el
número señalado por la punta será la entrada a la tabla.
3. Escoja una dirección.
Por ejemplo: Descendente    , horizontal de izquierda a derecha    , etc.
Si el número a seleccionar es mayor que N (o fue seleccionado previamente en un muestreo sin

reposición) se descarta y se selecciona el siguiente.
Si al terminar la fila o columna en la dirección escogida, no se tienen aún los n números que
requiere la muestra, continue en la siguiente fila o columna.
4. Hágale corresponde a cada número seleccionado de código su elemento correspondiente.
EJEMPLO 1.1
Utilice la tabla de números aleatorios para obtener una muestra aleatoria de 5 estudiantes de esta
clase.
EJEMPLO 1.2
La población de supermercados de una ciudad se dan en la siguiente tabla.

* * * *
N° Super 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16
Ventas diarias 8.1 7.5 5.4 3.0 6.2 7.0 8.0 2.5 1.8 4.3 3.8 5..5 4.6 8.3 9.0 3.6
(en miles de C$)
Si X representan las ventas diarias.

i) Diga que representan  y  en el problema.
 representa la venta diaria promedio de los supermercados y  representa la venta diaria

total de los supermercados.
ii) Iniciando en la fila 26 y columna 4 de la tabla de números aleatorios y con una dirección
horizontal de izquierda a derecha, tome una muestra aleatoria simple de 4 supermercados.
Luego márquelos con un *.
Cada número de código tendrá dos dígitos porque la población es de tamaño N = 16. Observando,
para la fila 26 y columna 4, los dos primeros dígitos, obtenemos el número 96 que es rechazado
porque es mayor que 16.
Siguiendo en la dirección horizontal de izquierda a derecha, nos fijaremos ahora sólo en los menores
o iguales que 16 y que no se repitan porque el muestreo se está realizando sin reposición.
El resultado serán los números:
14, 13, 12 y 05
8
que corresponden a los supermercados 14, 13, 12 y 05 señalados con un *.
1.3.2 COMO SELECCIONAR LA MUESTRA ALEATORIA SISTEMATICA
1. Numerar u ordenar los elementos poblacionales

Por ejemplo: 1, 2, 3, . . . . . . . N. O bien: 1°, 2°, 3°, . . . . . . . . . , N - ésimo.
2. Obtener el intervalo de muestreo

Si vamos a seleccionar una muestra de tamaño n de una población de tamaño N, el intervalo de
muestreo se denota y define así
N
k
n
3. Seleccionar al azar un punto de arranque r

Para que cada elemento poblacional tenga igual probabilidad de integrar la muestra, se selecciona al
azar el punto arranque que será un número r tal que 1  r  k
4. Tomar cada k-ésimo elemento a partir del punto de arranque r

A partir del punto de arranque r aumente consecutivamente k, según se muestra abajo, hasta obtener
n números.
La muestra estará formada por los n números: r, r + k, r + 2k, . . . . .
Esto es, cada octavo, décimo, vigésimo, trigésimo, cuadragésimo, etc. elemento a partir del
arranque.
Nota: Si k no es un entero, considere un k nuevo que será el k original sin el punto decimal.
Luego seleccione un número aleatorio entre 1 y k nuevo al cual se le sumará consecutivamente k
nuevo hasta obtener n números.
Finalmente suprima en estos n números tantas cifras a la derecha como decimales existan en el k
original. Los números resultantes formarán la muestra.
EJEMPLO 1.3
Tome una muestra sistemática de 6 casas a partir de una manzana que comprende 78 casas.
1. Haga una lista de las 78 casas y numere las 78 casas así:
1, 2, 3, 4, . . . . . . . . . . 78
2. Obtenga el intervalo de muestreo
N 78
Como N = 78 y n = 6 , k   13
n 6
3. Utilicemos la tabla de números aleatorios para seleccionar de las primeras 13 casas, aquella con
la cual debemos comenzar.
9
Utilizando dos dígitos para codificar las casas, y entrando en la fila 2 columna 4 con una dirección
descendente obtenemos la casa 07
4. Si seleccionemos cada décimotercera casa, arrancando con la casa 07, obtenemos los siguientes
números de casas:
07, 20, 33, 46, 59, 72
EJEMPLO 1.4
A partir de una lista de 70 solicitudes de crédito tome una muestra sistemática de 8 solicitudes.
1. Numeremos las solicitudes así: 1, 2, 3, . . . . . . 70
2. Obtenga el intervalo de muestreo.
N 70
k original    8.75  k nuevo  875
n 8
3. Utilicemos la tabla de números aleatorios para seleccionar un número entre 1 y 875
Usando tres dígitos, y entrando por la fila 28 columna 6 con una dirección de izquierda a derecha
obtenemos el número 400
4. A partir de 400 aumente consecutivamente 875 hasta obtener los 8 números
400, 1275, 2150, 3025, 3900, 4775, 5650, 6525
Finalmente se suprimen tantas cifras a la derecha como decimales existan en 8.75

La muestra estará formada por los siguientes números de solicitudes:
4, 12, 21, 30, 39, 47, 56, 65
Hay situaciones donde es imposible proceder en la forma que hemos descrito, obligándonos, por tal
motivo, a implementar otros tipos de muestreos aleatorios. A continuación presentamos una de estas
situaciones:
Cuando muestreamos una población finita muy grande resulta tedioso numerar cada uno de sus
elementos, elegir números aleatorios y después localizar los elementos correspondientes.
Lo mismo sucederá si tratamos numerar u ordenar sus elementos para después tener que tomar cada
k-ésimo elemento sobre toda la población.
Aquí lo que haremos es tratar de encontrar procedimientos que no favorezcan ni ignoren ninguna
parte de la población por su accesibilidad o falta de ella, sino por el contrario tratar de que todos sus
elementos tengan posibilidad de ser incluidos en la muestra para que pueda tratarse como muestra
aleatoria.
Por ejemplo, si queremos obtener una muestra aleatoria de pequeños agricultores de un país o
región, tendremos que utilizar un método o procedimiento que garantice que todos los pequeños
agricultores del país tuvieron posibilidad de ser incluidos en la muestra.
10
1.3.3 MUESTRA ALEATORIA DE UNA VARIABLE ALEATORIA
Recordemos algunos experimentos aleatorios:

- Registrar el número de personas que llegan a un supermercado en un día.
- Anotar el tiempo que tarda un bus en llegar a su destino.
- Registrar la precipitación pluvial anual en una región determinada.
- Seleccionar al azar un elemento de una población y observar la característica de interés.
Asociado a cada uno de los experimento aleatorios anteriores existe una variable aleatoria que
representaremos por X. ¿ Qué representa X en cada una de los experimentos aleatorios anteriores ?
Si repetimos un experimento aleatorio cualquiera n veces (independientemente uno de otro y bajo

las mismas condiciones) y hacemos que la variable aleatoria Xi represente la observación de X en la
i-ésima realización del experimento. Entonces diremos que las variables aleatorias X1, X2,...,Xn
constituyen una muestra aleatoria de X.
Por ejemplo, seleccionemos una pieza electrónica de un proceso contínuo de producción de una
fábrica y hagamos que la variable aleatoria X representa la duración de la pieza.
La duración de la primera pieza seleccionada puede representarse por la variable aleatoria X 1, la
duración de la segunda pieza seleccionada por X2 y así sucesivamente hasta la duración de la n-
ésima pieza seleccionada por Xn. Para poder decir que X1, X2,...,Xn es una muestra aleatoria de X,
debemos asegurarnos de que las observaciones sean independientes y estén hechas bajo las mismas
condiciones normales de trabajo, esto es, que no se haya obtenido una observación en un momento
en que el proceso de producción estaba fallando.
Otro ejemplo, supongamos que la variable aleatoria X representa la precipitación pluvial anual de
cierta localidad. La precipitación pluvial anual durante el presente año podría representarse por la
variable aleatoria X1 . Durante los años siguientes las variables aleatorias X 2,...,Xn pueden definirse
análogamente. Podemos considerar X1, X2,...,Xn como una muesta aleatoria de tamaño n, obtenida
de la población de todas las precipitaciones pluviales anuales posibles en esa localidad y podría
suponerse que las Xi son variables aleatorias independientes e idénticamente distribuidas.
1.3.4 ESTADISTICOS
Sea X1, X2,...,Xn una muestra aleatoria de una variable aleatoria X. Sea h una función de las
variables aleatorias X1, X2,...,Xn . Definimos que Y = h(X1, X2,...,Xn) es un estadístico
Observación: Un estadístico es una variable aleatoria.
1.3.5 ESTIMADOR DE UN PARAMETRO

Sea X una variable aleatoria con una distribución de probabilidades que depende de un parámetro
desconocido  (theta). Sea X1, X2,...,Xn una muestra aleatoria de X. Sea g una función de las
variables aleatorias X1, X2,...,Xn. Se define que θ̂ = g(X1, X2,...,Xn) es un estimador de  , donde
θ̂ se leerá theta con acento cincunflejo
Un estimador de un parámetro será entonces un procedimiento o fórmula que proporciona estimados

de ese parámetro a partir de los datos muestrales.
11
Observación: Un estimador es un estadístico, es decir una variable aleatoria.
Por ejemplo, sea X1, X2,...,Xn una muesta aleatoria de tamaño n de una variable aleatoria X cuya
distribución de probabilidad depende de la media poblacional desconocida . Entonces
n N
X i
será un estimador de la media poblacional x i
que llamaremos media muestral
X  μ
n N
Para una población finita de tamaño N

N
NX será un estimador del total poblacional τ  x i que llamaremos total muestral

EJEMPLO 1.5
1) Con la muestra del inciso ii) del ejemplo 1.2
Estime  ,  y 
Las ventas diarias que corresponden a los supermercados 14, 13, 12 y 05 son presentadas en la
siguiente tabla.
No. Super Xi X i2
05 6.2 38.44
12 5.5 30.25
13 4.6 21.16
14 8.3 68.89
24.6 158.74
n
 Xi 24.6
X  .   6.15 ( en miles de C$)
n 4
N X  16 ( 6.15 )  98.4 ( en miles C$)
n
( X )2
n 2 . i  24.6 
2
 Xi - 158.74 -
158.74 - 151.29
S2  . n  4 
n -1 4 1 3
7.45
  2.4833  S 2.4833  1.5758 (en miles de C$ )
3
12
2) Con la muestra del ejemplo 1.1, realice una encuesta dentro del aula de clase para estimar la
cantidad promedio de dinero que trajo hoy un estudiante. ¿Cómo estimaría la cantidad total de
dinero que trajeron hoy los estudiantes de esta clase.
1.3.6 PRECISION Y EXACTITUD DE UNA ESTIMACION.
Cuando hacemos una encuesta o una investigación estadística, los datos pueden ser recopilados a
través de un cuestionario escrito o una entrevista personal o telefónica, lo cual da lugar a que se
cometan dos tipos de errores.
1. Errores de muestreo.
Estos errores ocurren debido a que sólo se hace una observación parcial de la población.
El error de muestreo es la diferencia absoluta entre el resultado de la muestra y el parámetro.
Por ejemplo, si estamos estimando la media poblacional  entonces el error de muestreo de una
estimación se denota y define así
em  X- μ
Estos errores no son medibles porque los parámetros son desconocidos y aunque son aleatorios
pueden ser controlados.
De manera que a menor error de muestreo mayor precisión de la estimación.
Mas adelante miraremos que lo que realmente tratamos de medir es un error de muestreo esperado
(promedio) al utilizar un determinado estimador.
2. Errores ajenos al muestreo.
Estos errores no ocurren debido al muestreo en sí, sino a otras causas, motivo por el cual este tipo de
error puede ocurrir en un censo o muestreo.
Algunas causas de estos errores son:

i) Los intrumentos de medida (cuestionarios, entrevistas, etc.) no son precisos, esto es, no miden lo
que se pretende.
ii) Los entrevistados dan respuestas incorrectas.
iii) El entrevistador anota las respuestas en lugares inapropiados.
Estos errores no son medibles pero pueden ser controlados evitando la causa que los producen.
La exactitud de una estimación tiene que ver con lo que llamaremos el error total, esto es, un
resultado del error de muestreo y los errores ajenos del muestreo.
Una preocupación importante de toda encuesta o investigación estadística es hacer lo más pequeño
posible el error total, es decir tratar de maximizar la exactitud aunque no sea medible directamente.
Para el ejemplo 1.5 parte 1), obtenga el error de muestreo correspondiente a la estimación de 
13
Como x i
=
88.6
 5.5375 entonces e m  x - μ = 6.15 – 5.5375 = 0.6125 (en miles
μ 16
N
C$)
Cómo obtendría para el ejemplo 1.5 parte 2), el error de muestreo de la estimación de 
1.3.7 DISTRIBUCION MUESTRAL DE UN ESTIMADOR
A partir de aquí utilizaremos la teoría de la probabilidad en la obtención de instrumentos que

facilitarán la inferencia de los parámetros.
Supongamos que tenemos un estimador cualquiera de un parámetro de cierta población

Consideremos todas las muestras posibles de tamaño n que pueden seleccionarse de esa población y
calculemos para cada muestra un estimado del parámetro. A partir de todos los estimados podemos
obtener una distribución de probabilidad del estimador, que será llamada la distribución muestral
del estimador.
Es precisamente la media y la varianza de la distribución muestral del estimador lo que nos ayudará
a conocer las propiedades deseables de un estimador para hacer las mejores inferencias sobre los
parámetros.
DISTRIBUCION MUESTRAL DE LA MEDIA
Para una población con característica de interés X y media poblacional , presentamos

gráficamente la idea anterior aplicable a la media muestral donde hemos supuesto que se pudieron
seleccionar M muestras de tamaño n de la población.
Poblacion muestras media muestral
1 x1 


2

x2 
  

xM 
M
Distribución de probabilidad de X
(Distribución muestral de X )
Fig. 1.1
14
EJEMPLO 1.6
Consideremos la población compuesta por 5 representantes de ventas y el número de seguros de

vida que vendieron el mes pasado.
Representante No. Seguros
A 8
B 6
C 4
D 10
E 6
Suponiendo que X representa el número de seguros vendidos.
i) Construya la distribución de la población de X representándola gráficamente.

Seleccionando todos los valores posibles de X y haciéndoles corresponder a cada uno su
probabilidad obtenemos.
xi f ( xi )
4 0.20
6 0.40
8 0.20
10 0.20
1.00
Tabla 1.1
f(X) 0.5
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10 12
X
15
Fig. 1.2
ii) Considerando todas las muestras posibles de tamaño dos que pueden seleccionarse sin
reposición y sin orden de la población.
Construya la distribución muestral de X representándola gráficamente.
Seleccionando todas las muestras posibles de tamaño n = 2 de la población de tamaño N = 5 y

calculando para cada una su media muestral obtenemos.
.
Muestras xi
8, 6 7
8, 4 6
8, 10 9
8, 6 7
6, 4 5
6, 10 8
6, 6 6
4, 10 7
4, 6 5
10, 6 8
Verifique que hay  

N
n =   5
2 = 10 muestras posibles
Seleccionando todas las medias muestrales posibles y haciéndoles corresponder a cada una su
probabilidad obtenemos.
xi f (x i )
5 0.20
6 0.20
7 0.30
8 0.20
9 0.10
1.00
Tabla 1.2
16
f( X) 0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6 7 8 9 10
Fig. 1.3
1.3.8 PROPIEDADES DE UN ESTIMADOR

Podemos evaluar la calidad de un estimador de un parámetro analizando su distribución muestral,
esto es, tomando en cuenta su media y su varianza.
Supondremos que  (theta) representa un parámetro cualquiera de cierta población y que ̂ ( theta
con acento circunflejo ) representa su estimador correspondiente.
Un buen estimador de un parámetro debe cumplir básicamente las siguientes propiedades:

1. Insesgadura.
Un estimador ̂ de un parámetro  es insesgado si ̂ tiene una distribución muestral con media de
̂ igual a , lo cual denotaremos así
̂  
De otra manera, ̂ se llama sesgado y a la diferencia ̂   le llamaremos sesgo.
Esto quiere decir que si utilizamos un estimador insesgado para hacer una estimación particular de
un parámetro, ésta puede ser menor o mayor que el parámetro, pero si utilizamos muchas veces el
mismo estimador entonces tendríamos que el valor medio de todas las estimaciones sería igual al
parámetro.
Las distribuciones muestrales para un estimador insesgado y un estimador sesgado se ilustran en la

figura siguiente.
̂ 1
̂ 2
   ˆ
17
 ˆ
Estimador insesgado Estimador sesgado
Fig. 1.4 Fig. 1.5
2. Eficiencia
Otra propiedad deseable de un estimador es que tenga distribución muestral con varianza lo más
pequeña posible. Esto asegura una probabilidad alta de que una estimación particular se encuentre
cerca del parámetro.
Si se tienen dos estimadores ̂ 1 y ̂ 2 de un mismo parámetro  y la varianza del estimador ̂ 1
es menor que la varianza del estimador ̂ 2 , lo cual denotaremos así.
 2ˆ   2ˆ
1 2
Entonces el estimador ̂1 es más eficiente que el estimador ̂2
Las distribuciones muestrales de dos estimadores de un mismo parámetro se ilustran en la figura

siguiente.
 ̂1 
̂2
Fig. 1.6 Fig. 1.7
¿Qué estimador preferiría usted?
Naturalmente el estimador ̂1 porque proporciona estimados más cerca de  que el estimador ̂2 ,
esto es, porque  ˆ   ˆ
2 2
1 2
El mejor estimador posible es aquel que es insesgado y que posee una varianza menor que la de
cualquier otro estimador, motivo por el cual lo llamaremos estimador insesgado de mínima varianza.
Consideraremos la desviación estándar del estimador ̂ , denotada por  ˆ ,como un error de
muestreo esperado (promedio) que será llamado error estándar del estimador ̂ y que vendrá a
ser un indicador de la precisión del estimador.
EJEMPLO 1.7
i) Para la distribución poblacional del ejemplo 1.6 calcule  y  2
xi f ( xi ) xi fi ( xi - 6.8 )2 f(xi )
4 0.20 0.80 1.568

6 0.40 2.40 0.256
18
8 0.20 1.60 0.288

10 0.20 2.00 2.048
1.00 6.80 4.160
 =  x i f (x i )  6.8
2 =  (x i -  ) f (x i )  4.16
2
2 = 4.16 seguros2
 σ  4.16  2.0396 seguros
ii) Para la distribución muestral de la media del ejemplo 1.6 calcule  X y  X2 y verifique que
μX  μ
xi f( x i ) x i f( x i ) (x i - 6.8 )
2
f (x i )
5 0.2 1.0 0.648

6 0.2 1.2 0.128
7 0.3 2.1 0.012
8 0.2 1.6 0.288
9 0.1 0.9 0.484
1.0 6.8 1.560
 X   x i f (x i )  6.8  X =  (x i -  X ) 2 f (x i )  1.56
2
Por tanto μX  μ y
Puede demostrarse (no lo haremos aquí) que  X2 es menor que la de cualquier otro estimador de .
Como  X representa el error estándar de la media muestral X , será de interés saber que
X  1.560  1.2490 seguros
Debido a que  X es considerado como un error de muestreo esperado (promedio) utilizaremos esta
medida para apreciar la precisión de X como estimador de .
1.3.9 MUESTREO EN POBLACIONES CON UNA DISTRIBUCION DE PROBABILIDAD
Puede demostrarse que si tenemos un población cuya variable de interés X tiene una distribución de
probabilidad con media  y desviación estándar  entonces X seguirá una distribución de
probabilidad con
σ
μX  μ y σX  para cualquier n
n
siempre que el muestro se haya realizado de una población infinita o bien muestreamos con
reposición de una población finita.
19
En símbolos tendríamos que

~ ~ σ
X (μ, σ)  X ( μX  μ, σX  )
n
Si el muestreo se hizo sin reposición de una población finita de tamaño N, se debe usar el factor de
corrección para población finita (F C P F) al expresar el error estándar de X así
σ N - n
σX 
n N - l
N - n
La introducción del F C P F hace que  X se vuelva más pequeño porque  l
N - l
Algunas observaciones importantes relacionadas con el  X son las siguientes:

i) X  
ii) A menor  menor  X
iii) A mayor tamaño de muestra n menor  X
iv) A menor  X mayor precisión del estimador X
EJEMPLO 1.8
Para la distribución muestral de la media del ejemplo 1.6 calculemos ahora μ X y X
basándonos en la distribución poblacional, esto es, aplicando las fórmulas anteriores.
Sabemos que  = 6.8 seguros y que  = 2.0396 seguros

Por tanto μ X  μ = 6.8 seguros
Como las muestras de tamaño n = 2 se seleccionaron sin reposición de una población finita de
tamaño N tenemos que
 N - n
X 
n N - l
2.0396 5-2 2.0396
X =  0.75  2.0396 0.375  1.2490 seguros
2 5 -1 2
Comparando estos resultados con los del ejemplo 1.7 concluimos que son iguales.
Muestreo en poblaciones normales
Cuando la característica de interés X de los elementos de una población sigan una distribución
normal diremos que estamos ante una población normal.
Puede demostrarse que si tenemos una población normal con media  y desviación estándar 
entonces X seguirá también una distribución normal

20
~ ~ Normal 
X Normal ( ,  )  X ( X  , X  )
n
siempre que el muestro se haya realizado de una población infinita
Si el muestreo se hizo sin reposición de una población finita de tamaño N,
σ N - n
el error estándar de X se expresa así σX 
n N - l
Una representación gráfica de la idea anterior es la siguiente.
  X  X X
Fig. 1.8
Muestreo en poblaciones no normales
No es realista suponer siempre que la población es normal.

En muchos casos no se tiene nigún conocimiento de la distribución de la población.
Cuando se muestrea de una población no normal no sabemos qué distribución muestral seguirá X
Observemos la distribución muestral de X de la figura 1.3 del ejemplo 1.6 y preguntémonos qué
aspecto tomaría si el tamaño de la muestra hubiera sido más grande; probablemente la distribución
muestral de X sería más simétrica.
La pregunta anterior nos conduce al teorema más importante en la Estadística básica, el teorema del
límite central.
Teorema del límite central
Si muestreamos una población no normal, con media  y desviación estandar , utilizando un

tamaño de muestra suficientemente grande, esto es n  30, entonces X tendrá una distribución
aproximadamente normal.

21
~ ~ σ
X No Normal ( μ , σ ) y n  30  X aprox. Normal ( μ X  μ, σX  )
n
siempre que el muestro se haya realizado de una población infinita
Si el muestreo se hizo sin reposición de una población finita de tamaño N,
σ N - n
el error estándar de X se expresa así σX 
n N - l
Este teorema es importante porque le permite al investigador hacer inferencias en cuanto a la media
poblacional  sin tener que conocer la forma específica de la distribución de la población.
1.3.10 ESTIMADOR PUNTUAL Y POR INTERVALO
Un estimador puntual de un parámetro es aquel que proporciona un único estimado de ese

parámetro al utilizar los datos muestrales.
Un estimador por intervalo de confianza de un parámetro es aquel que define un par de variables
aleatorias Li y Ls (que llamaremos límite inferior y límite superior del intervalo) entre los cuales
diremos que hay una probabilidad de 1 -  (que llamaremos nivel de confianza) de que el
parámetro se encuentre entre dichos límites; y también diremos que hay una probabilidad  (que
llamaremos riesgo) de que no se encuentre entre dichos límites.
Cada muestra particular proporcionará un intervalo conocido que llamaremos intervalo de confianza
del (1 - )100% para el parámetro.
En un muestreo repetido esperamos que un (1 - )100% de los intervalos particulares cubran el

parámetro y que un (  ) 100% no lo cubran.
Las fórmulas que presentaremos para los estimadores puntuales y por intervalo de cualquier
parámetro en un muestreo aleatorio simple serán aplicables también al muestreo aleatorio
sistemático.
1.3.11 ESTIMADOR PUNTUAL DE  Y 

N
 Un estimador puntual de la media poblacional

x i
es la media muestral
μ
N
n
 Xi
X 
n
 Un estimador puntual del total poblacional τ   x i es el total muestral NX
ERROR ESTANDAR DE X Y NX
22
 El error estándar de la media muestral X se denota y define así
σ σ N - n
σX  si la población es infinita y σX  si la población es finita.
n n N - l
 El error estándar del total muestral NX se denota y define así
σ NX  Nσ X
1.3.12 ESTIMADOR POR INTERVALO PARA  y  CUANDO  ES CONOCIDA.
Puesto que X varía de una muestra a otra, se necesita contar con un estimador de  más aplicable a
la realidad, objetivo que se logra cuando tomamos en cuenta la distribución muestral de X , según
veremos a continuación.
Cuando la desviación estándar poblacional  sea conocida y utilicemos X como estimador de  ,
supondremos que tiene una distribución aproximadamente normal y que por tanto podemos expresar
el error de muestreo, X -  , en unidades del error estándar de X , es decir, podemos estandarizar
la variable aleatoria X así
X - 
 Z
X
Obteniendo otra variable aleatoria Z que tendrá distribución normal estándar.
Como P(  z α/2  Z  z α/2 )  1  α donde z α/2 es un valor de la normal estándar que tiene
 
a su derecha una área acumulada de y a su izquierda un área acumulada de 1 -
2 2
Podemos sustituir la expresión anterior de Z en esta desigualdad y obtener
 X - μ 
P  - z α/2   z α/2 
  1 - α
 σX 
Haciendo algunas manipulaciones algebraicas dentro de la desigualdad llegamos a que:
P  X - zα/2 σx  μ  X  z α/2 σx   1 - α
El resultado anterior es equivalente a decir que hay una confianza del (1 - )100% de que
23
X - z α/2 σ x  μ  X  z α/2 σ x
O de una manera más breve, diremos que un estimador por intervalo de confianza del (1 - )100%
para  estará dado por
X  z /2 σ x
donde X - z/2  X será el límite inferior y X  z/2  x será el límite superior del
intervalo.
Con un razonamiente similar podemos llegar a la conclusión de que un estimador por intervalo de
confianza del (1 - )100% para  está dado por
NX  z /2 σ NX donde σ NX  Nσ X
Si sustituimos  X o  NX por su correspondiente fórmula según la población sea infinita o finita,

llegamos al siguiente resultado:
Si una población es normal, esto es, si su característica de interés X tiene una distribución normal
con desviación estándar  conocida, entonces:
1) Un estimador por intervalo de confianza del ( 1 -  ) 100% para  está dado así:
i) Para una población infinita.

σ
X  z /2 para cualquier n
n
donde z α/2 es un valor de la normal estándar que tiene a su izquierda una área acumulada de

1 - ,
2
y el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.
ii) Para una población finita.

σ N - n
X  z/2 para cualquier n
n N - 1
donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
2) Un estimador por intervalo de confianza del ( 1 -  ) 100% para  está dado así:
σ N - n
N X  z α/2 N para cualquier n
n N - 1
24
Notas:

 z α/2 es un valor que se obtiene de la expresión P( Z < z/2 ) = 1 -
2
n N - n
 Si la fracción muestral  0.05 podemos omitir el factor de corrección
N N -1
N-n
 La introducción del factor en la fórmula reduce el error estándar del estimador.
N -1
n
 La proporción muestral representa la proporción de la población que se ha muestreado.
N
n N-n n
 Podemos utilizar 1- como una aproximación de donde 1 - representa la
N N -1 N
proporción de la población que no se ha incluido en la muestra.
 Si la población es no normal pero n  30 podemos aplicar el teorema del límite central

para garantizar la aplicación de las fórmulas anteriores a esas circunstancias.
1.3.13 DETERMINACION DEL TAMAÑO DE MUESTRA PARA 
La determinación del tamaño de muestra podemos decir que es un procedimiento sujeto a

restricciones de presupuesto, tiempo y facilidad de selección.
Tratemos ahora de obtener una fórmula para el tamaño de muestra.
Supongamos que X es un estimador de  y que queremos estimar  de tal forma

X - μ  E
Esto es, que los errores de muestreo tengan un valor máximo E que llamaremos error máximo
permitido en la estimación de .
Si queremos tener una confianza del ( 1 -  ) 100% de que E sea el máximo error permitido,
escribiremos
P ( X - μ  E)  1 - α
Manipulando algebraicamente esta expresión llegamos a que
P X -E  μ  X  E   1-α
El resultado anterior es equivalente a decir que hay una confianza del (1 - )100% de que
X - E  μ  X  E
o de una manera más breve, diremos que un estimador por intervalo de confianza del (1 - )100%
para  estará dado por
25
X  E
lo cual es otra manera equivalente de representar el estimador por intervalo de confianza del ( 1 -  )
100% para .
X  z/2  x
Comparando las dos expresiones equivalentes concluimos que el error máximo permitido en la
estimación de  es
E  z /2 σ x
De manera similar podemos concluir también que el error máximo permitido en la estimación de 
es
E  z/2 σ N x
Si sustituimos  x por su correspondiente fórmula en E  z/2 σ x según la población sea

infinita o finita y luego solucionamos para n llegamos al siguiente resultado:
El tamaño de muestra requerido n para estimar  con error máximo permitido E y un nivel de
confianza de ( 1 -  ) 100% es
i) Para una población infinita
2
 z σ 
n   /2 
 E 
ii) Para una población finita
2
 z /2 σ 
no   
 E 
no noN
Si  0.05, n0 puede ser reducida a n 
N no  ( N - 1)
Por consiguiente para determinar el tamaño de la muestra, se tienen que conocer tres factores:
1. El nivel de confianza deseado, que determina el valor de z α/2

2. El error máximo permitido, E
3. La desviación estándar poblacional, 
Observe que el cuadrado del error máximo permitido es inversamente proporcional al tamaño de la
muestra.
26
Para el error de muestreo permitido se debe pensar qué tanto error se puede “aceptar” y con qué
nivel de confianza de manera que aún se puedan proporcionar conclusiones adecuadas.
Cuando no se conozca  utilizaremos su estimador S.
También, cuando estemos determinando el tamaño de la muestra, cualquier resultado decimal

siempre se redondeará hacia el entero inmediato superior.
Finalmente, si la población no es normal y el tamaño de muestra que se está calculando está por
debajo de 30 entonces debe incrementarse a 30, porque las fórmulas anteriores se basan en el uso de
la distribución normal.
EJEMPLO 1.9
Una máquina empaca azúcar en bolsas plásticas. Se quiere estimar el peso promedio de las bolsas
de azúcar sabiendo por estudios anteriores que la desviación estándar poblacional es de 0.10 lbs.
Del flujo de producción se toma una muestra aleatoria sistemática de 10 bolsas, obteniendo los
siguientes pesos en libras.
5.10, 4.90, 4.80, 5.15, 5.05, 4.95, 4.97, 4.85, 5.03, 5.00
Suponiendo que el peso de las bolsas de azúcar se distribuye normalmente:
i) Obtenga un intervalo de confianza del 80% para el peso promedio de las bolsas de azúcar.
Iniciaremos el planteo de este problema así:

Los elementos son las bolsas de azúcar. La población se considera infinita
X representa el peso de las bolsas de azúcar. La población es normal con  conocida
 representa el peso promedio de las bolsas de azúcar. n = 10 bolsas de azúcar.
La fórmula para esta situación es

X  z/2
n
27
donde
X i
49.8 lbs. y z α/2 lo determinamos de P( Z < z/2 ) = 1 -

X    4.98 2
n 10
así
Como la tabla de la distribución Z sólo presenta áreas acumuladas a la izquierda, encontremos el

  
valor de 1 - así: 1 -  = 0.80   = 0.20  = 0.10  1- =
2 2 2
0.90
Según la tabla de la distribución de Z el área más cercana a 0.90 es 0.8997. Trace a partir de esta
área una línea horizontal imaginaria hacia la izquierda (que señalará 1.2 ) y luego otra línea vertical
imaginaria hacia arriba (que señalará 8). Se dirá que al área 0.90 le corresponde z α/2 = 1.28
Sustituyendo X , z α/2 ,  y n por su valores co rrespondientes obtenemos
 0.10 
4.98  1.28  
 10 
4.98  1.28 ( 0.0316 )
4.98  0.0404  Li = 4.9396 lbs. y Ls = 5.0204 lbs.
Podemos decir con un 80% de confianza de que 4.9396    5.0204
y con un 20% de riesgo de que  no está comprendida entre esos límites.
ii) Identifique el error muestral promedio en la estimación por intervalo del inciso i)
σ x = 0.0316 lbs.
iii) Con la misma muestra anterior, obtenga otro intervalo de confianza para el peso promedio de
las bolsas de azúcar, pero con un nivel de confianza del 97%. Compare la longitud de este intervalo
con el obtenido en el inciso i) haciendo los comentarios pertinentes.
z α/2 lo determinamos de P( Z < z/2 ) = 1 -  así

2
 
1 -  = 0.97   = 0.03  = 0.015  1- = 0.985
2 2
Según la tabla de la distribución de Z, al área acumulada 0.985 le corresponde z α/2 = 2.17
Sustituyendo X , z α/2 ,  y n por su valores correspondientes obtenemos
 0.10 
4.98  2.17  
 10 
4.98  0.0686  Li = 4.9114 lbs. y Ls = 5.0486 lbs.
28
Podemos decir con un 97% de confianza de que
4.9114    5.0486
Observemos que la longitud de este intervalo es mayor que la longitud del intervalo del inciso i),
esto significa que entre más confiable sea nuestra estimación menos precisa será.
iv) Identifique el valor del error máximo permitido con una confianza del 80% en la estimación
del inciso i)
E = 0.0404 lbs
v) Si quiero estimar el peso promedio de las bolsas de azúcar con una confiabilidad del 90% de que
el error máximo permitido sea de 0.0313 lbs, ¿Cuál debe ser el tamaño de la muestra?
Como la población es infinita, la fórmula es
2
 z/2  
n = 
 E 
Sustituyendo z α/2 ,  y E por sus valores correspondientes obtenemos

2
 1.65 (0.10) 
n =  = 27.7894  28 bolsas
 0.0313 
Se necesita una muestra de tamaño n = 28 bolsas para tener una confiabilidad del 90% de que el
error máximo permitido sea de 0.0313 lbs.
EJEMPLO 1.10
Consideremos el conjunto de todas las pequeñas industrias de un determinado artículo. Se quiere
estimar la producción anual total de las industrias y se sabe, en base a estudios anteriores, que la
desviación estándar poblacional de las producciones anuales es igual a 2 en miles de unidades. Con
tal propósito se selecciona de un listado actualizado de 826 industrias una muestra aleatoria de 50
industrias, obteniendo una producción anual promedio de 5.52 en miles de unidades.
i) Encuentre un intervalo de confianza del 90% para la producción anual total de las industrias.
Los elementos son las pequeñas industrias. La población es finita de tamaño N = 826
X representa la producción anual por industria. La población se supone que no es normal y 
es conocido.  representa la producción anual promedio.  representa la producción anual total
n = 50 pequeñas industrias
Aunque la población no sea normal podemos aplicar, según el teorema del límite central, la siguiente
fórmula:
29
σ N-n
NX  z/2 N porque n  30
n N -1
n 50
Observe que  = 0.0605  0.05 y que por tanto no podemos omitir el factor de
N 826
corrección.
Sustituyendo X , z α/2 , , n y N por sus valores correspondientes obtenemos
2 826 - 50
826 (5.52)  1.65 (826)
50 826 - 1
4559.52  1.65 (826) (0.2828) (0.9698)
4559.52  373.7882  Li = 4185.7318 y Ls = 4933.3082
4185.7318    4933.3082 (en miles de unidades)
ii) Con una confianza del 95% calcule el valor del error máximo permitido en la estimación de la
producción anual total del inciso i)
E  z/2 σ N X = 1.96 (226.5383) = 444.0151
iii) Si quiero estimar la producción anual promedio de las industrias con una confiabilidad del
80% de que el error máximo permitido sea de 300 unidades, ¿Cuál debe ser el tamaño de la
muestra?
Como la población es finita, la fórmula es
2
 z/2  
no = 
 E 
300
Compruebe que z α/2 = 1.28 y que E = = 0.3 en miles de unidades.
1000
Sustituyendo z α/2 ,  y E por sus valores correspondientes obtenemos
2
no = 
1.28 (2) 
= 72.8178
 0.3 
no 72.8178
Como =  = 0.0882  0.05, podemos reducir no a
N 826
n0 N 72.8178 (826) 60147.5028

n =   = 66.9930  67 pequeñas
no  ( N - 1) 72.8178  825 897.8178
industrias.
30
1.3.14 LA DISTRIBUCION t DE STUDENT
Cuando la desviación estándar poblacional  sea desconocida y X tenga una distribución normal o
aproximadamente normal, tendremos primero que estimar  para poder estimar  x .
ERROR ESTANDAR ESTIMADO DE X Y NX
 El error estándar estimado de la media muestral X se denota y define así.
 S
 n si se muestreó de una población infinita

σˆ X  
 S N - n si se muestreó sin reposición de una población finita de tamaño N
 n N - 1
donde S es un estimador insesgado de 
 El error estándar estimado del total muestral NX se denota y define así.
ˆ NX  Nσ
σ ˆX
De manera que la estandarización de X estará dada por la siguiente expresión
X - μ
 t
σ̂
x
la cual incluye una variable aleatoria en el denominador porque S es variable aleatoria, y por lo tanto
σ̂ X , también es una variable aleatoria.
Esto da como resultado que la estandarización de X ya no sea la variable aleatoria Z sino otra
variable aleatoria que representaremos por t y que tendrá una distribución de probabilidad conocida
con el nombre de distribución t de Student con n – 1 grados de libertad, ya que fue investigada
originalmente por William Gossett, quien publicó sus escritos con el seudónimo “Student”.
El hecho de tener que estimar el parámetro σx con los mismos n datos que se utilizan para poder
calcular el valor del estadístico t, hace que t pierda un grado de libertad, esto es, que quede con n –
1 grados de libertad (g.l).
CARACTERISTICAS
1. Es una familia de distribuciones t de tal forma que cada vez que se especifiquen sus grados de
libertad n – 1, se produce una distribución t particular.
31
2. Es simétrica y de forma acampanada con
n
t  0 y t  , n  2
n - 2
3. Como  es ligeramente superior a 1, la distribución t es aplastada en comparación a la normal

t
estándar, es decir, platicúrtica.
4. Cuando el número de grados de libertad tiende a infinito, la distribución t se convierte en

distribución Z.
La distribución t se considera muy parecida a la distribución Z cuando n  30
dist. Z
dist. t
0 t
Fig. 1.9
1.3.15 ESTIMADOR POR INTERVALO PARA  Y  CUANDO  ES DESCONOCIDA
Ahora que ya estudiamos la distribución t de student, podemos utilizar el mismo razonamiento que
se utilizó para la distribución Z para demostrar que las expresiones que definen los límites inferior y
superior de un intervalo de confianza para  y  son:
X  t/2 σ
ˆX y N X  t /2 σ
ˆ NX
respectivamente.
donde t α/2 es el valor de la distribución t con n – 1 grados de libertad que tiene a su derecha un área

acumulada de
2
32
Si sustituimos σ̂ X o σ̂ N X por su correspondiente fórmula según la población sea infinita o finita,

Suponga que estamos ante una población normal y que S es una estimador de 
1) Un estimador por intervalo de confianza del ( 1 -  ) 100% para  está dado así:
S
X  t/2 siempre que n  30
n

donde t α/2 es un valor de la distribución t de Student que tiene a su derecha una área de
2
y el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
S N-n
X  t /2 siempre que n  30
n N -1
2) Un estimador por intervalo de confianza del ( 1 -  ) 100% para  está dado así
S N-n
N X  t /2 N siempre que n  30
n N -1
Notas:
 t α/2 se obtiene de la expresión P(t  t /2 ) = 
2
n N-n
 Si  0.05 podemos omitir el factor de corrección
N N -1
Observación 1.
Si la población es normal y n  30 entonces según la característica 4 de la distribución t,
podemos escribir en todas las fórmulas anteriores z como una aproximación de t
Observación 2.
Si la población es no normal, pero n  30 entonces según el teorema del límite central y la
característica 4 de la distribución t, también podemos escribir en todas las fórmulas anteriores z
como una aproximación de t.
Según la distribución poblacional y el tamaño de muestra se presentan en la tabla de abajo distintas

situaciones en las cuales los estadísticos Z o t pueden ser utilizados.
33
DISTRIBUCION DE LA POBLACION
Tamaño Normal No Normal
de
muestra n  conocido  desconocido  conocido  desconocido
n  30 Z t
n  30 Z Z Z Z
Con un razonamiento similar al realizado en la situación cuando  era conocido llegamos a que:
El error muestral máximo permitido en la estimación de  es E  t / 2σˆ X

El error muestral máximo permitido en la estimación de  es E  t/2σˆ N X
EJEMPLO 1.11
Un auditor quiere estimar el saldo promedio y el saldo total de una población de 1000 cuentas por
cobrar. Con tal propósito selecciona al azar una muestra de 6 cuentas, obteniendo los siguientes
resultados en miles de córdobas.
2.6 , 3.0 , 3.5 , 2.4 , 2.0 1.5
Si suponemos que los saldos de las cuentas se distribuyen aproximadamente normal.
1) Determine un intervalo de confianza del 90% para:

i) el saldo promedio de las cuentas
ii) el saldo total de las cuentas
Los elementos son las cuentas por cobrar. La población es finita de tamaño N = 1000
X representa el saldo de la cuenta. Asumimos que la población es normal pero se desconoce 
 representa el saldo promedio.  representa el saldo total. n=6
i) La fórmula correspondiente para esta situación es
S N-n
X  t/2
n N -1
n 6 N-n
Como = = 0.006  0.05 podemos omitir el factor
N 1000 N -1
X y S lo determinamos a partir de la muestra de la siguiente manera:

34
Xi Xi
2 X i
15
X    2.5 (en miles de C$)
n 6
2.6 6.76 n
3.0 9.00 ( X i ) 2
n
 15  2
 Xi 
2 .
3.5 12.25 40.02 -
n 6
2.4 5.76 S2  .

n  1 6 -1
2.0 4.00
1.5 2.25
15.0 40.02 40.02 - 37.5 2.52
   0.5040
5 5
S  0.5040  0.7099 (en miles de C$)

El valor t /2 lo determinaremos de la expresión P(t  t /2 ) =
2
Como la tabla de la distribución t de Student sólo presenta áreas acumuladas a la derecha,
 
encontremos el área así: 1 -  = 0.90   = 0.10   0.05
2 2
Ahora tracemos dos líneas imaginarias, una horizontal que pase por n -1 = 6 – 1 = 5 y otra vertical
que pase por 0.05. En la intersección de las líneas anteriores encontraremos el valor t /2 = 2.015
Sustituyendo X , t /2 , S y n por sus valores correspondientes obtenemos.
0.7099
2.5  2.015
6
2.5  2.015 ( 0.2898 )
2.5  0.5839  Li = 1.9161 y Ls = 3.0839 (en miles de C$.)
1.9161    3.0839
ii) La fórmula correspondiente para esta situación es
S N-n
N X  t /2 N
n N -1
N-n
donde también se puede omitir el factor
N -1
Como t /2 no cambia, podemos sacar de factor común N

35
 S 
N  X  t/2 
 n 
1000 ( 2.5  0.5839 )  Li = 1916.1 y Ls = 3083.9 (en miles de C$.)
Luego podemos decir con un 90% de confianza de que
1916.1    3083.9 (en miles de C$.)
2) Con una confianza del 98% calcule el valor del error máximo permitido en la estimación del
saldo promedio de las cuentas del punto 1) inciso i)
E  t/2σˆ X = 3.365 (0.2898) = 0.9752 (en miles de C$.)
3) Si el auditor quiere estimar el saldo promedio de las cuentas con un error de más o menos C$
500 y con una confianza del 98%, ¿qué tamaño mínimo de muestra se requiere?
Como la población es finita y  es desconocida, la fórmula es
2
 z/2 S 
no = 
 E 
500
Compruebe que z α/2 = 2.33 y que E = = 0.50 (en miles de C$.)
1000
Sustituyendo z α/2 , s y E por sus valores correspondientes obtenemos
2
 2.33 ( 0.7099 ) 
no =   = 10.9438
 0.5 
n0 10.9438
Como =  = 0.0109  0.05, no no puede ser reducida
N 1000
Luego n  11 cuentas por cobrar.
EJEMPLO 1.12
Suponga para el ejemplo 1.11 que ahora el auditor decide seleccionar una muestra aleatoria de 36
cuentas por cobrar, obteniendo los siguientes resultados en miles de córdobas.
X = 2.6 (en miles de C$)

S = 0.5 (en miles de C$)
i) Determine un intervalo de confianza del 95% para el saldo promedio de las cuentas.
36
Como la población es normal,  desconocida y n  30 podemos escribir z como una

aproximación de t en la fórmula del intervalo de confianza para  , quedando así
S N-n
X  z /2
n N -1
n 36 N-n
Como = = 0.036  0.05 podemos omitir el factor
N 1000 N -1
Sustituyendo X , z α/2 , S y n por sus valores correspondientes
0.5
2.6  1.96
36
2.6  1.96 ( 0.0833 )
2.6  0.1633  Li = 2.4367 y Ls = 2.7633 (en miles de C$)
Entonces podemos decir con un 95% de confianza de que
2.4367    2.7633 (en miles de C$)
ii) Identifique el valor del error muestral promedio en la estimación del saldo promedio de las
cuentas del inciso i)
σ̂ X = 0.0833 (en miles de C$)
EJEMPLO 1.13
Se va a vender un nuevo cereal para desayuno como prueba de mercados durante un mes en las
tiendas de una cadena de autoservicio. Los resultados de una muestra de 36 tiendas indicaron ventas
promedio de C$ 1200 con una desviación estándar de C$ 180.
i) Establezca un intervalo de confianza del 99% para las ventas promedios reales de este nuevo
cereal.
Los elementos son las tiendas. La población se considera muy grande o infinita
X representa las ventas por tienda. Se supone que la población no es normal y que  se desconoce
 representa las ventas promedios de las tiendas
n = 36 , X = 1200 y S = 180
La población no es normal, pero n  30, esto nos permite utilizar el teorema del límite central
y la característica 4 de la distribución t, para escribir z como una aproximación de t en la
fórmula del intervalo de confianza para , quedando así
S
X  z /2
n
Sustituyendo X , z α/2 , S y n por sus valores correspondientes

37
180
1200  2.58
36
1200  77.40  Li = C$ 1122.60 y Ls = C$ 1277.40
C$ 1122.60    C$ 1277.60
ii) Si la cadena tiene 200 tiendas, establezca un intervalo de confianza del 99% para las ventas
promedios reales de este producto.
Si N = 200 tiendas, la población es finita y la fórmula es
S N-n
X  z /2
n N -1
n 36 N-n
Como = = 0.18  0.05, no podemos omitimos el factor
N 200 N -1
Sustituyendo X , z α/2 , S , n y N por sus valores correspondientes
180 200 - 36
1200  2.58
36 200 - 1
1200  77.40 (0.9078)
1200  70.2637  Li = C$1129.7363 y Ls = C$1270.2637
C$1129.7363    C$1270.2637
Al comparar este intervalo con el obtenido en el inciso i) notamos que tiene una longitud menor,
esto es, que proporciona mejor precisión al mismo nivel de confianza.
1.3.16 POBLACIONES CON DISTRIBUCIONES DE BERNOULLI
En estas poblaciones la característica de interés Y es una variable aleatoria que presenta solamente
dos resultados mutuamente excluyentes y exhaustivos que llamaremos éxito (E) y fracaso (F).
Estos resultados pueden ser cuantificados así

38
 1 si se tiene un E
Y
 0 si se tiene un F
Bajo las circunstancias anteriores diremos que Y tiene una distribución de Bernoulli dada por la
siguiente expresión.
 p si y  1
f ( y)  
 1 - p si y  0
Se demuestra fácilmente que Y = p y que Y = p (1- p )
En esta población será de nuestro interés la estimación de dos parámetros:
N

El total poblacional  =  yi y la media poblacional Y =
N
.
El total poblacional lo definiremos así
 = N° total de éxitos en la población
Debido al hecho de que Y = p , donde p es una probabilidad (un número entre 0 y 1 ), la media
poblacional será llamada proporción poblacional y la denotaremos y definiremos así
 N 0 total de éxitos en la población

p 
N Tamaño de la población
1.3.17 ESTIMADOR PUNTUAL DE p Y 
La selección de muestras aleatorias de poblaciones con distribuciones de Bernoulli, nos permitirán

la utilización de los siguientes estimadores.
 El estimador de p será la proporción muestral que denotaremos y definiremos así.
Y i
X No. total de éxitos en la muestra
pS  .
 
n n Tamaño de la muestra
 El estimador de  será el total muestral que denotaremos y definiremos así

39
N ps
1.3.18 DISTRIBUCION MUESTRAL DE pS
Cuando n sea suficientemente grande, es decir cuando n p  5 y n ( 1 – p )  5, entonces pS

por ser una media muestral tendrá según el teorema del limite central una distribución muestral
aproximadamente normal con
μ pS  μ Y  p y
 σ Y p(1  p) p (1  p)
   si la población es infinita
 n n n
σ pS  
 σ Y N  n  p (1  p) N  n si la población es finita
 n N  1 n N 1
1.3.19 ERROR ESTANDAR ESTIMADO DE pS Y N pS
 El error estándar estimado de la proporción muestral pS se denota y define así.
 p S (1  p S )
 si la población es infinita
 n
σˆ pS  
 p S (1  p S ) N  n si la población es finita
 n N 1
donde pS es el estimador de p
 El error estándar estimado del total muestral NpS se denota y define así.
σˆ Np S  Nσˆ p S
40
1.3.20 ESTIMADOR POR INTERVALO PARA p Y 
Puede demostrarse que las expresiones que definen los limites inferior y superior de un intervalo de
confianza para p y  son:
p S  z σˆ p S y Np S  z α/2
σˆ Np S respectivamente.
α/2
Si sustituimos ̂ p o ̂ NpS por su correspondiente fórmula, según la población sea infinita o finita,
S
Supongamos que estamos ante una población con distribución de Bernoulli y que hemos
seleccionado una muestra suficientemente grande, esto es, n p  5 y n ( 1 – p )  5
1) Un estimador por intervalo de confianza del ( 1 -  )100 % para p esta dado así
pS ( 1 - p S )
p S  z/2
n

donde z α/2 es un valor de la normal estándar que tiene a su derecha una área acumulad de
2
y el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite superior
( Ls ) es la suma señalada por las mismas expresiones.
p S ( 1 - pS ) N-n
p S  z/2
n N -1
n N-n
Si  0.05 , podemos omitir el factor de corrección
N N -1
2) Un estimador por intervalo de confianza del ( 1 -  ) 100% para  está dado así
pS ( 1 - pS ) N-n
Np S  z/2 N
n N -1
41
n N-n
Si  0.05 , podemos omitir el factor de corrección
N N -1
1.3.21 DETERMINACION DEL TAMAÑO DE MUESTRA PARA p
Haciendo un razonamiento similar al utilizado para el tamaño de muestra para  podemos concluir
que el error máximo permitido en la estimación de p es
E  z/2 σˆ p S
Si sustituimos ̂ p por su correspondiente fórmula, según la población sea infinita o finita y luego
S
resolvemos para n llegamos al siguiente resultado:
El tamaño de muestra requerido n para estimar p con un error máximo permitido E y un nivel de
confianza de ( 1 -  ) 100% es
2
 z /2 
n  p(1  p)  donde p puede ser estimado con pS
 E 
ii) Para una población finita.
2
 z/2 
n 0  p(1  p)  donde p puede ser estimado con pS
 E 
no
Si  0.05, n0 puede ser reducida a
N
noN
n 
no  ( N - 1)
Si no se cuenta con una estimación de p , utilizaremos en la fórmula anterior el valor de p que hace
máxima la expresión p ( 1 – p ), es decir tomaremos p = 0.50
EJEMPLO 1.14
El gerente de una cadena de tiendas de departamentos desea determinar la proporción de poseedores

de tarjetas de crédito que comprarían en las tiendas si estuvieran abiertos los domingos. Con tal
propósito decide selecciónar una muestra aleatoria de 100 tarjetahabientes, la cual informó que 60
comprarían los domingos.
i) Encuentre un intervalo de confianza del 99% para la proporción real de tarjetahabientes que
comprarían los domingos.
42
Iniciaremos el problema planteándolo así

Los elementos son los tarjetahabientes
La población se considera muy grande o infinita
Y representa la disposición de los tarjetahabientes en comprar o no comprar.
Como estamos interesados en los que están dispuestos a comprar, el éxito será “comprar”.esto es,
 1 si compra
Y
 0 si no compra
La población tiene una distribución de Bernoulli
p representa la proporción de tarjetahabientes que comprarían los domingos.
X 60
n = 100 tarjetahabientes, X = 60 tarjetahabientes y pS =  = 0.60
n 100
Como n pS = 100 (0.60) = 60  5 y n ( 1 - pS ) ) = 100 (0.40) = 40  5,
la fórmula es
pS ( 1 - pS )
pS  z α/2
n
donde z α/2 = 2.58
El gerente seleccionó un elevado nivel de confianza del 99% en la estimación de p porque quiere
sentirse seguro antes de tomar esta importante decisión de comercialización.
Sustituyendo pS , z α/2 y n por sus valores correspondiente obtenemos
0.60 (0.40))
0.60  2.58
100
0.60  2.58 (0.0490)
0.60  0.1264  Li = 0.4736 y Ls = 0.7264
0.4736  p  0.7264
43
ii) Identifique el valor del error máximo permitido en la estimación de la proporción real de
tarjetahabientes que comprarían los domingos del inciso i)
E = 0.1264
iii) Si el gerente quiere estimar la proporción real de tarjetahabientes que comprarían los
domingos con un 99% de confianza de tener una tolerancia de  0.025, ¿qué tamaño de muestra se
requiere?
Como la población es muy grande, la fórmula correspondiente es
2
 z/2 
n = p(1–p)  
 E 
Utilizando pS como una estimación de p y sustituyendo z α/2 y E por sus valores correspondientes
2
n = 0.60 (0.40 ) 
2.58 
 = 0.24 (10650.24) = 2556.0576  2557 tarjetahabientes.
 0.025 
Observe que la muestra de tamaño 100 del inciso i) tiene el mismo nivel de confianza (99%), pero
tiene alrededor de 5 veces más error muestral que el permitido aquí al estimar la proporción
verdadera.
EJEMPLO 1.15
Suponga para el ejemplo 1.14 que la cadena de tiendas de departamentos cuenta con 10,000
poseedores de tarjetas de crédito.
i) Encuentre un intervalo de confianza del 95% para el total de tarjetahabientes que comprarían
los domingos.
 representa el total de tarjetahabientes que compraría los domingos.
Como la población es finita de tamaño N = 10,000 tarjetahabientes, la fórmula es
pS ( 1 - p S ) N-n
Np S  z/2 N
n N -1
n 100 N-n
Como = = 0.010  0.05 se puede omitir el factor
N 10000 N -1
Sustituyendo N , pS , z α/2 , y n por sus valores correspondientes

44
0.60(0.40)
10,000 (0.60)  1.96 (10,000)
100
6000  1.96 (10,000) ( 0.049 )
6000  960.40  Li = 5039.60 y Ls = 6960.40
5040    6960 tarjetahabientes.
ii) Determine el tamaño de muestra necesario para estimar la proporción real de tarjetahabientes
que comprarían los domingos con un 95% de confianza de tener una tolerancia de  0.025.
Como la población es finita, la fórmula es
2
 z/2 
no = p ( 1 – p )  
 E 
Utilizando pS como una estimación de p y sustituyendo z α/2 y E por sus valores obtenemos
2
no = 0.60 (0.40 ) 
1.96 
 = 0.24 (6146.56) = 1475.1744
 0.025 
n0 1475.1744
Como = = 0.1475  0.05 , n0 puede ser reducido a
N 10000
no N 1475.1744 (10,000) 14,751744

n = = 
no  ( N - 1) 1475.1744  9999 11474.1744
= 1285.6475  1286 tarjetahabientes.

45
1.4 MUESTREO ALEATORIO ESTRATIFICADO
Este muestreo exige tener un conocimiento previo de la población y es práctico utilizarlo en

poblaciones heterogéneas, esto es, en poblaciones donde la característica de interés X tenga una gran
variabilidad (  es grande en comparación a la magnitud de los datos).
Consiste en dividir la población en subpoblaciones o estratos de manera de que cada estrato debe
presentar una pequeña variación en su interior con respecto a la característica de interés X que
estemos investigando, y entre los distintos estratos las diferencias sean las más grandes posibles.
Luego seleccionamos una submuestra de cada estrato utilizando muestreo aleatorio simple para
finalmente conformar la muestra aleatoria estratificada.
Los motivos principales para utilizar muestreo aleatorio estratificado en lugar de muestreo aleatorio
simple son los siguientes:
1. Reducción del error máximo de estimación.

2. Reducción del costo por observación.
3. Se pueden obtener estimaciones de parámetros para las subpoblaciones.
Antes de presentar las fórmulas de estimación de los parámetros introduzcamos la siguiente

notación.
X representa la característica de interés de los elementos
L representa el número de estratos en que se divide la población.
Ni representa el número de unidades muestrales del estrato i o tamaño del estrato i.
 i representa la media poblacional para el estrato i.
 i2 representa la varianza poblacional para el estrato i.
 i representa el total poblacional para el estrato i.
L
N = N
.
i representa el tamaño de la población.
46
L
 =  .
i representa el total poblacional

 = representa la media poblacional.
N
ni representa el tamaño de la submuestra del estrato i.
L
n = n
.
i representa el tamaño de la muestra estratificada.
Suponga que Xij es la j-ésima observación en los elementos del estrato i.

La media, la varianza y total de la submuestra del estrato i son dadas a continuación:
ni ni 2
 X ij
,
 X ij  Xi 
, Ni Xi
1
j 1
Xi  S 2
i  j
ni ni - 1
que representan estimadores de  i ,  i y  i respectivamente.
2
Una ilustración gráfica del muestreo aleatorio estratificado es la siguiente.
POBLACION SUBMUESTRAS
N1 n
1
N2 n
2
. .
. .
. .
M.A.S Xi
Ni ni
Estrato i S i2
. . Ni Xi
. .
. .
NL n
L
Fig. 1.10
1.4.1 ESTIMADOR DE  Y 
47
  1   2  ...   L
 Como  = =
N N
Un estimador insesgado de la media poblacional  se denota y obtiene así

L
X st =
N1 X1  N 2 X 2    N L X L
=  NX
.
i i
Luego
N
N
L
1
Xst 
N
N
.
i Xi
donde el subíndice st indica que se ha utilizado muestreo aleatorio estratificado. A X st se le

denomina media de la muestra aleatoria estratificada o simplemente media muestral estratificada.
 Un estimador insesgado del total poblacional  se denota y obtiene así
L
l
N X st = N
N
 N i Xi
.
L
NXst   N i Xi
.
que llamaremos total de la muestra aleatoria estratificada o simplemente total muestral

estratificado.
1.4.2 ERROR ESTANDAR ESTIMADO DE Xst Y N Xst

1 L
 Como X st =
N .
 N i Xi , la varianza estimada de X st se denota y obtiene aplicando la
regla del producto de una constante por una variable.
L
1

ˆ Xst 
2
2  N i2  2
ˆ Xi
N .
El error estándar estimado de la media muestral estratificada X st se denota y obtiene de la

siguiente manera:
1 L
Si2 n
σ̂ X st 
N
 Ni2σ̂ 2X i
.
donde σ̂ 2X i 
ni
(1  i )
Ni
1 L
S i2 n
σˆ X st 
N
 N i2
. ni
(1  i )
Ni
48
ni
Si la fracción muestral  0.05 para los estratos i = 1, 2, ... , L , podemos omitir el factor de
Ni
ni
correción (1  ) dentro del radical.
Ni
 El error estándar estimado del total muestral estratificado N X st se denota y obtiene así.
1 L
Si2 n
σˆ NX st  Nσ
ˆ X st o bien σ̂ NX st  N
N

.
N i2
ni
(1 - i )
Ni
L
S i2 n
σˆ NX st   .
N i2
ni
(1 - i )
Ni
1.4.3 ESTIMADOR POR INTERVALO PARA  Y 
1. Un estimador por intervalo de confianza del 95% para  está dado por
X st  1.96 ̂ Xst o bien la aproximación Xst  2 σ

ˆ X st
El error máximo permitido en la estimación de  es
E  2σˆ X st
Si sustituimos X st y ̂ X por sus correspondientes fórmulas obtenemos otra manera equivalente

st
de expresar el intervalo
1 L 1 L
S i2 n

N .
N i Xi  2
N
 N i2
ni
(1 - i )
Ni
donde el límite inferior (Li) es la diferencia señalada por las expresiones anteriores y el límite
superior (Ls) es la suma señalada por las mismas expresiones.
ni
Si la fracción muestral  0.05 para los estratos i = 1, 2, ... , L, podemos omitir el factor de
Ni
ni
corrección (1  ) dentro del radical.
Ni
2. Un estimador por intervalo de confianza del 95% para  está dado así
NXst  2 σ
ˆ N X st o N X st ± 2 N ̂ X st
 N( X st  2 σ̂ X st )
El error máximo permitido en la estimación de  es
E  2σ
ˆ NX st
49
Si sustituimos N X st y ̂ NX por sus correspondientes fórmulas obtenemos otra manera

st
equivalente de expresar el intervalo

L L
S i2 n

.
N i Xi  2  N i2
ni
(1 - i )
Ni
ni
Si la fracción muestral  0.05 para los estratos i = 1, 2, ... , L, podemos omitir el factor de
Ni
ni
corrección (1  ) dentro del radical.
Ni
EJEMPLO 1.16
Una cadena de 3 almacenes está interesada en estimar el saldo promedio de sus cuentas por cobrar.
En los almacenes 1, 2, y 3 hay respectivamente 150, 200, y 250 cuentas por cobrar. Un
muestreo aleatorio estratificado con cada almacen como estrato le señala al gerente de la cadena que
debe tomar de los almacenes 1, 2, y 3 submuestras de tamaño 3, 4, y 5 respectivamente. Con
los resultados presentados en la siguiente tabla
Almacen ni Xij ( Saldos de las cuentas en miles de C$ )
1 3 3.5, 4.5, 5.5

2 4 6.5, 7.0, 8.0, 8.5
3 5 6.5, 8.0, 10.5, 12.5, 10
a) Estime el saldo promedio de las cuentas por cobrar de la cadena.

b) Estime el saldo total de las cuentas por cobrar de la cadena
c) Calcule el error máximo permitido con una confianza del 95% en la estimación del inciso b)
Los elementos son las cuentas por cobrar, la característica de interés X representa el saldo y Xij es el
j-ésimo saldo observado en las cuentas correspondientes al almacen i. Teniendo presente esto
formemos la siguiente tabla
S i2
Almacen Ni ni Xi NX i 2 N i2
S i ni
1 150 3 4.5 675 1.0000 7500
2 200 4 7.5 1500 0.8333 8333
3 250 5 9.5 2375 5.3750 67187.5
600 4550 83020.5
Según las fórmulas correspondientes y los resultados anteriores tenemos que:

50
1 L 4550
a) Xst   N i Xi
N .

600
 7.5833 (en miles de C$)
L
b) NXst   N i Xi = 4550 (en miles de C$)
.
L
S i2 ni
c) E  2σˆ NX st = 2 .
N i2
ni
porque
Ni
 0.05 para los estratos i = 1, 2, 3
= 2 83020.5 = 2(288.1328) = 576.2656 (en miles de C$)
EJEMPLO 1.17
Una empresa publicitaria esta interesada en estimar el número promedio de horas por semana que
los hogares de un determinado municipio dedican a ver la televisión.
El municipio comprende dos pueblos, pueblo A y pueblo B, y un área rural. En el pueblo A existen
155 hogares de los cuales la mayoría son de trabajadores fabriles con niños en edad escolar. El
pueblo B consta de 62 hogares con personas mayores que tienen pocos niños. En el área rural
existen 93 hogares. Suponga que la empresa decide realizar una encuesta por muestreo a 40
hogares, tomando 20 del pueblo A y 8 del pueblo B y 12 del área rural. Los resultados presentados
en la siguiente tabla corresponden a la media y la varianza de cada submuestra obtenida del pueblo
A, el pueblo B y el área rural.
ESTRATO Ni ni Xi Si2
(Pueblo A) 1 155 20 33.900 35.358
(Pueblo B) 2 62 8 25.125 232.411
(Area rural) 3 93 12 19.000 87.636
310 40
1.
a) Estime el número promedio de horas por semana que los hogares del municipio dedican a ver
televisión.
b) Estime el número total de horas por semana que los hogares del municipio dedican a ver
televisión.
c) Calcule el error muestral promedio para la estimación del inciso a) y b)
Los elementos son los hogares y X representa el número de horas por semana dedicados a ver T.V.
ni Si2 ni
(1  ) N i2 (1  )
ESTRATO Ni X i Ni ni Ni
1 5254.50 0.871 36994.6776
2 1557.75 0.871 97267.6059
3 1767.00 0.871 55015.5365
51
8579.25 189,277.8200
1 L 1 L
a) Xst   N i Xi
N .
=
310
(8579.25) = 27.675 horas b) NXst   N i Xi
.
= 8579.25
horas
1 L
S i2 n 1
c) σˆ X st 
N
 N i2
. ni
(1  i )
Ni
=
310
189277.82  1.4034 horas
L
S i2 n
σˆ NX st  
.
N i2
ni
(1 - i )
Ni
= 189277.82 = 435.0607 horas
2. Obtenga un intervalo de confianza del 95% para el número promedio de horas por semana
que los hogares del municipio dedican a ver televisión.
Sustituyendo los resultados de la tabla anterior anterior en la fórmula de un intervalo de confianza

del 95% para 
1 L
1 L
S i2 n
N
 Ni Xi  2
N
 N i2
ni
(1 - i )
Ni
1 1
( 8579.2)  2 189277.82
310 310
27.675  2 ( 1.4034 )
Observe que cuando hay conocimiento de los valores de X st y ̂ X se puede llegar fácilmente al
st
resultado anterior mediante la sustitución directa de esos valores en la fórmula.
X st  2 ̂ Xst
Continuando llegamos a que
27.675  2.8068  Li = 24.8682 horas y Ls = 30.4818 horas.
Luego podemos decir con un 95% de confianza de que 24.8682    30.4818
3. Obtenga un intervalo de confianza del 95% para el número total de horas por semanas que
los hogares del municipio dedican a ver televisión.
Sustituyendo los resultados de la tabla anterior en la fórmula de un intervalo de confianza del 95%
para .
52
L L
S i2 ni
N i Xi  2 N 2
i
ni
(1 -
Ni
)
8579.2 5  2 189277.82
8579.25  2 ( 435.0607 )
Observe que cuando hay conocimiento de los valores de N X st y ̂ NX st

se puede llegar al
resultado anterior mediante la simple sustitución de esos valores en la fórmula.
N X st  2 ̂ NXst
Continuando llegamos a que
8579.25  870.1214  Li = 7709.1286 horas y Ls = 9449.3714 horas.
Luego podemos decir con un 95% de confianza de que 7709.1286    9449.3714 horas.
1.4.4 SELECCIÓN DEL TAMAÑO DE LA MUESTRA PARA ESTIMAR 
Suponga que X st debe estar dentro de E unidades de la media poblacional con una probabilidad
aproximadamente igual a 0.95, esto es, que E represente el error máximo permitido.
Simbólicamente queremos
E = 1.96 ̂ X st
o sea E = 2 ̂ X st
2 1 L
S i2 n E2
Es decir que ̂ 2Xst = E
4
o bien
N2
N 2
i
ni
(1  i ) 
Ni 4
De esta ecuación no podemos despejar n, a menos que sepamos algo acerca de la relación entre ni y
n. Hay muchas maneras para asignar un tamaño de muestra n a los diversos estratos.
El mejor esquema de asignación está influido por tres factores.
1. El número de elementos en cada estrato (Ni)

2. La variabilidad de las observaciones dentro de cada estrato ( i)
3. El costo por obtener una observación de cada estrato (ci)
Asignación de costo mínimo y menor error de muestreo.

Aquí nuestro objetivo es usar una asignación que presente una cantidad especificada de información
a un costo mínimo.
N iS i / ci
ni  n L
 N iS i / ci
donde ci representa el costo para obtener una observación individual del estrato i.
El resultado anterior nos permite ahora poder despejar n de la ecuación

53
1 L
S i2 n E2
N2
N 2
i
ni
(1  i ) 
Ni 4
y obtener la siguiente fórmula para el tamaño de muestra requerido.
 L   L 

  N i S i / ci   N i Si ci 
n     
 E 
2 L
N 2    N i S i2
 4 
Asignación de Neyman.
En algunos problemas el costo por obtener información es el mismo para todos los estratos. Si los
costos son desconocidos, podríamos suponer que los costos por observación son iguales.
Si c1 = c2 =  = cL = c, entonces los términos de costos en la fórmula de asignación de costo
mínimo se cancelan y queda así
N iS i
ni  n L
N S i i
Este método para seleccionar los ni se denomina asignación de Neyman.
Observe también que la fórmula para el tamaño de muestra total n toma la forma
2
 L 

  N i S i 
n   
 E2  L
N 2 
4
  N i S i2
 
Asignación proporcional.
Además de encontrar costos iguales podemos suponer que las varianzas dentro de los estratos son
iguales, esto implica que, S12 = S22 =  = S 2L = S 2 En tal caso se cancelan las desviaciones
estándar en la fórmula de asignación Neyman y queda
Ni  Ni 
ni  n L
 n  
 N 
N i
54
Este método es llamado asignación proporcional porque los tamaños de submuestras n 1 , n 2 , ,

nL son proporcionales a los tamaños de los estratos N 1 , N 2 , , N L respectivamente.
También podemos comprobar que la fórmula para el tamaño de muestra total n toma la forma.
N S2
n 
 E2  donde S2 es la varianza común de cada estrato.
N    S2
 4 
EJEMPLO 1.18
La empresa publicitaria del ejemplo 1.17 encontró que cuesta más obtener una observación del área
rural que una del pueblo A o del pueblo B. El incremento es debido a los costos de traslado de un
hogar rural a otro. El costo por observación en cada pueblo se ha estimado en C$ 9 y los costos por
observación en el área rural se han estimado en C$ 16.
De una encuesta previa se estimó que las varianzas de las submuestras de los estratos 1, 2 y 3 son
S12 = 25, S 22 = 225 y S 32 = 100 respectivamente.
i) Encuentre el tamaño de muesta n y los tamaños de submuestras n 1 , n 2 y n 3 para los

estratos 1, 2, y 3 respectivamente que permiten a la empresa estimar, al mínimo costo, el tiempo
promedio que se ve televisión con un error máximo permitido de 2 horas.
ESTRATO Ni S i2 Si ci Ni Si / c i Ni Si ci Ni S i2
1 155 25 5 9 258.3333 2325 3875
2 62 225 15 9 310.0000 2790 13950
3 93 100 10 16 232.5000 3720 9300
310 800.8333 8,835 27,125
Como el costo de obtener una observación no es el mismo en todos los estratos y como las varianzas
tampoco son iguales tenemos que
 3   3 

 N i Si / ci   N i Si ci 
 E2 
n     
donde N 2  
  310 2 (1)  96100
 E 
2 3
 4 
N 2 
4 
  N i Si2

porque N = 310 y E = 2
 800.8333  ( 8835 )

(800.8333) (8835)
= = 57.4182  58 hogares
96100  27125 123225
55
La asignación del tamaño de muestra a los tres estratos corresponderá a una asignación de costo
mínimo
N 1S1 / c i
n1  n  258.3333 
3
= 58   =58(0.3226) = 18.7108  19 hogares
N S i i / ci  800.8333 
 310 
n 2  58   = 58(0.3871) = 22.4518  22 hogares
 800.8333 
 232.5 
n 3  58   = 58(0.2903) = 16.8374  17 hogares
 800.8333 
ii) Determine el costo mínimo de la información muestral anterior

L
Costo mínimo = c n i i
Costo mínimo = c1n1  c 2 n 2  c3n 3 = 9(19) + 9(22) + 16(17) = 171+ 198 + 272 = C$ 641
iii) Suponga que la empresa publicitaria tiene únicamente C$ 500 para gastar en muestreo,
determine el tamaño de muestra y los tamaños de submuestras por estrato necesarios para ese
presupuesto.
Ya que el costo total debe ser C$ 500, tenemos que

c1 n 1  c 2 n 2  c 3 n 3  500
O bien 9n 1  9n 2  16n 3  500
N i Si / c i
ni  n
Ya que cada 3
podemos escribir según los resultados anteriores que
N S i i / ci
n1= n(0.3226) , n2 = n(0.3871) , n3 = n(0.2903)
y por tanto podemos hace la siguiente sustitución en la ecuación 9n 1  9n 2  16n 3  500
9 n (0.3226) + 9 n (0.3871) + 16 n (0.2903) = 500

2.9034 n + 3.4839 n + 4.6448 n = 500
11.0321 n = 500
Al despeja n, obtenemos:
500
n  = 45.3223  46 hogares
11 .0321
La asignación correspondiente está dada por:
n 1  46  0.3226  = 14.8396  15 hogares

56
n 2  46  0.3871  = 17.8066  18 hogares
n 3  46  0.2903  = 13.3538  13 hogares
EJEMPLO 1.19
Suponga que la firma publicitaria del ejemplo 1.18 decide utilizar entrevistas por teléfono en lugar
de entrevistas personales, porque todos los hogares en el municipio tienen teléfono y este método
reduce los costos. El costo de obtener una observación es entonces el mismo en los 3 estratos..
Las varianzas de las submuestras de los estratos 1, 2 y 3 son de nuevo aproximadas por S12 = 25,
S 22 = 225 y S 32 = 100 respectivamente. Encuentre el tamaño de muestra n y los tamaños de
submuestras n1, n 2 y n 3 para los estratos 1, 2 y 3 respectivamente, que permiten a la empresa
estimar el tiempo promedio que se ve televisión con un error máximo permitido de 2 horas.
ESTRATO Ni S i2 Si Ni Si Ni S i2
1 155 25 5 775 3875
2 62 225 15 930 13950
3 93 100 10 930 9300
310 2635 27125
 E2 
Como N 2    310 2 (1)  96100 y el costo de obtener una observación es el mismo.
 4 
2
 L 

 N i Si 
 2635  2  2635  2 = 56.3459  57 hogares
n    = =
 E2  L
96100  27125 123225
N 2 
4
  N i Si2
 
El tamaño de muesta obtenido en el inciso i) del ejemplo 1.18 es casi igual al de este ejemplo, pero
la asignación del tamaño de la muestra a los 3 estratos corresponde a una asignación de Neyman.
N 1S1
n1  n 3  775 
= 57   = 16.7647  17 hogares
N S i i  2635 
57
 930 
n 2  57   = 20.1176  20 hogares
 2635 
 930 
n 3  57   = 20.1176  20 hogares
 2635 
Observe que para el área rural se toman ahora más hogares porque el costo se ha reducido.
EJEMPLO 1.20
La empresa publicitaria del ejemplo 1.18 considera ahora que las varianzas de los estratos son
iguales. El valor común S2 fue aproximado por 100 en un estudio preliminar. Se van a efectuar
entrevistas por teléfono, por lo que los costos serán iguales en todos los estratos.
La empresa desea estimar el número promedio de horas por semana que se ve la televisión en los
hogares del municipio, con un error máximo permitido de 2 horas. Encuentre el tamaño de muestra
y los tamaños de submuestras por estrato necesarios para lograr esta exactitud.
Como el costo de obtener una observación es el mismo en todos los estratos y las varianzas se
suponen iguales tenemos que
N S2
n   E2 
 E2  donde N   310(1)  310 porque N = 310, E = 2 y S2 = 100
N    S2  4 
 4 
310  100  31000

= = = 75.6098  76 hogares
310  100 410
La asignación del tamaño de muestra a los tres estratos corresponderá a una asignación proporcional
 N1   155 
n1  n   = 76   = 38 hogares
 N   310 
 N2   62 
n2  n   = 76   = 15. 2  15 hogares
 N   310 
 N3   93 
n3  n   = 76   = 22.8  23 hogares
 N   310 
58
1.5 MUESTREO ALEATORIO POR CONGLOMERADOS.
Consiste en dividir la población en colecciones de elementos que llamaremos conglomerados de tal

forma que lo ideal es que cada conglomerado se parezca a los demás.
Considerando a estos conglomerados como unidades muestrales tomemos una muestra aleatoria
simple de conglomerados y después hagamos un censo a cada conglomerado seleccionado para
finalmente obtener la muestra aleatoria por conglomerado buscada.
El muestreo por conglomerados es menos costoso que el muestreo aleatorio estratificado o simple si
se cumple lo siguiente:
1. No se encuentra disponible o es muy costoso obtener un buen marco que liste los elementos de
la población.
2. El costo por obtener observaciones se incrementa con la distancia que separa los elementos.
Por lo tanto al aplicar este método se logra fácilmente la construcción de un marco que liste todos
los conglomerados y la reducción del costo por observar un elemento.
Introduciremos ahora la siguiente notación.
X representa la característica de interés de los elementos.
N representa el número de conglomerados en la población.

mi representa el número de elementos en el conglomerado i
N
M = m i representa el número de elementos en la población o tamaño de la población.
M
M = representa el tamaño promedio de los conglomerados en la población.
N
Suponga que xij es la j-ésima observación de X en los elementos del conglomerado i entonces
mi
 i   x ij representa el total de las observaciones en el conglomerado i
j 1
59
N
 =  i representa el total poblacional

 = representa la media poblacional.
M
n representa el número de conglomerados en la muestra
n
m = m i
representa el tamaño promedio de los conglomerados en la muestra.
n
Una ilustración gráfica del muestreo por conglomerado es la siguiente:
POBLACIÓN MUESTRA
m1 m1
m2 m2
. .
. .
. .
mi Censo
mi
mi
 i   x ij
j 1
. .
. .
. .
mn
mN
Fig. 1.11
1.5.1 ESTIMADOR DE  Y 
 El estimador de la media poblacional  se denota y obtiene así:

60
n
τ i
Xc  n A X c le llamaremos media muestral por conglomerado

m i
 Un estimador del total poblacional  se denota y obtiene así:
 n 
  τi 
 
M Xc  M  n
 A M X c le llamaremos total muestral por
 m 
 i

 
conglomerado.
M
Como M   M  NM , ˆ  Nm
M puede ser estimado con M
N
porque m es un aproximado de M
1.5.2 ERROR ESTANDAR ESTIMADO DE X c Y M X c
 El error estándar estimado de la media muestral por conglomerado X c se denota y

presenta de la siguiente manera:
n
 1 - n   ( τ i - m i Xc ) 2
 N

σ
ˆ Xc   
 nM 2  n -1
 
Si M es desconocido, M puede ser estimado por m

n n
Si  0.05 podemos aproximar el factor ( 1 - ) dentro del radical a 1.
N N
 El error estándar estimado del total muestral por conglomerado M X c se denota y obtiene
de la siguiente manera:
σˆ MX c  Mσˆ X c
n
 n    i - m i X c  2
 1- 
ˆ MXc  M  2 N
 n M2  n -1
 
 
61
n
  τ i - m i Xc 
2
 n 
 1 - 
σ
ˆ MX c  N2  N 
 n  n -1
 
 
n n
Si  0.05 podemos aproximar el factor ( 1 - ) dentro del radical a 1
N N
1.5.3 ESTIMADOR POR INTERVALO PARA  Y 
1. Un estimador por intervalo de confianza del 95% para  esta dado por
Xc  2 σ
ˆX
c
El error muestral máximo permitido en la estimación de  es E  2σˆ X c
Si sustituimos X c y ̂ Xc por sus correspondientes fórmulas obtenemos otra manera equivalente

de expresar el intervalo.
n n
 τi  n    τ i - m i Xc  2
 1- 
 2  N
n  n M2  n -1
 mi  
 
n n
Si  0.05 podemos aproximar el factor ( 1 - ) dentro del radical a 1
N N
2. Un estimador por intervalo de confianza del 95% para  está dado así:
M Xc  2 σ
ˆ MX
o M Xc  2 M ˆ
c Xc
62
El error muestral máximo permitido en la estimación de  es E  2σˆ MX c
Si sustituimos M X c y ̂ MX c por sus correspondientes fórmulas obtenemos otra manera

equivalente de expresar el intervalo.
 n  n
  τi   n    τ i - m i Xc 
2
   1 - 
M    2 N2  N  .
 n   n  n -1
  m i   
 
 
EJEMPLO 1.21
Los municipios de un país hipotético están distribuidos de manera natural en 20 departamentos. Se
quiere estimar el número promedio de agricultores por municipio de cierta hortaliza.
Considerando los departamentos como conglomerados, se toma una muestra aleatoria de 4
departamentos y se registra para cada departamento el número de municipios y luego para cada
municipio el número de agricultores. Los resultados se presentan en la siguiente tabla
Departamentos N° de municipios N° de agricultores
1 8 5, 8, 7, 3, 6, 4, 6, 8
2 11 2, 4, 6, 5, 5, 3, 5, 5, 3, 9, 3
3 5 8, 10, 4, 6, 7
4 6 9, 6, 5, 4, 7, 11
i) Estime el número promedio de agricultores por municipio.
Los elementos son los municipios, la característica de interés X representa el número de agricultores
mi
y  i   x ij (donde xij es el j-ésimo número de agricultores observado en los municipios del

j 1
departamento i ) representa el total de agricultores en el departamento i.
Departamentos mi i
1 8 47
2 11 50
3 5 35
4 6 42
30 174
63
Según los resultados de la tabla anterior tenemos que:
n
 i
174
Xc    5.8 agricultores
n 30
 mi
ii) Si en el país hay 160 municipios estime el número total de agricultores en el país.
Como M = 160 municipios, M X c = 160 (5.8) = 928 agricultores
EJEMPLO 1.22
Se quiere estimar el ingreso anual promedio por adulto en cierta ciudad pequeña. Como no existe
una lista disponible de adultos residentes, la ciudad es dividida en 100 bloques rectangulares
tomando cada bloque rectangular como un conglomerado.
Suponga que se selecciona una muestra aleatoria simple de 6 bloques rectangulares y entrevista a los
adultos de cada hogar dentro de cada conglomerado, obteniendo los siguientes resultados.
( en miles $ )
No. adultos Ingreso
BLOQUES residentes total
1 18 36
2 14 40
3 15 60
4 16 48
5 17 50
6 10 27
1. Obtenga un intervalo de confianza del 95% para el ingreso anual promedio por adulto en la
ciudad.
mi
Los elementos son los adultos , X representa su ingreso anual y  i   x ij (donde xij es el j-ésimo
j 1
ingreso anual observado en los adultos del conglomerado i) representa el ingreso anual total en el
bloque i.
BLOQUES mi i  τ i - m i Xc  2
1 18 36 262.44
2 14 40 0.36
3 15 60 272.25
64
4 16 48 2.56
5 17 50 0.49
6 10 27 4.00
90 261 542.10
Según los resultados de la tabla anterior tenemos que:

n
 i
261
Xc    2.9 en miles de $
n
90
 mi
Sabemos que N = 100 y n = 6 , como M es desconocido, M será estimado por
n
 mi
90
m    15
n 6
Luego
n
 n    i - mi Xc  2  6 
 1-   1-  542.10
ˆ X   N   100 
c  nM2  n -1  6 (15)2  5
   
   
 0.94 
ˆ X     108.42  = 0.2748 en miles de $
c  1350 
Sustituyendo los resultados anteriores en la fórmula de un estimador por intervalo de confianza del
95% para 
Xc  2 
ˆX
c
obtenemos
2.9  2 ( 0.2748 )
2.9  0.5496  Li = 2.3504 y Ls = 3.4496 en miles de $

65
2.3504    3.4496 (en miles de $)
Observe que este intervalo se pudo haber obtenido también con la siguiente fórmula de un intervalo
de confianza del 95% pora .
n n
 i  n    i - mi Xc  2
 1- 
 2  N
n  n M2  n -1
 mi  
 
Sabemos que N = 100, n = 6 y que M es estimado en 15. Sustituyendo los resultados de la tabla
anterior llegamos a que:
 6 
261  1 -  542.10
  100 
2
90  6(15) 2  5
 
 
 0.94 
2.9  2   108.42
 1350 
2.9  2 ( 0.2748 )
2.9  0.5496  Li = 2.3504 y LS = 3.4496 (en miles de $)
2.
a) Estime el ingreso anual total de todos los adultos residentes de la ciudad.
Como M es desconocido, será aproximado con M̂  N m  100(15)  1500 adultos .
M X c = 1500 (2.9) = 4350 (en miles de $)
b) Con un 95% de confianza calcule el error máximo permitido para la estimación anterior.
2 ˆ MX c  2M ˆ
X
c = 2(1500)(0.2748) = 2(412.2) = 824.4 (en miles de $)
c) Obtenga un intervalo de confianza del 95% para el ingreso anual total de los adultos de la
ciudad.
66
M Xc  2 σ
ˆ MX
Utilicemos la fórmula c
̂
Sustituyendo M X c y MX
c por sus valores
4350  2(412.2)
4350  824.4  Li = 3525.6 y Ls = 5174.4 (en miles de $)
3525.6    5174.4
1.5.4 SELECCIÓN DEL NUMERO DE CONGLOMERADOS EN LA MUESTRA PARA

ESTIMAR 
Suponiendo que E representa el error máximo que se desea tolerar al estimar , queremos que con
una confianza del 95%
E  2 
ˆ ̂ 2 E2
Xc es decir que Xc =
4
 n 
  τ i - mi Xc 
n
2
 1- 
N E2
De la ecuación    podemos despejar n, esto es, el número de
 nM 2  n -1 4
 
 
conglomerados en la muestra y obtener la siguiente fórmula
2
N Sc
n 
 E2 
N M 2  
  2
Sc
 4 
n
  i - m i X c 
2
donde puede calcularse de una muestra preliminar y M puede ser
S c2 
n -1
estimado por m con la misma muestra para finalmente obtener el número de conglomerados en la
muestra.
EJEMPLO 1.23
Tomando los resultados de la encuesta del ejemplo 1.22 como una muestra preliminar, determine el
número necesario de bloques rectangulares en la muestra para estimar el ingreso anual promedio por
adulto con un error máximo permitido de C$ 300.
  i - m i X c 
n 2
Usando los cálculos del ejemplo tenemos que 542.10 y

S c2    108.42
n -1 5
m = 15
67
 E2   0.32 
Como N M    100 (15) 2 
2
   100 (225) (0.0225)  506.25
 4   4 
2
N Sc
n 
N M 2 
 E2 
  2
Sc =
4 
 
100 (108.42) 10842
  17.6387
506.25  108.42 614.67
Entonces se deben muestrear 18 bloques rectangulares.
EJERCICIOS PROPUESTOS DEL TEMA 1: MUESTREO Y ESTIMACIÓN
1. A continuación se presenta una población de 5 cuentas por pagar de una empresa con sus
correspondientes montos en decena de miles de córdobas.
Cuenta Monto
C 3
D 3
E 7
F 10
G 14
Suponiendo que X representa el monto de las cuentas.

i) Construya la distribución poblacional de X y represéntela gráficamente.
ii) Para la distribución poblacional del inciso i) calcule  y 
iii) Considerando tadas las muestras posibles de tamaño 2 que pueden seleccionarse sin reposición
y sin orden, construya la distribución muestral de X y represéntela gráficamente.
2. Para la distribución muestral de X pedida por el inciso iii) del ejercicio 1, calcule  X y  X
y verifique que μ X  μ
3. Para el ejercicio 1 tome todas las muestras posibles de tamaño 3 y construya la distribución
muestral de X representándola gráficamente.
4. Para la distribución muestral de X pedida por el ejercicio 3, calcule  X y  X
5. Consideremos la población compuesta por 4 agentes de ventas con sus correspondientes gastos
de representación en cientos de córdobas de la semana pasada.
Representante Gasto
A 2
68
B 4
C 6
D 8
Suponiendo que X representa el gasto de representación.

i) Construya la distribución poblacional de X y represéntela gráficamente.
ii) Considerando todas las muestras posibles de tamaño 2 que pueden seleccionarse sin reposición y
sin orden. Construya la distribución muestral de X y represéntela gráficamente.
iii) Para la distribución muestral del inciso ii) calcule la media de X y el error estándar de X
iv) Con todas las muestras posibles de tamaño 3 que pueden seleccionarse sin reposición y sin
orden, construya la distribución muestral de X y represéntela gráficamente. Luego calcule  X y
X
6. Considere la siguiente población de cuentas por cobrar de una compañía.
No. Cuenta 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
Monto
(en miles de C$) 1.5 2.3 1.0 1.8 1.9 2.0 3.5 1.5 2.4 1.2 1.8 4.5 3.0 2.1 3.5
1) Utilizando la fila 3 columna 4 como una entrada a la tabla de números aleatorios, seleccione
una muestra aleatoria de 4 cuentas señalándolas con un *
2) Suponiendo que X representa el monto de las cuentas.
i) Diga que representa  y  según el problema.
ii) Estime el monto promedio de las cuentas y el monto total de las cuentas utilizando la
muestra seleccionada en 1)
3) Obtenga los errores de muestreo correspondientes a las estimaciones de  y  hechas en el

inciso ii) de la parte 2)
7. La población de supermercados de una ciudad se presenta en la siguiente tabla.
No. Super 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
Ventas diarias
(en miles de C$) 84 73 50 35 62 38 26 25 56 45 90 20 87 30 40
1) Tome una muestra aleatoria sistemática de 3 Supermercados. Luego señalelos con un *
2) Suponiendo que X representa las ventas diarias.

69
i) Diga que representa  y  según el problema.
ii) Estime  ,  y  utilizando la muestra del inciso 1)
iii) Obtenga los errores de muestreo correspondientes a las estimaciones de  y 

hechas en el inciso ii)
8. Se quiere investigar el número total de calculadoras que hay en inventario en un centro

comercial.
En el siguiente plano se presentan los módulos que componen el centro.
i) Entrando en la fila 11 y columna 8 de la tabla de números aleatorios y con una dirección

descendente (  ) , seleccione una muestra aleatoria de 4 módulos, señalándolos con un *
ii) Suponiendo que la encuesta reveló para el primer módulo seleccionado en el inciso i) la
existencia de 10 calculadoras, para el segundo módulo la existencia de 15 calculadoras, para el
tercer módulo 20 calculadoras y para el cuarto módulo 3 calculadoras.
Estime el número promedio de calculadoras por módulo y el número total de calculadoras en el

centro.
9. Se desea investigar en un barrio la cantidad de niños en edad escolar con el fin de estudiar las
necesidades educativas a nivel primario (se piensa construir una escuela). Con tal fin se dispone del
siguiente mapa del barrio.
Parque
Iglesia
Predio
vacío
70
i) Seleccione una muestra aleatoria sistemática de 4 manzanas. Luego ubíquelas poniéndoles

un *
ii) Suponiendo que la encuesta reveló para la primera manzana seleccionada en el inciso i) la
existencia de 18 niños, para la segunda manzana la existencia de 21 niños, para la tercera
manzana la existencia de 27 niños y para la cuarta manzana la existencia de 10 niños.
Estime el número promedio de niños por manzana y el total de niños en el barrio.
10. Un auditor quiere investigar el total de páginas que tienen los documentos de una empresa.
En su poder hay 280 documentos numerados del 001 al 280.
i) Entrando en la fila 1 y columna 4 de la tabla de números aleatorios, seleccione una muestra

de 20 documentos, escribiendo el número de documento de cada uno.
ii) Suponiendo que los 20 documentos muestreados del inciso i) resultaron con un promedio
de13.4 páginas
Estime el número total de páginas en todos los documentos.
11. Suponga que los salarios mensuales de los trabajadores a destajo de una empresa tienen una
distribución normal y que además se sabe que la desviación estándar de los salarios es de C$ 100.
El jefe del departamento de personal selecciona al azar los expedientes de 16 trabajadores y
encuentra que el salario mensual promedio es de C$ 2500
i) Suponiendo que el número de trabajadores a destajo es muy grande, estime el salario

mensual promedio de los trabajadores de la empresa utilizando un intervalo de confianza del
80%.
ii) Identifique el valor del error muestral promedio en la estimación del salario mensual
promedio de los trabajadores de la empresa del inciso i)
iii) Suponiendo que la empresa tiene 150 trabajadores a destajo, estime el salario mensual
promedio de los trabajadores de la empresa utilizando un intervalo de confianza del 90%.
12. Se desea estimar la venta promedio por cliente, en córdobas, de una tienda. Sobre la base de
datos de otras tiendas similares, se sabe que la desviación estándar de ese tipo de ventas es de
aproximadamente C$ 3200.
¿Qué tamaño de muestra se debe utilizar, como mínimo, si desea estimar la venta promedio con un
margen de error de C$ 1000 y una confianza del 99%?
71
13. Para una cadena de 250 tiendas suponga que se conoce por experiencias anteriores que la
desviación estándar de las ventas anuales por tienda para un producto determinado es de C$
200,000.
Si una muestra aleatoria de 40 tiendas del año pasado nos informa que hubo una venta promedio de
C$ 3,425,000.
1) Determine un intervalo de confianza del 98% para:
i) la venta promedio por tienda durante el año pasado.

ii) la venta total de todas las tiendas durante el año pasado.
2) Si quiero estimar la venta promedio de las tiendas con un error de más o menos C$ 30,000
y con una confianza del 95%, ¿ qué tamaño de muestra se requiere?
14. Se quiere estimar el consumo mensual promedio en córdobas de energía eléctrica por casa en el
mes de Diciembre. Con base en estudios efectuados en otras ciudades, se supone que la desviación
estándar de los consumos es de C$ 20. La estimación del consumo mensual promedio se quiere
hacer con una aproximación de  C$ 3 del promedio real y con un 99% de confianza.
i) Si la ciudad se considera muy grande, ¿qué tamaño de muestra se necesita?
ii) Si la ciudad tuviera un total de 3000 casas, ¿qué tamaño de muestra se necesita?
15. Una empresa comercializadora de granos básicos está estudiando la posibilidad de comprar 1000
sacos de frijol. Con el fin de determinar el peso promedio de materias extrañas por saco y el peso
total de materias extrañas tomó una muestra aleatoria de 40 sacos obteniendo un promedio de 2.4 lbs
y una desviación estándar de 0.62 lbs de materias extrañas.
a) Obtenga un intervalo de confianza del 95% para el peso promedio de materias extrañas por
saco.
b) Obtenga un intervalo de confianza del 90% para el peso total de materias extrañas en los 1000
sacos.
c) Si se quiere estimar el peso promedio de las materias extrañas por saco con una confiabilidad
del 98% de que el error máximo permitido sea de  0.10 lbs, ¿Cuál debe ser el tamaño de la
muestra?
16. Una muestra aleatoria de 100 medidores de agua es controlada dentro de una comunidad para
estimar el consumo mensual promedio de agua por casa durante un período estacional seco. La
media muestral fue de 30.5 m3 y la desviación estándar muestral de 5m3. Si suponemos que hay
10,000 casas dentro de la comunidad.
72
i) Obtenga un intervalo de confianza del 98% para el consumo mensual promedio de agua por
casa.
ii) Estime el total de m3 de agua usado mensualmente durante el período seco, luego determine con
un 95% de confianza el error máximo permitido en esta estimación.
17. Como supervisor del proceso de empacado de café en sobres, suponga que se toma una muestra
aleatoria de 12 sobres de la planta empacadora, de la cual resulta un peso neto promedio por sobre
de 15.97 gramos y una desviación estándar del peso neto por sobre de 0.15 gramos. Suponiendo que
el peso neto del café por sobre tiene distribución normal:
i) Estime el peso neto promedio por sobre de café utilizando un intervalo de confianza del 95%.
ii) Identifique el valor del error máximo permitido con una confianza del 95% en la estimación del
peso neto promedio por sobre de café del inciso i)
ii) ¿Qué tamaño de muestra debo utilizar para tener una confianza del 95% de que el error máximo
tolerado sea de 0.04 gramos?
18. Para una muestra de 50 empresa tomadas de una industria determinada, se encuentra que el
número promedio de trabajadores por empresa es de 420.4, con una desviación estándar de 55.7.
Suponiendo que existe un total de 380 empresas en esa rama industrial.
i) Determine un intervalo de confianza del 90% para estimar el número total de trabajadores
empleados en esa industria.
ii) Identifique el valor del error muestral promedio en la estimación del número total de
trabajadores del inciso i)
19. Los ingresos del impuesto sobre ventas en una comunidad particular se recogen cada trimestre.
Los siguientes datos representan los ingresos (en miles de córdobas), cobrados durante el primer
trimestre en una muestra de 9 establecimientos de menudeo en la comunidad.
16, 18, 11, 17 13, 10, 22, 15, 16
Suponiendo que los ingresos trimestrales del impuesto sobre ventas se distribuyen aproximadamente
normal.
a) Establezca un intervalo de confianza del 98% para el ingreso trimestral promedio del impuesto
sobre ventas de los establecimientos de menudeo.
b) Si hay un total de 300 establecimientos de menudeo en esta comunidad, establezca un intervalo

de confianza del 95% de los ingresos totales por impuestos sobre ventas que se lograrán este
trimestre.
c) Si quiero estimar el ingreso trimestral promedio del impuesto sobre ventas de los
establecimientos con una confianza del 95% de que el error máximo sea de C$ 1000.
¿ qué tamaño de muestra se requiere ?
73
20. Consideremos que cierta región del país cuenta con 500 establecimientos comerciales. Con el
fin de estimar el número promedio de empleados por establecimiento y el número total de
empleados, se seleccionó una muestra aleatoria simple de 20 establecimientos con los siguientes
números de empleados.
5 8 8 5 7 3 7 8 2 5
9 4 6 2 3 4 3 5 4 6
Suponiendo que el número de empleados por establecimiento se distribuye normalmente.
i) Encuentre un intervalo de confianza del 95% para el número promedio de empleados por
establecimiento.
ii) Encuentre un intervalo de confianza del 98% para el número total de empleados.
iii) Si quisiera estimar el número promedio de empleados por establecimiento con una confiabilidad
del 95% de que el error máximo permitido sea de 1 empleado, ¿cuál debe ser el tamaño de la
muestra?
21. Un auditor detecta que cierta empresa regularmente exagera las cantidades de dinero en dólares
de los inventarios, a causa de los retrasos en el registro de los retiros. El auditor quiere estimar la
cantidad total exagerada sobre 800 artículos listados, obteniendo las cantidades exactas (revisadas)
del inventario mediante una muestra aleatoria de 6 artículos, y comparando estas cifras exactas con
las cantidades registradas. Los datos en dólares para los artículos seleccionados se muestran en la
siguiente tabla.
Cantidad Cantidad
No. Artículo revisada registrada
1 175 210
2 295 305
3 68 91
4 74 82
5 128 140
6 241 250
Suponiendo para las cantidades exageradas una distribución aproximadamente normal

i) Estime la cantidad total exagerada sobre los 800 artículos.
ii) Con una confianza del 95% establezca el error máximo permitido en la estimación del inciso i
iii) Si quiero estimar la cantidad promedio exagerada por artículo con una confianza del 99% de que
el error máximo sea de 10 dólares, ¿Qué tamaño de muestra se requiere ?
22. Un auditor muestrea aleatoriamente 12 cuentas por cobrar de las 500 cuentas de una empresa.
El auditor lista el monto de cada cuenta y verifica si los documentos respectivos cumplen con los
procedimientos establecidos. Los datos son como sigue (cantidad en dólares, S = si , N = no ):
No. cuenta Monto Verificación

74
1 278 N
2 192 S
3 310 S
4 94 N
5 86 S
6 335 S
7 310 N
8 290 S
9 221 S
10 168 S
11 200 N
12 300 N
Suponiendo que los montos de las cuentas tienen una distribución aproximadamente normal.
1) Obtenga un intervalo de confianza del 95% para el monto total de las 500 cuentas de la empresa.
2) Obtenga un intervalo de confianza del 95% para la proporción de cuentas de la empresa que no
cumplen con los procedimientos establecidos.
23. Un auditor de una compañía mayorista de productos metálicos quiere estimar la proporción de
facturas para los clientes con errores en los precios. Una muestra aleatoria de 300 facturas de las
operaciones del mes anterior, indicó que 45 contenían errores en los precios.
i) Establezca un intervalo de confianza del 95% para las proporción real de facturas con errores en
los precios.
ii) Si en el mes anterior se expidieron 5000 facturas, establezcas un intervalo de confianza del 95%
para el total real de facturas con errores en los precios.
iii) Si el auditor desea un 95% de confianza de estar en lo correcto con aproximación de  2.5% del
porcentaje real de facturas con errores en los precios y si se supone según experiencia previa que el
porcentaje de facturas con errores es 10% ¿Qué tamaño de muestra necesita?
24. Un auditor de una dependencia gubernamental de protección al consumidor quiere determinar la

proporción de reclamaciones sobre pólizas de enfermedades que paga la compañía de seguros en un
plazo de dos meses de haber recibido la reclamación. Se selecciona una muestra de 200
reclamaciones y se determina que 80 fueron pagadas en un plazo de dos meses después de recibirlas.
Establezca un intervalo de confianza del 99% para la proporción real de reclamaciones pagadas en
ese plazo de dos meses.
25. El gerente de una sucursal bancaria en una ciudad pequeña quiere determinar la proporción de
sus cuentahabientes a los cuales se les paga el interés por trimestre. Se selecciona una muestra
aleatoria de 100 cuentahabientes, en la cual 30 indican que se les paga por trimestre.
i) Establezca un intervalo de confianza del 90% para la proporción real de cuentahabientes a

quienes se les paga por trimestre.
75
ii) Con un 96% de confianza calcule el error máximo permitido en la estimación de la proporción
real de cuentahabiente del inciso i)
ii) Si el banco tiene 1000 cuentahabientes, establezca un intervalo de confianza del 90% para el
total real de cuentahabientes a quienes se les paga por trimestre.
iii) Si el gerente quiere tener 90% de confianza de que está en lo correcto con aproximación de 
0.05 de la proporción de sus cuentahabientes a quienes se les paga por trimestre, ¿qué tamaño de
muestra necesita?
26. Una compañía de televisión por cable (Cablevisión) quiere estimar la proporción de sus
suscriptores que compararían su revista con la programación. La compañía quiere tener 95% de
confianza de que su estimación está correcta con aproximación de  0.05 de la proporción real. La
experiencia previa en otras áreas indica que el 30% de los suscriptores compararon la revista. ¿Qué
tamaño de muestra se necesita?
27. Una corporación desea estimar el número total de horas-hombre perdidas debido a accidentes de
los empleados en un mes determinado. Ya que los obreros, los técnicos y los administrativos tienen
diferentes tasas de accidentes, el investigador decide usar muestreo aleatorio estratificado con cada
grupo formando un estrato. Datos de años previos sugieren las varianzas, mostradas en la tabla
anexa, para el número de horas-hombre perdidas por empleado en los 3 grupos, y de datos actuales
se obtienen los tamaños de los estratos.
Estrato Ni Si2
Obreros 132 36
Técnicos 92 25
Administrativos 27 9
1) Determine la asignación de Neyman para una muestra de 30 empleados.
2) Estime el número total de horas-hombre perdidas durante el mes indicado y establezca el

máximo error muestral para esa estimación. Use los datos de la tabla siguiente, obtenida de una
muestra de 18 obreros, 10 técnicos y 2 administrativos.
Estrato ni Número de horas-hombres perdidas
Obreros 18 8, 24, 0, 0, 16, 32, 6, 0, 16, 7, 4, 4, 9, 5, 8,18, 2, 0

Técnicos 10 4, 5, 0, 24, 8, 12, 3, 2, 1, 8
Administrativos 2 1, 8
30
76
28. Una empresa desea estimar con la máxima precisión posible el monto promedio y total de sus
cuentas por cobrar, mediante una muestra aleatoria de 50 cuentas. Suponga por previa disposición
que las cuentas se van arreglando así: en el archivo 1 se guardan las cuentas que tienen un monto
inferior a 1000 dólares, en el archivo 2 las cuentas que tienen un monto entre 1000 y 2000 dólares,
en el archivo 3 se guardan las cuentas que tienen un monto superior a los 2000 dólares. El número
de cuentas guardadas en los archivos 1, 2 y 3 es respectivamente 250, 150 y 50.
1) Considerando por conveniencia administrativa que cada archivo es un estrato y que el costo del
muestreo es el mismo para los 3 archivos y que las desviaciones estándar de los montos de las
cuentas son iguales a 50 dólares para cada uno de los archivos, ¿cómo asignaría las 50 cuentas de la
muestra a los 3 archivos?
2) Suponiendo que para las submuestras de los archivos 1, 2 y 3 del inciso 1) se obtuvieron montos
promedios de 800, 1400 y 2600 dólares, establezca un intervalo de confianza del 95% para:
i) el monto promedio de las cuentas
ii) el monto total de las cuentas
29. Una región que comprende 800 granjas ganaderas se ha dividido en 5 estratos de acuerdo con el
área de cada una.
ESTRATOS No. granjas
1 300
2 200
3 160
4 100
5 40
800
1) Suponga que se planea seleccionar una muestra aleatoria estratificada de 40 granjas. Como no
tiene información previa respecto a las varianzas de los estratos, y como el costo del muestreo es el
mismo en cada estrato, decide aplicar asignación proporcional. ¿Qué tamaño tendrían las
submuestras de cada estrato?
2) Suponiendo que para las submuestras del inciso 1) se obtuvieron números promedios de
cabezas por granja en miles de 4, 6, 10, 13 y 15 para las submuestras de los estratos 1, 2, 3, 4 y 5
respectivamente y varianzas en miles2 de 1.20, 1.00, 0.90, 1.50 y 0.80 para las submuestras de los
estratos 1, 2, 3, 4 y 5 respectivamente.
i) Estime el número promedio de cabezas por granja en la región.
ii) Estime el total de cabezas en la región.
iii) Calcule el error muestral promedio para cada una de las estimaciónes de los incisos i) y ii)
iv) Establezca un intervalo de confianza del 95% para el total de cabezas en la región.
30. Un distribuidor de comestibles al mayoreo en una gran ciudad desea saber si la demanda es lo
bastante grande como para justificar la inclusión de un nuevo producto a sus existencias. Para tomar
la decisión, planea añadir este producto a una muestra de los almacenes a los que abastece para
77
estimar el promedio de las ventas mensuales. Él únicamente suministra a 4 grandes cadenas en la

ciudad. Así que, por conveniencia administrativa, decide usar muestreo aleatorio estratificado con
cada cadena como un estrato. Hay 24 almacenes en el estrato 1, 36 en el estrato 2, 30 en el estrato 3
y 30 en el estrato 4. El distribuidor tiene suficiente tiempo y dinero para obtener datos sobre ventas
mensuales en 20 almacenes.
1) Dado que no tiene información previa respecto a las varianzas de los estratos, y como el costo
del muestreo es el mismo en cada estrato, decide aplicar la asignación proporcional. ¿Qué tamaño
tendrían las submuestras de cada estrato?
2) Suponga que el nuevo producto es introducido en cada submuestra del inciso 1) obteniendo
después de un mes ventas promedios en córdobas de 99, 100, 98 y 100 para las submuestras de los
estratos 1, 2, 3 y 4 respectivamente y varianzas en córdobas2 de 78.67, 55.60, 39.50 y 112.50 para
las submuestras de los estratos 1, 2, 3 y 4 respectivamente.
Obtenga un intervalo de confianza del 95% para la venta mensual promedio del nuevo producto.
3) Identifique el valor del error máximo permitido en la estimación de la venta mensual promedio
del nuevo producto del inciso 2)
31. Un investigador que desea estimar la venta anual promedio de 56 empresas ha decidido
estratificar la población según sus ventas anuales de la siguiente manera
(en miles de C$)

Estrato Venta Nº empresas Si2
1 100 - 200 25 16
2 200 - 350 18 9
3 350 - 500 13 4
56
Datos de años anteriores sugieren las varianzas, que muestra la tabla de arriba, para las ventas
anuales en miles de C$
1. Suponiendo que planea seleccionar una muestra aleatoria estratificada de 15 empresas, ¿qué
tamaño tendrán las submuestras de cada estrato al aplicar una asignación de Neyman?
2. Suponiendo que para las submuestras del inciso 1. se obtuvieron ventas promedios en miles de
C$ de 150, 300 y 400 para las submuestras de los estratos 1, 2 y 3 respectivamente.
i) Establezca un intervalo de confianza del 95% para la venta anual promedio de las empresas
ii) Estime la venta anual total de las empresas señalando el error máximo permitido en la
estimación
32. Un servicio forestal estatal está realizando un estudio de la gente que utiliza las instalaciones de
campamentos operados por el estado. El estado tiene 2 áreas para acampar, una localizada en las
montañas y otra localizada a lo largo de la costa. Las dos áreas para acampar forman
convenientemente 2 estratos, la localidad de la montaña como el estrato 1 tiene 120 sitios para
acampar y la localidad de la costa como el estrato 2 tiene 80 sitios para acampar.
Suponiendo que el servicio desea estimar el número promedio de personas por sitio dentro de los
campamentos con un error máximo tolerado de 1 persona y que los costos de muestreo son los
78
mismos en cada estrato, encuentre el tamaño de muestra y los tamaños de submuestras por estrato
necesarios considerando que:
i) las varianzas de los estratos 1 y 2 son aproximadas por 4 y 9 respectivamente.

ii) las varianzas de cada estrato son iguales con un valor común aproximado de 4.
33. Una corporación desea obtener información acerca de la efectividad de una máquina comercial.
Se va a entrevistar por teléfono a un número de jefes de división, para pedirles que califiquen la
maquinaria con base en una escala numérica. Las divisiones están localizadas en Norteamérica,
Europa y Asia, motivo por el cual, usaremos muestreo estratificado. La tabla siguiente proporciona
los costos en dólares por entrevista, varianzas aproximadas de las calificaciones y los tamaños de los
estratos que se han establecido.
Estrato Ni Si2 ci
Norteamérica 112 2.25 9
Europa 68 3.24 25
Asia 39 3.24 36
i) Si la corporación quiere estimar la calificación promedio con un error máximo permitido de

0.6325, determine el tamaño de muestra requerido, y según la asignación apropiada, los tamaños de
submuestras por estrato.
ii) Suponga que la corporación tiene únicamente 400 dólares para gastar en muestreo, determine el
tamaño de muestra y los tamaños de submuestras por estrato necesarios para ese presupuesto.
34. Supongamos que una región tiene 20 municipios. Se quiere estimar el número promedio de
cabezas de ganado por granja y el número total de cabezas en esa región. Se decide usar muestreo
por conglomerado tomando cada municipio como un conglomerado. Con tal fin seleccionamos una
muestra aleatoria simple de 4 municipios obteniendo los resultados que presenta la tabla siguiente.
Municipio No. granjas No. de cabezas (en miles)
1 3 1, 3, 2
79
2 5 4, 3, 2, 5, 6
3 4 4, 3, 3, 2
4 3 3, 4, 2
Obtenga un intervalo de confianza del 95% para:
i) el número promedio de cabezas por granja

ii) el número total de cabezas en la región
35. El gerente de circulación de un periódico desea estimar el número promedio de ejemplares

comprados por familia en determinada comunidad. Los costos de transporte de un hogar a otro son
sustanciales. Es por eso que se listan los 4000 hogares de la comunidad en 400 conglomerados
geográficos de 10 hogares cada uno, y se selecciona una muestra aleatoria simple de 4
conglomerados. Se realizan las entrevistas con los resultados que se muestran en la tabla anexa.
Conglomerado Número de periódicos
1 1 2 1 3 3 2 1 4 1 1
2 1 3 2 2 3 1 4 1 1 2
3 2 1 1 1 1 3 2 1 3 1
4 1 1 3 2 1 5 1 2 3 1
1)
a) Obtenga un intervalo de confianza del 95% para el número promedio de periódicos comprados
por hogar en la comunidad.
b) Establezca el error máximo permitido para la estimación anterior.
2) ¿Cuántos conglomerados debe seleccionar en la muestra para estimar el número promedio de

periódicos comprados por hogar con un error máximo permitido de 0.12 periódicos?
3) Estime el número total de periódicos comprados por todos los hogares de la comunidad.
36. Los comercios solicitan frecuentemente a los contadores la realización de inventarios. Ya que
un inventario completo es costoso, a través del muestreo se pueden realizar inventarios cada cuatro
meses. Supóngase que una empresa abastecedora de artículos de plomería desea un inventario para
muchos artículos pequeños en existencia. La obtención de una muestra aleatoria de artículos es muy
difícil. Sin embargo, los artículos se encuentran dispuestos en anaqueles, y la selección de una
muestra aleatoria de anaqueles es relativamente fácil, considerando a cada anaquel como un
conglomerado de artículos.
80
Una muestra de 10 anaqueles de un total de 48 dió los resultados que se muestran en la tabla
siguiente. (en dólares)
Conglomerado No. Artículos Cantidad registrada
1 42 83
2 27 62
3 38 45
4 63 112
5 72 96
6 12 58
7 24 75
8 14 58
9 32 67
10 41 80
Obtenga un intervalo de confianza del 95% para la cantidad total en dólares de los artículos en los
48 anaqueles.
37. El número de casas, el número de residentes y el número el número de cuartos dentro de las
casas para una muestra aleatoria de 5 manzanas seleccionadas al azar, de una ciudad donde
suponemos que el número de manzanas es 500, se presenta en la siguiente tabla
Manzana Nº casas Nº residentes Nº cuartos

1 12 60 38
2 14 89 56
3 10 61 30
4 20 92 45
5 8 52 25
Considerando a cada manzana como un conglomerado de casas

i) Estime el número promedio de residentes por casa y señale el error máximo permitido de esa
estimación.
ii) Estime el número promedio de cuartos por casa y señale el error máximo permitido de esa
estimación.
38. Un fabricante de sierras quiere estimar el costo de reparación promedio mensual para las sierras
que ha vendido a ciertas industrias. El fabricante no puede obtener un costo de reparación para cada
sierra, pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene
cada industria. Entonces decide usar muestreo por conglomerados con cada industria como un
conglomerado. El fabricante selecciona una muestra aleatoria simple de 10 industrias de 96
industrias a las que da servicio. Los datos sobre costo total de reparaciones por industria del mes
pasado y el número de sierras por industria se presentan en la tabla anexa.
(en dólares)
Industria No. sierras Costo total
1 3 50
2 7 110
3 11 230
81
4 9 140
5 2 60
6 12 280
7 14 240
8 3 45
9 5 60
10 9 230
1) Estime el costo promedio de reparación por sierra para el mes pasado estableciendo el error
máximo permitido para esa estimación.
2) Estime la cantidad total gastada por las 96 industrias en la reparación de sierras el mes pasado
estableciendo el error máximo permitido para esa estimación.
3) Si el fabricante quiere estimar el costo de reparación promedio por sierra para el mes siguiente,
¿Cuántos conglomerados (industrias) debe seleccionar en la muestra si quiere que el error máximo
tolerado sea de 2 dólares?
TEMA 2: PRUEBA DE HIPOTESIS
OBJETIVOS
1. Definir que es una hipótesis y una prueba de hipótesis.

2. Describir el procedimiento de la prueba de hipótesis.
3. Identificar si la prueba es unilateral o bilateral.
4. Realizar pruebas de hipótesis respecto a una media poblacional.
5. Realizar pruebas de hipótesis respecto a una proporción poblacional.
2.1. INTRODUCCION.
Se conoce como prueba de hipótesis a una rama de la Estadística inferencial que podría verse como
un procedimiento especial de toma de decisiones.
LA PRUEBA DE HIPOTESIS COMO UN PROBLEMA DE DECISION.

El problema de decisión a estudiar tendrá:
i) 2 estados de la naturaleza mutuamente excluyentes y exhaustivos (Hipótesis). Cualquiera de las

hipótesis será una negación de la otra.
ii) 2 cursos de acción (Alternativas).
EJEMPLO 2.1.
Al juzgar a una persona por asesinato, se presume que el acusado es inocente, es decir no culpable,
hasta que se demuestre lo contrario, según la justicia conservadora.
La situación anterior implica que estamos en presencia de un problema de decisión a resolver que
tiene 2 hipótesis que definiremos así:
82
Inocente
Culpable
y 2 alternativas que definiremos así
Dejarlo libre
Echarlo preso
Hipótesis estadística.
Le llamaremos hipótesis estadística a un supuesto que se hace acerca del valor de un parámetro de
una población o acerca de valores de parámetros que corresponden a distintas poblaciones.
EJEMPLO 2.2
Supongamos que cierta región del país cuenta con 200 plantaciones donde se cultiva maíz sin hacer
uso de ningún abono. Por muchos años el rendimiento promedio ha sido de 44 quintales por
manzana. El MAG está tratando de convencer a los agricultores de la aplicación de cierto
fertilizante, lo que significaría un mayor rendimiento promedio y por lo tanto un mejor beneficio
económico. A manera de prueba los agricultores usaron el fertilizante en 36 plantaciones
seleccionadas aleatoriamente, obteniéndose un rendimiento promedio de 47.30 quintales por
manzana y una desviación estándar de 6.60 quintales por manzana.
¿Debemos aplicar el fertilizante a un nivel de significación del 5%?
En este problema los elementos a estudiar son las plantaciones y la característica de interés X será
el rendimiento de las plantaciones en quintales por manzana. Estaremos interesados en suposiciones
que se hagan acerca de la media poblacional  que representará el rendimiento promedio de las
plantaciones.
Observemos que estamos ante un problema de decisión con 2 hipótesis que definimos así:
 = 44
  44
y 2 alternativas que definimos así:
No aplicar el fertilizante.
Aplicar el fertilizante.
Ahora trataremos de desarrollar un procedimiento general de la prueba porque, en principio, todas

las pruebas estadísticas son similares a las que vamos a estudiar en este tema.
83
PROCEDIMIENTO DE LA PRUEBA DE HIPOTESIS
Una prueba de hipótesis será un procedimiento en el cual una de las hipótesis que llamaremos nula
se probará contra otra hipótesis que llamaremos alterna, tomando como base la información
proporcionada por una muestra aleatoria, la cual nos permitirá poder rechazar o no rechazar la
hipótesis nula, con el fin de poder seleccionar la alternativa más adecuada.
Debido al gran parecido que tiene este procedimiento en la manera de razonar con el empleado en
un juicio, retomaremos el ejemplo 2.1 como una motivación al tema.
1. Supongamos que la presunción de inocencia es la hipótesis nula y que la culpabilidad es la

hipótesis alterna. Esto es probaremos las hipótesis:
Inocente
Culpable
2. El juicio presenta 4 situaciones presentadas abajo
Altenativas Estados de la naturaleza

Inocente es V Culpable es V
Dejarlo libre Correcta Error II
Echarlo preso Error I Correcta
donde pueden cometerse dos tipos de errores:
Error I: Echarlo preso cuando en realidad es inocente.

Error II: Dejarlo libre cuando en realidad es culpable.
¿Cuál de los dos tipos de error se considera más grave?
Naturalmente el error tipo I, motivo por el cual se quiere que la probabilidad de caer en este error I
sea mínima. Por tanto mantendremos la probabilidad de caer en este error I debajo de una frontera,
sin preocuparnos por la probabilidad de caer en el error II.
3. Antes de investigar al acusado las leyes tienen establecida la siguiente regla de decisión:
i) Si rechazamos la hipótesis nula de inocencia entonces estamos aceptando la hipótesis alterna de

culpabilidad.
ii) Si no podemos rechazar la hipótesis nula de inocencia, entonces “aceptamos” la hipótesis nula
de inocencia.
4. Ahora la acusación trata de recoger y presentar suficiente evidencia (documentos, testigos

oculares, huellas dactilares, retratos hablados, etc) para que sea valorada por el jurado.
84
5. Finalmente con la evidencia ya valorada se aplica la regla de decisión que nos permitirá
seleccionar la alternativa más adecuada.
i) Si el jurado valora que hay suficiente evidencia para rechazar la hipótesis nula de inocencia
entonces estamos aceptando la hipótesis alterna de culpabilidad lo cual implica que debemos
seleccionar la alternativa de echarlo preso.
ii) Si el jurado valora que no hay suficiente evidencia para rechazar la hipótesis nula de inocencia
entonces “aceptamos” la hipótesis nula de inocencia, pero débilmente porque talvez la acusación fue
deficiente en la recolección de evidencias, lo cual implica seleccionar la alternativa de dejarlo
libre o bien no tomar ninguna alternativa y reanudar el jucio en otra ocación.
2.2 PROCEDIMIENTO DE LA PRUEBA ACERCA DE .
Para fines de estudio consideraremos la prueba de hipótesis dividida en los siguientes pasos:
1. FORMULACION DE LAS HIPOTESIS.

Consiste en especificar las hipótesis e indentificar a una de ellas como la hipótesis nula y a la otra
como las hipótesis alterna.
 Hipótesis nula.
La hipótesis nula será generalmente la que afirma en los problemas ausencia de efecto alguno para
determinadas acción o tratamiento y la denotaremos por Ho.
Como esta hipótesis es la que siempre debe especificarse en una forma más exacta, el signo =
siempre la acompañará.
 Hipótesis alterna.
A cualquier hipótesis que diga lo contrario de la hipótesis nula, esto es que hay presencia del efecto
para la acción o tratamiento, la llamaremos hipótesis alterna y la denotaremos por H1.
Como esta hipótesis es generalmente especificada con menos exactitud, los signos  ,  o  la
acompañan.
Para el ejemplo 2.1 en que se juzga a una persona por asesinato, podemos ver el juzgar como la
acción y la culpabilidad como el efecto. Por tanto podemos escribir.
H0 : Inocente o no es culpable A0 : Dejarlo libre

H1 : Culpable A1 : Echarlo preso
85
donde la hipótesis nula H0 está suponiendo ausencia de culpabilidad mientras que la hipótesis
alterna H1 supone presencia de culpabilidad.
Para el ejemplo 2.2 podemos ver la fertilización de las plantaciones como la acción y el aumento
de rendimiento promedio con respecto a 44 como el efecto. Por tanto podemos escribir.
H0 :  = 44 A0 : No aplicar el fertilizante
H1 :   44 A1 : Aplicar el fertilizante
donde la hipótesis nula H0 está suponiendo que no hay aumento en el rendimiento promedio,
mientras que la hipótesis alterna H1 supone que hay aumento en el rendimiento promedio.
La aceptación de cada una de las hipótesis anteriores tendrá asociada una alternativa.
A la aceptación de H0 le corresponderá la alternativa A0 y a la aceptación de H1 le corresponderá la
alternativa A1
 Tipos de pruebas.
De acuerdo a la forma en que pueden estructurarse las hipótesis tendremos:
1) Pruebas unilaterales.
Son aquellas en las cuales la presencia del efecto en la hipótesis alterna se traduce como un interés
por sólo las desviaciones hacia un lado con respecto a un valor supuesto  0 de 
i) Pruebas de cola izquierda ii) Pruebas de cola derecha

H0 :  = 0 (   0 ) H0 :  = 0 (   0 )
H1 :   0 H1 :   0
Note que la hipótesis nula puede también especificarse de una manera menos exacta como   0
o   0.
2) Pruebas bilaterales.
Son aquellas en las cuales la presencia del efecto en la hipótesis alterna se traduce como un interés
por las desviaciones tanto hacia la izquierda como hacia la derecha con respecto a un valor supuesto
 0 de 
H0 :  = 0
H1 :   0
Para el ejemplo 2.2 observe que la prueba es de cola derecha porque sólo nos interesan los
aumentos en el rendimiento promedio con respecto a 44.
2. ELEGIR UN NIVEL DE SIGNIFICACION

86
En el procedimiento de la prueba pueden presentarse 4 situaciones indicadas por la siguiente tabla.
Altenativas Estados de la naturaleza

H0 es V H1 es V
Seleccionar A0 Correcta Error II
Seleccionar A1 Error I Correcta
donde puede observarse que se pueden cometer dos tipos de errores.
Error I : Seleccionar A1 cuando H0 es V

Error II : Seleccionar A0 cuando H1 es V
A la probabilidad máxima de cometer el error I le llamaremos nivel de significación de la prueba y

la denotaremos por . Esto es
P ( error I )  
La probabilidad máxima de cometer un error II, la denotaremos por . Esto es
P ( error II )  
 y  representan los riesgos máximos asociados con alternativas incorrectas.
Los valores  y  son probabilidades condicionales que están estrechamente relacianadas.
Cuando el tamaño de la muesta n es fijo,  y  varían inversamente, esto es, cuando nos alejamos
de un peligro aumentamos el otro. La prueba se llevará acabo controlando  sin preocuparnos por .
¿Cómo se hará la elección de ?
Generalmente el error I es más grave que el error II, razón por la cual le daremos a  un valor
pequeño, usualmente se toma
 = 0.01 ó  = 0.05 según el caso
En casos en que las consecuencias de cometer un error I son muy graves debemos tomar  = 0.01
(ó un riesgo aún menor).
Si las consecuencias de cometer el error I no son tan graves podemos tomar  = 0.05 ( ó un riesgo
aún mayor).
Para el ejemplo 2.2
Observemos que el procedimiento de la prueba presenta 4 situaciones indicadas abajo.

87
Altenativas Hipótesis
H0 :  = 44 es V H1 :   44 es V
A0: No aplicar el fertilizante Correcta Error II
A1: Aplicar el fertilizante Error I Correcta
donde podemos observar que:
Error I : Aplicar el fertilizante cuando en realidad no aumenta el rendimiento promedio de maíz.

Error II : No aplicar el fertilizante cuando en realidad aumenta el rendimiento promedio de maíz.
Restringiremos el error I suponiendo que
P ( error I )  0.05
Así que hemos elegido un nivel de significación  = 0.05
3. IDENTIFICAR EL ESTADISTICO DE PRUEBA Y ESTABLECER UNA REGLA DE

DECISIÓN.
Si observamos el ejemplo 2.2 notamos que hay una diferencia entre la media muestral X y el valor
supuesto μ 0 , esto es, existe una diferencia que expresamos así X -  0 = 47.30 – 44 = 3.30
quintales por manzana.
La hipótesis nula H0 como representa ausencia de efecto de una acción determinada mantendrá que
la diferencia X -  0 no es significativa.
La hipótesis alterna H1 como representa presencia de efecto de la acción mantendrá que la diferencia
X -  0 es significativa.
¿ Cómo saber si esta diferencia X -  0 es significativa o no es significativa ?
Como las hipótesis son suposiciones acerca de  , el estadístico de prueba que utilizaremos será la
media muestral X pero estandarizada, esto es, la diferencia X -  0 expresada en unidades del
error estándar de X , lo cual expresamos así
X  
X
que puede ser igual al estadístico Z o t según la tabla que presentamos abajo.
DISTRIBUCION DE LA POBLACION
Tamaño Normal No Normal
de
muestra n  conocido  desconocido  conocido  desconocido
88
n  30 Z t
n  30 Z Z Z Z
Esto significa que el valor del estadístico de prueba Z o t se obtendrá de una muestra de tamaño n y
representará en una prueba de hipótesis una diferencia que puede ser considerada
significativamente distinta de cero o no significativamente distinta de cero.
¿ Pero cómo sabremos si esta diferencia Z o t es significativamente distinta de cero o no?
Por el momento diremos simplemente si Z o t está suficientemente alejada de cero.
Estableceremos un valor de referencia o valor crítico que dependerá del tipo de prueba y del nivel
de significación 
 Prueba de cola derecha

La diferencia Z es considerada significativamente distinta de cero si existe un valor crítico z  tal
que Z  z donde z se determina de P( Z  z | Z = 0 ) =  utilizando la tabla Z y su propiedad de
simetría, o bien la diferencia t es considerada significativamente distinta de cero si existe un valor
crítico t tal que t  t donde t se determina de P( t  t | t = 0) =  utilzando la tabla t.
Esto quiere decir que Z o t está suficientemente “alejado” de cero si cae a la derecha de z  o t
según se observa en la figura de abajo
Z o t
0 z
t
NR R
Figura 2.2
Como decir que Z es significativamente distinto de cero es equivalente a decir que rechazamos H0
La regla de decisión dirá: Rechazamos H0 a un nivel de significación  si
Z  z o t  t
En caso contrario no rechazaremos H0 , es decir, "aceptamos" H0

89
 Prueba de cola izquierda

La diferencia Z es considerada significativamente distinta de cero si existe un valor crítico
-z tal que Z < - z donde -z se determina de P( Z < -z | Z = 0 ) =  utilizando la tabla Z,
o bien la diferencia t es considerada significativamente distinta de cero si existe un valor crítico -t
tal que t < -t donde -t se determina de P( t < -t | t = 0 ) =  utilizando la tabla t y su propiedad de
simetría.
Esto quiere decir que Z o t está suficientemente “alejado” de cero si cae a la izquierda de -z  o -t
según se observa en la figura de abajo
Z o t
-z 0
-t
R NR
Figura 2.1
Por tanto la regla de decisión dirá: Rechazamos H0 a un nivel de significación  si
Z  - z o t  - t
Para cada nivel de significación  que nos fijemos en una prueba de una cola existirá un valor
crítico que dividirá el rango de Z o t en dos regiones disjuntas, una región de no rechazo o
“aceptación” y otra de rechazo.
 Prueba de dos colas

La diferencia Z es considerada significativamente distinta de cero si existen dos valores críticos
-z/2 y z/2 tales que Z  -z/2 o Z  z/2 donde -z/2 y z/2 se determinan partiendo de P(
 
Z < -z/2 | Z = 0 ) = o P(Z  z/2 | Z = 0) = , utilizando la tabla Z y su propiedad de
2 2
simetría,
o bien la diferencia t es considerada significativamente distinta de cero si existen dos valores críticos
-t/2 y t /2 tales que t  -t/2 o t  t /2 donde -t/2 y t /2 se determinan de P(t  t /2 ) =

utilizando la tabla t y su propiedad de simetría.
2
Esto quiere decir que Z o t está suficientemente “alejado” de cero si cae a la izquierda de -z/2 o a
la derecha de z/2 ( a la izquierda de -t/2 o a la derecha de t /2 ) según se observa en la figura de
abajo
90
α 
2 2
α
2
Z o t
- z/2 0 z/2
- t/2 t/2
R NR R
Fig. 2.3
Por tanto la regla de decisión dirá: Rechazamos H0 a un nivel de significación  si
Z  -z/2 o Z  z/2 o bien t  -t/2 o t  t /2
Para cada nivel de significación  que nos fijemos en una prueba de dos colas existirán 2 valores
críticos que dividirán el rango de Z o t en tres regiones disjuntas, una región de no rechazo o
“aceptación” y dos regiones de rechazo.
Las reglas de decisión para probar H0 :  =  0 (    0 ,    0 ) contra H1 , pueden resumirse en

la siguiente tabla.
Reglas de decisión
Tipo de Estadístico Z Estadístico t
Prueba según H1 Rechazo H0 si Rechazo H0 si
Cola derecha    0 Z  z t  t
Cola izquierda    0 Z  - z t  - t
Dos colas    0
Z  - z/2 o Z  t  - t/2 o t 
z/2 t/2
En caso contrario diremos que no podemos rechazamos H0 ,es decir, “aceptamos” H0.
Cuando a partir de la información muestral H0 sea rechazada con un nivel de significación  =

0.05, diremos que el resultado de la prueba fue significativo, esto es, que si hicieramos un muestro
91
repetido podríamos esperar que sólo en 5 ocaciones de 100 cometeriamos el error I, en otras
palabras se tendría un 95% de confianza de que se tomó la alternativa adecuada.
Cuando H0 sea rechazada a un nivel  = 0.01 diremos que el resultado fue altamente significativo.
Para ejemplo 2.2

Para una población no normal con  desconocido y n  30 le corresponde una casilla con Z en la
tabla, por tanto el estadístico de prueba será:
X  
Z =
̂ X
Como la prueba es de cola derecha y el nivel de significación es  = 0.05

El valor crítico z se determina de P( Z  z | Z = 0 ) =  = 0.05, pero como la tabla de la
distribución de Z sólo proporciona valores de z que tiene a su izquierda el área acumulada que
señala dicha tabla, determinemos el valor z de P( Z < z | Z = 0 ) = 1 -  = 0.95 así
Los valores más cercanos a 0.95 son 0.9495 y 0.9505. Tomaremos 0.9505 al cual le corresponde
z = 1.65
Es decir que Z es significativamente distinto de cero si cae a la derecha de 1.65 según se observa en
la figura de abajo
92
0.05
Z
0 1.65
NR R
Fig. 2.4
Por tanto la regla de decisión dirá:
Rechazo H0 :  = 44 a un nivel de significación  = 0.05 si Z  z = 1.65

En caso contrario no rechazo H0 :  = 44 . “Acepto” H0 :  = 44.
4. TOMAR UNA MUESTRA ALEATORIA Y DETERMINAR EL VALOR DEL

ESTADISTICO DE PRUEBA.
Es importante destacar que la muestra se selecciona después de haber establecido la regla de
decisión. Con la información muestral vamos a valorar el estadístico de prueba
X  
que puede ser igual a Z o t
X
Para el ejemplo 2.2.

De una muestra aleatoria de tamaño n = 36 plantaciones se obtuvo un rendimiento promedio y una
desviación estándar dados por
X = 47.30 qq/mz
S = 6.60 qq/mz
Como la población es finita de tamaño N = 200 plantaciones.

El valor del estadístico de prueba es
X   S N - n 6.60 200 - 36
Z = donde ̂ X = = = 0.9986
̂ X n N -1 36 199
93
47.30 - 44 3.30
Así que Z = = = 3.3046
0.9986 0.9986
5. SELECCIONAR UNA ALTERNATIVA.
Ahora estamos listos para aplicar la regla de decisión que nos permitirá seleccionar la alternativa
más adecuada.
 Si el valor del estadístico de prueba Z o t cae en la región de rechazo entonces diremos que
rechazamos H0 a un nivel , esto es, que aceptamos H1
Luego debemos seleccionar la alternativa correspondiente a la aceptación de H1 que es A1 con un
nivel de confianza del ( 1 -  ) 100%.
 Si el valor del estadístico de prueba Z o t cae en la región de no rechazo o “aceptación” entonces

diremos que no hay suficiente evidencia para rechazar H0, esto es, “ aceptamos “ H0 , pero
débilmente.
Luego podemos seleccionar la alternativa correspondiente a la aceptación de H0 que es A0
Para el ejemplo 2.2
Como Z = 3.3046, cae en la región de rechazo
Rechazamos H0 :  = 44 a un nivel  = 0.05 ,esto es, aceptamos H1 :   44.
Luego debemos seleccionar la alternativa A1 de aplicar el fertilizante con un nivel de confianza de

95%.
EJEMPLO 2.3
Suponga que se tiene un proceso de producción de llenado de cajas de cereal del cual se supone que
el peso neto de cereal en las cajas tiene una distribución normal, y que además, proporciona un peso
neto promedio de cereal en las cajas de 2 libras.
Puesto que este proceso esta sujeto a inspecciones periódicas por representantes de la Oficina local
de protección a los consumidores, quienes únicamente les interesa la “falta de peso” en los
productos, se tomó una muestra aleatoria de 6 cajas obteniendo los siguientes pesos netos en libras.
1.85 , 2.10 , 1.95 , 1.83 , 2.18 , 1.97
¿Existe evidencia suficiente para decir que el proceso no está funcionando correctamente a un nivel
de significación del 1%?
1. FORMULACION DE LAS HIPOTESIS

En este problema los elementos a estudiar son las cajas de cereal y la característica de interés X será
el peso neto de cereal en las cajas. Estaremos interesados en suposiciones que se hagan acerca de la
media poblacional  que representará el peso neto promedio de las cajas.
Podemos ver el proceso de producción de llenado de las cajas como la acción y la disminución de
peso neto promedio de los productos con respecto a las 2 lbs como el efecto.
94
Por tanto podemos escribir.
H0 :  = 2 El proceso está funcionando correctamente
H1 :   2 El proceso no está funcionando correctamente
donde H0 :  = 2 está suponiendo que no hay disminución del peso neto promedio con respecto a
las 2 lbs mientras que la hipótesis alterna H1 :   2 supone que hay disminución del peso neto
promedio con respecto a las 2 lbs.
Observe que la prueba es de cola izquierda porque sólo nos interesan las disminuciones en el peso
neto promedio con respecto a 2.
2. ELEGIR UN NIVEL DE SIGNIFICACION.
La prueba presenta 4 situaciones indicadas abajo.
H0:  = 2 es V H1:   2 es V
El proceso está funcionando correctamente. Correcto Error II
El proceso no está funcionando correctamente. Error I Correcto
donde el error I consiste en decir que el proceso no está funcionando correctamente cuando en
realidad el proceso está llenando las cajas con un peso neto promedio de 2 lbs.
Controlaremos el error I suponiendo que
P ( error I )  0.01 Así que hemos elegido un nivel de significación  = 0.01

DECISION.
Para una población normal con  desconocida y n  30 le corresponde el estadístico de prueba t

dado por
X  
t =
̂ X
Como la prueba es de cola izquierda y  = 0.01

El valor crítico -t  se determina de P( t < -t | t = 0 ) =  = 0.01, pero como la tabla de la
distribución de t sólo proporciona valores de t que tiene a su derecha el área acumulada que señala
arriba dicha tabla, apliquemos su propiedad de simetría para determinar el valor positivo t  de P( t
> t  | t = 0 ) =  = 0.01 así
Para  = 0.01 y n - 1 = 6 - 1 = 5 g.l.
t  = 3.365 y su opuesto será - t  = - 3.365

95
Es decir que t es significativamente distinto de cero si cae a la izquierda de - 3.365 según se observa
en la figura de abajo
0.01
- 3.365 0 t
R NR
Fig. 2.5
Rechazo H0 :  = 2 a un nivel de significación  = 0.01 si t  - t  = - 3.365

En caso contrario no rechazo H0 :  = 2, es decir “acepto” H0 :  = 2

El análisis de la información muestral proporcionada por n = 6 cajas se da a continuación.
Xi Xi 2
1.85 3.4225
2.10 4.4100
1.95 3.8025
1.83 3.3489
2.18 4.7524
1.97 3.8809
11.88 23.6172
96
X 
 Xi 
11.88
 1.98 lbs.
n 6
  Xi  2  11.88  2
 Xi 2
-
n
23.6172 -
6
S2  
n -1 5
0.0948
S2   0.01896  S  0.01896  0.1377 lbs
5
Como la población se considera infinita el valor del estadístico de prueba es:
X   X -  1.98 - 2.00 - 0.02

t = = = = = - 0.3559

ˆX S/ n 0.1377 / 6 0.0562
Como t cae en la región de no rechazo diremos que no hay suficiente evidencia para rechazar H0 :
 = 2 , es decir, “aceptamos” H0 :  = 2. Luego debemos seleccionar la alternativa que dice que
el proceso de producción está funcionando correctamente.
EJEMPLO 2.4.
Suponga que una empresa tiene una cantidad muy grande de cuentas por cobrar y que los saldos de
esas cuentas tienen aproximadamente una distribución normal.
En los libros de la empresa aparece registrado un saldo promedio para esas cuentas de C$ 25850.
Un auditor con el fin de reducir la cantidad de revisión detallada que necesita utiliza muestreo
estadístico para seleccionar una muestra de 100 cuentas, obteniendo un saldo promedio de C$
27,550 y una desviación estándar de los saldos de C$ 1200.
¿Deberá el auditor concluir que el saldo es distinto a C$ 25850 y que, por lo tanto, debe hacer un
asiento de ajuste al valor en libros a un nivel de significación del 2%?
1. FORMULACION DE LAS HIPOTESIS
En este problema los elementos a estudiar son las cuentas y la característica de interés X será el
saldo de las cuentas. Será de interés hacer suposiciones acerca de la media poblacional  que
representará el saldo promedio de las cuentas.
97
Podemos ver la revisión de los saldos de las cuentas por cobrar como la acción y la diferencia del
saldo promedio con respecto a C$ 25850 como el efecto.
Por tanto podemos escribir las hipótesis así
H0 :  = 25850 No hacer un asiento de ajuste al valor en libros
H1 :   25850 Hacer un asiento de ajuste al valor en libros.
donde H0 :  = 25850 está suponiendo que no hay diferencia en el saldo promedio con respecto a
C$ 25850 mientras que la hipótesis alterna H1 :   25850 supone que hay diferencia en el saldo
promedio con respecto a C$ 25850.
Observe que la prueba es de dos colas porque nos interesan tanto las diferencias del saldo promedio
hacia la izquierda de C$ 25850 como hacia la derecha de C$ 25850.
La prueba presenta 4 situaciones indicadas abajo.
H0:  = 25850 es V H1:   25850 es V
No hacer asiento de ajuste Correcta Error II
Hacer asiento de ajuste Error I Correcta
donde Error I se da cuando hacemos un asiento de ajuste en libros cuando en realidad el saldo
promedio de las cuentas es igual a C$ 25850.
P ( error I )  0.02 De esta manera hemos elegido un nivel de significación  = 0.02

DECISION.
98
Para una población normal con  desconocida y n  30 le corresponde el estadístico de prueba Z,

como una aproximación de t , dado por
X  
Z =
̂ X
Como la prueba es de dos colas  quedará repartido en las dos colas así

 = 0.02  = 0.01


Los valores críticos -z/2 y z/2 se determinan respectivamente de P( Z < -z/2 | Z = 0) = =
2

0.01 y P(Z  z/2 | Z = 0) = = 0.01, pero como la tabla de la distribución de Z sólo
2
proporciona valores de z que tienen a su izquierda el área acumulada que señala dicha tabla,

podemos determinar primero el valor negativo -z/2 de P( Z < -z/2 | Z = 0) = = 0.01, o bien
2
podemos determinar primero el valor positivo. Una vez determinado el primero, el segundo será,
según la propiedad de simetría, el opuesto.
Determinemos primero el valor negativo - z α 2 encontrando el área más cercana a 0.01, que es
0.0099, a la cual le corresponde - z α 2 = - 2.33. El otro valor crítico será el opuesto del anterior,
esto es, z α 2 = 2.33
Es decir que Z es significativamente distinto de cero si cae a la izquierda de -2.33 o a la derecha de

2.33 según se observa en la figura de abajo
0.01 0.01
Z
- 2.33 0 2.33
R NR R
Fig. 2.6

99
Rechazo H0 :  = 25850 a un nivel  = 0.02 si Z  - z = - 2.33 o Z  z  = 2.33

En caso contrario no rechazo H0 :  = 25850. “Acepto” H0 :  = 25850.

De una muestra aleatoria de tamaño n = 100 cuentas se obtuvo la siguiente información.
X = C$ 27550
S = C$ 1200
Como la población se considera muy grande el valor del estadístico de prueba es:
X   X -  27550 - 25850 1700

Z = = = = = 14.1667

ˆX S/ n 1200/ 100 120
Como el valor de Z cae en la región de rechazo diremos que hay suficiente evidencia para rechazar
H0 :  = 25850 a un nivel de significación  = 0.02, lo cual implica que estamos aceptando H1 : 
 25850.
Luego debemos hacer un asiento de ajuste al valor en libros.
2.3 PROCEDIMIENTO DE LA PUEBA ACERCA DE p

Del tema anterior recordemos que cuando la característica de interés Y de los elementos
poblacionales siguen una distribución de Bernoulli, se demuestra fácilmente que:
μY  p y σY  p (1 - p)
Motivo por el cual a la media poblacional de Y le llamamos proporción poblacional y la denotamos

por p.
Ahora como la proporción poblacional es una media poblacional, el procedimiento para probar
hipótesis acerca de p será el mismo que se utilizó para .
Como las hipótesis serán suposiciones acerca de p, el estadístico de prueba será naturalmente la
proporción muestral pS pero estandarizada, esto es, la diferencia pS - p0 expresada en unidades del
error estándar de pS
pS - p 0
, p0 es el valor supuesto de p
ˆ p S
100
ˆ Y p0 (1 - p0 )
donde ˆ p  = si la población es infinita
S
n n
ˆ Y N-n p0 (1 - p0 ) N-n
o ˆ p  = si la población es finita.
S
n N -1 n N -1
Esta expresión puede ser aproximadamente igual al estadístico Z si n es suficientemente

grande, esto es, si
np0  5 y n (1 – p0)  5
Esto significa que el valor del estadístico de prueba Z se obtendrá de una muestra de tamaño n y
representará también una diferencia que puede ser significativa o no significativa.
EJEMPLO 2.5.
Suponga que se tiene un proceso de producción de llenado de envases plásticos de café.

Con base en la experiencia acumulada se sabe que por lo menos el 4% de los envases no cumplen
con los estándares de sellado y tienen que ser reprocesados.
Después de haber desarrollado un nuevo sistema de envase el gerente de control de calidad decide
tomar una muestra aleatoria de 400 envases la cual señala que es necesario reprocesar 10.
¿Tiene suficiente evidencia el gerente para concluir a un nivel de significación del 5% que el nuevo
sistema es mejor que el anterior, esto es, que la proporción de envases defectuosos ha descendido?
En este problema los elementos a estudiar son los envases plásticos y la característica de interés Y es
la seguridad que ofrece el envase en cuanto a si cumple o no cumple los estándares de sellado.
Como estamos interesados en los envases defectuosos el éxito será que no cumplen.
Por tanto estamos en presencia de una población de Bernoulli de la cual nos interesan las
suposiciones acerca de la proporción p de envases que no cumplen los estándares de sellado.
Podemos ver el proceso de producción de llenado de los envases plásticos como la acción y el
descenso de la proporción de envases defectuosos con respecto a 0.04 como el efecto.
Así que las hipótesis serán:
H0 : p  0.04 El nuevo sistema no es mejor

H1 : p  0.04 El nuevo sistema es mejor
donde H0 : p  0.04 está suponiendo que no hay descenso en la proporción de envases que no
cumplen con respecto a 0.04 mientras que la hipótesis alterna H1 supone que hay descenso en la
proporción de envases que no cumplen.
101
Observe que la prueba es de cola izquierda porque sólo nos interesan los descensos de la
proporción de envases que no cumplen con respecto a 0.04.
La prueba presenta las 4 situaciones indicadas abajo.
Alternativas Hipótesis
H0: p  0.04 es V H1: p  0.04 es V
El nuevo sistema no es mejor Correcta Error II
El nuevo sistema es mejor Error I Correcta
donde el error I consiste en decir que el nuevo sistema es mejor cuando en realidad no hay descenso
en la proporción de envases que no cumplen.
Controlaremos el error I suponiendo que P (error I)  0.05
De esta manera hemos elegido un nivel de significación  = 0.05

DECISION.
Como la población tiene una distribución de Bernoulli, el estadístico de prueba es
pS - p 0
Z =
ˆ p S
Porque np0 = 400 (0.04) = 16  5 y n ( 1 – p0 ) = 400 (0.96) = 384  5
Como la prueba es de cola izquierda y  = 0.05 , el valor crítico -z  se determina de

P( z < -z | Z = 0 ) =  = 0.05, como la tabla de la distribución de Z sólo proporciona valores de z
que tiene a su izquierda el área acumulada que señala dicha tabla, determinemos el valor negativo -z
 así
El área más cercana a 0.05 es 0.0505 ó 0.0495
Tomemos 0.0505 a la cual le corresponde - z = - 1.64
Es decir que z es significativamente distinto de cero si cae a la izquierda de - 1.64 según se observa
en la figura de abajo
0.05
102
- 1.64 0 Z
R NR
Fig. 2.7
Por tanto la regla de decisión dirá lo siguiente:
Rechazo H0 : p  0.04 a un nivel de significación  = 0.05 si Z  - z = - 1.64

En caso contrario no rechazo H0 : p  0.04 , esto es “acepto” H0 : p  0.04

De la muestra aleatoria de tamaño n = 400 envases se puede obtener la siguiente información
X 10
pS = = = 0.025
n 400
Como la población se considera infinita el valor del estadístico de prueba es
pS - p0 0.025 - 0.04
pS - p 0 - 0.015
Z =
ˆ p S
= p0 (1  p0 ) = 0.04 (0.96) = = -1.5306
0.0098
n 400
5. SELECCIONAR UNA ALTERNATIVA

Como el valor de Z cae en la región de no rechazo diremos que no hay suficiente evidencia para
rechazar H0 : p  0.04 , es decir, “aceptamos” H0 : p  0.04.
Luego el nuevo sistema no es mejor que el anterior.
EJEMPLO 2.6.
Una empresa tiene 1500 cuentas por cobrar.
En los libros de la empresa aparece registrado que sólo el 2% de los documentos no satisfacen los
requisitos establecidos.
Un auditor selecciona una muestra aleatoria de 300 y verifica que 12 no satisfacen los requisitos
establecidos.
¿Hay evidencia suficiente para que el auditor declare a un nivel de significación del 1% que más del
2% de las cuentas no satisfacen los requisitos establecidos por la institución?
1. FORMULACION DE LA HIPOTESIS.
Ahora los elementos a estudiar son las cuentas por cobrar y la característica de interés Y es la
verificación de las cuentas en cuanto a si satisfacen o no satisfacen los requisitos. Por lo tanto hay
una población de Bernoulli de la cual nos interesan las suposiciones acerca de la proporción p de
cuentas que no satisfacen los requisitos establecidos.
Podemos ver la verificación de las cuentas como la acción y son más del 2% la proporción de
cuentas que no satisfacen los requisitos como el efecto.
103
La hipótesis quedan formuladas así:
H0 : p = 0.02 Declarar que el 2% de las cuentas no satisfacen los requisitos

H1 : p  0.02 Declarar que más del 2% de las cuentas no satisfacen los requisitos
donde H0 : p = 0.02 está suponiendo que no son más del 2% la proporción de cuentas que no
satisfacen los requisitos, mientras que la hipótesis alterna H1 : p  0.02 supone que son más del 2%
la proporción de cuentas que no satisfacen los requisitos.
Observemos que la prueba es de cola derecha porque sólo nos interesa si son más del 2% la
proporción de cuentas que no satisfacen los requisitos.
2. ELEGIR UN NIVEL DE SIGNIFICACION
La prueba presenta las 4 situaciones indicadas abajo.
Alternativas Hipótesis
H0: p = 0.02 es V H1: p  0.02 es V
El 2% de las cuentas no satisfacen. Correcta Error II
Más del 2% de las cuentas no satisfacen. Error I Correcta
donde Error I consiste en declarar que más del 2% de las cuentas no satisfacen los requisistos
cuando en realidad sólo el 2% de las cuentas no satisfacen los requisitos.
P ( error I )  0.01 Así que hemos elegido un nivel de significación  = 0.01

DECISION.
Como la población tiene una distribución de Bernoulli el estadístico de prueba será:
pS - p 0
Z =
ˆ p S
Porque np0 = 300 (0.02) = 6  5 y n (1 – p0 ) = 300 (0.98) = 294  5
Como la prueba es de cola derecha y el nivel de significación es  = 0.01

El valor crítico z se determina de P( Z  z | Z = 0 ) =  = 0.01, pero como la tabla de la
distribución de Z sólo proporciona valores de z que tiene a su izquierda el área acumulada que
señala dicha tabla, determinemos el valor z de P( Z < z | Z = 0 ) = 1 -  = 0.99 así
El área más cercana a 0.99 es 0.9901 a la cual le corresponde z = 2.33
104
Es decir que Z es significativamente distinto de cero si cae a la derecha de 2.33 según se observa en
la figura de abajo
0.01
Z
0 2.33
NR R
Fig. 2.8
Rechazo H0 : p = 0.02 a un nivel de significación  = 0.01 si Z  z = 2.33

En caso contrario no rechazo H0 : p = 0.02. “Acepto” H0 : p = 0.02

De la muestra de tamaño n = 300 cuentas se obtiene la siguiente información.
X 12
pS = = = 0.04
n 300
El valor del estadístico de prueba es
pS - p 0
pS - p 0
Z = = p0 (1- p0 ) N - n
ˆ p S
n N -1
n 300
Porque la población es finita con = = 0.20  0.05
N 1500
105
Así que
0.04 - 0.02
0.02
Z = 0.02 (0.98) 1200 = (0.0081) (0.8947) = = 2.7597
300 1499
Como Z cae en la región de rechazo diremos que hay suficiente evidencia para rechazar H0 : p =
0.02 a un nivel de significación  = 0.01, lo cual implica que aceptamos H1 : p  0.02
Luego el auditor debe declarar que más del 2% de las cuentas no satisfacen los requisitos
institucionales.
EJERCICIOS PROPUESTOS DEL TEMA 2: PRUEBA DE HIPOTESIS
1. Suponga, según registros históricos de la industria de la langosta en Nicaragua, que la captura

de langosta por trampa tiene una distribución normal y que además la captura promedio de langostas
ha sido de 30.31 libras. Hace unos años el gobierno de un país vecino declaró que se prohibía a los
pescadores nicaragüenses operar en la parte de su plataforma continental, razón por la cual se cree la
captura promedio de langosta en libras por trampa ha disminuido notablemente.
Una muestra aleatoria de 10 trampas para langostas, desde que la restricción entró en vigor,
proporcionó los siguientes resultados:
17.4, 18.9, 39.6, 34.4, 19.6, 33.7, 37.2, 27.5, 41.7, 24.1
¿ Ha disminuido la captura promedio de langosta por trampa a un nivel de significación del 1% ?
2. El rendimiento promedio de maíz en las plantaciones hace un tiempo era de 50qq. por manzana
con una desviación estándar de 4qq. Se utilizó un nuevo fertilizante a un grupo de 52 plantaciones
seleccionadas al azar obteniendo un rendimiento promedio de 55qq. por manzana. Suponiendo que
la desviación estándar de los rendimientos con el nuevo fertilizante sigue siendo la misma, ¿ Se
106
puede afirmar que ha habido un incremento significativo en el rendimiento? Use un nivel de

significación del 5%.
3. Suponga que se tiene un proceso de produccion de llenado de cajas de pasas del cual se supone
que el peso neto de las pasas en las cajas tiene una distribución aproximadamente normal, y que
además, proporciona un peso neto promedio de pasas por caja de 15 onzas.
Debido a que ha habido quejas de consumidores que dicen que las cajas contienen un peso neto
menor que el anunciado por la etiqueta del producto, se tomó una muestra aleatoria de 20 cajas para
aclarar el asunto obteniéndose un peso neto promedio de 13.5 onzas y una desviación estándar de 1
onza.
¿ Podemos decir a un nivel de significación del 1% que el reclamo de los consumidores es justo ?
4. Un vendedor de neumáticos está interesado en comprar unidades cuya duración promedio sea
mayor de 15,000 millas. Una firma productora le informa que posee neumáticos que cumplen con
ese requisito. El vendedor selecciona una muestra aleatoria de 25 unidades y determine que:
X  25,000 millas y S2 = 625,000 millas2
Suponiendo que la duración de los neumáticos sigue una distribución normal.

¿Habrá acuerdo entre la firma productora y el vendedor a un nivel de significación del 10%?
5. Un fabricante vende ejes traseros de camiones. Los ejes han de soportar una capacidad
promedio de resistencia de 80,000 lbs por plg2 en las pruebas de esfuerzo, pero los ejes demasiados
fuertes elevan considerablemente los costos de producción. La experiencia indica que la desviación
estándar de los ejes es de 4,000 lbs por plg2. El fabricante selecciona una muestra de 100 ejes en la
última serie de producción, los somete a prueba y averigua que la capacidad promedio de resistencia
de la muestra es de 79,000 lbs por plg2.
¿ Puede decir el fabricante que los ejes no cumplen los requisitos de esfuerzo a un nivel de
significación del 5%?
6. Un laboratorio lanza al mercado un nuevo producto logrado a base de hormonas afirmando que
al ser suministrado a las aves de corral el peso promedio de sus huevos será igual o mayor que 3
onzas. En una de nuestras granjas avícolas se aplicó el tratamiento masivamente y un día
determinado se tomaron de forma aleatoria 80 huevos, y se comprobó que el peso promedio de los
mismos era de 2.9 onzas, con una desviación estándar de 0.2 onzas. ¿Podría decir usted que la
afirmación del laboratorio no es cierta a un nivel de significación del 5%?
7. La biblioteca de una universidad sospecha que el número promedio de libros prestados a cada
alumno por visita ha cambiado en los últimos años. Anteriormente, un promedio de 3.4 litros se
prestaba a los alumnos. Sin embargo, una muestra reciente de 23 estudiantes dio un promedio de 4.3
libros por visita, con una desviación estándar de 1.5 libros.
Suponiendo que el número de libros prestados sigue una distribución normal
¿ Ha cambiado el promedio de libros prestados? En un nivel de significación de 0.01.
8. Una tienda ha iniciado una promoción especial para su horno de gas propano y piensa que la
promoción deberá culminar en un cambio de precios. Sabe desde antes de comenzar la promoción
que el precio de menudeo de los hornos sigue una distribución normal y que el precio promedio de
menudeo de los hornos era de C$ 419.50, con una desviación estándar de C$53.60. La tienda
107
muestrea 16 de sus detallistas una vez iniciada su promoción y descubre que el precio promedio al
menudeo de los hornos es de C$ 389.50. En un nivel de significación de 0.02. ¿ tiene motivos para
pensar que el precio promedio al menudeo ha disminuido?
9 Un proceso industrial usado por una fábrica durante algunos años da una producción promedio
de 100 unidades por hora con una desviación estándar de 8 unidades. Acaba de ponerse en el
mercado una nueva máquina para producir el mismo producto. Aunque es muy costosa comparada
con la que se usa actualmente, su adopción sería muy lucrativa , si su producción promedio fuera
mayor de 150 unidades por hora. La gerencia de la fábrica compra una de las nuevas máquinas
como un experimento y la prueba durante 35 horas encontrando una producción promedio de 160
unidades por hora.
Suponiendo que la desviación estándar de la producción para la nueva máquina es idéntica a la de
las antiguas, ¿ deberá ser adquirida la nueva máquina a un nivel de significación del 1% ?
10. Un nuevo sistema de enseñanza de cierto curso de Estadísticas asegura que proporciona un
rendimiento promedio de 75 puntos. En una muestra aleatoria de 10 estudiantes se comprobó que
sus calificaciones fueron:
70, 80, 75, 55, 65, 85, 90, 60, 75, 55.
Suponiendo que la distribución de las calificaciones es normal, ¿Podemos decir que el nuevo
sistema no alcanza el rendimiento promedio que asegura? Use un nivel de significación del 5%.
11. El gerente de una compañía financiera se queja de que el 7% de los pagos parciales de
préstamos hechos a consumidores no se cubren a tiempo. ¿Podríamos afirmar que esta cifra es
diferente, si 80 de 1500 pagos de préstamos no se hacen a tiempo? Utilice un nivel de significación
del 1%?
12. Un corredor de bolsas sostiene que puede predecir con un 85% de exactitud si una acción del
mercado bursátil cambiará de valor durante el próximo mes. A manera de prueba predice el
resultado de 60 acciones y acierta en 45 de sus pronósticos. ¿Ofrecen los datos evidencia
concluyente, cuando el nivel de significación es del 2%, de qué la exactitud de su predicción es
significativamente diferente al 85% afirmado por el corredor?.
13. ENEL utiliza decenas de miles de luminarias cada año. La marca que ha utilizado hasta ahora
tiene una vida promedio de 1,000 horas con una desviación estándar de 90 horas. Se le ofrece una
nueva marca al director de ENEL a un precio mucho más bajo que el que ha estado pagando. El
director decide que se debiera comprar la nueva marca ahora a menos que tengan una vida promedio
menor de 1,000 horas en un nivel de significación de 0.05. Se prueba 100 luminarias de la nueva
marca, que dan promedio de 990 horas. Suponiendo que la desviación estándar para la nueva marca
es la misma que la vieja. ¿ Cuál sería la decisión del director de ENEL?.
14. Una empresa de camiones de carga sospecha que la duración promedio de 25,000 Kms que se le
adjudica a ciertos neumáticos es demasiado larga. Para demostrar la afirmación la empresa coloca
una muestra tomada al azar de 35 neumáticos en sus camiones y descubre después que su duración
108
promedio es de 24410 Kms y la desviación estándar es de 1348 Kms. ¿Se podría concluir a un nivel
de significación de 0.01 que la duración promedio no es tan larga como se afirma?
15. Una persona que planea abrir un restaurante cerca de una zona residencial de cierta ciudad,
informa al banco al que desea pedir el capital necesario, que por lo menos el 50% de los residentes
en ese distrito patrocinarán su restaurante esporádicamente cuando este abierto. Suponga que Ud. Es
el encargado de préstamos del banco y desea verificar si lo que dice la persona no es cierto con un
nivel de significación del 5%. Además suponga que de una muestra aleatoria de 50 residentes de ese
distrito solamente el 44% indicaron su intención de patrocinar el restaurante propuesto.
a) ¿ No debo autorizarle el préstamo ?.
b) Suponga que la muestra ha sido de 200 en lugar de 50, y que la proporción muestral fuera aún
de 0.44, ¿ Sería diferente su conclusion ?
16. Un fabricante de salsa de tomate está a punto de decidir si producir una marca nueva de mucho
condimento. El departamento de investigación de la fabrica aplicó una encuesta telefónica a nivel
nacional a 6,000 familias y averiguó que la salsa sería comprada por 335 de ellas. Un estudio mucho
más exhaustivo hecho dos años antes reveló que el 5% de las familias comprarían la marca. En un
nivel de significación de 1% ¿ Debería la compañía concluir que hay un mayor interés en el sabor
tan condimentado?
17. La experiencia de un comerciante en aparatos y accesorios mostró que el 10% de clientes que
compran a plazos liquidan sus cuentas antes del vencimiento de la última mensualidad. Al sospechar
un incremento en este porcentaje, el comerciante muestreó 200 compradores a crédito para saber sus
intenciones, 33 de ellos afirmaron tener planeado pagar sus deudas antes de la última mensualidad.
¿Son los datos suficientes para indicar que el porcentaje de compradores a plazos que pagarán sus
deudas antes de la última mensualidad excede de 10% ?. Haga la prueba con un nivel de
significacion de 0.02.
18. El departamento de personal de una empresa quiere estimar los gastos médicos promedios por
familia de sus empleados, a fin de determinar un plan de seguro médico. Una muestra aleatoria de
10 empleados mostró los gastos médicos familiares siguientes en un año:
$110 , 362 , 246 , 85 , 510 , 208 , 173 , 425 , 316 , 179 .
Suponiendo que los gastos médicos por familia siguen una distribución normal
A un nivel de significación de 0.10. ¿ Podría concluir el gerente de personal que los gastos médicos
promedios por familia de todos los empleados es distinto a $200.
19. El departamento de servicio a cliente de una empresa local de servicios públicos telefónicos
quiere estimar el tiempo promedio entre la llegada de la solicitud de servicio y la conexión del
mismo. De los registros disponibles del año anterior se seleccionó una muestra aleatoria de 15 casos.
Los resultados en días fueron los siguientes:
114 , 78 , 96 , 137 , 78 , 103 , 117 , 126 , 86 , 99 , 114 , 72 , 104 , 73 , 86 .

109
Suponiendo que la distribución de los tiempos entre la llegada de la solicitud y la conexión es

normal. Aun nivel de significación de 0.01. ¿es posible que el tiempo promedio de espera en el año
anterior haya sido mayor de 90 dias?.
20. Un fabricante de televisores anuncia que el 90% de sus aparatos no necesitan ninguna
reparación durante los dos primeros años de uso. La oficina de protección al consumidor selecciona
una muestra de 100 aparatos y encuentra que 14 necesitan alguna reparación durante los dos
primeros años de uso. A un nivel de significación de 0.05. ¿a qué conclusión puede llegar la oficina
de protección al consumidor?
21. El editor de una revista encontró basándose en su experiencia que el 60% de sus suscriptores
renuevan sus suscripciones. Como la compañía se encaminaba a una recesión en sus negocios,
decidió seleccionar una muestra de clientes para determinar si planeaban renovar sus suscripciones.
108 personas de una muestra de 200 indicadores que si pensaban renovarlas. ¿Proporcionan los
datos suficiente evidencia para detectar una reducción en la proporción de los suscriptores que si
renovarán? Realice la prueba usando un nivel de significación del 5%.
22. Aproximadamente uno de cada diez consumidores de una región determinada prefieren el
refresco de cola marca A. Después de una campaña de promoción en esa región, se seleccionó
aleatoriamente 200 consumidores de ese producto resultando que 26 expresaron su preferencia por
el refresco de cola marca A. ¿ Hubo aumento en la preferencia del refresco de cola marca A en la
región a un nivel de significación del 10% ?
23. Un fabricante de azúcar que la empaca en bolsas de plástico dice que cuando el proceso está
bajo control cada bolsa debe contener 10 onzas como promedio. Periódicamente se toma una
muestra de 9 bolsas para comprobar el proceso. Se acaba de tomar una muestra aleatoria de 9 bolsas
y se encontró que el peso promedio es de 10.3 onzas con una desviación estándar de 0.45 onzas.
Suponiendo que los pesos de las bolsas de azúcar siguen una distribución normal, ¿ podrá decirse
que el proceso está fuera de control a un nivel de significación del 2%?
TEMA 3. ANALISIS DE REGRESION LINEAL SIMPLE

OBJETIVOS
1. Conocer el establecimiento formal del modelo de regresión lineal normal con dos variables.
2. Estimar la función de regresión poblacional e interpretar sus coeficientes obtenidos.
3. Trazar la línea de regresión estimada sobre el diagrama de dispersión y conocer algunas
propiedades de ella.
4. Hacer un análisis de varianza cuando se ajusta una línea de regresión a los datos determinando
medidas de asociación entre las dos variables e interpretando sus valores
5. Probar si existe relación lineal significativa entre las dos variables.
6. Utilizar el modelo de regresión lineal simple en la estimación o predicción (puntual o por
intervalo) de variables económicas.
3.1. INTRODUCCION
110
El propósito fundamental del análisis de regresión es estimar la relación que puede existir entre dos
o más variables, con el fin de que la media de una variable pueda ser estimada o predicha a partir de
valores conocidos o fijados de la otra u otras.
La variable que va a ser estimada o predicha la denotaremos por Y y la llamaremos variable

explicada, predicha o dependiente. Las otras variables generalmente se denotan por Xi y las
llamaremos variables explicativas, predictoras o independientes.
Algunas situaciones ilustrativas son las siguientes:
1. Un economista puede esta interesado en estudiar la relación entre las siguientes variables.
Y : Consumo familiar mensual.

X1 : Ingreso familiar mensual.
X2 : No de hijos.
2. En contabilidad de costos, un contador o un administrador de una empresa puede estar

interesado en estudiar la relación entre las siguientes variables:
Y : Costo de mano de obra directa de una orden de producción.

X1 : No horas máquinas utilizadas.
X2 : No artículos producidos.
3. En agricultura, un economista agrícola o un ingeniero agrónomo puede estar interesado en

estudiar la relación entre las siguientes variables:
Y : Rendimiento en qq/mz de una plantación de maíz.

X1 : Cantidad de fertilizante utilizado en lbs/mz.
X2 : Cantidad de insecticida utilizado.
X3 : Cantidad de lluvia.
En este tema sólo estudiaremos la relación entre 2 variables, motivo por el cual al análisis de
regresión se le llama simple.
3.2 EL MODELO DE REGRESION LINEAL NORMAL CON DOS VARIABLES.

Este modelo considera solamente la relación entre las variables X, Y, en cuya población de
observaciones suponemos que:
1. Para cada valor que tome X hay una distribución normal de Y.

2. Las medias de las distribuciones de Y varían linealmente con X.
Una representación gráfica de este modelo es la siguiente:

111
Yi  4300
Yi  3500
Fig. 3.1
A la línea que pasa por las medias de Y la llamaremos línea de regresión poblacional
Por ejemplo, supongamos que las características de interés en las familias de una comunidad están
dadas por las siguientes variables:
X representa el ingreso mensual y Y representa el consumo mensual.
Si xi representa el i-ésimo valor que toma X y Yi la i-ésima observación de Y, entonces podemos
decir que para un nivel de ingreso xi = C$ 4000 hay una subpoblación en la cual podemos suponer
que Yi tiene una distribución normal con un consumo promedio dado por μ Yi | x i  C$3800
Supongamos que para el nivel xi = C$ 4000 se selecciona al azar una familia y se registra la
observación Yi = C$ 4300
Supongamos ahora que para el nivel x i = C$ 4000 se selecciona al azar una familia y se registra la
observación Yi = C$ 3500
En la figura 3.1 pueden apreciarse estas observaciones y toda la población de observaciones con la
línea de regresión poblacional pasando sobre las medias de Yi.
3.2.1 ESTABLECIMIENTO FORMAL DE MODELO.

Supongamos que xi representa el i-ésimo valor que toma X y Yi la i-ésima observación de Y
Para cada xi existe una subpoblación de observaciones de Y que pueden apreciarse en la figura 3.2 y
que consideramos provienen de una variable aleatoria Yi que será vista como la suma de 2
componentes:
112
Fig. 3.2
i) Un término constante explicado linealmente por X y que denotaremos por
o + 1 xi
donde o y  1 son los parámetros de regresión que llamaremos respectivamente intercepto y

pendiente de la línea de regresión.
ii) Un término aleatorio o error aleatorio, no explicado por X, que denotaremos por
i
y que se verá como una variable aleatoria sustituta de todas las demás variables omitidas en el
modelo y que pueden estar relacionadas con Y.
Esta componente  i es la que le imparte aleatoriedad a Yi
Por lo tanto el modelo queda establecido con la expresión
Yi = o +  1 xi +  i y los siguientes supuestos:
Supuesto 1. X no es variable aleatoria.

Este supuesto plantea que X toma valores xi fijados por el investigador y éstos se mantienen
constantes en muestreos repetidos.
Si X toma valores al azar, pero con una distribución de probabilidad independiente de los  i,
entonces para cualquier fin práctico podemos continuar trabajando como si X fuera no aleatoria.
Supuesto 2. Los  i son variables aleatorias distribuidas normalmente.
Este supuesto implica que también Yi es una variable aleatoria con distribución normal.
Esto quiere decir que cada observación particular yi se considerará que proviene de una distribución
normal de Yi.
113
Su presencia simplificará la teoría del análisis de regresión cuando estemos utilizando

procedimientos de estimación y prueba más adelante.
Supuesto 3. Los  i son variables aleatorias independientes
Este supuesto plantea que para dos observaciones diferentes i y j los errores  i y  j , además de estar
distribuidos normalmente, no están correlacionados. La anterior implica que  i y  j son
independientes.
Como consecuencia de este supuesto podemos decir que también las observaciones Yi y Yj son
independientes, esto es, que cada observación es independiente de cualquier otra observación que se
haya dado.
Supuesto 4. La media de los  i es cero ( Neutralización de los  i )
μ i | x i  0  μ Yi | x i  β 0  β1x i
donde la expresión μ  | x se leerá, la media de i cuando que X toma el valor xi , y la expresión

i i
μ Yi | x i se leerá la media de Yi cuando que X toma el valor xi
Sustituyendo o + 1 xi por μ Y | x en el modelo obtenemos Yi = μ Y | x +  i donde podemos

i i i i
observar que el error aleatorio puede expresarse así:

 i = Yi - μ Yi | x i
Además  i es positivo si Yi está encima de μ Y | x , y negativo si Yi está debajo de μ Y | x
i i i i
Por ejemplo, suponiendo que las familias de la comunidad con un nivel de ingreso de x i = C$4000
tienen siempre un consumo promedio dado por μ Yi | x i  C$3800 entonces los errores aleatorios para
los consumos de las familias seleccionadas al azar anteriormente estarían determinadas así:
i = Yi - μ Y
i | xi = 4300 – 3800 = C$500 y i = Yi - μ Y | x = 3500 – 3800 = C$ -300
i i
y pueden apreciarse en la figura 3.1
Este supuesto plantea que aquellas variables que no están incluidas en el modelo, incorporadas, por
tanto, en  i , no afectan sistemáticamente la media de Yi.
En otras palabras, los valores positivos de  i se cancelan con los valores negativos de tal manera que
su efecto sobre la media de Yi es cero.
En las figuras 3.1 y 3.2 puede apreciarse una población de observaciones y una línea de regresión
poblacional neutralizando los errores aleatorios  i , esto es, pasando sobre las medias de Yi
Le llamaremos función de regresión poblacional de Y sobre X a la expresión.
μ Y | X  β 0  β1 X para cualquier valor X dentro del alcance del modelo.

114
Observe que las medias de Y están relacionados linealmente con los valores conocidos de X.
Al gráfico de esta función le llamaremos línea de regresión poblacional.
Los parámetros de regresión  o y  1 serán interpretados así:
 1 es la pendiente de la línea de regresión. Representa el cambio en la media de Y por cambio

unitario en X.
El valor de  1 puede ser positivo o negativo.
Si  1 es positiva diremos que hay una relación lineal positiva entre X , Y ; lo cual significa que si X
aumenta, μ Y| X también aumenta. En las figuras 3.1 y 3.2 pueden apreciarse una relación lineal
positiva.
Si  1 es negativa diremos que hay una relación lineal negativa entre X , Y; lo cual significa que si X
aumenta, μ Y| X disminuye. En la figura 3.3. puede apreciarse una relación lineal negativa.
Fig.3.3
 o es el intercepto de la línea de regresión. Representa la media de Y en X = 0

Si el alcance del modelo no incluye X = 0,  o no tiene ningún significado a menos que el contexto
del problema lo sugiera, esto es, cuando se considera que X = 0 no se aleja mucha del alcance del
modelo.
El valor de  o puede ser positivo o negativo. En las figuras 3.1, 3.2 y 3.3 se aprecia un  o positivo,
mientras que en la figura 3.4 se aprecia un  o negativo.
Supuesto 5. Homoscedasticidad o igual varianza de los  i
σ2i | x i  σ 2  σ 2Yi | x i  σ 2
2 2
La expresión σ  i | x i se leerá, la varianza de i cuando que X toma el valor xi y la expresión σ Yi | x i
se leerá la varianza de Yi cuando que X toma el valor xi
115
2
En este supuesto observe que σ 2 no tiene el subíndice i, lo cual significa que σ  i para cada xi es
2
una constante igual a σ 2 , lo cual implica que σ Yi para cada xi es también una constante igual a σ 2 .
En otras palabras las distribución de probabilidad de Yi tienen siempre la misma varianza
independientemente del valor que tome X.
En las figuras 3.4 y 3.5 pueden apreciarse dos líneas punteadas trazadas a una distancia  de la línea
de regresión poblacional y paralelas a esa misma línea de regresión, que nos señala que
posiblemente la mayor parte de las observaciones quedan dentro de esos límites.
La magnitud de  me indicará qué tanto se alejan o se acercan las observaciones Yi de las medias de
Yi que están sobre la línea de regresión poblacional.
Al comparar la figura 3.4 con la figura 3.5 pueden apreciarse distintos valores para . En qué figura
las observaciones están más alejadas de su línea de regresión?
Fig 3.4
Fig. 3.5
Finalmente todos los supuestos anteriores pueden resumirse diciendo que los x i son valores
constantes y que los Yi son variables aleatorias independientes distribuidas normalmente con
μ Yi | x i  β 0  β1 x i y σ 2Yi | x i  σ 2
3.3 ESTIMACION DE LA FUNCION DE REGRESION POBLACIONAl.

116
Como en la función de regresión poblacional μ Y | X  β 0  β1 X los parámetros de regresión  o y

 1 no son conocidos necesitamos estimarlos a partir de una muestra.
Antes de establecer cómo estimar los parámetros, digamos algo acerca del significado de una
muestra aleatoria en el contexto presente.
Denotemos el i-ésimo experimento por el par ordenado (xi , Yi) donde xi se considera una constante
y Yi una variable aleatoria
Por ejemplo, el primer experimento se considera que es la primera familia seleccionada al azar de
la comunidad con el primer ingreso mensual fijado x 1 por el investigador y con el primer consumo
mensual observado Y1, el segundo experimento se considera que es la segunda familia seleccionada
al azar de la comunidad con el segundo ingreso mensual fijado x2 por el investigador y con el
segundo consumo mensual observado Y2 ,y así sucesivamente.
Si consideramos n experimentos entonces al conjunto de pares ordenados ( x 1 , Y1 ) , ( x2 , Y2 ) , . . . ,
( xn , Yn ) le llamaremos muestra aleatoria de tamaño n , y la presentaremos así
xi Yi
x1 Y1
x2 Y2
. .
. .
. .
xn Yn
Cuando los pares ordenados (xi , Yi) de la muestra tomen sus propios valores los ubicaremos sobre
un plano cartesiano para obtener una nube de puntos que llamaremos diagrama de dispersión.
0 X
Fig. 3.6
La impresión visual de este diagrama nos va a sugerir si existe posiblemente una relación lineal
entre X , Y
117
Para estimar los parámetros de regresión  o y  1 necesitaremos estimadores insesgados que

denotaremos así
bo será el estimador de  o
b1 será el estimador de  1
Teniendo los estimadores b0 y b1 resulta natural definir la función de regresión muestral así
ˆ  b 0  b1 X
Y
donde Ŷ ( lea Y sombrero ) es el valor de la función de regresión muestral para el nivel X.
Ŷ es un estimador puntual insesgado de μ Y | X , razón por la cual se identificará como una media
estimada de Y para el nivel X.
Al gráfico de esta función le llamaremos línea de ajuste o línea de regresión estimada.
Para un valor particular xi de X
ˆ i  b 0  b1x i
Y
será llamado valor ajustado de Y para el nivel xi
Los estimados bo y b1 se llamarán y se interpretarán así:
b1 es la pendiente estimada. Representa una estimación del cambio en el valor medio de Y por
cambio unitario de X.
bo es el intercepto estimado. Representa una estimación del valor medio de Y en X = 0.

118
3.3.1. METODO DE LOS MINIMOS CUADRADOS.
Supongamos que a un valor particular xi de X le corresponde una observación Yi

Denotaremos y definiremos el i-ésimo resíduo de una observación Yi como
ei = Yi - Ŷi
Esto es la diferencia entre el valor observado Yi y el valor ajustado Ŷi
Cuando conocemos el intercepto y la pendiente de una línea decimos que dicha línea está claramente
especificada. La línea de regresión estimada quedará determinada cuando conozcamos las fórmulas
que definen a los estimadores bo y b1.
Un buen método para encontrar las fórmulas para bo y b1 es buscar una línea que mejor se ajuste a
la nube de puntos, esto es, que pase por ella minimizando la suma de los cuadrados de la resíduos,
según se muestra en la figura siguiente.
Y Línea de regresión estimada
Yi
ei
b1
Ŷi
b0
b 0  b1 x i
0 xi X
Fig. 3.7
n
Hagamos que Q  e.
2
i
n n
Q    Yi - Ŷi    
 i 0 1 i en donde n es el tamaño de la muestra.
2 2
entonces Y - b - b x
. .
Sabemos que Q es una función que depende de bo y b1 , esto es,
Q = f ( bo , b1 )
119
Minimicemos Q aplicando el calculo diferencial así
Q n
 bo
 2   Yi - b o - b1
.
x i  ( -1 )
Q n
 b1
 2   Yi - bo - b1 x i  ( - x i )
.
igualando a cero ambas ecuaciones y arreglando términos nos queda.
n n
1.  Yi  n bo  b1  x i
. .
n n n
2. .
x i Yi  b o  x i  b1  x i 2
. .
que son llamadas ecuaciones normales.
Despejando bo y b1 de este sistema de ecuaciones se tiene
n n
n x Y i i
 x i Yi - . .
n n
b1  . n
2 y  Yi - b1 x i
 n
 b0  . .
n
 x i  n
 x - 
2
i
. 
. n
Una vez calculado los valores b0 y b1 procedemos a sustituirlos en la función de regresión

muestral
ˆ  b 0  b1 X
Y
cuyo gráfico, según este método, podrá llamarse línea de ajuste o línea de los mínimos cuadrados.
3.3.2 PROPIEDADES PRINCIPALES DE LA LINEA DE AJUSTE
1. La suma de los resíduos es cero.

n
e i 0
n n
2.. Siempre pasa por el punto ( x, Y ) donde  xi y Y i
x Y
n n
120
EJEMPLO 3.1.
La gerente de una compañía desea estimar la relación entre los costos de materiales usados en un
proceso químico (Y) y las horas de operación (X). Con esta información ella espera ser capaz de
preparar un presupuesto más preciso y tener un mejor control sobre los costos.
Datos sobre los costos en centenas de dólares para varias horas de operación del proceso son
presentados abajo.
Horas Costos
50 6.5
20 4.0
30 4.5
50 6.0
40 5.5
30 5.0
30 5.5
10 3.5
40 6.0
20 4.5
i) Construya un diagrama de dispersión.
Y 7
Línea de ajuste
6
0
0 10 20 30 40 50 X 60
Fig. 3.8
121
ii) Encuentre la función de regresión lineal muestral e interprete los coeficientes de regresión
estimados.
xi Yi xi2 xi Yi Y i2
50 6.5 2500 325 42.25
20 4.0 400 80 16.00
30 4.5 900 135 20.25
50 6.0 2500 300 36.00
40 5.5 1600 220 30.25
30 5.0 900 150 25.00
30 5.5 900 165 30.25
10 3.5 100 35 12.25
40 6.0 1600 240 36.00
20 4.5 400 90 20.25
320 51.0 11800 1740 268.50
n n
n  xi Y i
x i Yi - . .
n
320 ( 51 )
1740 -
b1  . 10
2 = =
 n
 ( 320) 2
n
 x i  11800 -
10
 x - 
2
i
. 
. n
1740 - 1632 108
  0.0692
11800 - 10240 1560
n n
 Yi - b1 x i
=
51 - 0.0692 ( 320 )
=
51 - 22.1440

28.8560
b0  . .
10 10 10
n
 2.8856
Ŷ = 2.8856 + 0.0692 X
b1 se interpreta así: Por cada hora adicional de operación el costo promedio de materiales usados en
el proceso aumenta en 0.0692 (en centenas de $)
iii) Estime el costo promedio de materiales utilizados cuando el proceso opere 15 horas.
Ŷ = 2.8856 + 0.0692 (15) = 2.8856 + 1.038 = 3.9236 (en centenas de $)
iv) Trace sobre el diagrama de dispersión anterior la línea de ajuste
Determinaremos los pares ordenados de dos puntos cualesquiera:

Para X = 45 , Ŷ = 2.8856 + 0.0692 (45) = 2.8856 + 3.114 = 5.9996 (en centenas de $)
Para X = 15 , Ŷ = 3.9236 (en centenas de $)
122
En la figura 3.8 se han unido estos puntos con una recta.
3.4. ANALISIS DE VARIANZA DE Y

Para cualquier nivel xi , la diferencia Yi - Y cuando no se ha ajustado ninguna línea de regresión
se llama desviación total.
Al ajustar la línea de regresión Yi - Y puede ser descompuestos en dos partes:
Para la i-ésima observación de Y.
Yi - Y = ( Yˆ i - Y )  ( Yi  Yˆ i )
Desviación total = Desviación explicada por X + Desviación no explicada por X.
La desviación explicada por X es la desviación del valor ajustado Ŷi con respecto Y
La desviación no explicada por X es la desviación de Yi con respecto al valor ajustado Ŷi , esto
es, el i-ésimo resíduo ei.
La siguiente figura muestra la descomposición de Yi - Y
Fig. 3.9
Para las n observaciones de Y la suma de los cuadrados de estas desviaciones puede demostrarse
que es
n n n
 - Y   Yˆ i - Y Y ˆi 
2 2 2
Yi   i - Y
que denotaremos así
SST = SSR + SSE donde

123
 SST Será llamada suma de cuadrados total y representa una medida de variación de las
observaciones Yi alrededor de Y . Esta medida tendrá asociada n – 1 grados de libertad. Un
n
grado de libertad es perdido debido a la restricción  ( Yi - Y)  0 que tienen sus
.
desviaciones.
 SSE Será llamada suma de cuadrados debida al error y representa una medida de variación de
Y no explicada por X alrededor de la línea de regresión estimada.
Esta medida tendrá asociada n - 2 grados de libertad. Dos grados de libertad son perdidos
debido a la estimación de los dos parámetros  o y  1.
 SSR Será llamada suma de cuadrados debida a la regresión y representa una medida de
variación de Y, explicada por X, y asociada con la línea de regresión estimada.
Esta medida tendrá asociada 1 grado de libertad.
Las fórmulas computacionales para SST, SSR y SSE puede demostrarse que son las siguientes.
2
 n 
n

  Yi 

 
SST   Yi
2
-
n
n n n
SSE  Y i
2
- bo Y i - b 1  x i Yi
SSR = SST - SSE

124
3.4.1 TABLA DE ANALISIS DE VARIANZA DE Y

Las sumas de cuadrados anteriores y sus grados de libertad correspondientes son presentados en lo
que llamaremos una tabla de análisis de varianza o simplemente tabla ANOVA.
Fuente de variación SS GL MS
Regresión SSR 1 MSR = SSR/1
Error SSE n-2 MSE = SSE/n -2
SST n-1
Una suma de cuadrados dividida por sus correspondientes grados de libertad la llamaremos media
cuadrática y la denotaremos por MS.
Estaremos interesados en la media cuadrática de regresión denotada y definida así:
SSR
MSR = 1
= SSR
SSE
y la media cuadrática del error denotada y definida así: MSE = n - 2
3.4.2 EL ESTIMADOR DE 
Recordemos que  2 representa la varianza de Y alrededor de la línea de regresión poblacional y que
 representa la desviación estándar de Y para cualquier nivel de X.
Puede demostrarse que MSE es un estimador insesgado de  2.
En otras palabras que la varianza estimada de Y alrededor de la línea de regresión podemos

denotarla y obtenerla así:
σ̂ Y2  MSE
SSE
y la desviación estándar estimada de Y por σ̂ Y  MSE 
n-2
Observe que σ̂ Y es un estimador insesgado de  que proporciona medidas expresadas en las

mismas unidades que los datos originales, logrando con esto una mejor apreciación de la
variabilidad de Y entorno a la línea de regresión.
Una fórmula alternativa para calcular la desviación estándar estimada de Y es la siguiente:
n n n
Y i
2
- b o  Yi - b 1  x i Yi
σ̂ Y 
n-2
El estimador σ̂ Y nos será de gran utilidad para hacer inferencias sobre  1.
EJEMPLO 3.2
Utilizando los resultados del ejemplo 3.1
i) construya la tabla de análisis de varianza
125
ii) obtenga un estimado de .
i) Sabemos que
n n n n
x i  320 , Y i = 51 , Y i
2
= 268.5 , xY i i = 1740
y que Ŷ = 2.8856 + 0.0692 X
2
 n 
n

 Y i

 = 268.5 -
(51) 2
= 268.5 - 260.1 = 8.4
 
SST  Y i
2
-
n
10
n n n
SSE  Y i
2
- b o  Yi - b 1  x i Yi = 268.5 - 2.8856 (51) - 0.0692 (1740)
= 268.5 - 147.1656 - 120.408 = 0.9264
SSR = SST - SSE = 8.4 - 0.9264 = 7.4736
Arreglando estas sumas de cuadrados con sus correspondientes grados de libertad llegamos a la
siguiente tabla ANOVA.
Fuente de variación SS GL MS
Regresión 7.4736 1 7.4736
Error 0.9264 8 0.1158
8.4000 9
ii) Observe que MSE = 0.1158 y que por lo tanto σ̂ Y = MSE  0.1158  0.3403
Con la fórmula alternativa tenemos que
n n n
Y - b o  Yi - b 1  x i Yi
2
i
σ̂ Y 
n-2
0.9264
= = 0.1158  0.3403
8
3.4.3 MEDIDAS DE ASOCIACION ENTRE X,Y

Dos medidas de asociación son frecuentemente usadas en la práctica para describir el grado de
relación entre X, Y.
COEFICIENTE DE DETERMINACION.
Podríamos considerar que SST es una medida de variación total de las observaciones Yi que refleja
la incertidumbre en estimar o predecir Y cuando ninguna variable independiente X es tomada en
126
cuenta. Cuando un modelo de regresión que utilice la variable independiente X es utilizado SST se
dividirá en dos componentes SSE y SST tales que el cociente
SSE
SST
representará una medida de la proporción de la variación de Y no explicada por X que aún queda y
el complemento
SSE SST  SSE SSR
r2  1    donde 0  r 2  1
SST SST SST
una medida de la proporción de la variación total de Y explicada por X que llamaremos coeficiente
de determinación muestral. Esta medida podrá verse también como una reducción proporcional
de la variación total de Y (incertidumbre) cuando la variable independiente X es introducida.
De manera que r2 podrá interpretarse así:

 Es la proporción de la variación total de Y que es explicada por X.
 Es la reducción proporcional de la variación total de Y cuando la variable independiente X es
introducida.
Límites de los valores de r2

n
1. r2 = 1  SSE = 0   (Yi  Ŷi ) 2  0  Yi  Ŷi
La relación entre X,Y es perfecta en los datos muestrales. Aquí toda variación en las observaciones
Yi es explicada por X. Este caso es mostrado en la siguiente figura.
Y
Ŷ  b0  b1X
Yi
Fig. 3.10
2. r2 = 0  SSR = 0   (Ŷi - Y) 2
 0  Ŷi  Y  b1 = 0
No hay relación entre X , Y en los datos muestrales. Aquí la variación en las observaciones Yi no
son explicadas por X. X no ayuda a reducir la variación en las observaciones Yi
Este caso es mostrado en la siguiente figura.
127
En la práctica r2 toma valores entre 0 y 1. La cercanía de r2 a 1 implica un alto grado de asociación

entre X , Y.
Y
Ŷ  Y
Fig. 3.11
EJEMPLO 3.3.
Para el ejemplo 3.1 determine el coeficiente de determinación e interprételo.
Utilizando la tabla ANOVA del ejemplo 3.2 llegamos a que:
2 7.4736
r   0.8897
8.4000
El 88.97% de la variación en el costo de materiales se puede explicar por las horas de operación del
proceso.
La variación total en el costo de materiales es reducida en un 88.97% cuando las horas de operación
es considerada.
COEFICIENTE DE CORRELACION.
La raíz cuadrada de r2.
r   r2 , -1  r  1 , r tiene el mismo signo que b1
es llamada coeficiente de correlación.

Observe que r2 < | r | o sea que r puede dar la impresión de una relación “más fuerte” entre X , Y
que la correspondiente. Por ejemplo r2 = 0.10 indica que la variación total en Y es reducida en sólo
un 10% cuando X es introducida, y | r | = 0.3162 puede dar la impresión de una mayor asociación
entre X , Y.
Interpretación de r
No tiene una interpretación tan clara como la de r2 , sin embargo podemos decir que a medida que
| r | se acerque a 1 mayor será el grado de relación entre X, Y, lo cual permitirá hacer inferencias
más precisas sobre Y a partir de X.
EJEMPLO 3.4
Para el ejemplo 3.1 determine el coeficiente de correlación.
128
Como la pendiente b1 = 0.0692 es positiva
r  0.8897  0.9432
La cercanía de r con 1 implica que posiblemente hay alto grado de relación entre X, Y
3.5 INFERENCIAS SOBRE  1
Frecuentemente estaremos interesados en hacer inferencias sobre la pendiente de la línea de

regresión poblacional.
Por ejemplo será de interés saber si hay una relación lineal significativa entre X , Y para la cual
haremos una prueba de hipótesis sobre  1.
También puede ser que queramos obtener un intervalo de confianza para  1.
Antes de considerar inferencias sobre  1 necesitamos considerar la distribución muestral de b1.
3.5.1 DISTRIBUCION MUESTRAL DE b1

Puede demostrarse que el estimador b1 es una combinación lineal de las observación Yi . Esto es,
b1 =  ki Yi donde los ki son constantes.
Como las observaciones Yi tienen distribución normal (según el supuesto 2) b1 tiene también una
distribución normal con
σ
σ b1 
μ b1  β 1 y n  
n
 xi
2
x
.
2
i - .
n
ERROR ESTANDAR ESTIMADO DE b1
El error estándar estimado de la pendiente b1 se denota y obtiene así
σ̂ Y
σ̂ b1 
n  
n
 xi
2
donde σ̂ Y es el estimador de 
 .
2
xi - .
3.5.2 PRUEBA DE SIGNIFICACION SOBRE  1
Recordemos que la función de regresión poblacional estaba dada por μ Y | X  β 0  β1 X

Si suponemos β 1  0 en la expresión anterior nos queda que
μ Y|X  β 0
Es decir no habría relación entre X, Y

Por tanto para que haya relación entre X, Y debemos suponer que β 1  0
129
El procedimiento de la prueba será el siguiente:
Podemos ver la verificación del valor que toma la pendiente  1 como la acción y la diferencia de  1
con respecto a cero como el efecto.
Por tanto podemos escribir las hipótesis así
H 0 : β1  0 No hay relación entre X , Y

H1 : β1  0 Hay relación entre X , Y
donde H 0 : β 1  0 esta suponiendo que no hay diferencia de  1 con respecto a cero, mientras que la
hipótesis alterna H 1 : β 1  0 supone que hay diferencia de  1 con respecto a cero.
Observe que la prueba es bilateral porque nos interesan tanto las diferencias de  1 hacia la izquierda
de cero como hacia la derecha de cero.

El error I consiste en decir que hay relación entre X , Y cuando en realidad no hay.
Controlaremos el error I suponiendo que P (error I )  

DECISION.
Como las hipótesis son suposiciones acerca de  1 el estadístico de prueba será su estimador b1 pero
estandarizado, esto es,
b1 - 0
σ̂ b
1
b1
puede demostrarse que σ̂ b
sigue una distribución t de Student con n – 2 grados de libertad.
1
Por tanto el estadístico de prueba será
b1 Pendiente estimada σ̂ Y
t   donde σ̂ b 
σ̂ b El error estándar de b1 1 2
 n 
  xi 
1
-  
n .
2
 xi
. n
La regla de decisión será

130
Rechazo H 0 : β 1  0 a un nivel de significación  si t  - t /2 o t  t /2

En caso contrario no podemos rechazar H 0 : β 1  0 , es decir, “aceptamos” H 0 : β 1  0
Una ilustración gráfica de la regla se muestra abajo.
α α
2 2
- t / 2 t
t /2
0
R NR R
Figura 3.12

Con la información muestral calculemos primero b1 y σ̂ b para obtener el valor de t
1
Si t cae en la región de rechazo entonces diremos que rechazamos H 0 : β 1  0 a un nivel  ,

esto es, que aceptamos H 1 : β 1  0 . Luego hay relación lineal entre X , Y.
Si t cae en la región de no rechazo entonces diremos que no hay suficiente evidencia para rechazar
H 0 : β 1  0 , esto es, aceptamos H 0 : β 1  0 . Luego no hay relación lineal entre X , Y.
EJEMPLO 3.5.
Para el ejemplo 3.1 pruebe si hay una relación lineal significativa entre el número de horas de
operación del proceso y el costo de los materiales a un nivel de significación del 5%.

Las hipótesis se escribirán así
H 0 : β1  0 No hay relación entre X , Y

H1 : β1  0 Hay relación entre X , Y
131
donde H 0 : β 1  0 esta suponiendo que no hay diferencia de  1 con respecto a cero mientras que
la hipótesis alterna H 1 : β 1  0 supone que hay diferencia de  1 con respecto a cero.
Observe que la prueba es bilateral porque nos interesan tanto las diferencias de  1 hacia la izquierda
de cero como hacia la derecha de cero.

El error I consiste en decir que hay relación entre el número de horas de operación del proceso y el
costo de materiales cuando en realidad no hay.
Controlaremos el error I suponiendo que P (error I )  0.05. Luego hemos elegido un nivel de
significación  = 0.05.

DECISION.
El estadístico de prueba será

b σ̂ Y
t  1 donde σ̂ b1 
σ̂ b 2
 n 
  xi 
1
-  
n .
 x i2
. n
y la regla de decisión:
Rechazo H 0 : β 1  0 a un nivel  = 0.05 si t  - t /2  - 2.306 o t  t /2  2.306

En caso contrario no podemos rechazar H 0 : β 1  0, esto es, "aceptamos" H 0 : β1  0
Los valores críticos - t  / 2 y t  / 2 se determinaron con la tabla de la distribución t de Student así

α
α  0.05   0.025 y n - 2  10 - 2  8 g.l. Luego t /2  2.306 y - t /2  - 2.306
2
Una ilustración gráfica de esta regla se presenta debajo.
α α
 0.025  0.025
2 2
t
- 2.306 0 2.306
R NR R
132
Figura 3.13

Con la información muestral calculemos primero b1 y σ̂ b

1
Sabemos del ejemplo 3.1 que b1 = 0.0692 , x i  320 , 2

 x i  11800 .
Además sabemos del ejemplo 3.2 que σ̂ Y  0.3403
Por tanto
σ̂ Y 0.3403
σ̂ b1  
 320  2
2
 n x 
n  . i
 11800 -
2
 xi - 10
. n
0.3403 0.3403 0.3403
    0.0086
11800 - 10240 1560 39.4968
1 b 0.0692
Luego t  σ̂ 
0.0086
 8.0465
b1

Como t cae en la región de rechazo diremos que hay suficiente evidencia para rechazar
H 0 : β 1  0 a un nivel  = 0.05, lo cual implica que aceptamos H 1 : β 1  0 .
Luego hay relación entre el número de horas de operación y el costo de materiales del proceso.
3.5.3 ESTIMADOR POR INTERVALO DE CONFIANZA PARA μ Yh

Si x h es un valor dentro del alcance modelo y μ Y es la media de la distribución de Y cuando
h
X = x entonces el valor ajustado de Y para el nivel x h que denotamos así Ŷh  b 0  b1 x h es un

h
estimador puntual e insesgado de μ Yh

Puede demostrarse que Ŷh es una combinación lineal de las observaciones Yi
Como las observaciones Yi siguen una distribución normal, Ŷh sigue también una distribución
normal con
133
1  xh -x
2
σ Ŷ  σ Y  2
μ Ŷh  μ Yh y
h
n  n x 
n
2  . i

 xi -
. n
El error estándar estimado del valor ajustado Ŷh se denota y obtiene así:
1  xh - x 2
σ̂ Ŷ  σ̂ Y  2
h
n  n x  donde σ̂ Y es el estimador de σ
n
2  . i

 xi -
. n
Ŷh - μ Yh
Como sigue una distribución t de Student con n – 2 grados de libertad
σ̂ Ŷ h
puede demostrarse que un estimador por intervalo de confianza del ( 1 -  ) 100% para μ Yh esta
dado por
Ŷh  t /2 σ̂ Ŷ h
Fig. 3.14
Observe el efecto del término (x h  x) 2 en σ̂

Ŷh
A medida que x h se aleja de x mayor es σ̂

Ŷh y a medida que x h se acerque a x menor será σ̂ .
Ŷh
σ̂
La mayor precisión de la estimación se obtiene cuando x h  x porque Ŷh toma su valor mínimo.
EJEMPLO 3.6
Para el ejemplo 3.1 construya un intervalo de confianza del 99% para el costo promedio de
materiales utilizados cuando el proceso opere 40 horas.
134
Para x h  40 horas , Ŷh = 2.8856 + 0.0692(40) = 2.8856 + 2.768 = 5.6536 ( en centenas de $ ),

n
Sabemos que σ̂ Y  0.3403 y que x i

320
x   32
n 10
Por tanto
1  xh - x 2
σ̂ Ŷ  σ̂ Y  2
h
n  n x 
n
2  . i

 xi -
. n
2
1 (40 - 32) 1 64
 ( 0.3403 )  2
 ( 0.3403 )   ( 0.3403 ) 0.1410
10 (320) 10 1560
11800 -
10
 0.3403 (0.3755)  0.1278
α
Para α  0.01   0.005 y n – 2 = 10 - 2 = 8 g.l. tenemos que t /2  3.355
2
Sustituyendo estos valores en la fórmula del intervalo de confianza.
5.6536  3.355 (0.1278)

5.6536  0.4288
5.2248  μ Yh  6.0824 (en centenas de $)
3.5.4 ESTIMADOR POR INTERVALO DE PREDICCION PARA UN VALOR INDIVIDUAL

Yh
Para un valor xh supongamos que queremos predecir los límites del valor individual Yh
Como los límites de predicción de Yh tienen que tomar en cuenta tanto la variabilidad de Ŷh
asociada a la posición que puede tener μ Yh como la variabilidad de Y alrededor de esa posición.
La varianza estimada del valor individual Yh será la suma de dos componentes:
La varianza estimada de Ŷh y la varianza estimada de Y.
Esto es,
135
  
  
 2
 
2 2 2 2  1 (x h  x)  2 2  1 1 (x h
σ̂  σ̂  σ̂  σ̂   σ̂  σ̂ 
Yh Ŷh Y Y  n 2  Y Y  n
  n
 xi   

n
2  .   
n
2
 xi   xi 
 . n   .
Puede demostrarse que un estimador por intervalo de predicción del (1 - )100% para una valor
individual Yh está dado por
Ŷh  t /2 σ̂ Yh donde
1  xh - x 2
σ̂ Y  σ̂ Y 1  2
h n  n x 
n 2  . i
 xi -
. n
σ̂ Yh se verá como un error estándar estimado del valor individual Yh y

t /2 es un valor de la distribución t de Student con n – 2 grados de libertad que tiene a su
α
derecha un área de
2
Hay una diferencia conceptual entre un estimador por intervalo de predicción y un estimador por
intervalo de confianza. Un estimador por intervalo de confianza representa una inferencia sobre un
parámetro. Un estimador por intervalo de predicción es una proposición acerca del valor que puede
tomar una variable aleatoria.
EJEMPLO 3.7
Para el ejemplo 3.1 determine un intervalo de predicción del 99% del costo de materiales que serán
utilizados en un proceso particular que operará 40 horas.
La fórmula correspondiente es Ŷh  t /2 σ̂ Yh
Para x h  40 horas , Ŷh = 5.6536 ( en centenas de $ ) y sabemos que σ̂ Yh  0.3403
Por tanto
136
ˆ Yh  ˆ Y 1
1

 xh - x 2
n n - 
n
 xi
2
x
.
2
i
.
n
= 0.3403 1  0.1410  0.3403 1.1410  0.3403 ( 1.0682)  0.3636
Como t /2  3.355 tenemos que
5.6536  3.355 ( 0.3636 )
5.6536  1.2199
Luego hay una confianza del 99% de que
4.4337  Yh  6.8735 ( en centenas de $ )
Observe que el intervalo de predicción del 99% para un valor individual Yh aquí obtenido es más
ancho que el intervalo de confianza del 99% para μ Y obtenido en el ejemplo 3.6, la razón es que
cuando predecimos un valor individual tomamos en cuenta tanto la variabilidad en Ŷh como la
variación dentro de la distribución de probabilidad de Y.
EJERCICIOS PROPUESTO DEL TEMA 3: ANALISIS DE REGRESION LINEAL.
1. El Vicepresidente de investigación y desarrollo de una empresa de productos químicos piensa

que las utilidades anuales (Y) dependen de la cantidad que invierta (X) en investigación y
desarrollo. Suponga que se dispone de los siguientes datos históricos en millones de C$
Cantidad Utilidad
Año Invertida anual
1997 2 20
1998 3 25
1999 4 30
2000 5 34
137
2001 11 40
2002 5 31
a) Dibuje un diagrama de dispersión y comente las impresiones visuales que le ofrece la figura.
b) Obtenga la función de regresión muestral de Y sobre X e interprete la pendiente.
c) Prediga la utilidad anual para 2003 suponiendo una inversión de 8 millones de C$ en
investigación y desarrollo.
d) Trace sobre el diagrama del inciso a) la línea de ajuste.
2. El ministerio de Agricultura hizo un estudio para determinar la relación que existe entre la
producción de café (Y) y la cantidad de fertilizante utilizado (X) en una región determinada. Se
tomó una muestra aleatoria de 6 haciendas y se recopiló la siguiente información:
(en qq) (miles de qq)

Cantidad Producción
Hac. fertilizante de Café
1 34 15
2 40 18
3 48 19
4 49 15
5 51 20
6 51 22
a) Construya un diagrama de dispersión.

b) Obtenga la función de regresión muestral de Y sobre X e interprete los coeficientes de regresión
estimados.
c) Estime la producción promedio de café cuando se utilicen 45 qq de fertilizante.
d) Trace sobre el diagrama del a) la línea de regresión estimada.
3. La demanda de un artículo en toneladas (Y) para diferentes precios en córdobas (X) se presenta
en la tabla de abajo.
X Y
20.5 4.5
21.0 4.0
21.0 4.7
21.5 3.5
21.5 3.0
21.5 4.0
22.0 3.5
22.0 2.5
22.5 2.0
138
23.0 1.8
a) Construya un diagrama de dispersión y comente las impresiones visuales que le ofrece la figura.
b) Determine la función de regresión muestral de Y sobre X e interprete la pendiente estimada.
c) Obtener la demanda esperada si el precio del bien fuese de C$ 22.40
d) Trace sobre el diagrama de dispersión del inciso a) la línea de los mínimos cuadrados.
4. Para probar en cierto tipo de fábricas el efecto de un filtro purificador que absorbe parte de la
emisión de gases residuales, se han medido los niveles de CO 2 (dióxido de carbono) emitidos por 7
fábricas donde éste se ha instalado.
Hemos supuesto que X representa el número de días después de la instalación y Y representa la
emisión de CO2 en mg/dl para presentar los siguientes resultados.
X Y
5 5.2
10 4.8
15 4.6
20 4.5
25 4.3
30 4.0
35 3.8

b) Determine la ecuación de regresión lineal que mejor exprese la variación de la contaminación
en función de los días transcurridos después de la instalación del filtro. Interprete la pendiente
estimada
c) Si una fabrica tiene 30 días de tener instalado el filtro, ¿qué emisión de CO2 espera tener?
d) Trace sobre el diagrama de dispersión del inciso a) la línea de ajuste.
e) ¿En qué porcentaje la variación de la emisión de CO2 es explicada por el número de días
transcurridos desde la instalación del filtro?
5. El Banco Central quiere estimar la relación entre la cantidad de dinero circulante (X) y el
ingreso nacional (Y).
Suponga que dispone de los siguientes datos históricos en millones de dólares.
Cantidad Ingreso
Año Circulante Nacional
1997 3.3 7.2
1998 4.0 7.3
1999 4.2 8.4
2000 4.6 9.0
2001 4.8 9.7
2002 5.0 10.0
139

b) Obtenga la función de regresión muestral de Y sobre X e interprete la pendiente estimada.
c) Prediga para 2003 el Ingreso nacional correspondiente a un circulante de 5.6 millones de
dólares.
d) Trace sobre el diagrama de dispersión anterior la línea de ajuste.
6. El gerente de personal de una empresa intuye que quizás haya relación entre el ausentismo en
días (Y) y la edad en años (X) por lo que quiere tomar la edad de un trabajador para desarrollar un
modelo de predicción de días de ausencia durante un año laboral. Se selecionó una muestra aleatoria
de 10 trabajadores con los resultados que se presentan a continuación:
X Y
27 15
61 06
37 10
23 18
46 09
58 07
29 14
36 11
64 05
40 08
a) Construya un diagrama de dispersión y comente las impresiones visuales que le ofrece la

figura..
b) Obtenga la función de regresión muestral de Y sobre X e interprete la pendiente
c) ¿Cuántos días espero que un trabajador de 45 años se ausente durante el año?
d) Trace sobre el diagrama de dispersión anterior la línea de mínimos cuadrados.
7. Supóngase que una cadena de supermercados financia un estudio sobre los gastos anuales en
comestibles de familias de 4 miembros. La investigación se limitó a familias con ingresos netos
(después de los impuestos) que van de C$20000 a C$60000. Se obtuvo la siguiente ecuación de
regresión lineal:
Ŷ = - 200 + 0.10X
En la cual Y representa los gastos anuales estimados en comestibles y X representa los ingresos
netos anuales
Supóngase que la ecuación proporciona un ajuste razonablemente bueno, y que se obtuvieron
los datos por medio de métodos de muestreo aleatorio,
a) Estime los gastos de una familia de 4 miembros, con un ingreso anual de C$25000.
140
b) Uno de los vicepresidentes de la compañía se preocupa por el hecho de que la ecuación

aparentemente indica que una familia que tiene un ingreso de C$2000 no gastaría nada en alimentos.
¿ Cuál sería su respuesta?
c) Explique brevemente por qué no se podría usar la ecuación anterior en cada uno de los
siguientes casos:
c.1 Estimación de los gastos en comestibles de familias de cinco miembros.

c.2 Estimación de los gastos en comestibles de familias que tengan ingresos netos de más de 60000
córdobas anuales.
8. Un asegurador de propiedades realizó un estudio para investigar el pago anual (Y) por concepto
de demandas por daños a propiedades (en miles de dólares) en la región norte de Nicaragua
como una función del número X de huracanes que azotan esa región durante el año. Un modelo
de regresión lineal, que se ajusta a los datos de un período de 10 años, produjo la siguiente
ecuación:
Ŷ = 22.4 + 15.8 X
con  x i  15 , x 2
i = 27.45 , σ̂ Y2 = 41.2
a) ¿Proporcionan los datos evidencia suficiente para indicar que el número X de huracanes aportan
información para predecir la cantidad anual pagada por el asegurador por concepto de daños a
propiedades a un nivel de significación del 5%?
b) Encuentre un intervalo de confianza del 90% para el pago anual promedio si un huracán azota la
región en un año dado.
c) Obtenga un intervalo de predicción del 90% para el pago anual si dos huracanes azotan la
región en un año dado.
9. Un estudio de mercado trata de cuantificar el efecto que sobre la demanda de un artículo tiene
una campaña publicitaria en televisión. Para ello se miden las cantidades demandadas, en miles de
unidades, antes de la campaña (X) y la cantidades demandadas, en miles de unidades, después de la
campaña (Y). Después de 3 semanas de emisión del anuncio en 10 regiones se obtuvo la siguiente
relación lineal estimada entre X, Y.
Ŷ = 65.5812 + 0.3547X
con un error estándar de su pendiente de 0.1826
¿Existe relación lineal significativa entre X, Y a un nivel de significación  = 0.02 ?
10. Un investigador esta interesado en conocer la relación entre los años de experiencia en ventas
(X) y el volumen de ventas en millones de córdobas (Y) de los vendedores de cierta compañía.
141
Los datos muestrales resumidos para tal fin, se dan a continuación.

n = 5 ,  x i = 15 ,  x i2 = 55 , Y i = 23 ,
 x i Yi = 84.6 , Y i
2
= 130.98
Si con la información anterior se obtuvo la siguiente relación lineal estimada.
Ŷ = - 0.08 + 1.56 X
y la tabla de análisis de varianza que aparece abajo
Fuente SS G.L MS
Regresión 24.336 1 24.3360
Error 0.844 3 0.2813
25.180 4
i) Interprete la pendiente.
ii) ¿Qué proporción de la variación total del volumen de ventas puede ser explicada por los años de
experiencia?
iii) Estime la varianza de Y alrededor de la línea de regresión.
iv) ¿Existe relación lineal significativa entre los años de experiencia y el volumen de ventas a un
nivel de significación del 2%?
v) Determine un intervalo de confianza del 99% para el volumen esperado de ventas de un
vendedor que tiene 3.5 años de experiencia.
11. Un economista desea establecer la relación entre las exportaciones FOB (X) y las
importaciones FOB (Y). De los Indicadores Económicos publicados por el Banco Central de
Nicaragua para los años 1994 – 2002 resume la siguiente información. (no incluye importaciones ni
exportaciones de Zona Franca).
n = 9 ,  x i = 3791.1 , Y i = 7705.2 , x Y =
i i 3548993.65
 x i2 = 1846729.93 , Y i
2
= 7072151.74
donde X representa las Exportaciones FOB (en millones de dólares)

Y representa las Importaciones FOB (en millones de dólares)
a) Suponiendo una relación lineal, use el método de mínimos cuadrados para encontrar los
coeficientes de regresión bo y b1.
b) Interprete el significado del intercepto bo y la pendiente b1.
142
c) Prediga el valor de las importaciones cuando las exportaciones asciendan a 500 millones de
dólares.
d) Calcule el coeficiente de determinación y el coeficiente de correlación e interprete sus
significados.
e) A un nivel de significación de 0.01 ¿Hay alguna relación lineal significativa entre las
exportaciones y las importaciones para los años mencionados?.
12. Una cadena de tiendas de repostería ha tenido grandes fluctuaciones en sus ingresos durante
los últimos años. Abundantes ofertas y técnicas de publicidad se han utilizado durante este tiempo,
por lo cual es difícil determinar cuáles de esos factores tienen la influencia más profunda en las
ventas. El departamento de mercadotecnia ha estudiado varias relaciones y piensa que los gastos
mensuales destinados a carteles pueden ser significativos.
Se muestreó 7 meses con los siguientes resultados:
x i  167 , Y
i  203 , x Y
i i  5427 , x 2
i  4703 , Y
i
2
 6527
donde X representa el gasto mensual en carteles (en centenas de C$)

y Y representa el ingreso mensual por ventas (en decenas de miles de C$).
Si con la información anterior se obtuvo la siguiente relación lineal estimada
Ŷ = 9.6185 + 0.8124X
a) Interprete el intercepto y la pendiente.

b) Obtenga la tabla de análisis de varianza.
c) ¿Existe relación lineal significativa entre el ingreso mensual por ventas y los gastos mensuales
destinados a carteles a un nivel de significación del 1%?
d) Encuentre los coeficientes de determinación y correlación. Luego interprételos.
e) Para un mes con un gasto de C$2800 en carteles, desarrolle un intervalo de confianza del 90%
para las ventas mensuales esperadas en ese mes.
13. Con los siguientes datos sobre el costo de construcción de residencias unifamiliares en miles
de dólares (Y) y el tamaño del lote en miles de pies cuadrados (X).
n = 12 ,  x i = 198 ,  Yi = 625.5 , x Y =i i 11840.1

 x i2 = 4396 ,  Yi2 = 34878.58
a) Encontrar la función de regresión muestral de X sobre Y e interprete la pendiente.
b) ¿Cuál debería ser el costo promedio de construcción de casas que se van a construir en un lote de
15000 pies cuadrados?
14. Una investigación del departamento de publicidad de una empresa en la que se buscaba la
relación entre las ventas en unidades (Y) y el número de comerciales televisados (X) dió los
siguientes resultados:
143
n = 7 ,  x i = 340 ,  Yi = 751 , x Y = i i 41450

 x i2 = 19000 ,  Yi2 = 90571
a) Encontrar la función de regresión muestral de Y sobre X e interprete el intercepto y la pendiente.
b) Obtenga la tabla de análisis de la varianza.
c) ¿Existe relación lineal significativa entre el número de comerciales televisados y las ventas a un
nivel de significación del 5%?
d) Calcule el coeficiente de determinación e interprételo.
e) Obtenga un intervalo de predicción del 90% para el numero de unidades vendidas si el número
de comerciales televisados es de 30.
15. Un analista toma una muestra aleatoria de 10 embarques recientemente enviados por camión y
registra la distancia en kilómetros (X) y el tiempo de entrega en días (Y) para determinar si existe
relación entre ellos y obtiene los siguientes resultados:
x i = 7620 , Y i = 28.5 , x Y i i = 26370 , x 2

i = 7104300 , Y i
2
= 99.75
Si con la información anterior se obtuvo la siguiente relación lineal estimada:
Ŷ = 0.1181 + 0.0036X
a) ¿Existe relación lineal significativa entre X y Y a un nivel del 1%?

b) Obtenga un intervalo de confianza del tiempo promedio de entrega para una distancia de 350
km y una confiabilidad del 90%.
f) Encuentre el coeficiente de determinación e interprételo.
16. El gerente de mercadotecnia de una cadena de supermercados quiere determinar el efecto del
espacio de las estanterías en pies (X) sobre la venta semanal de cosméticos en cientos de córdobas
(Y). Seleccionó una muestra aleatoria de 12 tiendas de igual tamaño obteniendo los resultados
siguientes:
x i = 150 , Y i = 28.5 , x Y =i i 384 , x 2

i = 2250 , Y i
2
= 70.79
Encontró la ecuación de regresión: Ŷ = 1.45 + 0.074X
y construyó la tabla de análisis de varianza:
Fuente SS G.L MS
Regresión 2.0535 1 2.0535
Error 1.0490 10 0.1049
3.1025 11
144
a) Interprete la pendiente.
b) Pruebe al nivel de significación de 0.05 si los resultados de la muestra permiten llegar a la
conclusión de que hay una relación lineal significativa entre el espacio en las estanterías y la venta
semanal de cosméticos.
c) Calcule los coeficientes de determinación y de correlación e interprételos.
d) Obtenga un intervalo de predicción del 90% de las ventas semanales de una tienda con 8.6 pies
de espacio en estantes destinados a cosméticos.
17. Los economistas a menudo quieren estimar las funciones consumo. Esto lo hacen obteniendo
la regresión del consumo Y sobre el ingreso X (en esta regresión, los economistas dan a la
pendiente el nombre de propension marginal al consumo). En una muestra de 15 familias, se
calculó una pendiente de 0.9 y un error estándar de la pendiente de regresión de 0.25.
A un nivel de significación  = 0.05 ¿existe alguna relación lineal significativa entre el consumo y
el ingreso?
18. Con el propósito de determinar el efecto del precio del galón de diesel en el costo de la
canasta básica de 53 productos de la ciudad de Managua se extrajeron los datos que se presentan a
continuación:
Año 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
X 1.14 5.67 5.88 7.02 7.75 8.4 10.38 12.31 13.94 19.81
Y 517.27 718.01 730.02 887.00 970.61 1078.89 1225.59 1402.82 1552.64 1624.11
Fuente: Banco Central de Nicaragua. Gerencia de Estudios Económicos.
X representa el precio promedio del diesel (en córdobas por galón).

Y representa el costo de la canasta básica (en córdobas)
Al utilizar el paquete estadístico denominado SPSS, se obtuvo los siguientes resultados:
Múltiple R .95772
R Square .91723
Adjusted R Square .90689
Standard Error 114.32865
Analysis of Variance
DF Sum of Squares Mean Square

Regression 1 1158823.72109 1158823.72109
Residual 8 104568.31455 13071.03932
F= 88.65582 Signif F = .0000

145
------------------ Variables in the Equation ------------------
Variable B SE B Beta T Sig T
X 69.193900 7.348762 .957722 9.416 .0000

(Constant) 432.036306 76.862781 5.621 .0005
Los resultados obtenidos que se relacionan con nuestro curso son los siguientes:
Coeficiente de correlación, r = 0.95772

Coeficiente de determinación, r2 = 0.91723
SSR = 1158823.72109; SSE = 104568.31455; SSE/(n-2) = 13071.03932
b0 = 432.036306; b1 = 69.193900; Error estándar del estimador b1 = 7.348762
tn-2 = 9.416.
Ahora conteste:
a) Escriba la ecuación de la línea de mínimos cuadrados que nos permitirá predecir el costo
promedio de la canasta básica de la ciudad de Managua en términos del precio del diesel.
b) Interprete b1 .
c) Suponiendo que para el año 2003 que el precio del diesel será de C$ 21.50, estime el costo
promedio de la canasta básica para ese año en la ciudad de Managua
d) Interprete el coeficiente de determinación y el coeficiente de correlación.
e) ¿Existe relación lineal significativa entre el precio del diesel y el costo de la canasta básica a un
nivel de significación del 5%?.
TEMA 4: SERIES DE TIEMPO
OBJETIVOS.
1. Saber que es una serie de tiempo y que utilidad tiene su estudio.

2. Explicar la naturaleza de cada componente de una serie de tiempo.
3. Determinar la ecuación de tendencia lineal utilizando el método de los mínimos cuadrados.
4. Saber convertir una ecuación de tendencia anual a una de tendencia trimestral.
5. Determinar los índices estacionales utilizando el método del cociente del promedio móvil.
6. Hacer predicciones de una variable en base a lo que ha ocurrido en el pasado.
4.1. INTRODUCCION
Toda institución (la familia, la escuela, la empresa, el gobierno) tiene que hacer planes para el futuro
si ha de sobrevivir y progresar.
146
La familia: Sus planes tienen que ver con el ingreso, el consumo.
La Escuela: Sus planes tienen que ver con su desarrollo futuro para ofrecer servicios educativos
adecuados a la siempre creciente población.
La empresa: Sus planes tienen que ver con la demanda de sus productos, la producción, la
financiación, el personal, las ventas, las inversiones, el mercadeo.
El gobierno: Sus planes tienen que ver con los ingresos y gastos futuros para influir de esta manera
en la actividad comercial agregada de modo que el progreso económico del país no se vea demorado
por la inflación o la deflación.
La técnica más importante para hacer inferencias sobre el futuro con base en lo ocurrido en el
pasado es el análisis de las series de tiempo que se puede definir así:
Un conjunto de observaciones de una variable que se refieren a diferentes períodos sucesivos de
tiempo usualmente de la misma magnitud (años, trimestres, meses, etc).
Ejemplos de series de tiempo:
 Los ingresos totales anuales por ventas de una firma determinada.

 Los informes trimestrales del Producto Nacional Bruto (PNB).
 La publicación mensual del Indice de Precios al Consumidor.
 Los cambios semanales en porcentajes de ventas de un supermercado.
La creencia de que el comportamiento pasado de una serie puede continuarse en el futuro constituye
una base racional para la predicción estadística.
Los movimientos de las series de tiempo son causados por una variedad de factores, algunos
económicos, algunos naturales y otros institucionales. Más aún, algunos de los factores tienden a
afectar los movimientos a largo plazo de las series, mientras que otros tienden a producir
fluctuaciones a corto plazo.
4.2. COMPONENTES DE UNA SERIE DE TIEMPO
Una serie la consideraremos constituida por los siguientes componentes que son las que explican los
cambios observados en un período de tiempo.
i) La tendencia.
ii) Las variaciones estacionales.
iii) Las variaciones cíclicas.
iv) Las variaciones irregulares.
Para obtener una impresión visual de los movimientos de una serie de tiempo, se contruye sobre un
plano cartesiano una gráfica en la cual la variable de interés Y estará en el eje vertical y los períodos
sucesivos de tiempo en el eje horizontal.
147
Ejemplo. Los siguientes datos representan producciones trimestrales de cierto artículo en miles de
unidades de un país hipotético durante 1999 - 2003.
Y 11
10 tendencia lineal
9
8
7
6
5 datos originales
4 variaciones
3 variaciones cíclicas
estacionales
2
1
0
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1999 2000 2001 2002 2003

X
Figura 4.1
LA TENDENCIA
Es el movimiento suave y regular de una serie que refleja un crecimiento o una declinación en
un período de tiempo muy prolongado (al menos de 15 años) (debe incluir 2 ó más ciclos).
Observe que los movimientos de la serie de tiempo de la figura 4.1 tienden en promedio a
desplazarse continuamente hacia arriba a través del tiempo. Se representa mediante una recta a
través de la curva irregular.
La tendencia mide el cambio de la variable de interés por unidad de tiempo.
LAS VARIACIONES ESTACIONALES
Si estudiamos la serie de la figura 4.1 de año en año vemos que en el primer trimestre comienza
siendo baja, luego crece, después alcanza la mayor altura alrededor del tercer trimestre de cada año y
finalmente desciende nuevamente.
Las variaciones estacionales pueden definirse como los movimientos periódicos que vuelven
con cierta regularidad dentro de un período especificado (un año)
Factores que influyen en estas variaciones: las estaciones del año, condiciones climáticas,
costumbres sociales, festividades religiosas.
En condiciones climáticas y estaciones del año tenemos: la producción agrícola, los trabajos de
construcción, la explotación de bosques y aserraderos, el consumo energía eléctrica, etc.
148
En costumbres Sociales y festividades religiosas tenemos: la demanda de ciertos artículos para el

día de la madre, del padre, de los enamorados, por navidad, por semana santa, etc.
LAS VARIACIONES CICLICAS
Observando la curva en forma de zig-zag sobre la serie irregular original encontramos fluctuaciones
pronunciadas que se desplazan hacia arriba y hacia abajo.
Las variaciones cíclicas pueden definirse como los movimientos recurrentes ascendentes y
descendentes con respecto a la tendencia que tienen por lo general una duración de 2 ó más
años.
Cada ciclo puede diferir de todo el resto en duración, amplitud y causas. Ello explica la existencia
de tantas teorías de los ciclos como casi números de ciclos registrados.
En general son de naturaleza económica y reflejan el estado de las actividades comerciales.

A continuación se ilustra gráficamente un ciclo.
Prosperidad Recesión
Pico
Pico
Recuperación depresión Línea de tendencia
bache bache
Figura 4.2
Un ciclo se mide de bache a bache o de pico a pico.
LAS VARIACIONES IRREGULARES
Las pequeñas irregularidades en forma de dientes de serrucho en la serie original es lo que se llama
variaciones irregulares.
Las variaciones irregulares pueden definirse como movimientos que son por lo general de
corta duración y que son causados por fuerzas aleatorias o por fuerzas esporádicas tales como:
huelgas, terremotos, inundaciones, cortes de energía, guerras, sequías y otras calamidades
naturales.
Observaciones: A veces las series contiene todas las componentes anteriores, otras veces contienen
solamente algunas de ellos. A veces hay tanto predominio de una componente que se le puede
reconocer a partir de los datos originales como:
149
La producción de fibras sintéticas y la producción de alimentos congelados que tienen una fuerte
tendencia ascendente.
Los bienes duraderos que sufren grandes cambios cíclicos.
Las ventas de tiendas que son predominantemente estacionales.
4.3. ANALISIS DE LAS SERIES DE TIEMPO CON DATOS ANUALES
La componente que se estudia con más frecuencia en estas series de tiempo es la tendencia.
Estudiaremos la tendencia como una ayuda para hacer pronósticos a mediano y largo plazo.
4.3.1 CALCULO DE LA TENDENCIA LINEAL.
Consiste en obtener la ecuación de una línea recta que me indique el comportamiento de la variable
de interés a través de los años.
Utilizaremos los métodos que exponemos a continuación tomando la mitad de cada año (1 de Julio)
como punto de representación de los datos de ese año.
METODO DE LOS MINIMOS CUADRADOS PARA UN NUMERO PAR DE AÑOS
Para una serie de datos con un número par de años el método dice que hagamos lo siguiente:
i) Codificación del tiempo.
Le asignamos al primer año de la serie el código 0, convirtiendo de esta manera el primer año de la
serie en el año origen.
Después, a cada año sucesivo se le asignan los códigos 1, 2, 3, 4, ..., de modo que el último año en la
serie, el n-ésimo año, tenga el código n-1.
ii) Aplicar las mismas fórmulas que utilizamos para estimar la función de regresión poblacional.
n n
n x Y i i
 x Yi
i - . .
n
b1  .
2 Representa el cambio anual estimado del valor anual de Y.
 n

n
 x i 
 x - 
2
i
. 
. n
150
n n
 Yi - b1 x i Representa el valor anual estimado de Y para X  0.

b0  . .
iii) Obtener la ecuación de tendencia lineal
Sustituir bo y b1 en la expresión:
Ŷ = bo + b1X
Origen: 1 de julio del año X = 0
X en años
EJEMPLO 1
Las ventas anuales de una empresa desde el año 1997 al 2002 se presentan a continuación en
decenas de miles de C$
Yi
AÑO xi Ventas xi Yi x i2
1997 0 78 0 0
1998 1 70 70 1
1999 2 65 130 4
2000 3 46 138 9
2001 4 46 184 16
2002 5 35 175 25
15 340 697 55
a) Construya el gráfico de la serie

151
Y 90
80
70
60
50
40
30
20
10
0
1996 1997 1998 1999 2000 2001 2002 2003
0 1 2 3 4 5
X
Figura 4.3
b) Encuentre la ecuación de tendencia lineal e interprete bo y b1
(15) (340)
697 -
6 697 - 850 - 153
b1     - 8.7429
( 15) 2 55 - 37.5 17.5
55 -
6
340  8.7429 (15) 340  131.1435 471.1435

bo     78.5239
6 6 6
La ecuación de tendencia lineal es

Ŷ = 78.5239 - 8.7429 X
Origen: 1- Jul - 97
X en años
La disminución anual estimada de las ventas anuales es 8.7429 en decenas de miles de C$.
La venta anual estimada para el año 97 es 78.5239 en decenas de miles de C$.
c) Trace la línea de tendencia sobre el gráfico de la serie

Determinaremos los pares ordenados de dos puntos cualesquiera suficientemente alejados, digamos
Para x = 0, Ŷ = 78.5239 en decenas de miles de C$
Para x = 5, Ŷ = 78.5239 - 8.7429 (5) = 78.5239 - 43.7145 = 34.8094 en dec. miles C$
En la figura 4.3 se han unido estos puntos con una recta
d) Prediga las ventas anuales para el año 2003
Para x = 6, Ŷ = 78.5239 - 8.7429 (6) = 78.5239 - 52.4574 = 26.0665 en dec. de miles de C$
METODO DE LOS MINIMOS CUADRADOS PARA UN NUMERO IMPAR DE AÑOS
Para una serie de tiempo con un número impar de años el método dice que hagamos lo siguiente:
152
i) Codificación del tiempo.
El esquema más eficiente de codificación que se puede seleccionar para facilitar los cálculos es
elegir el año central de la sucesión como origen y asignarle el código x = 0. Después, a todos los
años posteriores se les asignan códigos crecientes de enteros 1, 2, 3, 4, ... , mientras que a todos los
años anteriores se les asignan códigos decrecientes de enteros -1, -2, -3, -4, ... , de modo que
n
siempre ocurrirá que  xi 
.
0
ii) Aplicar las mismas fórmulas que utilizamos para estimar la función de regresión poblacional.
El esfuerzo de los cálculos se reduce haciendo  xi 
.
0 en dichas fórmulas, con lo cual quedan
así:
n
x i Yi
b1  .
n
Representa el cambio anual estimado del valor anual de Y
x
.
2
i
Y i Representa el valor anual estimado de Y para X  0.

b0  .
iii) Obtener la ecuación de tendencia lineal
Sustituir los valores bo y b1 en la expresión
Ŷ = bo + b1 X
Origen: 1 de Julio del año X = 0
X en años
EJEMPLO 2
Las ventas anuales de una empresa desde el año 1999 al 2003 se presentan a continuación en
decenas de miles de C$
Yi
153
AÑO xi Ventas xi Yi x i2
1999 -2 32 -64 4
2000 -1 46 -46 1
2001 0 50 0 0
2002 1 66 66 1
2003 2 68 136 4
0 262 92 10
a) Haga el gráfico de la serie
Y 80
70
60
50
40
30
20
10
0
1998 1999 2000 2001 2002 2003 2004
-2 -1 0 1 2
X
Figura 4.4
b) Encuentre la ecuación de tendencia lineal e interprete bo y b1
92
b1   9.2
10
El incremento anual estimado de las ventas anuales es 9.2 en dec miles C$
262
bo   52.4
5
La venta anual estimada para el año 2001 es 52.4 en dec miles C$
La ecuación de tendencia lineal es
Ŷ = 52.4 + 9.2 X
Origen: 1 – Jul - 2001
X en años
c) Trace la línea de tendencia sobre el gráfico de la serie

Para x = -2, Ŷ = 52.4 + 9.2 (-2) = 34
Para x = 2, Ŷ = 52.4 + 9.2 (2) = 70.8
154
d) Prediga las ventas para el año 2004

Para x = 3, Ŷ = 52.4 + 9.2 (3) = 80 en dec. miles C$
4.4 ANALISIS DE LAS SERIES DE TIEMPO CON DATOS TRIMESTRALES
Las observaciones de una variable de interés Y de una serie de tiempo pueden corresponder a
períodos más pequeños que los de un año tales como: trimestres, meses, semanas, días, etc.
Analicemos ahora las series de tiempo con datos trimestrales.
4.4.1 CALCULO DE LA TENDENCIA

Cuando se trabaja con una serie de tiempo con datos trimestrales y queremos obtener su tendencia
lineal, se ahorrará mucho esfuerzo sin demasiada pérdida de exactitud si se forman los totales
anuales (la suma de los valores trimestrales de cada año) y se ajusta una línea de tendencia de
mínimos cuadrados a los datos anuales.
La expresión resultante, en términos anuales, se puede convertir con facilidad a términos

trimestrales al dividir el intercepto entre 4 y la pendiente entre 16. Luego se hace el desplazamiento
del origen de la serie desde el 1 de Julio hasta el centro del siguiente trimestre formado por Julio,
Agosto y Septiembre (15 de Agosto), sumando la mitad del valor de la pendiente en la ecuación de
tendencia trimestral anterior.
La idea anterior queda reflejada así:
Ecuación de tendencia lineal anual Ecuación de tendencia lineal trimestral

b0 b
Ŷ  b 0  b1X Ŷ   1 ( X  0.5 )
4 16
Origen : 1 de Julio del año X  0  Origen :15 de Agosto del año X  0
X en años
X en trimestres
b1
donde representa el cambio trimestral estimado del valor trimestral de Y
16
b 0 b1
y  (0.5) representa el valor trimestral estimado de Y para X = 0 (el trimestre origen)
4 16
EJEMPLO 3
Los datos que aparecen a continuación son las importaciones trimestrales de materiales de
construcción en miles de dólares durante el período 2000 - 2002
Trimestre
155
AÑO 1 2 3 4
2000 90 104 113 100
2001 83 99 126 127
2002 125 170 165 144
a) Construir un gráfico de las importaciones trimestrales.
Y 180
170
160
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
0
1 2 3 4 1 2 3 4 1 2 3 4
2000 2001 2002

X
Figura 4.5
b) Determinar la ecuación de tendencia lineal de las importaciones trimestrales e interprete el

intercepto y la pendiente estimada.
Yi
AÑO xi Imp xi Yi x i2
2000 -1 407 -407 1
2001 0 435 0 0
2002 1 604 604 1
0 1446 197 2
x i Yi
197
n
Y 1446
b1  .
  98.5 en miles de $, i
  482 en miles
n
2 b0  .
3
x
.
2
i n
de $
La ecuación de tendencia lineal de los totales anuales es
Ŷ = 482 + 98.5 X
Origen: 1 – Jul -2001
156
X en años
Para convertir la ecuación de tendencia anual anterior a una de tendencia trimestral cuyo origen sea
el 15 de Agosto de 2001 procedemos así.
482 98.5
Ŷ   ( X  0.5 )
4 16
Ŷ = 120.5 + 6.1562 ( X + 0.5 ) = 120.5 + 3.0781 + 6.1562 X
Ŷ = 123.5781 + 6.1562 X
Origen: 15 – Ago - 2001
X en trimestres
Interpretación de la pendiente y el intercepto:
El aumento trimestral estimado de las importaciones trimestrales es 6.1562 en miles de dólares.
La importación trimestral estimada para el tercer trimestre del año 2001 es 123.5781 en miles de
dólares.
c) Trace sobre el gráfico anterior la recta de tendencia
Determinaremos los pares ordenados de dos puntos cualesquiera suficientemente alejados, digamos
los correspondientes al primer trimestre del año 2000 y al cuarto trimestre del año 2002.
Como X toma el valor 0 para el tercer trimestre del año 2001 (porque es el trimestre origen) , X
tomará el valor -6 para el primer trimestre del año 2000 y el valor 5 para el cuarto trimestre del año
2002.
Para X = -6, Ŷ = 123.5781 + 6.1562 (-6 ) = 123.5781 - 36.9372 = 86.6409
Para X = 5, Ŷ = 123.5781 + 6.1562 (5 ) = 123.5781 + 30.781 = 154.3591
En la figura 4.5 se han unido estos puntos con una recta
d) Prediga las importaciones trimestrales para el primer trimestre de 2003
Para X = 6, Ŷ = 123.5781 + 6.1562 (6 ) = 123.5781 + 36.9372 = 160.5153 en miles de dólares
4.4.2 CALCULO DE LOS INDICES ESTACIONALES
Las variaciónes estacionales de una serie de tiempo pueden detectarse haciendo que las
observaciones de la variable de interés Y correspondan a periodos de tiempo pequeños (días,
semanas, meses o trimestres).
157
Las medidas de las variaciones estacionales serán expresadas por números índices estacionales.
Un procedimiento para determinar los índices estacionales es el siguiente.
METODO DEL COCIENTE DEL PROMEDIO MOVIL
Este método esta basado en el modelo multiplicativo de una serie que expresa que cualquier valor
observado Yi es el producto de los valores de las cuatro componentes, es decir,
Yi = Ŷi · Si · Ci · Ii
donde Ŷi es la tendencia que expresaremos en las mismas unidades de los datos originales,
mientras que las componentes Si , Ci , Ii son los valores de las variaciones estacionales, cíclicas e
irregulares respectivamente que expresaremos como porcentajes cuyo valor medio es 100.
Los índices estacionales serán obtenidos eliminando Ŷi , Ci e Ii de las observaciones originales Yi
en base a cocientes según los siguientes pasos.
1. Determinar el total móvil de 4 trimestres para la serie de tiempo.
De la suma de los valores de los 4 trimestres del primer año obtenemos el total móvil de esos
trimestres, el cual se asociará al punto medio de dichos trimestres. El siguiente total móvil se
obtiene eliminando del total móvil anterior el valor del primer trimestre del primer año y agregando
el valor del primer trimestre del segundo año, el cual se asociará al punto medio de los 4 trimestres
que se conservan.
Continuamos de esta manera el proceso de desplazar el total móvil de 4 trimestres sobre la serie de
tiempo hasta incluir el último valor de ella.
2. Asociarle a cada total móvil un promedio móvil de 4 trimestres.
La división de cada total móvil por 4 proporciona un promedio móvil.
3. Calcular los promedios móviles centrados.
Asociamos a cada trimestre (excepto los dos primeros y los dos últimos de la serie de tiempo) el
promedio de los dos promedios móviles que caen arriba y abajo, que llamaremos promedio móvil
centrado. Con este proceso de divisiones se han eliminado los componentes estacionales e
irregulares (Si Ii) quedando los componentes cíclicos y los de tendencia, esto es, la tendencia cíclica
(Ŷi C i )
4. Determinar qué porcentaje de cada promedio móvil centrado es igual a su valor trimestral
correspondiente.
Para determinar este porcentaje dividimos cada valor trimestral entre su correspondiente promedio
móvil centrado, luego multiplicamos el resultado por 100. Este paso nos permite aislar los
componentes estacional e irregular así
158
Yi Ŷi S i C i I i
(100)  (100)  S i I i (100)
Ŷi C i Ŷi C i
5. Arreglar los porcentajes de los promedios móviles centrados Si Ii(100) del paso anterior según el
número de trimestre de cada año luego calculamos el promedio de los primeros, segundos, terceros y
cuartos trimestres de los años de la serie.
Los valores Si Ii para los mismos trimestres se promedian para eliminar I i quedando aislado de esta
manera el índice estacional Si . Por tanto cada número de trimestre tendrá asociado un índice
estacional, esto es, habrán 4 índices estacionales.
6. Ajustar los índices estacionales.
La base de un índice estacional es 100, en consecuencia, los 4 índices deberán sumar 400.
Si la suma de los 4 índices estacionales calculados no es igual a 400, para corregir este error
multiplicamos cada uno de estos índices por una constante de ajuste que determinamos así.
Suma deseada de los índices

Constante de ajuste 
Suma real de los índices
Los índices estacionales ajustados S se obtienen así:
S = (Indice sin ajustar) (Constante de ajuste)
Lográndose de esta manera que la suma de los 4 índices estacionales sea 400.
EJEMPLO 4
Para las importaciones trimestrales de materiales de construcción en miles de dólares del ejemplo 3.
i) Calcule los índices estacionales para los 4 trimestres por el método del cociente del promedio
móvil. Haga una representación gráfica de los índices estacionales.
159
METODO DEL COCIENTE DEL PROMEDIO MOVIL
( 1) (2) (3) (4)

DATOS TOTAL MOVIL DE PROMEDIO PROMEDIO PORCENTAJE DEL
AÑO TRIMESTRE YI = YSCI 4 TRIMEST. MOVIL MOVIL CENTRADO PROMEDIO MOVIL
2000 1 90 - - - -
2 104 - - - -
407 101.75
3 113 100.9 112.0
400 100.00
4 100 99.4 100.6
395 98.75
2001 1 83 100.4 82.7
408 102.00
2 99 105.4 93.9
435 108.75
3 126 114.0 110.5
477 119.25
4 127 128.1 99.1
548 137.0
2002 1 125 141.9 88.1
587 146.75
2 170 148.9 114.2
604 151.0
3 165 - - - -
4 144 - - - -
5. Los porcentajes del promedio móvil (SI) para los mismos trimestre se promedian para eliminar
I quedando solamente los índices estacionales pero sin ajustar
Trimestres
AÑO 1 2 3 4
2000 - - 112.0 100.6
2001 82.7 93.9 110.5 99.1
2002 88.1 114.2 - -
Indice estacional sin ajustar 85.4 104.0 111.2 99.8 Suma real = 400.40
Indice estacional ajustado (S) 85.3 103.9 111.1 99.7 Suma deseada = 400
6. Ajustemos ahora los índices estacionales
Suma deseada de los indices 400

Constante de ajuste = Suma real de los índices

400.4
 0.9990
Indice estacional ajustado = (Indice sin ajustar)( constante de ajuste)

160
Una representación gráfica de los índices estacionales ajustados S es dada a continuación
S
120
100
80
60
40
20
0
1 2 3 4
Trimestres
Figura 4.6
ii) Interprete los índices estacionales ajustados que corresponden al primero y tercer trimestre.
Las importaciones trimestrales del primer trimestre han estado por lo general un 14.7% por debajo
de las importaciones trimestrales promedio del año cuyo centro corresponde a ese trimestre.
Las importaciones trimestrales del tercer trimestre han estado por lo general un 11.1% por encima de
las importaciones trimestrales promedio del año cuyo centro corresponde a ese trimestre.
iii) Prediga las importaciones para el primer trimestre de 2003 utilizando la tendencia y los índices
estacionales.
Para X = 6, Ŷ = 123.5781 + 6.1562 (6 ) = 160.5153

Importaciones trimestrales para el primer trimestre del 2003
85.3% de 160.5153 = 160.5153 (0.853) = 136.9196 en miles de dólares.
APLICACIONES DE LOS INDICES ESTACIONALES

Una aplicación frecuente de los índices estacionales consiste en eliminar los efectos de la
estacionalidad en los datos de una serie de tiempo. A esos datos se les denomina datos ajustados
estacionalmente o datos desestacionalizados.
Los ajustes estacionales son de particular importancia cuando se desea comparar datos con períodos
tales como (trimestres,meses, etc.) con el objeto de determinar si se ha presentado un aumento o una
disminución con respecto a las expectativas estacionales.
161
Para desestacionalizar los valores de una serie dividimos los valores reales de la serie entre el índice
estacional correspondiente y luego multiplicamos por 100, esto es,
Yi
(100) Debido a que
Si
Yi Ŷi S i C i I i
(100)  (100)  Ŷi C i I i (100)
Si Si
los datos desestacionalizados de una serie pueden verse como una tendencia cíclica irregular
expresada en las mismas unidades que los datos originales, pero que no representan ocurrencias
reales, más bien son valores que sólo tienen sentido para propósitos de comparación.
EJEMPLO 5.
Para las importaciones trimestrales de materiales de construcción en miles de dólares del ejemplo 3.
i) Calcule las importaciones trimestrales desestacionalizadas para 2002.
Trim Yi S Yi desestacionalizado
1 125 85.3 146.5
2 170 103.9 163.6
3 165 111.1 148.5
4 144 99.7 144.4
ii) Comente la comparación de las importaciones trimestrales de los trimestres primero y segundo
de 2002, con base en los valores trimestrales reales y los valores trimestrales desestacionalizados.
Al pasar del primero al segundo trimestre hay un aumento de las importaciones trimestrales de 45
mucho mayor que lo esperado estacionalmente 152.3 - 125 = 27.3, pues se considera que la
tendencia cíclica irregular de las importaciones trimestrales la levantó al pasar de 146.5 a 163.6
iii) Comente la comparación de las importaciones trimestrales de los trimestres segundo y tercero
de 2002, con base en los valores trimestrales reales y los valores trimestrales desestacionalizados
Al pasar del segundo al tercer trimestre las importaciones trimestrales disminuyen 5 contrario a lo
que estacionalmente se esperaba que era un aumento de 181.8 - 170 = 11.8 , se considera que la
tendencia cíclica irregular de las importaciones trimestrales la bajó al pasar de 163.6 a 148.5
EJERCICIOS PROPUESTOS DEL TEMA 4: SERIES DE TIEMPO.
1. Con qué componente de una serie de tiempo asociaría usted cada uno de los siguientes factores:
a) Un aumento en las ventas de televisores en el mes de Diciembre.

162
b) Una declinación durante dos años en la construcción de viviendas.

c) Una huelga de trabajadores de la industria automotriz
d) Un aumento de las ventas de helados en un trimestre de verano.
e) Un descenso de la mortalidad infantil en el período 1990 – 2003.
f) Una caída súbita en la producción tabacalera debido a una plaga (moho azul).
g) Un aumento de la producción de papas en el período de marzo y abril.
h) Una declinación en las ventas de helados en el mes de Diciembre a causa del frío.
i) Un aumento en el rendimiento de arroz debido al desarrollo de nuevas variedades de este cereal.
j) La repetición sistemática de la crisis en la economía capital.
k) Un aumento del Producto Nacional Bruto (PNB) durante 3 años.
2. Supongamos que se dispone de datos sobre las ventas trimestrales de libros de texto en la librería
de la Universidad durante los últimos 10 años.
a) ¿Cree usted que estos datos acusarían una tendencia definida? Explicar por qué.
b) ¿Cree usted que estos datos trimestrales mostrarían un esquema estacional? ¿Si así fuera,
porqué?
c) ¿Qué factores podrían causar una variación cíclica en las ventas trimestrales?
d) ¿Qué factores tenderían a causar variaciones irregulares en los datos?
3. La producción en Nicaragua de cierto artículo en millones de unidades durante los años 1996-
2002 aparece en la siguiente tabla.
Año Producción
1996 10
1997 9
1998 8
1999 8
2000 5
2001 6
2002 3
a) Haga el gráfico de la serie.

b) Encuentre la ecuación de tendencia lineal e interprete el intercepto y la pendiente.
c) Pronostique la producción para el año 2003.
d) Trace la línea de tendencia sobre el gráfico de la serie.
4. Una compañía de productos alimenticios tiene los siguientes datos sobre el número de cajas de
cereal en miles que ha vendido en los últimos 6 años.
Año Producción
1997 21.0
163
1998 19.4
1999 22.6
2000 28.2
2001 30.4
2002 25.0
a) Construya el gráfico de la serie.

b) Determine la ecuación de tendencia lineal que mejor se ajuste a los datos anteriores e interprete
la pendiente y el intercepto.
c) Prediga la venta del número de cajas de cereal para 2003
d) Trace la línea de tendencia sobre el gráfico del inciso a).
5. El total de ventas anuales de una compañía están dadas en millones de córdobas por la siguiente
tabla.
Año Ventas
1998 21
1999 24
2000 29
2001 29
2002 34
a) Encontrar la ecuación de la recta de tendencia por el método de mínimos cuadrados. Interprete

la pendiente.
b) ¿Cuál sería la venta estimada para 2003?
c) Encontrar la ecuación de la recta de tendencia de las ventas trimestrales de la compañía con
origen en el 15-08-2000
6. Dados los siguientes datos sobre producción de una compañía en millones de unidades.
Año Producción
1997 24
1998 17
1999 20
2000 18
2001 14
2002 15
a) Calcule la ecuación de la recta de tendencia por el método de los mínimos cuadrados.

b) Pronostique la producción para los años 2003 y 2004 ¿Cuál de estos pronósticos sería más
seguro? Argumente su respuesta.
c) Convierta la ecuación calculada en a) a una ecuación de tendencia de producciones trimestrales
con origen en el 15-8-1997.
7. Dados los siguientes datos sobre producción de café
Año Producción
1998 80
1999 82
164
2000 85
2001 84
2002 89
Pronostique la producción trimestral de café para el 2° trimestre de 2003.
8. Dada la siguiente serie relativa a la existencia de ganado ovino y caprino en miles de cabezas en
una Empresa Agropecuaria..
Año Ovino caprino Total

1999 56 24 80
2000 63 20 83
2001 81 17 98
2002 90 15 105
a) Determine la ecuación de tendencia lineal de la existencia total de ganado. Interprete la

pendiente y el intercepto.
b) Determine la ecuación de tendencia lineal de la existencia de ganado caprino. Interprete la
pendiente.
c) Pronostique la existencia de ganado ovino para 2003.
9. Suponga que la siguiente ecuación nos expresa la estimación de tendencia de la producción

anual de azúcar refinada en miles de toneladas métricas.
Ŷ = 677.7 + 1.4 X
Origen: 1 - 7 - 2000
X en años
a) Interprete los elementos que intervienen en esta ecuación dentro del contexto del problema.
b) Pronostique la producción de azúcar para el 2° trimestre de 2003
10. La ecuación de tendencia para las producciones trimestrales de cierto artículo (en miles de
unidades) es:
Ŷ = 12.25 + 0.50 X
Origen:15 - 08 - 2001
X en trimestres
a) Interprete los elementos que intervienen en esta ecuación dentro del contexto del problema.
b) Prediga la producción para el 1er trimestre de 2003.
11. Los datos que aparecen a continuación son las ventas trimestrales en millones de una empresa
durante el período 2000-2002.
Trimestres
Año 1 2 3 4
2000 4.9 5.9 6.1 7.6
165
2001 5.0 6.3 6.6 8.3

2002 5.7 7.0 7.5 9.2
a) Construir un gráfico de las ventas trimestrales.

b) Determinar la ecuación de tendencia lineal de las ventas trimestrales. Trace sobre el gráfico
anterior la recta de tendencia e interprete la pendiente estimada.
c) Calcule los índices estacionales para los cuatro trimestres. Haga una representación gráfica de
los índices estacionales e interprete el 4º índice estacional.
d) Calcule las ventas trimestrales desestacionalizada para 2001.
e) Comente la comparación de las importaciones trimestrales de los trimestres tercero y cuarto de
2001, con base en los valores trimestrales reales y los valores trimestrales desestacionalizados.
12. La siguiente tabla muestra la producción trimestral de mantequilla en millones de libras de un

cierto país hipotético durante los años 1999 - 2002.
Trimestres
Año 1 2 3 4
1999 3.8 4.7 3.3 2.7
2000 3.3 4.4 3.5 2.9
2001 2.5 4.0 3.2 2.6
2002 2.6 3.8 3.4 2.2
a) Construir un gráfico de las producciones trimestrales.

b) Determinar la ecuación de tendencia lineal de las producciones trimestrales. Trace sobre el
gráfico anterior la recta de tendencia.
c) Calcule los índices estacionales para los cuatro trimestres e interprete el 2º índice estacional
d) Pronostique las producciones trimestrales para el 3er trimestre de 2003 utilizando la ecuación de
tendencia y los índices estacionales.
13. A continuación aparecen datos trimestrales de ventas ( en miles de córdobas ) para una pequeña
empresa de materiales de construcción en 3 años recientes.
Trimestres
Año 1 2 3 4
1 50 35 25 40
2 45 35 20 30
3 35 20 15 25
a) Construya un gráfico de las ventas trimestrales y observe si hay un patrón estacional constante.
b) Determinar la ecuación de tendencia lineal de las ventas trimestrales. Trace sobre el gráfico
anterior la recta de tendencia e interprete la pendiente estimada.
los índices estacionales e interprete el 3er. Índice estacional.
14. Una compañía constructora ha reunido datos trimestrales sobre número de casas que ha iniciado
durante los últimos cuatro años.
Trimestres
Año 1 2 3 4
1999 7 9 6 4
166
2000 8 10 7 4
2001 8 11 7 5
2002 9 12 8 6
a) Construir un gráfico del número de casas que ha iniciado trimestralmente.

b) Determinar la ecuación de tendencia lineal del número de casas iniciadas trimestralmente.
Trace sobre el gráfico anterior la recta de tendencia e interprete la pendiente estimada.
los índices estacionales e interprete el 2º índice estacional.
e) Pronostique el número de casas que se iniciarán para el 2° trimestre de 2003 utilizando la
ecuación de tendencia y los índices estacionales.
15. La producción trimestral de madera de pino, en miles de pies cuadrados del aserradero
LUMBER, desde 1999 es:
Trimestres
Año 1 2 3 4
1999 7.8 10.2 14.7 9.3

2000 6.9 11.6 17.5 9.3
2001 8.9 9.7 15.3 10.1
2002 10.7 12.4 16.8 10.7
a) Determine el patrón estacional para los datos de producción e interprételo.

b) Desestacionalice los datos correspondientes a 2002.
c) Comente la comparación de las importaciones trimestrales de los trimestres segundo y tercero de
2002, con base en los valores trimestrales reales y los valores trimestrales desestacionalizados.
16. Un fabricante de cierto artículo comprueba que el índice estacional de ventas en el 1 er trimestre
es de 40%, en tanto que en el 2° trimestre es de 160%. ¿Cómo interpretaría usted estos resultados?
17. El índice estacional de ventas para la compañía ABC en el 1er trimestre fue de 40%. Si en el
primer trimestre de 2002 las ventas totalizaron 120 millones de córdobas ¿A qué son iguales las
ventas desestacionalizadas?
18. El personal empleado por una industria de productos químicos agrícolas aumentó de 10 mil en
el 2° trimestre a 15 mil en el 3 er trimestre. La información desestacionalizada índica una declinación
de 10 mil a 7.5 mil.
a) ¿Cuál es el índice estacional para el 3er trimestre?

b) ¿Cómo explicaría la declinación en esta información desestacionalizada?.
Tabla 1 Tabla de números aleatorios

Columna
Fila 1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 10480 15011 01536 02011 81647 91646 69179 14194 62590 36207 20969 99570 91291 90700
2 22368 46573 25595 85393 30995 89198 27982 53402 93965 34095 52666 19174 39615 99505
167
3 24130 48360 22527 97265 76393 64809 15179 24830 49340 32081 30680 19655 63348 58629
4 42167 93093 06243 61680 07856 16376 39440 53537 71341 57004 00849 74917 97758 16379
5 37570 39975 81837 16656 06121 91782 60468 81305 49684 60672 14110 06927 01263 54613
6 77921 06907 11008 42751 27756 53498 18602 70659 90655 15053 21916 81825 44394 42880
7 99562 72905 56420 69994 98472 31016 71194 18738 44013 48840 63213 21069 10634 12952
8 96301 91977 05463 07972 18876 20922 94595 56869 69014 60045 18425 84903 42508 32307
9 89579 14342 63661 10281 17453 18103 57740 84378 25331 12566 58678 44947 05585 56941
10 85475 36857 53342 53988 53060 59533 38867 62300 08158 17983 16439 11458 18593 64952
11 28918 69578 88231 33276 70997 79936 56865 05859 90106 31595 01547 85590 91610 78188
12 63553 40961 48235 03427 49626 69445 18663 72695 52180 20847 12234 90511 33703 90322
13 09429 93969 52636 92737 88974 33488 36320 17617 30015 08272 84115 27156 30613 74952
14 10356 61129 87529 85689 48237 52267 67689 93394 01511 26358 85104 20285 29975 89868
15 07119 97336 71048 08178 77233 13916 47564 81056 97735 85977 29372 74461 28551 90707
16 51085 12765 51821 51259 77452 16308 60756 92144 49442 53900 70960 63990 75601 40719
17 02368 21382 52404 60268 89368 19885 55322 44819 01188 65255 64835 44919 05944 55157
18 01011 54092 33362 94904 31273 04146 18594 29852 71585 85030 51132 01915 92747 64951
19 52162 53916 46369 58586 23216 14513 83149 98736 23495 64350 94738 17752 35156 35749
20 07056 97628 33787 09998 42698 06691 76988 13602 51851 46104 88916 19509 25625 58104
21 48663 91245 85828 14346 09172 30168 90229 04734 59193 22178 30421 61666 99904 32812
22 54164 58492 22421 74103 47070 25306 76468 26384 58151 06646 21524 15227 96909 44592
23 32639 32363 05597 24200 13363 38005 94342 28728 35806 06912 17012 64161 18296 22851
24 29334 27001 87637 87308 58731 00256 45834 15398 46557 41135 10367 07684 36188 18510
25 02488 33062 28834 07351 19731 92420 60952 61280 50001 67658 32586 86679 50720 94953
26 81525 72295 04839 96423 24878 82651 66566 14778 76797 14780 13300 87074 79666 95725
27 29676 20591 68086 26432 46901 20849 89768 81536 86645 12659 92259 57102 80428 25280
28 00742 57392 39064 66432 84673 40027 32832 61362 98947 96067 64760 64584 96096 98253
29 05366 04213 25669 26422 44407 44048 37937 63904 45766 66134 75470 66520 34693 90449
30 91921 26418 64117 94305 26766 25940 39972 22209 71500 64568 91402 42416 07844 69618
31 00582 04711 87917 77341 42206 35126 74087 99547 81817 42607 43808 76655 62028 76630
32 00725 69884 62797 56170 86324 88072 76222 36086 84637 93161 76038 65855 77919 88006
33 69011 65795 95876 55293 18988 27354 26575 08625 40801 59920 29841 80150 12777 18501
34 25976 57948 29888 88604 67917 48708 18912 82271 65424 69774 33611 54262 85963 03547
35 09763 83473 73577 12908 30883 18317 28290 35797 05998 41688 34952 37888 38917 88050
36 91567 42595 27958 30134 04024 86385 29880 99730 55536 84855 29080 09250 79656 73211
37 17955 56349 90999 49127 20044 59931 06115 20542 18059 02008 73708 83517 36103 42791
38 46503 18584 18845 49618 02304 51038 20655 58727 28168 15475 56942 53389 20562 87338
39 92157 89634 94824 78171 84610 82834 09922 25417 44137 48413 25555 21246 35509 20468
40 14577 62765 35605 81263 39667 47358 56873 56307 61607 49518 89656 20103 77490 18062
41 98427 07523 33362 64270 01638 92477 66969 98420 04880 45585 46565 04102 46880 45709
42 34914 63976 88720 82765 34476 17032 87589 40836 32427 70002 70663 88863 77775 69348
43 70060 28277 39475 46476 23219 53416 94970 25832 69975 94884 19661 72828 00102 66794
44 53976 54914 06990 67245 68350 82948 11398 42878 80287 88267 47363 46634 06541 97809
45 76072 29515 40980 07391 58745 25774 22987 80059 39911 96189 41151 14222 60697 59583
46 90725 52210 93974 29992 65831 38857 50490 83765 55657 14361 31720 57375 56228 41546
47 64364 67412 33339 31926 14883 24413 59744 92351 97473 89286 35931 04110 23726 51900
48 08962 00358 31662 25388 61642 34072 81249 35648 56891 69352 48373 45578 78547 81788
49 95012 68379 93526 70765 10592 04542 76463 54328 02349 17247 28865 14777 62730 92277
50 15664 10493 20492 38391 91132 21999 59516 81652 27195 48223 46751 22923 32261 85653
51 16408 81899 04153 53381 79401 21438 83035 92350 36693 31238 59649 91754 72772 02338
Tabla 2 Función de distribución acumulada de Z (Areas a la izquierda de z)

z 0 1 2 3 4 5 6 7 8 9
168
-3. .0013
-2.9 .0019 .0018 .0017 .0017 .0016 .0016 .0015 .0015 .0014 .0014
-2.8 .0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019
-2.7 .0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026
-2.6 .0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036
-2.5 .0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048
-2.4 .0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064
-2.3 .0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084
-2.2 .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110
-2.1 .0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143
-2.0 .0227 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183
-1.9 .0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233
-1.8 .0359 .0351 .0344 .0336 .0329 .0322 .0314 .0307 .0300 .0294
-1.7 .0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367
-1.6 .0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455
-1.5 .0668 .0655 .0643 .0630 .0618 .0606 .0594 .0582 .0571 .0559
-1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0721 .0708 .0694 .0681
-1.3 .0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823
-1.2 .1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985
-1.1 .1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190 .1170
-1.0 .1587 .1562 .1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379
-.9 .1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611
-.8 .2119 .2090 .2061 .2033 .2005 .1977 .1949 .1921 .1894 .1867
-.7 .2420 .2389 .2358 .2326 .2297 .2266 .2236 .2206 .2177 .2148
-.6 .2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451
-.5 .3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776
-.4 .3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121
-.3 .3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483
-.2 .4407 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859
-.1 .4602 .4562 .4522 .4483 .4443 .4404 .4364 .4325 .4286 .4247
-.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641
.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8079 .8106 .8133
.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9700 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9773 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3. .9987
Tabla 3 Distribución t de Student

169
(Areas acumuladas a la derecha de t)
G.L. 0.10 0.05 0.025 0.01 0.005 0.0005
1 3.078 6.314 12.706 31.821 63.657 636.619

2 1.886 2.920 4.303 6.965 9.925 31.598
3 1.638 2.353 3.182 4.541 5.841 12.941
4 1.533 2.132 2.776 3.747 4.604 8.610
5 1.476 2.015 2.571 3.365 4.032 6.859
6 1.440 1.943 2.447 3.143 3.707 5.959

7 1.415 1.895 2.365 2.998 3.499 5.405
8 1.397 1.860 2.306 2.896 3.355 5.041
9 1.383 1.833 2.262 2.821 3.250 4.781
10 1.372 1.812 2.228 2.764 3.169 4.587
11 1.363 1.796 2.201 2.718 3.106 4.437

12 1.356 1.782 2.179 2.681 3.055 4.318
13 1.350 1.771 2.160 2.650 3.012 4.221
14 1.345 1.761 2.145 2.624 2.977 4.140
15 1.341 1.753 2.131 2.602 2.947 4.073
16 1.337 1.746 2.120 2.583 2.921 4.015

17 1.333 1.740 2.110 2.567 2.898 3.965
18 1.330 1.734 2.101 2.552 2.878 3.922
19 1.328 1.729 2.093 2.539 2.861 3.883
20 1.325 1.725 2.086 2.528 2.845 3.850
21 1.323 1.721 2.080 2.518 2.831 3.819

22 1.321 1.717 2.074 2.508 2.819 3.792
23 1.319 1.714 2.069 2.500 2.807 3.767
24 1.318 1.711 2.064 2.492 2.797 3.745
25 1.316 1.708 2.060 2.485 2.787 3.725
26 1.315 1.706 2.056 2.479 2.779 3.707

27 1.314 1.703 2.052 2.473 2.771 3.690
28 1.313 1.701 2.048 2.467 2.763 3.674
29 1.311 1.699 2.045 2.462 2.756 3.659
30 1.310 1.697 2.042 2.457 2.750 3.646
40 1.303 1.684 2.021 2.423 2.704 3.551

60 1.296 1.671 2.000 2.390 2.660 3.460
120 1.289 1.658 1.980 2.358 2.617 3.373
 1.282 1.645 1.960 2.326 2.576 3.291
170
BIBLIOGRAFIA
 Elementos de Muestreo
Richard L. Scheaffer
William Mendenhall
Lyman Ott
Grupo Editorial Iberoamérica, 1986
 Elementos básicos de Estadística Ecónomica y Empresarial

A. M. Montiel Torres
F. Rius Díaz
F. J Barón López
Prentice Hall, España, 1997
 Serie Schaum, Estadística aplicada a la Administración y a la Economía

Leonard J. Kasmier.
Mc Graw – Hill, Mexico, 1988
 Estadística Básica en Administración.

Mark L. Berenson
David M Levine
Mexico, Cuarta edición, Prentice Hall 1992
 Estadística para Administradores

Richard I. Levine
Prentice – Hall Hispanoamericana, S. A.
Mexico, segunda edición, 1988
 Applied Linear Statistical Models

John Neter
William Wasserman
Richard D. Irwin, INC, 1974
 Introduction to Mathematical Statistics

Robert V. Hagg
Allen T. Craig
USA, Fourth Edition, Mcmillan Publishing, 1978

Estadistica II

Cargado por

Copyright:

Formatos disponibles

Estadistica II

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica II

Cargado por

Copyright:

Formatos disponibles

1

TEMA 1: MUESTREO Y ESTIMACION

El total poblacional es otro parámetro que se denota y define como τ x i

POR QUE SE MUESTREA

Tomar decisiones con base en información incompleta no es algo novedoso.

VENTAJAS DEL MUESTREO.

1. Rapidez y bajo costo de la información requerida.

2. Es un procedimiento práctico cuando la población es muy grande o infinita.

3. Evita la destrucción de toda la población.

Esta situación se da cuando la medición de la característica de interés destruye al mismo elemento.

1.2 METODOS DE MUESTREO

1.2.1 MUESTREO NO PROBABILISTICO

1.2.2 MUESTREO PROBABILISTICO

- Es un método de muestreo en el cual cada elemento de la población tiene una probabilidad

1.2.3 TIPOS DE MUESTREOS PROBABILISTICOS.

1.3 MUESTREO ALEATORIO SIMPLE Y MUESTREO ALEATORIO SISTEMATICO

El muestreo aleatorio simple es un procedimiento práctico si:

i) La población tiene una desviación estandar  pequeña en comparación a la magnitud de los

ii) Es fácil y poco costoso llegar a los elementos poblacionales.

El muestreo aleatorio sistemático es un procedimiento que se aplica a situaciones donde los

El muestreo aleatorio sistemático es un procedimiento práctico si:

1.3.1 COMO SELECCIONAR LA MUESTRA ALEATORIA SIMPLE.

1. Construir el marco muestral.

2. Especificar si el muestreo será con o sin reposicion.

3. Utilizar una tabla de numeros aleatorios.

La utilización de la tabla constará de los siguientes pasos:

1. Asignar números de códigos a los elementos de la población utilizando cierto número de

2. Escoja una entrada a la tabla.

La entrada se especificará dando un número de fila y un número de columna de manera arbitraria.

3. Escoja una dirección.

Por ejemplo: Descendente    , horizontal de izquierda a derecha    , etc.

Si el número a seleccionar es mayor que N (o fue seleccionado previamente en un muestreo sin

4. Hágale corresponde a cada número seleccionado de código su elemento correspondiente.

La población de supermercados de una ciudad se dan en la siguiente tabla.

Si X representan las ventas diarias.

 representa la venta diaria promedio de los supermercados y  representa la venta diaria

que corresponden a los supermercados 14, 13, 12 y 05 señalados con un *.

1.3.2 COMO SELECCIONAR LA MUESTRA ALEATORIA SISTEMATICA

1. Numerar u ordenar los elementos poblacionales

2. Obtener el intervalo de muestreo

3. Seleccionar al azar un punto de arranque r

4. Tomar cada k-ésimo elemento a partir del punto de arranque r

1. Haga una lista de las 78 casas y numere las 78 casas así:

2. Obtenga el intervalo de muestreo

1. Numeremos las solicitudes así: 1, 2, 3, . . . . . . 70

2. Obtenga el intervalo de muestreo.

3. Utilicemos la tabla de números aleatorios para seleccionar un número entre 1 y 875

4. A partir de 400 aumente consecutivamente 875 hasta obtener los 8 números

400, 1275, 2150, 3025, 3900, 4775, 5650, 6525

Finalmente se suprimen tantas cifras a la derecha como decimales existan en 8.75

4, 12, 21, 30, 39, 47, 56, 65

1.3.3 MUESTRA ALEATORIA DE UNA VARIABLE ALEATORIA

Recordemos algunos experimentos aleatorios:

Si repetimos un experimento aleatorio cualquiera n veces (independientemente uno de otro y bajo

1.3.5 ESTIMADOR DE UN PARAMETRO

Un estimador de un parámetro será entonces un procedimiento o fórmula que proporciona estimados

Observación: Un estimador es un estadístico, es decir una variable aleatoria.

Para una población finita de tamaño N

NX será un estimador del total poblacional τ  x i que llamaremos total muestral