Estadistica II
Estadistica II
Estadistica II
1.1 INTRODUCCION
Recordemos algunos conceptos de la Estadística que serán importantes en el desarrollo de este curso
POBLACIÓN
Es un conjunto de elementos de naturaleza cualquiera de los cuales estamos interesados en estudiar
al menos una característica común y observable de dichos elementos en un determinado lugar y en
un momento dado.
Observación: La población en estudios debe estar definida sin ambigüedad de manera que no de
lugar a confusiones. Los elementos consideramos que se encuentran localizados en un determinado
lugar o región geográfica y en un periodo de tiempo dado.
Ejemplo
El conjunto de todos los supermercados de Nicaragua en un momento dado
Elementos: Supermercados.
Características : ventas mensuales, N° empleados, nombre, atención, N° cajeras, etc.
VARIABLES
Utilizaremos variables como X, Y, Z, etc. para representar las características de los elementos
Para el ejemplo anterior podemos hacer que X represente las ventas mensuales
DATOS ESTADISTICOS
Los valores posibles de una característica X los denotaremos por x , mientras que los valores
realmente observados de esa característica X , los llamaremos datos y los denotaremos por x i donde
el valor del subíndice i nos indica que es la i-ésima observación de X.
Con frecuencia usaremos el término población para referirnos a la totalidad de datos que podrían
recopilarse en una situación dada.
x1 , x2 , … , xN
2
PARAMETROS
Es una medida que proviene de todos los datos de la población. Los parámetros son constantes que
representan por lo general características de la población. Generalmente se representan por letras
griegas.
Por ejemplo, la media poblacional es un parámetro que se denota y define como
N
x x 2 ... x N
x i
μ 1 .
N N
Si para el ejemplo anterior X representa la venta mensual entonces representa la venta mensual
promedio y la venta mensual total
MUESTRA
Es una parte de la población que se espera sea representativa de ella.
Con frecuencia usaremos el término muestra para referirnos a los datos muestrales x1 , x2 , … , xn
Población tamaño N
X
x1 muestra tamaño n
x2
. x1, x2,….xn
.
xN datos muestrales
Una muestra de familias de un barrio puede ser útil para estimar el número promedio de niños por
familia del barrio.
En la industria una muestra de artículos puede servirnos para estimar la proporción de artículos
defectuosos producidos en cierto momento.
El muestreo es una técnica que utiliza recursos materiales, económicos y humanos disponibles, para
obtener en el menor tiempo, al menor costo y con cierta exactitud aceptable información necesaria
acerca de algunos parámetros.
Decimos que una población es finita cuando sabemos cuántos elementos existen en ella, esto es,
cuando posee un tamaño que denotaremos por N.
Existen poblaciones finitas tan grandes que resulta imposible observar sus elementos en un período
de tiempo razonable, por ejemplo, todas las familias de una ciudad. Otras son tan inmensas que
muchos de sus elementos son inaccesibles y su tamaño puede ser desconocido, por ejemplo, todos
los pequeños agricultores de un país.
También existen poblaciones infinitamente grandes, esto es, con un número ilimitado de elementos,
razón por la cual le llamaremos poblaciones infinitas.
Podriamos considerar que los procesos contínuos de producción de algún bien generan poblaciones
infinitas porque, teóricamente, podría suponerse que estos procesos operan indefinidamente, por
ejemplo, el proceso de producción de chips de computadoras.
Los censos, debido a la gran cantidad de recursos que requieren, se realizan en períodos retirados de
tiempo. Sin embargo su aplicación es ventajosa cuando la población es muy pequeña o se requiere
una exactitud completa.
En todo muestreo lo deseable básicamente es obtener una muestra que sea una buena representación
de la población en miniatura y que además su costo sea el menor posible, ya que a mayor
representatividad de la muestra se espera mayor precisión en las estimaciones de los parámetros.
Existen dos métodos que tratan de obtener la muestra anterior: el muestreo no probabilístico y el
muestreo probabilístico.
- En este método no todos los elementos poblacionales tendrán posibilidad de integrar la muestra,
motivo por el cual se espera poca representatividad de la muestra.
- Se usan el conocimiento, la experiencia y la opinion personal para identificar los elementos de la
población que van a incluirse en la muestra.
El conocimiento y la experiencia ayudan a aumentar la precisión de las estimaciones y la opinión
personal para minimizar el costo.
- La precisión de sus resultados generalmente no se puede medir en forma objetiva porque no hay
ninguna ley del azar que permita medir su error de muestreo.
A pesar de esta falta de objetividad los métodos de muestreo no probabilísticos son importantes en
los negocios y la investigación económica.
- La precisión de sus resultados se puede medir objetivamente porque, según veremos más adelante,
los estimadores de parámetros seguirán las leyes del azar, esto es, una distribución de probabilidad
conocida de la cual podremos considerar su desviación estándar como un error de muestreo
esperado (promedio).
Aunque el error de muestreo es de naturaleza aleatoria podremos controlarlo, es decir hacerlo más
pequeño, seleccionando el tipo de muestreo más adecuado.
También controlaremos el costo del muestreo seleccionando un tipo de muestreo que logre reducir
sustancialmente ese costo.
Algunos tipos de muestreos probabilísticos son los siguientes: muestreo aleatorio simple,
muestreo aleatorio sistemático, muestreo aleatorio estratificado y muestreo aleatorio por
conglomerado.
En el muestreo aleatorio simple se seleccionan las muestras mediante métodos que permitan a cada
muestra posible tener igual probabilidad de ser seleccionada y a cada elemento de la población tener
igual probabilidad de quedar incluido en la muestra.
i) Se dispone de una lista de los elementos poblacionales y se considera que dichos elementos no
son muchos y están en un orden aleatorio.
Por ejemplo, podemos tomar cada sexto estudiante de una lista de estudiantes de la Escuela de
Economía.
ii) Se tiene un proceso contínuo de producción de algún artículo, el cual consideramos que genera
una población infinita, y que por lo tanto, la manera más práctica de tomar una muestra es fijar un
intervalo uniforme que me permita ir tomando artículos para control de calidad de la producción.
Por ejemplo, podemos tomar cada quincuagésima pieza que sale de una planta de ensamblaje.
Cuando muestreamos sin reposición de una población de tamaño N (el elemento seleccionado no se
devuelve a la población y por tanto no puede seguir siendo considerado para otra extracción) las
6
probabilidades de seleccionar los elementos restantes después de cada extracción van aumentando
porque el tamaño de la población se va reduciendo en uno tras cada extracción. De manera que la
l
probabilidad de seleccionar un elementor particular en la primera extracción es N
, la probabilidad
l
de seleccionar otro elemento particular en una segunda extracción consecutiva es N -1
y así
sucesivamente.
Al seleccionar sin reposición una muestra aleatoria simple de tamaño n de una población finita de
tamaño N puede demostrar que:
l
i) Cada muestra posible tiene una probabilidad N de ser seleccionada.
n
n
ii) Cada elemento de la población tiene una probabilidad N
de ser incluido en la muestra.
El número de dígitos a utilizar dependerá del tamaño de la población N y será el mismo para cada
situación.
Ejemplo, si N = 140 sus elementos se codificarán así: 001, 002, ... ,139, 140
Si N = 10 sus elementos se codificarán así: 1, 2, .... , 9, 0 donde “0” debe leerse como 10.
Si N = 100 sus elementos se codificarán así: 01, 02, , 99, 00 donde “00” debe leerse como 100.
Si N = 1000, N = 10,000, etc, se utilizará el mismo criterio anterior parar asignar números de
códigos a los elementos poblacionales.
Un método satisfactorio consiste en cerrar los ojos y colocar la punta de un lápiz en la tabla, el
número señalado por la punta será la entrada a la tabla.
Si al terminar la fila o columna en la dirección escogida, no se tienen aún los n números que
requiere la muestra, continue en la siguiente fila o columna.
EJEMPLO 1.1
Utilice la tabla de números aleatorios para obtener una muestra aleatoria de 5 estudiantes de esta
clase.
EJEMPLO 1.2
Ventas diarias 8.1 7.5 5.4 3.0 6.2 7.0 8.0 2.5 1.8 4.3 3.8 5..5 4.6 8.3 9.0 3.6
(en miles de C$)
ii) Iniciando en la fila 26 y columna 4 de la tabla de números aleatorios y con una dirección
horizontal de izquierda a derecha, tome una muestra aleatoria simple de 4 supermercados.
Luego márquelos con un *.
Cada número de código tendrá dos dígitos porque la población es de tamaño N = 16. Observando,
para la fila 26 y columna 4, los dos primeros dígitos, obtenemos el número 96 que es rechazado
porque es mayor que 16.
Siguiendo en la dirección horizontal de izquierda a derecha, nos fijaremos ahora sólo en los menores
o iguales que 16 y que no se repitan porque el muestreo se está realizando sin reposición.
El resultado serán los números:
14, 13, 12 y 05
8
Esto es, cada octavo, décimo, vigésimo, trigésimo, cuadragésimo, etc. elemento a partir del
arranque.
Nota: Si k no es un entero, considere un k nuevo que será el k original sin el punto decimal.
Luego seleccione un número aleatorio entre 1 y k nuevo al cual se le sumará consecutivamente k
nuevo hasta obtener n números.
Finalmente suprima en estos n números tantas cifras a la derecha como decimales existan en el k
original. Los números resultantes formarán la muestra.
EJEMPLO 1.3
Tome una muestra sistemática de 6 casas a partir de una manzana que comprende 78 casas.
1, 2, 3, 4, . . . . . . . . . . 78
N 78
Como N = 78 y n = 6 , k 13
n 6
3. Utilicemos la tabla de números aleatorios para seleccionar de las primeras 13 casas, aquella con
la cual debemos comenzar.
9
Utilizando dos dígitos para codificar las casas, y entrando en la fila 2 columna 4 con una dirección
descendente obtenemos la casa 07
4. Si seleccionemos cada décimotercera casa, arrancando con la casa 07, obtenemos los siguientes
números de casas:
07, 20, 33, 46, 59, 72
EJEMPLO 1.4
A partir de una lista de 70 solicitudes de crédito tome una muestra sistemática de 8 solicitudes.
N 70
k original 8.75 k nuevo 875
n 8
Usando tres dígitos, y entrando por la fila 28 columna 6 con una dirección de izquierda a derecha
obtenemos el número 400
Hay situaciones donde es imposible proceder en la forma que hemos descrito, obligándonos, por tal
motivo, a implementar otros tipos de muestreos aleatorios. A continuación presentamos una de estas
situaciones:
Cuando muestreamos una población finita muy grande resulta tedioso numerar cada uno de sus
elementos, elegir números aleatorios y después localizar los elementos correspondientes.
Lo mismo sucederá si tratamos numerar u ordenar sus elementos para después tener que tomar cada
k-ésimo elemento sobre toda la población.
Aquí lo que haremos es tratar de encontrar procedimientos que no favorezcan ni ignoren ninguna
parte de la población por su accesibilidad o falta de ella, sino por el contrario tratar de que todos sus
elementos tengan posibilidad de ser incluidos en la muestra para que pueda tratarse como muestra
aleatoria.
Por ejemplo, si queremos obtener una muestra aleatoria de pequeños agricultores de un país o
región, tendremos que utilizar un método o procedimiento que garantice que todos los pequeños
agricultores del país tuvieron posibilidad de ser incluidos en la muestra.
10
Por ejemplo, seleccionemos una pieza electrónica de un proceso contínuo de producción de una
fábrica y hagamos que la variable aleatoria X representa la duración de la pieza.
La duración de la primera pieza seleccionada puede representarse por la variable aleatoria X 1, la
duración de la segunda pieza seleccionada por X2 y así sucesivamente hasta la duración de la n-
ésima pieza seleccionada por Xn. Para poder decir que X1, X2,...,Xn es una muestra aleatoria de X,
debemos asegurarnos de que las observaciones sean independientes y estén hechas bajo las mismas
condiciones normales de trabajo, esto es, que no se haya obtenido una observación en un momento
en que el proceso de producción estaba fallando.
Otro ejemplo, supongamos que la variable aleatoria X representa la precipitación pluvial anual de
cierta localidad. La precipitación pluvial anual durante el presente año podría representarse por la
variable aleatoria X1 . Durante los años siguientes las variables aleatorias X 2,...,Xn pueden definirse
análogamente. Podemos considerar X1, X2,...,Xn como una muesta aleatoria de tamaño n, obtenida
de la población de todas las precipitaciones pluviales anuales posibles en esa localidad y podría
suponerse que las Xi son variables aleatorias independientes e idénticamente distribuidas.
1.3.4 ESTADISTICOS
Sea X1, X2,...,Xn una muestra aleatoria de una variable aleatoria X. Sea h una función de las
variables aleatorias X1, X2,...,Xn . Definimos que Y = h(X1, X2,...,Xn) es un estadístico
Observación: Un estadístico es una variable aleatoria.
Por ejemplo, sea X1, X2,...,Xn una muesta aleatoria de tamaño n de una variable aleatoria X cuya
distribución de probabilidad depende de la media poblacional desconocida . Entonces
n N
X i
será un estimador de la media poblacional x i
que llamaremos media muestral
X μ
n N
Estime , y
Las ventas diarias que corresponden a los supermercados 14, 13, 12 y 05 son presentadas en la
siguiente tabla.
No. Super Xi X i2
05 6.2 38.44
12 5.5 30.25
13 4.6 21.16
14 8.3 68.89
24.6 158.74
n
Xi 24.6
X . 6.15 ( en miles de C$)
n 4
N X 16 ( 6.15 ) 98.4 ( en miles C$)
n
( X )2
n 2 . i 24.6
2
Xi - 158.74 -
158.74 - 151.29
S2 . n 4
n -1 4 1 3
7.45
2.4833 S 2.4833 1.5758 (en miles de C$ )
3
12
2) Con la muestra del ejemplo 1.1, realice una encuesta dentro del aula de clase para estimar la
cantidad promedio de dinero que trajo hoy un estudiante. ¿Cómo estimaría la cantidad total de
dinero que trajeron hoy los estudiantes de esta clase.
Cuando hacemos una encuesta o una investigación estadística, los datos pueden ser recopilados a
través de un cuestionario escrito o una entrevista personal o telefónica, lo cual da lugar a que se
cometan dos tipos de errores.
1. Errores de muestreo.
Estos errores ocurren debido a que sólo se hace una observación parcial de la población.
El error de muestreo es la diferencia absoluta entre el resultado de la muestra y el parámetro.
Por ejemplo, si estamos estimando la media poblacional entonces el error de muestreo de una
estimación se denota y define así
em X- μ
Estos errores no son medibles porque los parámetros son desconocidos y aunque son aleatorios
pueden ser controlados.
De manera que a menor error de muestreo mayor precisión de la estimación.
Mas adelante miraremos que lo que realmente tratamos de medir es un error de muestreo esperado
(promedio) al utilizar un determinado estimador.
Estos errores no ocurren debido al muestreo en sí, sino a otras causas, motivo por el cual este tipo de
error puede ocurrir en un censo o muestreo.
Estos errores no son medibles pero pueden ser controlados evitando la causa que los producen.
La exactitud de una estimación tiene que ver con lo que llamaremos el error total, esto es, un
resultado del error de muestreo y los errores ajenos del muestreo.
Una preocupación importante de toda encuesta o investigación estadística es hacer lo más pequeño
posible el error total, es decir tratar de maximizar la exactitud aunque no sea medible directamente.
Para el ejemplo 1.5 parte 1), obtenga el error de muestreo correspondiente a la estimación de
13
Como x i
=
88.6
5.5375 entonces e m x - μ = 6.15 – 5.5375 = 0.6125 (en miles
μ 16
N
C$)
Cómo obtendría para el ejemplo 1.5 parte 2), el error de muestreo de la estimación de
Es precisamente la media y la varianza de la distribución muestral del estimador lo que nos ayudará
a conocer las propiedades deseables de un estimador para hacer las mejores inferencias sobre los
parámetros.
1 x1
2
x2
xM
M
Distribución de probabilidad de X
(Distribución muestral de X )
Fig. 1.1
14
EJEMPLO 1.6
A 8
B 6
C 4
D 10
E 6
xi f ( xi )
4 0.20
6 0.40
8 0.20
10 0.20
1.00
Tabla 1.1
f(X) 0.5
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10 12
X
15
Fig. 1.2
ii) Considerando todas las muestras posibles de tamaño dos que pueden seleccionarse sin
reposición y sin orden de la población.
Construya la distribución muestral de X representándola gráficamente.
8, 6 7
8, 4 6
8, 10 9
8, 6 7
6, 4 5
6, 10 8
6, 6 6
4, 10 7
4, 6 5
10, 6 8
Seleccionando todas las medias muestrales posibles y haciéndoles corresponder a cada una su
probabilidad obtenemos.
xi f (x i )
5 0.20
6 0.20
7 0.30
8 0.20
9 0.10
1.00
Tabla 1.2
16
f( X) 0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6 7 8 9 10
Fig. 1.3
Esto quiere decir que si utilizamos un estimador insesgado para hacer una estimación particular de
un parámetro, ésta puede ser menor o mayor que el parámetro, pero si utilizamos muchas veces el
mismo estimador entonces tendríamos que el valor medio de todas las estimaciones sería igual al
parámetro.
̂ 1
̂ 2
ˆ
17
ˆ
Estimador insesgado Estimador sesgado
2. Eficiencia
Otra propiedad deseable de un estimador es que tenga distribución muestral con varianza lo más
pequeña posible. Esto asegura una probabilidad alta de que una estimación particular se encuentre
cerca del parámetro.
Si se tienen dos estimadores ̂ 1 y ̂ 2 de un mismo parámetro y la varianza del estimador ̂ 1
es menor que la varianza del estimador ̂ 2 , lo cual denotaremos así.
2ˆ 2ˆ
1 2
̂1
̂2
Fig. 1.6 Fig. 1.7
Naturalmente el estimador ̂1 porque proporciona estimados más cerca de que el estimador ̂2 ,
esto es, porque ˆ ˆ
2 2
1 2
El mejor estimador posible es aquel que es insesgado y que posee una varianza menor que la de
cualquier otro estimador, motivo por el cual lo llamaremos estimador insesgado de mínima varianza.
Consideraremos la desviación estándar del estimador ̂ , denotada por ˆ ,como un error de
muestreo esperado (promedio) que será llamado error estándar del estimador ̂ y que vendrá a
ser un indicador de la precisión del estimador.
EJEMPLO 1.7
i) Para la distribución poblacional del ejemplo 1.6 calcule y 2
xi f ( xi ) xi fi ( xi - 6.8 )2 f(xi )
= x i f (x i ) 6.8
2 = (x i - ) f (x i ) 4.16
2
2 = 4.16 seguros2
σ 4.16 2.0396 seguros
ii) Para la distribución muestral de la media del ejemplo 1.6 calcule X y X2 y verifique que
μX μ
xi f( x i ) x i f( x i ) (x i - 6.8 )
2
f (x i )
X x i f (x i ) 6.8 X = (x i - X ) 2 f (x i ) 1.56
2
Por tanto μX μ y
Puede demostrarse (no lo haremos aquí) que X2 es menor que la de cualquier otro estimador de .
Como X representa el error estándar de la media muestral X , será de interés saber que
X 1.560 1.2490 seguros
Debido a que X es considerado como un error de muestreo esperado (promedio) utilizaremos esta
medida para apreciar la precisión de X como estimador de .
Puede demostrarse que si tenemos un población cuya variable de interés X tiene una distribución de
probabilidad con media y desviación estándar entonces X seguirá una distribución de
probabilidad con
σ
μX μ y σX para cualquier n
n
siempre que el muestro se haya realizado de una población infinita o bien muestreamos con
reposición de una población finita.
19
Si el muestreo se hizo sin reposición de una población finita de tamaño N, se debe usar el factor de
corrección para población finita (F C P F) al expresar el error estándar de X así
σ N - n
σX
n N - l
N - n
La introducción del F C P F hace que X se vuelva más pequeño porque l
N - l
EJEMPLO 1.8
Para la distribución muestral de la media del ejemplo 1.6 calculemos ahora μ X y X
basándonos en la distribución poblacional, esto es, aplicando las fórmulas anteriores.
N - n
X
n N - l
2.0396 5-2 2.0396
X = 0.75 2.0396 0.375 1.2490 seguros
2 5 -1 2
Comparando estos resultados con los del ejemplo 1.7 concluimos que son iguales.
Cuando la característica de interés X de los elementos de una población sigan una distribución
normal diremos que estamos ante una población normal.
Puede demostrarse que si tenemos una población normal con media y desviación estándar
entonces X seguirá también una distribución normal
~ ~ Normal
X Normal ( , ) X ( X , X )
n
σ N - n
el error estándar de X se expresa así σX
n N - l
X X X
Fig. 1.8
Observemos la distribución muestral de X de la figura 1.3 del ejemplo 1.6 y preguntémonos qué
aspecto tomaría si el tamaño de la muestra hubiera sido más grande; probablemente la distribución
muestral de X sería más simétrica.
La pregunta anterior nos conduce al teorema más importante en la Estadística básica, el teorema del
límite central.
~ ~ σ
X No Normal ( μ , σ ) y n 30 X aprox. Normal ( μ X μ, σX )
n
σ N - n
el error estándar de X se expresa así σX
n N - l
Este teorema es importante porque le permite al investigador hacer inferencias en cuanto a la media
poblacional sin tener que conocer la forma específica de la distribución de la población.
Un estimador por intervalo de confianza de un parámetro es aquel que define un par de variables
aleatorias Li y Ls (que llamaremos límite inferior y límite superior del intervalo) entre los cuales
diremos que hay una probabilidad de 1 - (que llamaremos nivel de confianza) de que el
parámetro se encuentre entre dichos límites; y también diremos que hay una probabilidad (que
llamaremos riesgo) de que no se encuentre entre dichos límites.
Cada muestra particular proporcionará un intervalo conocido que llamaremos intervalo de confianza
del (1 - )100% para el parámetro.
Las fórmulas que presentaremos para los estimadores puntuales y por intervalo de cualquier
parámetro en un muestreo aleatorio simple serán aplicables también al muestreo aleatorio
sistemático.
Xi
X
n
ERROR ESTANDAR DE X Y NX
22
σ σ N - n
σX si la población es infinita y σX si la población es finita.
n n N - l
σ NX Nσ X
Puesto que X varía de una muestra a otra, se necesita contar con un estimador de más aplicable a
la realidad, objetivo que se logra cuando tomamos en cuenta la distribución muestral de X , según
veremos a continuación.
Cuando la desviación estándar poblacional sea conocida y utilicemos X como estimador de ,
supondremos que tiene una distribución aproximadamente normal y que por tanto podemos expresar
el error de muestreo, X - , en unidades del error estándar de X , es decir, podemos estandarizar
la variable aleatoria X así
X -
Z
X
Como P( z α/2 Z z α/2 ) 1 α donde z α/2 es un valor de la normal estándar que tiene
a su derecha una área acumulada de y a su izquierda un área acumulada de 1 -
2 2
X - μ
P - z α/2 z α/2
1 - α
σX
P X - zα/2 σx μ X z α/2 σx 1 - α
El resultado anterior es equivalente a decir que hay una confianza del (1 - )100% de que
23
X - z α/2 σ x μ X z α/2 σ x
O de una manera más breve, diremos que un estimador por intervalo de confianza del (1 - )100%
para estará dado por
X z /2 σ x
donde X - z/2 X será el límite inferior y X z/2 x será el límite superior del
intervalo.
Con un razonamiente similar podemos llegar a la conclusión de que un estimador por intervalo de
confianza del (1 - )100% para está dado por
NX z /2 σ NX donde σ NX Nσ X
Si una población es normal, esto es, si su característica de interés X tiene una distribución normal
con desviación estándar conocida, entonces:
1) Un estimador por intervalo de confianza del ( 1 - ) 100% para está dado así:
donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.
2) Un estimador por intervalo de confianza del ( 1 - ) 100% para está dado así:
σ N - n
N X z α/2 N para cualquier n
n N - 1
donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.
24
Notas:
z α/2 es un valor que se obtiene de la expresión P( Z < z/2 ) = 1 -
2
n N - n
Si la fracción muestral 0.05 podemos omitir el factor de corrección
N N -1
N-n
La introducción del factor en la fórmula reduce el error estándar del estimador.
N -1
n
La proporción muestral representa la proporción de la población que se ha muestreado.
N
n N-n n
Podemos utilizar 1- como una aproximación de donde 1 - representa la
N N -1 N
proporción de la población que no se ha incluido en la muestra.
Esto es, que los errores de muestreo tengan un valor máximo E que llamaremos error máximo
permitido en la estimación de .
Si queremos tener una confianza del ( 1 - ) 100% de que E sea el máximo error permitido,
escribiremos
P ( X - μ E) 1 - α
P X -E μ X E 1-α
El resultado anterior es equivalente a decir que hay una confianza del (1 - )100% de que
X - E μ X E
o de una manera más breve, diremos que un estimador por intervalo de confianza del (1 - )100%
para estará dado por
25
X E
lo cual es otra manera equivalente de representar el estimador por intervalo de confianza del ( 1 - )
100% para .
X z/2 x
Comparando las dos expresiones equivalentes concluimos que el error máximo permitido en la
estimación de es
E z /2 σ x
De manera similar podemos concluir también que el error máximo permitido en la estimación de
es
E z/2 σ N x
El tamaño de muestra requerido n para estimar con error máximo permitido E y un nivel de
confianza de ( 1 - ) 100% es
2
z σ
n /2
E
2
z /2 σ
no
E
no noN
Si 0.05, n0 puede ser reducida a n
N no ( N - 1)
Por consiguiente para determinar el tamaño de la muestra, se tienen que conocer tres factores:
Observe que el cuadrado del error máximo permitido es inversamente proporcional al tamaño de la
muestra.
26
Para el error de muestreo permitido se debe pensar qué tanto error se puede “aceptar” y con qué
nivel de confianza de manera que aún se puedan proporcionar conclusiones adecuadas.
Finalmente, si la población no es normal y el tamaño de muestra que se está calculando está por
debajo de 30 entonces debe incrementarse a 30, porque las fórmulas anteriores se basan en el uso de
la distribución normal.
EJEMPLO 1.9
Una máquina empaca azúcar en bolsas plásticas. Se quiere estimar el peso promedio de las bolsas
de azúcar sabiendo por estudios anteriores que la desviación estándar poblacional es de 0.10 lbs.
Del flujo de producción se toma una muestra aleatoria sistemática de 10 bolsas, obteniendo los
siguientes pesos en libras.
5.10, 4.90, 4.80, 5.15, 5.05, 4.95, 4.97, 4.85, 5.03, 5.00
i) Obtenga un intervalo de confianza del 80% para el peso promedio de las bolsas de azúcar.
X z/2
n
27
donde
X i
49.8 lbs. y z α/2 lo determinamos de P( Z < z/2 ) = 1 -
X 4.98 2
n 10
así
Según la tabla de la distribución de Z el área más cercana a 0.90 es 0.8997. Trace a partir de esta
área una línea horizontal imaginaria hacia la izquierda (que señalará 1.2 ) y luego otra línea vertical
imaginaria hacia arriba (que señalará 8). Se dirá que al área 0.90 le corresponde z α/2 = 1.28
0.10
4.98 1.28
10
4.98 1.28 ( 0.0316 )
4.98 0.0404 Li = 4.9396 lbs. y Ls = 5.0204 lbs.
ii) Identifique el error muestral promedio en la estimación por intervalo del inciso i)
σ x = 0.0316 lbs.
iii) Con la misma muestra anterior, obtenga otro intervalo de confianza para el peso promedio de
las bolsas de azúcar, pero con un nivel de confianza del 97%. Compare la longitud de este intervalo
con el obtenido en el inciso i) haciendo los comentarios pertinentes.
1 - = 0.97 = 0.03 = 0.015 1- = 0.985
2 2
0.10
4.98 2.17
10
4.98 0.0686 Li = 4.9114 lbs. y Ls = 5.0486 lbs.
28
4.9114 5.0486
Observemos que la longitud de este intervalo es mayor que la longitud del intervalo del inciso i),
esto significa que entre más confiable sea nuestra estimación menos precisa será.
iv) Identifique el valor del error máximo permitido con una confianza del 80% en la estimación
del inciso i)
E = 0.0404 lbs
v) Si quiero estimar el peso promedio de las bolsas de azúcar con una confiabilidad del 90% de que
el error máximo permitido sea de 0.0313 lbs, ¿Cuál debe ser el tamaño de la muestra?
2
z/2
n =
E
Se necesita una muestra de tamaño n = 28 bolsas para tener una confiabilidad del 90% de que el
error máximo permitido sea de 0.0313 lbs.
EJEMPLO 1.10
Consideremos el conjunto de todas las pequeñas industrias de un determinado artículo. Se quiere
estimar la producción anual total de las industrias y se sabe, en base a estudios anteriores, que la
desviación estándar poblacional de las producciones anuales es igual a 2 en miles de unidades. Con
tal propósito se selecciona de un listado actualizado de 826 industrias una muestra aleatoria de 50
industrias, obteniendo una producción anual promedio de 5.52 en miles de unidades.
i) Encuentre un intervalo de confianza del 90% para la producción anual total de las industrias.
Los elementos son las pequeñas industrias. La población es finita de tamaño N = 826
X representa la producción anual por industria. La población se supone que no es normal y
es conocido. representa la producción anual promedio. representa la producción anual total
n = 50 pequeñas industrias
Aunque la población no sea normal podemos aplicar, según el teorema del límite central, la siguiente
fórmula:
29
σ N-n
NX z/2 N porque n 30
n N -1
n 50
Observe que = 0.0605 0.05 y que por tanto no podemos omitir el factor de
N 826
corrección.
2 826 - 50
826 (5.52) 1.65 (826)
50 826 - 1
ii) Con una confianza del 95% calcule el valor del error máximo permitido en la estimación de la
producción anual total del inciso i)
E z/2 σ N X = 1.96 (226.5383) = 444.0151
iii) Si quiero estimar la producción anual promedio de las industrias con una confiabilidad del
80% de que el error máximo permitido sea de 300 unidades, ¿Cuál debe ser el tamaño de la
muestra?
Como la población es finita, la fórmula es
2
z/2
no =
E
300
Compruebe que z α/2 = 1.28 y que E = = 0.3 en miles de unidades.
1000
2
no =
1.28 (2)
= 72.8178
0.3
no 72.8178
Como = = 0.0882 0.05, podemos reducir no a
N 826
Cuando la desviación estándar poblacional sea desconocida y X tenga una distribución normal o
aproximadamente normal, tendremos primero que estimar para poder estimar x .
S
n si se muestreó de una población infinita
σˆ X
S N - n si se muestreó sin reposición de una población finita de tamaño N
n N - 1
donde S es un estimador insesgado de
ˆ NX Nσ
σ ˆX
X - μ
t
σ̂
x
la cual incluye una variable aleatoria en el denominador porque S es variable aleatoria, y por lo tanto
σ̂ X , también es una variable aleatoria.
Esto da como resultado que la estandarización de X ya no sea la variable aleatoria Z sino otra
variable aleatoria que representaremos por t y que tendrá una distribución de probabilidad conocida
con el nombre de distribución t de Student con n – 1 grados de libertad, ya que fue investigada
originalmente por William Gossett, quien publicó sus escritos con el seudónimo “Student”.
El hecho de tener que estimar el parámetro σx con los mismos n datos que se utilizan para poder
calcular el valor del estadístico t, hace que t pierda un grado de libertad, esto es, que quede con n –
1 grados de libertad (g.l).
CARACTERISTICAS
1. Es una familia de distribuciones t de tal forma que cada vez que se especifiquen sus grados de
libertad n – 1, se produce una distribución t particular.
31
n
t 0 y t , n 2
n - 2
dist. Z
dist. t
0 t
Fig. 1.9
Ahora que ya estudiamos la distribución t de student, podemos utilizar el mismo razonamiento que
se utilizó para la distribución Z para demostrar que las expresiones que definen los límites inferior y
superior de un intervalo de confianza para y son:
X t/2 σ
ˆX y N X t /2 σ
ˆ NX
respectivamente.
donde t α/2 es el valor de la distribución t con n – 1 grados de libertad que tiene a su derecha un área
acumulada de
2
32
1) Un estimador por intervalo de confianza del ( 1 - ) 100% para está dado así:
S
X t/2 siempre que n 30
n
donde t α/2 es un valor de la distribución t de Student que tiene a su derecha una área de
2
y el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.
S N-n
X t /2 siempre que n 30
n N -1
donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.
2) Un estimador por intervalo de confianza del ( 1 - ) 100% para está dado así
S N-n
N X t /2 N siempre que n 30
n N -1
Notas:
t α/2 se obtiene de la expresión P(t t /2 ) =
2
n N-n
Si 0.05 podemos omitir el factor de corrección
N N -1
Observación 1.
Si la población es normal y n 30 entonces según la característica 4 de la distribución t,
podemos escribir en todas las fórmulas anteriores z como una aproximación de t
Observación 2.
Si la población es no normal, pero n 30 entonces según el teorema del límite central y la
característica 4 de la distribución t, también podemos escribir en todas las fórmulas anteriores z
como una aproximación de t.
DISTRIBUCION DE LA POBLACION
Tamaño Normal No Normal
de
muestra n conocido desconocido conocido desconocido
n 30 Z t
n 30 Z Z Z Z
Con un razonamiento similar al realizado en la situación cuando era conocido llegamos a que:
EJEMPLO 1.11
Un auditor quiere estimar el saldo promedio y el saldo total de una población de 1000 cuentas por
cobrar. Con tal propósito selecciona al azar una muestra de 6 cuentas, obteniendo los siguientes
resultados en miles de córdobas.
Los elementos son las cuentas por cobrar. La población es finita de tamaño N = 1000
X representa el saldo de la cuenta. Asumimos que la población es normal pero se desconoce
representa el saldo promedio. representa el saldo total. n=6
S N-n
X t/2
n N -1
n 6 N-n
Como = = 0.006 0.05 podemos omitir el factor
N 1000 N -1
Xi Xi
2 X i
15
X 2.5 (en miles de C$)
n 6
2.6 6.76 n
3.0 9.00 ( X i ) 2
n
15 2
Xi
2 .
3.5 12.25 40.02 -
n 6
2.4 5.76 S2 .
n 1 6 -1
2.0 4.00
1.5 2.25
15.0 40.02 40.02 - 37.5 2.52
0.5040
5 5
S 0.5040 0.7099 (en miles de C$)
El valor t /2 lo determinaremos de la expresión P(t t /2 ) =
2
Como la tabla de la distribución t de Student sólo presenta áreas acumuladas a la derecha,
encontremos el área así: 1 - = 0.90 = 0.10 0.05
2 2
Ahora tracemos dos líneas imaginarias, una horizontal que pase por n -1 = 6 – 1 = 5 y otra vertical
que pase por 0.05. En la intersección de las líneas anteriores encontraremos el valor t /2 = 2.015
0.7099
2.5 2.015
6
1.9161 3.0839
S N-n
N X t /2 N
n N -1
N-n
donde también se puede omitir el factor
N -1
S
N X t/2
n
2) Con una confianza del 98% calcule el valor del error máximo permitido en la estimación del
saldo promedio de las cuentas del punto 1) inciso i)
3) Si el auditor quiere estimar el saldo promedio de las cuentas con un error de más o menos C$
500 y con una confianza del 98%, ¿qué tamaño mínimo de muestra se requiere?
2
z/2 S
no =
E
500
Compruebe que z α/2 = 2.33 y que E = = 0.50 (en miles de C$.)
1000
2
2.33 ( 0.7099 )
no = = 10.9438
0.5
n0 10.9438
Como = = 0.0109 0.05, no no puede ser reducida
N 1000
EJEMPLO 1.12
Suponga para el ejemplo 1.11 que ahora el auditor decide seleccionar una muestra aleatoria de 36
cuentas por cobrar, obteniendo los siguientes resultados en miles de córdobas.
i) Determine un intervalo de confianza del 95% para el saldo promedio de las cuentas.
36
S N-n
X z /2
n N -1
n 36 N-n
Como = = 0.036 0.05 podemos omitir el factor
N 1000 N -1
0.5
2.6 1.96
36
2.6 1.96 ( 0.0833 )
ii) Identifique el valor del error muestral promedio en la estimación del saldo promedio de las
cuentas del inciso i)
EJEMPLO 1.13
Se va a vender un nuevo cereal para desayuno como prueba de mercados durante un mes en las
tiendas de una cadena de autoservicio. Los resultados de una muestra de 36 tiendas indicaron ventas
promedio de C$ 1200 con una desviación estándar de C$ 180.
i) Establezca un intervalo de confianza del 99% para las ventas promedios reales de este nuevo
cereal.
Los elementos son las tiendas. La población se considera muy grande o infinita
X representa las ventas por tienda. Se supone que la población no es normal y que se desconoce
representa las ventas promedios de las tiendas
n = 36 , X = 1200 y S = 180
La población no es normal, pero n 30, esto nos permite utilizar el teorema del límite central
y la característica 4 de la distribución t, para escribir z como una aproximación de t en la
fórmula del intervalo de confianza para , quedando así
S
X z /2
n
180
1200 2.58
36
C$ 1122.60 C$ 1277.60
ii) Si la cadena tiene 200 tiendas, establezca un intervalo de confianza del 99% para las ventas
promedios reales de este producto.
S N-n
X z /2
n N -1
n 36 N-n
Como = = 0.18 0.05, no podemos omitimos el factor
N 200 N -1
180 200 - 36
1200 2.58
36 200 - 1
C$1129.7363 C$1270.2637
Al comparar este intervalo con el obtenido en el inciso i) notamos que tiene una longitud menor,
esto es, que proporciona mejor precisión al mismo nivel de confianza.
En estas poblaciones la característica de interés Y es una variable aleatoria que presenta solamente
dos resultados mutuamente excluyentes y exhaustivos que llamaremos éxito (E) y fracaso (F).
1 si se tiene un E
Y
0 si se tiene un F
Bajo las circunstancias anteriores diremos que Y tiene una distribución de Bernoulli dada por la
siguiente expresión.
p si y 1
f ( y)
1 - p si y 0
Se demuestra fácilmente que Y = p y que Y = p (1- p )
N
El total poblacional = yi y la media poblacional Y =
N
.
Debido al hecho de que Y = p , donde p es una probabilidad (un número entre 0 y 1 ), la media
poblacional será llamada proporción poblacional y la denotaremos y definiremos así
Y i
X No. total de éxitos en la muestra
pS .
n n Tamaño de la muestra
N ps
μ pS μ Y p y
σ Y p(1 p) p (1 p)
si la población es infinita
n n n
σ pS
σ Y N n p (1 p) N n si la población es finita
n N 1 n N 1
p S (1 p S )
si la población es infinita
n
σˆ pS
p S (1 p S ) N n si la población es finita
n N 1
donde pS es el estimador de p
El error estándar estimado del total muestral NpS se denota y define así.
σˆ Np S Nσˆ p S
40
Puede demostrarse que las expresiones que definen los limites inferior y superior de un intervalo de
confianza para p y son:
p S z σˆ p S y Np S z α/2
σˆ Np S respectivamente.
α/2
Si sustituimos ̂ p o ̂ NpS por su correspondiente fórmula, según la población sea infinita o finita,
S
Supongamos que estamos ante una población con distribución de Bernoulli y que hemos
seleccionado una muestra suficientemente grande, esto es, n p 5 y n ( 1 – p ) 5
1) Un estimador por intervalo de confianza del ( 1 - )100 % para p esta dado así
pS ( 1 - p S )
p S z/2
n
donde z α/2 es un valor de la normal estándar que tiene a su derecha una área acumulad de
2
y el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite superior
( Ls ) es la suma señalada por las mismas expresiones.
p S ( 1 - pS ) N-n
p S z/2
n N -1
donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.
n N-n
Si 0.05 , podemos omitir el factor de corrección
N N -1
2) Un estimador por intervalo de confianza del ( 1 - ) 100% para está dado así
pS ( 1 - pS ) N-n
Np S z/2 N
n N -1
donde el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y el límite
superior ( Ls ) es la suma señalada por las mismas expresiones.
41
n N-n
Si 0.05 , podemos omitir el factor de corrección
N N -1
Haciendo un razonamiento similar al utilizado para el tamaño de muestra para podemos concluir
que el error máximo permitido en la estimación de p es
E z/2 σˆ p S
Si sustituimos ̂ p por su correspondiente fórmula, según la población sea infinita o finita y luego
S
El tamaño de muestra requerido n para estimar p con un error máximo permitido E y un nivel de
confianza de ( 1 - ) 100% es
2
z /2
n p(1 p) donde p puede ser estimado con pS
E
2
z/2
n 0 p(1 p) donde p puede ser estimado con pS
E
no
Si 0.05, n0 puede ser reducida a
N
noN
n
no ( N - 1)
Si no se cuenta con una estimación de p , utilizaremos en la fórmula anterior el valor de p que hace
máxima la expresión p ( 1 – p ), es decir tomaremos p = 0.50
EJEMPLO 1.14
i) Encuentre un intervalo de confianza del 99% para la proporción real de tarjetahabientes que
comprarían los domingos.
42
Como estamos interesados en los que están dispuestos a comprar, el éxito será “comprar”.esto es,
1 si compra
Y
0 si no compra
La población tiene una distribución de Bernoulli
X 60
n = 100 tarjetahabientes, X = 60 tarjetahabientes y pS = = 0.60
n 100
la fórmula es
pS ( 1 - pS )
pS z α/2
n
El gerente seleccionó un elevado nivel de confianza del 99% en la estimación de p porque quiere
sentirse seguro antes de tomar esta importante decisión de comercialización.
0.60 (0.40))
0.60 2.58
100
0.4736 p 0.7264
43
ii) Identifique el valor del error máximo permitido en la estimación de la proporción real de
tarjetahabientes que comprarían los domingos del inciso i)
E = 0.1264
iii) Si el gerente quiere estimar la proporción real de tarjetahabientes que comprarían los
domingos con un 99% de confianza de tener una tolerancia de 0.025, ¿qué tamaño de muestra se
requiere?
2
z/2
n = p(1–p)
E
Utilizando pS como una estimación de p y sustituyendo z α/2 y E por sus valores correspondientes
2
n = 0.60 (0.40 )
2.58
= 0.24 (10650.24) = 2556.0576 2557 tarjetahabientes.
0.025
Observe que la muestra de tamaño 100 del inciso i) tiene el mismo nivel de confianza (99%), pero
tiene alrededor de 5 veces más error muestral que el permitido aquí al estimar la proporción
verdadera.
EJEMPLO 1.15
Suponga para el ejemplo 1.14 que la cadena de tiendas de departamentos cuenta con 10,000
poseedores de tarjetas de crédito.
i) Encuentre un intervalo de confianza del 95% para el total de tarjetahabientes que comprarían
los domingos.
pS ( 1 - p S ) N-n
Np S z/2 N
n N -1
n 100 N-n
Como = = 0.010 0.05 se puede omitir el factor
N 10000 N -1
0.60(0.40)
10,000 (0.60) 1.96 (10,000)
100
ii) Determine el tamaño de muestra necesario para estimar la proporción real de tarjetahabientes
que comprarían los domingos con un 95% de confianza de tener una tolerancia de 0.025.
2
z/2
no = p ( 1 – p )
E
Utilizando pS como una estimación de p y sustituyendo z α/2 y E por sus valores obtenemos
2
no = 0.60 (0.40 )
1.96
= 0.24 (6146.56) = 1475.1744
0.025
n0 1475.1744
Como = = 0.1475 0.05 , n0 puede ser reducido a
N 10000
Consiste en dividir la población en subpoblaciones o estratos de manera de que cada estrato debe
presentar una pequeña variación en su interior con respecto a la característica de interés X que
estemos investigando, y entre los distintos estratos las diferencias sean las más grandes posibles.
Luego seleccionamos una submuestra de cada estrato utilizando muestreo aleatorio simple para
finalmente conformar la muestra aleatoria estratificada.
Los motivos principales para utilizar muestreo aleatorio estratificado en lugar de muestreo aleatorio
simple son los siguientes:
L
N = N
.
i representa el tamaño de la población.
46
L
= .
i representa el total poblacional
= representa la media poblacional.
N
L
n = n
.
i representa el tamaño de la muestra estratificada.
ni ni 2
X ij
,
X ij Xi
, Ni Xi
1
j 1
Xi S 2
i j
ni ni - 1
que representan estimadores de i , i y i respectivamente.
2
POBLACION SUBMUESTRAS
N1 n
1
N2 n
2
. .
. .
. .
M.A.S Xi
Ni ni
Estrato i S i2
. . Ni Xi
. .
. .
NL n
L
Fig. 1.10
1.4.1 ESTIMADOR DE Y
47
1 2 ... L
Como = =
N N
X st =
N1 X1 N 2 X 2 N L X L
= NX
.
i i
Luego
N
N
L
1
Xst
N
N
.
i Xi
L
l
N X st = N
N
N i Xi
.
L
NXst N i Xi
.
1 L
S i2 n
σˆ X st
N
N i2
. ni
(1 i )
Ni
48
ni
Si la fracción muestral 0.05 para los estratos i = 1, 2, ... , L , podemos omitir el factor de
Ni
ni
correción (1 ) dentro del radical.
Ni
El error estándar estimado del total muestral estratificado N X st se denota y obtiene así.
1 L
Si2 n
σˆ NX st Nσ
ˆ X st o bien σ̂ NX st N
N
.
N i2
ni
(1 - i )
Ni
L
S i2 n
σˆ NX st .
N i2
ni
(1 - i )
Ni
1. Un estimador por intervalo de confianza del 95% para está dado por
E 2σˆ X st
de expresar el intervalo
1 L 1 L
S i2 n
N .
N i Xi 2
N
N i2
ni
(1 - i )
Ni
donde el límite inferior (Li) es la diferencia señalada por las expresiones anteriores y el límite
superior (Ls) es la suma señalada por las mismas expresiones.
ni
Si la fracción muestral 0.05 para los estratos i = 1, 2, ... , L, podemos omitir el factor de
Ni
ni
corrección (1 ) dentro del radical.
Ni
2. Un estimador por intervalo de confianza del 95% para está dado así
NXst 2 σ
ˆ N X st o N X st ± 2 N ̂ X st
N( X st 2 σ̂ X st )
E 2σ
ˆ NX st
49
donde el límite inferior (Li) es la diferencia señalada por las expresiones anteriores y el límite
superior (Ls) es la suma señalada por las mismas expresiones.
ni
Si la fracción muestral 0.05 para los estratos i = 1, 2, ... , L, podemos omitir el factor de
Ni
ni
corrección (1 ) dentro del radical.
Ni
EJEMPLO 1.16
Una cadena de 3 almacenes está interesada en estimar el saldo promedio de sus cuentas por cobrar.
En los almacenes 1, 2, y 3 hay respectivamente 150, 200, y 250 cuentas por cobrar. Un
muestreo aleatorio estratificado con cada almacen como estrato le señala al gerente de la cadena que
debe tomar de los almacenes 1, 2, y 3 submuestras de tamaño 3, 4, y 5 respectivamente. Con
los resultados presentados en la siguiente tabla
Los elementos son las cuentas por cobrar, la característica de interés X representa el saldo y Xij es el
j-ésimo saldo observado en las cuentas correspondientes al almacen i. Teniendo presente esto
formemos la siguiente tabla
S i2
Almacen Ni ni Xi NX i 2 N i2
S i ni
1 150 3 4.5 675 1.0000 7500
2 200 4 7.5 1500 0.8333 8333
3 250 5 9.5 2375 5.3750 67187.5
600 4550 83020.5
1 L 4550
a) Xst N i Xi
N .
600
7.5833 (en miles de C$)
L
b) NXst N i Xi = 4550 (en miles de C$)
.
L
S i2 ni
c) E 2σˆ NX st = 2 .
N i2
ni
porque
Ni
0.05 para los estratos i = 1, 2, 3
EJEMPLO 1.17
Una empresa publicitaria esta interesada en estimar el número promedio de horas por semana que
los hogares de un determinado municipio dedican a ver la televisión.
El municipio comprende dos pueblos, pueblo A y pueblo B, y un área rural. En el pueblo A existen
155 hogares de los cuales la mayoría son de trabajadores fabriles con niños en edad escolar. El
pueblo B consta de 62 hogares con personas mayores que tienen pocos niños. En el área rural
existen 93 hogares. Suponga que la empresa decide realizar una encuesta por muestreo a 40
hogares, tomando 20 del pueblo A y 8 del pueblo B y 12 del área rural. Los resultados presentados
en la siguiente tabla corresponden a la media y la varianza de cada submuestra obtenida del pueblo
A, el pueblo B y el área rural.
ESTRATO Ni ni Xi Si2
(Pueblo A) 1 155 20 33.900 35.358
(Pueblo B) 2 62 8 25.125 232.411
(Area rural) 3 93 12 19.000 87.636
310 40
1.
a) Estime el número promedio de horas por semana que los hogares del municipio dedican a ver
televisión.
b) Estime el número total de horas por semana que los hogares del municipio dedican a ver
televisión.
c) Calcule el error muestral promedio para la estimación del inciso a) y b)
Los elementos son los hogares y X representa el número de horas por semana dedicados a ver T.V.
ni Si2 ni
(1 ) N i2 (1 )
ESTRATO Ni X i Ni ni Ni
1 5254.50 0.871 36994.6776
2 1557.75 0.871 97267.6059
3 1767.00 0.871 55015.5365
51
8579.25 189,277.8200
1 L 1 L
a) Xst N i Xi
N .
=
310
(8579.25) = 27.675 horas b) NXst N i Xi
.
= 8579.25
horas
1 L
S i2 n 1
c) σˆ X st
N
N i2
. ni
(1 i )
Ni
=
310
189277.82 1.4034 horas
L
S i2 n
σˆ NX st
.
N i2
ni
(1 - i )
Ni
= 189277.82 = 435.0607 horas
2. Obtenga un intervalo de confianza del 95% para el número promedio de horas por semana
que los hogares del municipio dedican a ver televisión.
1 1
( 8579.2) 2 189277.82
310 310
27.675 2 ( 1.4034 )
Observe que cuando hay conocimiento de los valores de X st y ̂ X se puede llegar fácilmente al
st
X st 2 ̂ Xst
3. Obtenga un intervalo de confianza del 95% para el número total de horas por semanas que
los hogares del municipio dedican a ver televisión.
Sustituyendo los resultados de la tabla anterior en la fórmula de un intervalo de confianza del 95%
para .
52
L L
S i2 ni
N i Xi 2 N 2
i
ni
(1 -
Ni
)
8579.2 5 2 189277.82
8579.25 2 ( 435.0607 )
N X st 2 ̂ NXst
Continuando llegamos a que
8579.25 870.1214 Li = 7709.1286 horas y Ls = 9449.3714 horas.
Luego podemos decir con un 95% de confianza de que 7709.1286 9449.3714 horas.
Suponga que X st debe estar dentro de E unidades de la media poblacional con una probabilidad
aproximadamente igual a 0.95, esto es, que E represente el error máximo permitido.
Simbólicamente queremos
E = 1.96 ̂ X st
o sea E = 2 ̂ X st
2 1 L
S i2 n E2
Es decir que ̂ 2Xst = E
4
o bien
N2
N 2
i
ni
(1 i )
Ni 4
De esta ecuación no podemos despejar n, a menos que sepamos algo acerca de la relación entre ni y
n. Hay muchas maneras para asignar un tamaño de muestra n a los diversos estratos.
N iS i / ci
donde ci representa el costo para obtener una observación individual del estrato i.
1 L
S i2 n E2
N2
N 2
i
ni
(1 i )
Ni 4
L L
N i S i / ci N i Si ci
n
E
2 L
N 2 N i S i2
4
Asignación de Neyman.
En algunos problemas el costo por obtener información es el mismo para todos los estratos. Si los
costos son desconocidos, podríamos suponer que los costos por observación son iguales.
Si c1 = c2 = = cL = c, entonces los términos de costos en la fórmula de asignación de costo
mínimo se cancelan y queda así
N iS i
ni n L
N S i i
Observe también que la fórmula para el tamaño de muestra total n toma la forma
2
L
N i S i
n
E2 L
N 2
4
N i S i2
Asignación proporcional.
Además de encontrar costos iguales podemos suponer que las varianzas dentro de los estratos son
iguales, esto implica que, S12 = S22 = = S 2L = S 2 En tal caso se cancelan las desviaciones
estándar en la fórmula de asignación Neyman y queda
Ni Ni
ni n L
n
N
N i
54
También podemos comprobar que la fórmula para el tamaño de muestra total n toma la forma.
N S2
n
E2 donde S2 es la varianza común de cada estrato.
N S2
4
EJEMPLO 1.18
La empresa publicitaria del ejemplo 1.17 encontró que cuesta más obtener una observación del área
rural que una del pueblo A o del pueblo B. El incremento es debido a los costos de traslado de un
hogar rural a otro. El costo por observación en cada pueblo se ha estimado en C$ 9 y los costos por
observación en el área rural se han estimado en C$ 16.
De una encuesta previa se estimó que las varianzas de las submuestras de los estratos 1, 2 y 3 son
S12 = 25, S 22 = 225 y S 32 = 100 respectivamente.
ESTRATO Ni S i2 Si ci Ni Si / c i Ni Si ci Ni S i2
1 155 25 5 9 258.3333 2325 3875
2 62 225 15 9 310.0000 2790 13950
3 93 100 10 16 232.5000 3720 9300
310 800.8333 8,835 27,125
Como el costo de obtener una observación no es el mismo en todos los estratos y como las varianzas
tampoco son iguales tenemos que
3 3
N i Si / ci N i Si ci
E2
n
donde N 2
310 2 (1) 96100
E
2 3
4
N 2
4
N i Si2
porque N = 310 y E = 2
800.8333 ( 8835 )
(800.8333) (8835)
= = 57.4182 58 hogares
96100 27125 123225
55
La asignación del tamaño de muestra a los tres estratos corresponderá a una asignación de costo
mínimo
N 1S1 / c i
n1 n 258.3333
3
= 58 =58(0.3226) = 18.7108 19 hogares
N S i i / ci 800.8333
310
n 2 58 = 58(0.3871) = 22.4518 22 hogares
800.8333
232.5
n 3 58 = 58(0.2903) = 16.8374 17 hogares
800.8333
Costo mínimo = c n i i
Costo mínimo = c1n1 c 2 n 2 c3n 3 = 9(19) + 9(22) + 16(17) = 171+ 198 + 272 = C$ 641
iii) Suponga que la empresa publicitaria tiene únicamente C$ 500 para gastar en muestreo,
determine el tamaño de muestra y los tamaños de submuestras por estrato necesarios para ese
presupuesto.
N i Si / c i
ni n
Ya que cada 3
podemos escribir según los resultados anteriores que
N S i i / ci
Al despeja n, obtenemos:
500
n = 45.3223 46 hogares
11 .0321
EJEMPLO 1.19
Suponga que la firma publicitaria del ejemplo 1.18 decide utilizar entrevistas por teléfono en lugar
de entrevistas personales, porque todos los hogares en el municipio tienen teléfono y este método
reduce los costos. El costo de obtener una observación es entonces el mismo en los 3 estratos..
Las varianzas de las submuestras de los estratos 1, 2 y 3 son de nuevo aproximadas por S12 = 25,
S 22 = 225 y S 32 = 100 respectivamente. Encuentre el tamaño de muestra n y los tamaños de
submuestras n1, n 2 y n 3 para los estratos 1, 2 y 3 respectivamente, que permiten a la empresa
estimar el tiempo promedio que se ve televisión con un error máximo permitido de 2 horas.
ESTRATO Ni S i2 Si Ni Si Ni S i2
1 155 25 5 775 3875
2 62 225 15 930 13950
3 93 100 10 930 9300
310 2635 27125
E2
Como N 2 310 2 (1) 96100 y el costo de obtener una observación es el mismo.
4
2
L
N i Si
2635 2 2635 2 = 56.3459 57 hogares
n = =
E2 L
96100 27125 123225
N 2
4
N i Si2
El tamaño de muesta obtenido en el inciso i) del ejemplo 1.18 es casi igual al de este ejemplo, pero
la asignación del tamaño de la muestra a los 3 estratos corresponde a una asignación de Neyman.
N 1S1
n1 n 3 775
= 57 = 16.7647 17 hogares
N S i i 2635
57
930
n 2 57 = 20.1176 20 hogares
2635
930
n 3 57 = 20.1176 20 hogares
2635
Observe que para el área rural se toman ahora más hogares porque el costo se ha reducido.
EJEMPLO 1.20
La empresa publicitaria del ejemplo 1.18 considera ahora que las varianzas de los estratos son
iguales. El valor común S2 fue aproximado por 100 en un estudio preliminar. Se van a efectuar
entrevistas por teléfono, por lo que los costos serán iguales en todos los estratos.
La empresa desea estimar el número promedio de horas por semana que se ve la televisión en los
hogares del municipio, con un error máximo permitido de 2 horas. Encuentre el tamaño de muestra
y los tamaños de submuestras por estrato necesarios para lograr esta exactitud.
Como el costo de obtener una observación es el mismo en todos los estratos y las varianzas se
suponen iguales tenemos que
N S2
n E2
E2 donde N 310(1) 310 porque N = 310, E = 2 y S2 = 100
N S2 4
4
La asignación del tamaño de muestra a los tres estratos corresponderá a una asignación proporcional
N1 155
n1 n = 76 = 38 hogares
N 310
N2 62
n2 n = 76 = 15. 2 15 hogares
N 310
N3 93
n3 n = 76 = 22.8 23 hogares
N 310
58
El muestreo por conglomerados es menos costoso que el muestreo aleatorio estratificado o simple si
se cumple lo siguiente:
1. No se encuentra disponible o es muy costoso obtener un buen marco que liste los elementos de
la población.
2. El costo por obtener observaciones se incrementa con la distancia que separa los elementos.
Por lo tanto al aplicar este método se logra fácilmente la construcción de un marco que liste todos
los conglomerados y la reducción del costo por observar un elemento.
M
M = representa el tamaño promedio de los conglomerados en la población.
N
Suponga que xij es la j-ésima observación de X en los elementos del conglomerado i entonces
mi
i x ij representa el total de las observaciones en el conglomerado i
j 1
59
N
= i representa el total poblacional
= representa la media poblacional.
M
n representa el número de conglomerados en la muestra
n
m = m i
representa el tamaño promedio de los conglomerados en la muestra.
n
POBLACIÓN MUESTRA
m1 m1
m2 m2
. .
. .
. .
mi Censo
mi
mi
i x ij
j 1
. .
. .
. .
mn
mN
Fig. 1.11
1.5.1 ESTIMADOR DE Y
n
τ i
n
τi
M Xc M n
A M X c le llamaremos total muestral por
m
i
conglomerado.
M
Como M M NM , ˆ Nm
M puede ser estimado con M
N
porque m es un aproximado de M
1.5.2 ERROR ESTANDAR ESTIMADO DE X c Y M X c
n
1 - n ( τ i - m i Xc ) 2
N
σ
ˆ Xc
nM 2 n -1
El error estándar estimado del total muestral por conglomerado M X c se denota y obtiene
de la siguiente manera:
σˆ MX c Mσˆ X c
n
n i - m i X c 2
1-
ˆ MXc M 2 N
n M2 n -1
61
n
τ i - m i Xc
2
n
1 -
σ
ˆ MX c N2 N
n n -1
n n
Si 0.05 podemos aproximar el factor ( 1 - ) dentro del radical a 1
N N
1. Un estimador por intervalo de confianza del 95% para esta dado por
Xc 2 σ
ˆX
c
n n
τi n τ i - m i Xc 2
1-
2 N
n n M2 n -1
mi
donde el límite inferior (Li) es la diferencia señalada por las expresiones anteriores y el límite
superior (Ls) es la suma señalada por las mismas expresiones.
n n
Si 0.05 podemos aproximar el factor ( 1 - ) dentro del radical a 1
N N
2. Un estimador por intervalo de confianza del 95% para está dado así:
M Xc 2 σ
ˆ MX
o M Xc 2 M ˆ
c Xc
62
n n
τi n τ i - m i Xc
2
1 -
M 2 N2 N .
n n n -1
m i
donde el límite inferior (Li) es la diferencia señalada por las expresiones anteriores y el límite
superior (Ls) es la suma señalada por las mismas expresiones.
EJEMPLO 1.21
Los municipios de un país hipotético están distribuidos de manera natural en 20 departamentos. Se
quiere estimar el número promedio de agricultores por municipio de cierta hortaliza.
Considerando los departamentos como conglomerados, se toma una muestra aleatoria de 4
departamentos y se registra para cada departamento el número de municipios y luego para cada
municipio el número de agricultores. Los resultados se presentan en la siguiente tabla
1 8 5, 8, 7, 3, 6, 4, 6, 8
2 11 2, 4, 6, 5, 5, 3, 5, 5, 3, 9, 3
3 5 8, 10, 4, 6, 7
4 6 9, 6, 5, 4, 7, 11
Los elementos son los municipios, la característica de interés X representa el número de agricultores
mi
Departamentos mi i
1 8 47
2 11 50
3 5 35
4 6 42
30 174
63
n
i
174
Xc 5.8 agricultores
n 30
mi
ii) Si en el país hay 160 municipios estime el número total de agricultores en el país.
EJEMPLO 1.22
Se quiere estimar el ingreso anual promedio por adulto en cierta ciudad pequeña. Como no existe
una lista disponible de adultos residentes, la ciudad es dividida en 100 bloques rectangulares
tomando cada bloque rectangular como un conglomerado.
Suponga que se selecciona una muestra aleatoria simple de 6 bloques rectangulares y entrevista a los
adultos de cada hogar dentro de cada conglomerado, obteniendo los siguientes resultados.
( en miles $ )
No. adultos Ingreso
BLOQUES residentes total
1 18 36
2 14 40
3 15 60
4 16 48
5 17 50
6 10 27
1. Obtenga un intervalo de confianza del 95% para el ingreso anual promedio por adulto en la
ciudad.
mi
Los elementos son los adultos , X representa su ingreso anual y i x ij (donde xij es el j-ésimo
j 1
ingreso anual observado en los adultos del conglomerado i) representa el ingreso anual total en el
bloque i.
BLOQUES mi i τ i - m i Xc 2
1 18 36 262.44
2 14 40 0.36
3 15 60 272.25
64
4 16 48 2.56
5 17 50 0.49
6 10 27 4.00
90 261 542.10
n
mi
90
m 15
n 6
Luego
n
n i - mi Xc 2 6
1- 1- 542.10
ˆ X N 100
c nM2 n -1 6 (15)2 5
0.94
ˆ X 108.42 = 0.2748 en miles de $
c 1350
Sustituyendo los resultados anteriores en la fórmula de un estimador por intervalo de confianza del
95% para
Xc 2
ˆX
c
obtenemos
2.9 2 ( 0.2748 )
2.9 0.5496 Li = 2.3504 y Ls = 3.4496 en miles de $
Observe que este intervalo se pudo haber obtenido también con la siguiente fórmula de un intervalo
de confianza del 95% pora .
n n
i n i - mi Xc 2
1-
2 N
n n M2 n -1
mi
Sabemos que N = 100, n = 6 y que M es estimado en 15. Sustituyendo los resultados de la tabla
anterior llegamos a que:
6
261 1 - 542.10
100
2
90 6(15) 2 5
0.94
2.9 2 108.42
1350
2.9 2 ( 0.2748 )
2.9 0.5496 Li = 2.3504 y LS = 3.4496 (en miles de $)
2.
a) Estime el ingreso anual total de todos los adultos residentes de la ciudad.
b) Con un 95% de confianza calcule el error máximo permitido para la estimación anterior.
2 ˆ MX c 2M ˆ
X
c = 2(1500)(0.2748) = 2(412.2) = 824.4 (en miles de $)
c) Obtenga un intervalo de confianza del 95% para el ingreso anual total de los adultos de la
ciudad.
66
M Xc 2 σ
ˆ MX
Utilicemos la fórmula c
̂
Sustituyendo M X c y MX
c por sus valores
4350 2(412.2)
3525.6 5174.4
Suponiendo que E representa el error máximo que se desea tolerar al estimar , queremos que con
una confianza del 95%
E 2
ˆ ̂ 2 E2
Xc es decir que Xc =
4
n
τ i - mi Xc
n
2
1-
N E2
De la ecuación podemos despejar n, esto es, el número de
nM 2 n -1 4
conglomerados en la muestra y obtener la siguiente fórmula
2
N Sc
n
E2
N M 2
2
Sc
4
n
i - m i X c
2
donde puede calcularse de una muestra preliminar y M puede ser
S c2
n -1
estimado por m con la misma muestra para finalmente obtener el número de conglomerados en la
muestra.
EJEMPLO 1.23
Tomando los resultados de la encuesta del ejemplo 1.22 como una muestra preliminar, determine el
número necesario de bloques rectangulares en la muestra para estimar el ingreso anual promedio por
adulto con un error máximo permitido de C$ 300.
i - m i X c
n 2
E2 0.32
Como N M 100 (15) 2
2
100 (225) (0.0225) 506.25
4 4
2
N Sc
n
N M 2
E2
2
Sc =
4
100 (108.42) 10842
17.6387
506.25 108.42 614.67
1. A continuación se presenta una población de 5 cuentas por pagar de una empresa con sus
correspondientes montos en decena de miles de córdobas.
Cuenta Monto
C 3
D 3
E 7
F 10
G 14
2. Para la distribución muestral de X pedida por el inciso iii) del ejercicio 1, calcule X y X
y verifique que μ X μ
3. Para el ejercicio 1 tome todas las muestras posibles de tamaño 3 y construya la distribución
muestral de X representándola gráficamente.
5. Consideremos la población compuesta por 4 agentes de ventas con sus correspondientes gastos
de representación en cientos de córdobas de la semana pasada.
Representante Gasto
A 2
68
B 4
C 6
D 8
No. Cuenta 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
Monto
(en miles de C$) 1.5 2.3 1.0 1.8 1.9 2.0 3.5 1.5 2.4 1.2 1.8 4.5 3.0 2.1 3.5
1) Utilizando la fila 3 columna 4 como una entrada a la tabla de números aleatorios, seleccione
una muestra aleatoria de 4 cuentas señalándolas con un *
ii) Estime el monto promedio de las cuentas y el monto total de las cuentas utilizando la
muestra seleccionada en 1)
No. Super 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
Ventas diarias
(en miles de C$) 84 73 50 35 62 38 26 25 56 45 90 20 87 30 40
ii) Suponiendo que la encuesta reveló para el primer módulo seleccionado en el inciso i) la
existencia de 10 calculadoras, para el segundo módulo la existencia de 15 calculadoras, para el
tercer módulo 20 calculadoras y para el cuarto módulo 3 calculadoras.
9. Se desea investigar en un barrio la cantidad de niños en edad escolar con el fin de estudiar las
necesidades educativas a nivel primario (se piensa construir una escuela). Con tal fin se dispone del
siguiente mapa del barrio.
Parque
Iglesia
Predio
vacío
70
ii) Suponiendo que la encuesta reveló para la primera manzana seleccionada en el inciso i) la
existencia de 18 niños, para la segunda manzana la existencia de 21 niños, para la tercera
manzana la existencia de 27 niños y para la cuarta manzana la existencia de 10 niños.
10. Un auditor quiere investigar el total de páginas que tienen los documentos de una empresa.
En su poder hay 280 documentos numerados del 001 al 280.
ii) Suponiendo que los 20 documentos muestreados del inciso i) resultaron con un promedio
de13.4 páginas
Estime el número total de páginas en todos los documentos.
11. Suponga que los salarios mensuales de los trabajadores a destajo de una empresa tienen una
distribución normal y que además se sabe que la desviación estándar de los salarios es de C$ 100.
El jefe del departamento de personal selecciona al azar los expedientes de 16 trabajadores y
encuentra que el salario mensual promedio es de C$ 2500
iii) Suponiendo que la empresa tiene 150 trabajadores a destajo, estime el salario mensual
promedio de los trabajadores de la empresa utilizando un intervalo de confianza del 90%.
12. Se desea estimar la venta promedio por cliente, en córdobas, de una tienda. Sobre la base de
datos de otras tiendas similares, se sabe que la desviación estándar de ese tipo de ventas es de
aproximadamente C$ 3200.
¿Qué tamaño de muestra se debe utilizar, como mínimo, si desea estimar la venta promedio con un
margen de error de C$ 1000 y una confianza del 99%?
71
13. Para una cadena de 250 tiendas suponga que se conoce por experiencias anteriores que la
desviación estándar de las ventas anuales por tienda para un producto determinado es de C$
200,000.
Si una muestra aleatoria de 40 tiendas del año pasado nos informa que hubo una venta promedio de
C$ 3,425,000.
2) Si quiero estimar la venta promedio de las tiendas con un error de más o menos C$ 30,000
y con una confianza del 95%, ¿ qué tamaño de muestra se requiere?
14. Se quiere estimar el consumo mensual promedio en córdobas de energía eléctrica por casa en el
mes de Diciembre. Con base en estudios efectuados en otras ciudades, se supone que la desviación
estándar de los consumos es de C$ 20. La estimación del consumo mensual promedio se quiere
hacer con una aproximación de C$ 3 del promedio real y con un 99% de confianza.
ii) Si la ciudad tuviera un total de 3000 casas, ¿qué tamaño de muestra se necesita?
15. Una empresa comercializadora de granos básicos está estudiando la posibilidad de comprar 1000
sacos de frijol. Con el fin de determinar el peso promedio de materias extrañas por saco y el peso
total de materias extrañas tomó una muestra aleatoria de 40 sacos obteniendo un promedio de 2.4 lbs
y una desviación estándar de 0.62 lbs de materias extrañas.
a) Obtenga un intervalo de confianza del 95% para el peso promedio de materias extrañas por
saco.
b) Obtenga un intervalo de confianza del 90% para el peso total de materias extrañas en los 1000
sacos.
c) Si se quiere estimar el peso promedio de las materias extrañas por saco con una confiabilidad
del 98% de que el error máximo permitido sea de 0.10 lbs, ¿Cuál debe ser el tamaño de la
muestra?
16. Una muestra aleatoria de 100 medidores de agua es controlada dentro de una comunidad para
estimar el consumo mensual promedio de agua por casa durante un período estacional seco. La
media muestral fue de 30.5 m3 y la desviación estándar muestral de 5m3. Si suponemos que hay
10,000 casas dentro de la comunidad.
72
i) Obtenga un intervalo de confianza del 98% para el consumo mensual promedio de agua por
casa.
ii) Estime el total de m3 de agua usado mensualmente durante el período seco, luego determine con
un 95% de confianza el error máximo permitido en esta estimación.
17. Como supervisor del proceso de empacado de café en sobres, suponga que se toma una muestra
aleatoria de 12 sobres de la planta empacadora, de la cual resulta un peso neto promedio por sobre
de 15.97 gramos y una desviación estándar del peso neto por sobre de 0.15 gramos. Suponiendo que
el peso neto del café por sobre tiene distribución normal:
i) Estime el peso neto promedio por sobre de café utilizando un intervalo de confianza del 95%.
ii) Identifique el valor del error máximo permitido con una confianza del 95% en la estimación del
peso neto promedio por sobre de café del inciso i)
ii) ¿Qué tamaño de muestra debo utilizar para tener una confianza del 95% de que el error máximo
tolerado sea de 0.04 gramos?
18. Para una muestra de 50 empresa tomadas de una industria determinada, se encuentra que el
número promedio de trabajadores por empresa es de 420.4, con una desviación estándar de 55.7.
Suponiendo que existe un total de 380 empresas en esa rama industrial.
i) Determine un intervalo de confianza del 90% para estimar el número total de trabajadores
empleados en esa industria.
ii) Identifique el valor del error muestral promedio en la estimación del número total de
trabajadores del inciso i)
19. Los ingresos del impuesto sobre ventas en una comunidad particular se recogen cada trimestre.
Los siguientes datos representan los ingresos (en miles de córdobas), cobrados durante el primer
trimestre en una muestra de 9 establecimientos de menudeo en la comunidad.
Suponiendo que los ingresos trimestrales del impuesto sobre ventas se distribuyen aproximadamente
normal.
a) Establezca un intervalo de confianza del 98% para el ingreso trimestral promedio del impuesto
sobre ventas de los establecimientos de menudeo.
c) Si quiero estimar el ingreso trimestral promedio del impuesto sobre ventas de los
establecimientos con una confianza del 95% de que el error máximo sea de C$ 1000.
¿ qué tamaño de muestra se requiere ?
73
20. Consideremos que cierta región del país cuenta con 500 establecimientos comerciales. Con el
fin de estimar el número promedio de empleados por establecimiento y el número total de
empleados, se seleccionó una muestra aleatoria simple de 20 establecimientos con los siguientes
números de empleados.
5 8 8 5 7 3 7 8 2 5
9 4 6 2 3 4 3 5 4 6
i) Encuentre un intervalo de confianza del 95% para el número promedio de empleados por
establecimiento.
ii) Encuentre un intervalo de confianza del 98% para el número total de empleados.
iii) Si quisiera estimar el número promedio de empleados por establecimiento con una confiabilidad
del 95% de que el error máximo permitido sea de 1 empleado, ¿cuál debe ser el tamaño de la
muestra?
21. Un auditor detecta que cierta empresa regularmente exagera las cantidades de dinero en dólares
de los inventarios, a causa de los retrasos en el registro de los retiros. El auditor quiere estimar la
cantidad total exagerada sobre 800 artículos listados, obteniendo las cantidades exactas (revisadas)
del inventario mediante una muestra aleatoria de 6 artículos, y comparando estas cifras exactas con
las cantidades registradas. Los datos en dólares para los artículos seleccionados se muestran en la
siguiente tabla.
Cantidad Cantidad
No. Artículo revisada registrada
1 175 210
2 295 305
3 68 91
4 74 82
5 128 140
6 241 250
22. Un auditor muestrea aleatoriamente 12 cuentas por cobrar de las 500 cuentas de una empresa.
El auditor lista el monto de cada cuenta y verifica si los documentos respectivos cumplen con los
procedimientos establecidos. Los datos son como sigue (cantidad en dólares, S = si , N = no ):
1 278 N
2 192 S
3 310 S
4 94 N
5 86 S
6 335 S
7 310 N
8 290 S
9 221 S
10 168 S
11 200 N
12 300 N
Suponiendo que los montos de las cuentas tienen una distribución aproximadamente normal.
1) Obtenga un intervalo de confianza del 95% para el monto total de las 500 cuentas de la empresa.
2) Obtenga un intervalo de confianza del 95% para la proporción de cuentas de la empresa que no
cumplen con los procedimientos establecidos.
23. Un auditor de una compañía mayorista de productos metálicos quiere estimar la proporción de
facturas para los clientes con errores en los precios. Una muestra aleatoria de 300 facturas de las
operaciones del mes anterior, indicó que 45 contenían errores en los precios.
i) Establezca un intervalo de confianza del 95% para las proporción real de facturas con errores en
los precios.
ii) Si en el mes anterior se expidieron 5000 facturas, establezcas un intervalo de confianza del 95%
para el total real de facturas con errores en los precios.
iii) Si el auditor desea un 95% de confianza de estar en lo correcto con aproximación de 2.5% del
porcentaje real de facturas con errores en los precios y si se supone según experiencia previa que el
porcentaje de facturas con errores es 10% ¿Qué tamaño de muestra necesita?
Establezca un intervalo de confianza del 99% para la proporción real de reclamaciones pagadas en
ese plazo de dos meses.
25. El gerente de una sucursal bancaria en una ciudad pequeña quiere determinar la proporción de
sus cuentahabientes a los cuales se les paga el interés por trimestre. Se selecciona una muestra
aleatoria de 100 cuentahabientes, en la cual 30 indican que se les paga por trimestre.
ii) Con un 96% de confianza calcule el error máximo permitido en la estimación de la proporción
real de cuentahabiente del inciso i)
ii) Si el banco tiene 1000 cuentahabientes, establezca un intervalo de confianza del 90% para el
total real de cuentahabientes a quienes se les paga por trimestre.
iii) Si el gerente quiere tener 90% de confianza de que está en lo correcto con aproximación de
0.05 de la proporción de sus cuentahabientes a quienes se les paga por trimestre, ¿qué tamaño de
muestra necesita?
26. Una compañía de televisión por cable (Cablevisión) quiere estimar la proporción de sus
suscriptores que compararían su revista con la programación. La compañía quiere tener 95% de
confianza de que su estimación está correcta con aproximación de 0.05 de la proporción real. La
experiencia previa en otras áreas indica que el 30% de los suscriptores compararon la revista. ¿Qué
tamaño de muestra se necesita?
27. Una corporación desea estimar el número total de horas-hombre perdidas debido a accidentes de
los empleados en un mes determinado. Ya que los obreros, los técnicos y los administrativos tienen
diferentes tasas de accidentes, el investigador decide usar muestreo aleatorio estratificado con cada
grupo formando un estrato. Datos de años previos sugieren las varianzas, mostradas en la tabla
anexa, para el número de horas-hombre perdidas por empleado en los 3 grupos, y de datos actuales
se obtienen los tamaños de los estratos.
Estrato Ni Si2
Obreros 132 36
Técnicos 92 25
Administrativos 27 9
30
76
28. Una empresa desea estimar con la máxima precisión posible el monto promedio y total de sus
cuentas por cobrar, mediante una muestra aleatoria de 50 cuentas. Suponga por previa disposición
que las cuentas se van arreglando así: en el archivo 1 se guardan las cuentas que tienen un monto
inferior a 1000 dólares, en el archivo 2 las cuentas que tienen un monto entre 1000 y 2000 dólares,
en el archivo 3 se guardan las cuentas que tienen un monto superior a los 2000 dólares. El número
de cuentas guardadas en los archivos 1, 2 y 3 es respectivamente 250, 150 y 50.
1) Considerando por conveniencia administrativa que cada archivo es un estrato y que el costo del
muestreo es el mismo para los 3 archivos y que las desviaciones estándar de los montos de las
cuentas son iguales a 50 dólares para cada uno de los archivos, ¿cómo asignaría las 50 cuentas de la
muestra a los 3 archivos?
2) Suponiendo que para las submuestras de los archivos 1, 2 y 3 del inciso 1) se obtuvieron montos
promedios de 800, 1400 y 2600 dólares, establezca un intervalo de confianza del 95% para:
i) el monto promedio de las cuentas
ii) el monto total de las cuentas
29. Una región que comprende 800 granjas ganaderas se ha dividido en 5 estratos de acuerdo con el
área de cada una.
ESTRATOS No. granjas
1 300
2 200
3 160
4 100
5 40
800
1) Suponga que se planea seleccionar una muestra aleatoria estratificada de 40 granjas. Como no
tiene información previa respecto a las varianzas de los estratos, y como el costo del muestreo es el
mismo en cada estrato, decide aplicar asignación proporcional. ¿Qué tamaño tendrían las
submuestras de cada estrato?
2) Suponiendo que para las submuestras del inciso 1) se obtuvieron números promedios de
cabezas por granja en miles de 4, 6, 10, 13 y 15 para las submuestras de los estratos 1, 2, 3, 4 y 5
respectivamente y varianzas en miles2 de 1.20, 1.00, 0.90, 1.50 y 0.80 para las submuestras de los
estratos 1, 2, 3, 4 y 5 respectivamente.
i) Estime el número promedio de cabezas por granja en la región.
ii) Estime el total de cabezas en la región.
iii) Calcule el error muestral promedio para cada una de las estimaciónes de los incisos i) y ii)
iv) Establezca un intervalo de confianza del 95% para el total de cabezas en la región.
30. Un distribuidor de comestibles al mayoreo en una gran ciudad desea saber si la demanda es lo
bastante grande como para justificar la inclusión de un nuevo producto a sus existencias. Para tomar
la decisión, planea añadir este producto a una muestra de los almacenes a los que abastece para
77
1) Dado que no tiene información previa respecto a las varianzas de los estratos, y como el costo
del muestreo es el mismo en cada estrato, decide aplicar la asignación proporcional. ¿Qué tamaño
tendrían las submuestras de cada estrato?
2) Suponga que el nuevo producto es introducido en cada submuestra del inciso 1) obteniendo
después de un mes ventas promedios en córdobas de 99, 100, 98 y 100 para las submuestras de los
estratos 1, 2, 3 y 4 respectivamente y varianzas en córdobas2 de 78.67, 55.60, 39.50 y 112.50 para
las submuestras de los estratos 1, 2, 3 y 4 respectivamente.
Obtenga un intervalo de confianza del 95% para la venta mensual promedio del nuevo producto.
3) Identifique el valor del error máximo permitido en la estimación de la venta mensual promedio
del nuevo producto del inciso 2)
31. Un investigador que desea estimar la venta anual promedio de 56 empresas ha decidido
estratificar la población según sus ventas anuales de la siguiente manera
Datos de años anteriores sugieren las varianzas, que muestra la tabla de arriba, para las ventas
anuales en miles de C$
1. Suponiendo que planea seleccionar una muestra aleatoria estratificada de 15 empresas, ¿qué
tamaño tendrán las submuestras de cada estrato al aplicar una asignación de Neyman?
2. Suponiendo que para las submuestras del inciso 1. se obtuvieron ventas promedios en miles de
C$ de 150, 300 y 400 para las submuestras de los estratos 1, 2 y 3 respectivamente.
i) Establezca un intervalo de confianza del 95% para la venta anual promedio de las empresas
ii) Estime la venta anual total de las empresas señalando el error máximo permitido en la
estimación
32. Un servicio forestal estatal está realizando un estudio de la gente que utiliza las instalaciones de
campamentos operados por el estado. El estado tiene 2 áreas para acampar, una localizada en las
montañas y otra localizada a lo largo de la costa. Las dos áreas para acampar forman
convenientemente 2 estratos, la localidad de la montaña como el estrato 1 tiene 120 sitios para
acampar y la localidad de la costa como el estrato 2 tiene 80 sitios para acampar.
Suponiendo que el servicio desea estimar el número promedio de personas por sitio dentro de los
campamentos con un error máximo tolerado de 1 persona y que los costos de muestreo son los
78
mismos en cada estrato, encuentre el tamaño de muestra y los tamaños de submuestras por estrato
necesarios considerando que:
33. Una corporación desea obtener información acerca de la efectividad de una máquina comercial.
Se va a entrevistar por teléfono a un número de jefes de división, para pedirles que califiquen la
maquinaria con base en una escala numérica. Las divisiones están localizadas en Norteamérica,
Europa y Asia, motivo por el cual, usaremos muestreo estratificado. La tabla siguiente proporciona
los costos en dólares por entrevista, varianzas aproximadas de las calificaciones y los tamaños de los
estratos que se han establecido.
Estrato Ni Si2 ci
Norteamérica 112 2.25 9
Europa 68 3.24 25
Asia 39 3.24 36
ii) Suponga que la corporación tiene únicamente 400 dólares para gastar en muestreo, determine el
tamaño de muestra y los tamaños de submuestras por estrato necesarios para ese presupuesto.
34. Supongamos que una región tiene 20 municipios. Se quiere estimar el número promedio de
cabezas de ganado por granja y el número total de cabezas en esa región. Se decide usar muestreo
por conglomerado tomando cada municipio como un conglomerado. Con tal fin seleccionamos una
muestra aleatoria simple de 4 municipios obteniendo los resultados que presenta la tabla siguiente.
1 3 1, 3, 2
79
2 5 4, 3, 2, 5, 6
3 4 4, 3, 3, 2
4 3 3, 4, 2
1 1 2 1 3 3 2 1 4 1 1
2 1 3 2 2 3 1 4 1 1 2
3 2 1 1 1 1 3 2 1 3 1
4 1 1 3 2 1 5 1 2 3 1
1)
a) Obtenga un intervalo de confianza del 95% para el número promedio de periódicos comprados
por hogar en la comunidad.
b) Establezca el error máximo permitido para la estimación anterior.
3) Estime el número total de periódicos comprados por todos los hogares de la comunidad.
36. Los comercios solicitan frecuentemente a los contadores la realización de inventarios. Ya que
un inventario completo es costoso, a través del muestreo se pueden realizar inventarios cada cuatro
meses. Supóngase que una empresa abastecedora de artículos de plomería desea un inventario para
muchos artículos pequeños en existencia. La obtención de una muestra aleatoria de artículos es muy
difícil. Sin embargo, los artículos se encuentran dispuestos en anaqueles, y la selección de una
muestra aleatoria de anaqueles es relativamente fácil, considerando a cada anaquel como un
conglomerado de artículos.
80
Una muestra de 10 anaqueles de un total de 48 dió los resultados que se muestran en la tabla
siguiente. (en dólares)
Conglomerado No. Artículos Cantidad registrada
1 42 83
2 27 62
3 38 45
4 63 112
5 72 96
6 12 58
7 24 75
8 14 58
9 32 67
10 41 80
Obtenga un intervalo de confianza del 95% para la cantidad total en dólares de los artículos en los
48 anaqueles.
37. El número de casas, el número de residentes y el número el número de cuartos dentro de las
casas para una muestra aleatoria de 5 manzanas seleccionadas al azar, de una ciudad donde
suponemos que el número de manzanas es 500, se presenta en la siguiente tabla
38. Un fabricante de sierras quiere estimar el costo de reparación promedio mensual para las sierras
que ha vendido a ciertas industrias. El fabricante no puede obtener un costo de reparación para cada
sierra, pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene
cada industria. Entonces decide usar muestreo por conglomerados con cada industria como un
conglomerado. El fabricante selecciona una muestra aleatoria simple de 10 industrias de 96
industrias a las que da servicio. Los datos sobre costo total de reparaciones por industria del mes
pasado y el número de sierras por industria se presentan en la tabla anexa.
(en dólares)
Industria No. sierras Costo total
1 3 50
2 7 110
3 11 230
81
4 9 140
5 2 60
6 12 280
7 14 240
8 3 45
9 5 60
10 9 230
1) Estime el costo promedio de reparación por sierra para el mes pasado estableciendo el error
máximo permitido para esa estimación.
2) Estime la cantidad total gastada por las 96 industrias en la reparación de sierras el mes pasado
estableciendo el error máximo permitido para esa estimación.
3) Si el fabricante quiere estimar el costo de reparación promedio por sierra para el mes siguiente,
¿Cuántos conglomerados (industrias) debe seleccionar en la muestra si quiere que el error máximo
tolerado sea de 2 dólares?
OBJETIVOS
2.1. INTRODUCCION.
Se conoce como prueba de hipótesis a una rama de la Estadística inferencial que podría verse como
un procedimiento especial de toma de decisiones.
EJEMPLO 2.1.
Al juzgar a una persona por asesinato, se presume que el acusado es inocente, es decir no culpable,
hasta que se demuestre lo contrario, según la justicia conservadora.
La situación anterior implica que estamos en presencia de un problema de decisión a resolver que
tiene 2 hipótesis que definiremos así:
82
Inocente
Culpable
Dejarlo libre
Echarlo preso
Hipótesis estadística.
Le llamaremos hipótesis estadística a un supuesto que se hace acerca del valor de un parámetro de
una población o acerca de valores de parámetros que corresponden a distintas poblaciones.
EJEMPLO 2.2
Supongamos que cierta región del país cuenta con 200 plantaciones donde se cultiva maíz sin hacer
uso de ningún abono. Por muchos años el rendimiento promedio ha sido de 44 quintales por
manzana. El MAG está tratando de convencer a los agricultores de la aplicación de cierto
fertilizante, lo que significaría un mayor rendimiento promedio y por lo tanto un mejor beneficio
económico. A manera de prueba los agricultores usaron el fertilizante en 36 plantaciones
seleccionadas aleatoriamente, obteniéndose un rendimiento promedio de 47.30 quintales por
manzana y una desviación estándar de 6.60 quintales por manzana.
¿Debemos aplicar el fertilizante a un nivel de significación del 5%?
En este problema los elementos a estudiar son las plantaciones y la característica de interés X será
el rendimiento de las plantaciones en quintales por manzana. Estaremos interesados en suposiciones
que se hagan acerca de la media poblacional que representará el rendimiento promedio de las
plantaciones.
Observemos que estamos ante un problema de decisión con 2 hipótesis que definimos así:
= 44
44
No aplicar el fertilizante.
Aplicar el fertilizante.
Una prueba de hipótesis será un procedimiento en el cual una de las hipótesis que llamaremos nula
se probará contra otra hipótesis que llamaremos alterna, tomando como base la información
proporcionada por una muestra aleatoria, la cual nos permitirá poder rechazar o no rechazar la
hipótesis nula, con el fin de poder seleccionar la alternativa más adecuada.
Debido al gran parecido que tiene este procedimiento en la manera de razonar con el empleado en
un juicio, retomaremos el ejemplo 2.1 como una motivación al tema.
Inocente
Culpable
Naturalmente el error tipo I, motivo por el cual se quiere que la probabilidad de caer en este error I
sea mínima. Por tanto mantendremos la probabilidad de caer en este error I debajo de una frontera,
sin preocuparnos por la probabilidad de caer en el error II.
3. Antes de investigar al acusado las leyes tienen establecida la siguiente regla de decisión:
5. Finalmente con la evidencia ya valorada se aplica la regla de decisión que nos permitirá
seleccionar la alternativa más adecuada.
i) Si el jurado valora que hay suficiente evidencia para rechazar la hipótesis nula de inocencia
entonces estamos aceptando la hipótesis alterna de culpabilidad lo cual implica que debemos
seleccionar la alternativa de echarlo preso.
ii) Si el jurado valora que no hay suficiente evidencia para rechazar la hipótesis nula de inocencia
entonces “aceptamos” la hipótesis nula de inocencia, pero débilmente porque talvez la acusación fue
deficiente en la recolección de evidencias, lo cual implica seleccionar la alternativa de dejarlo
libre o bien no tomar ninguna alternativa y reanudar el jucio en otra ocación.
Para fines de estudio consideraremos la prueba de hipótesis dividida en los siguientes pasos:
Hipótesis nula.
La hipótesis nula será generalmente la que afirma en los problemas ausencia de efecto alguno para
determinadas acción o tratamiento y la denotaremos por Ho.
Como esta hipótesis es la que siempre debe especificarse en una forma más exacta, el signo =
siempre la acompañará.
Hipótesis alterna.
A cualquier hipótesis que diga lo contrario de la hipótesis nula, esto es que hay presencia del efecto
para la acción o tratamiento, la llamaremos hipótesis alterna y la denotaremos por H1.
Como esta hipótesis es generalmente especificada con menos exactitud, los signos , o la
acompañan.
Para el ejemplo 2.1 en que se juzga a una persona por asesinato, podemos ver el juzgar como la
acción y la culpabilidad como el efecto. Por tanto podemos escribir.
donde la hipótesis nula H0 está suponiendo ausencia de culpabilidad mientras que la hipótesis
alterna H1 supone presencia de culpabilidad.
Para el ejemplo 2.2 podemos ver la fertilización de las plantaciones como la acción y el aumento
de rendimiento promedio con respecto a 44 como el efecto. Por tanto podemos escribir.
H0 : = 44 A0 : No aplicar el fertilizante
H1 : 44 A1 : Aplicar el fertilizante
donde la hipótesis nula H0 está suponiendo que no hay aumento en el rendimiento promedio,
mientras que la hipótesis alterna H1 supone que hay aumento en el rendimiento promedio.
La aceptación de cada una de las hipótesis anteriores tendrá asociada una alternativa.
A la aceptación de H0 le corresponderá la alternativa A0 y a la aceptación de H1 le corresponderá la
alternativa A1
Tipos de pruebas.
De acuerdo a la forma en que pueden estructurarse las hipótesis tendremos:
1) Pruebas unilaterales.
Son aquellas en las cuales la presencia del efecto en la hipótesis alterna se traduce como un interés
por sólo las desviaciones hacia un lado con respecto a un valor supuesto 0 de
Note que la hipótesis nula puede también especificarse de una manera menos exacta como 0
o 0.
2) Pruebas bilaterales.
Son aquellas en las cuales la presencia del efecto en la hipótesis alterna se traduce como un interés
por las desviaciones tanto hacia la izquierda como hacia la derecha con respecto a un valor supuesto
0 de
H0 : = 0
H1 : 0
Para el ejemplo 2.2 observe que la prueba es de cola derecha porque sólo nos interesan los
aumentos en el rendimiento promedio con respecto a 44.
P ( error I )
P ( error II )
Cuando el tamaño de la muesta n es fijo, y varían inversamente, esto es, cuando nos alejamos
de un peligro aumentamos el otro. La prueba se llevará acabo controlando sin preocuparnos por .
Generalmente el error I es más grave que el error II, razón por la cual le daremos a un valor
pequeño, usualmente se toma
= 0.01 ó = 0.05 según el caso
En casos en que las consecuencias de cometer un error I son muy graves debemos tomar = 0.01
(ó un riesgo aún menor).
Si las consecuencias de cometer el error I no son tan graves podemos tomar = 0.05 ( ó un riesgo
aún mayor).
Altenativas Hipótesis
H0 : = 44 es V H1 : 44 es V
A0: No aplicar el fertilizante Correcta Error II
A1: Aplicar el fertilizante Error I Correcta
P ( error I ) 0.05
Como las hipótesis son suposiciones acerca de , el estadístico de prueba que utilizaremos será la
media muestral X pero estandarizada, esto es, la diferencia X - 0 expresada en unidades del
error estándar de X , lo cual expresamos así
X
X
que puede ser igual al estadístico Z o t según la tabla que presentamos abajo.
DISTRIBUCION DE LA POBLACION
Tamaño Normal No Normal
de
muestra n conocido desconocido conocido desconocido
88
n 30 Z t
n 30 Z Z Z Z
Esto significa que el valor del estadístico de prueba Z o t se obtendrá de una muestra de tamaño n y
representará en una prueba de hipótesis una diferencia que puede ser considerada
significativamente distinta de cero o no significativamente distinta de cero.
¿ Pero cómo sabremos si esta diferencia Z o t es significativamente distinta de cero o no?
Por el momento diremos simplemente si Z o t está suficientemente alejada de cero.
Estableceremos un valor de referencia o valor crítico que dependerá del tipo de prueba y del nivel
de significación
Esto quiere decir que Z o t está suficientemente “alejado” de cero si cae a la derecha de z o t
según se observa en la figura de abajo
Z o t
0 z
t
NR R
Figura 2.2
Como decir que Z es significativamente distinto de cero es equivalente a decir que rechazamos H0
Z z o t t
Z o t
-z 0
-t
R NR
Figura 2.1
Z - z o t - t
Para cada nivel de significación que nos fijemos en una prueba de una cola existirá un valor
crítico que dividirá el rango de Z o t en dos regiones disjuntas, una región de no rechazo o
“aceptación” y otra de rechazo.
α
2 2
α
2
Z o t
- z/2 0 z/2
- t/2 t/2
R NR R
Fig. 2.3
Para cada nivel de significación que nos fijemos en una prueba de dos colas existirán 2 valores
críticos que dividirán el rango de Z o t en tres regiones disjuntas, una región de no rechazo o
“aceptación” y dos regiones de rechazo.
Reglas de decisión
Tipo de Estadístico Z Estadístico t
Prueba según H1 Rechazo H0 si Rechazo H0 si
Cola derecha 0 Z z t t
Cola izquierda 0 Z - z t - t
Dos colas 0
Z - z/2 o Z t - t/2 o t
z/2 t/2
En caso contrario diremos que no podemos rechazamos H0 ,es decir, “aceptamos” H0.
repetido podríamos esperar que sólo en 5 ocaciones de 100 cometeriamos el error I, en otras
palabras se tendría un 95% de confianza de que se tomó la alternativa adecuada.
Cuando H0 sea rechazada a un nivel = 0.01 diremos que el resultado fue altamente significativo.
X
Z =
̂ X
Los valores más cercanos a 0.95 son 0.9495 y 0.9505. Tomaremos 0.9505 al cual le corresponde
z = 1.65
Es decir que Z es significativamente distinto de cero si cae a la derecha de 1.65 según se observa en
la figura de abajo
92
0.05
Z
0 1.65
NR R
Fig. 2.4
X
que puede ser igual a Z o t
X
X S N - n 6.60 200 - 36
Z = donde ̂ X = = = 0.9986
̂ X n N -1 36 199
93
47.30 - 44 3.30
Así que Z = = = 3.3046
0.9986 0.9986
Ahora estamos listos para aplicar la regla de decisión que nos permitirá seleccionar la alternativa
más adecuada.
Si el valor del estadístico de prueba Z o t cae en la región de rechazo entonces diremos que
rechazamos H0 a un nivel , esto es, que aceptamos H1
Luego debemos seleccionar la alternativa correspondiente a la aceptación de H1 que es A1 con un
nivel de confianza del ( 1 - ) 100%.
EJEMPLO 2.3
Suponga que se tiene un proceso de producción de llenado de cajas de cereal del cual se supone que
el peso neto de cereal en las cajas tiene una distribución normal, y que además, proporciona un peso
neto promedio de cereal en las cajas de 2 libras.
Puesto que este proceso esta sujeto a inspecciones periódicas por representantes de la Oficina local
de protección a los consumidores, quienes únicamente les interesa la “falta de peso” en los
productos, se tomó una muestra aleatoria de 6 cajas obteniendo los siguientes pesos netos en libras.
¿Existe evidencia suficiente para decir que el proceso no está funcionando correctamente a un nivel
de significación del 1%?
donde H0 : = 2 está suponiendo que no hay disminución del peso neto promedio con respecto a
las 2 lbs mientras que la hipótesis alterna H1 : 2 supone que hay disminución del peso neto
promedio con respecto a las 2 lbs.
Observe que la prueba es de cola izquierda porque sólo nos interesan las disminuciones en el peso
neto promedio con respecto a 2.
Altenativas Hipótesis
H0: = 2 es V H1: 2 es V
El proceso está funcionando correctamente. Correcto Error II
El proceso no está funcionando correctamente. Error I Correcto
donde el error I consiste en decir que el proceso no está funcionando correctamente cuando en
realidad el proceso está llenando las cajas con un peso neto promedio de 2 lbs.
Controlaremos el error I suponiendo que
X
t =
̂ X
Es decir que t es significativamente distinto de cero si cae a la izquierda de - 3.365 según se observa
en la figura de abajo
0.01
- 3.365 0 t
R NR
Fig. 2.5
Xi Xi 2
1.85 3.4225
2.10 4.4100
1.95 3.8025
1.83 3.3489
2.18 4.7524
1.97 3.8809
11.88 23.6172
96
X
Xi
11.88
1.98 lbs.
n 6
Xi 2 11.88 2
Xi 2
-
n
23.6172 -
6
S2
n -1 5
0.0948
S2 0.01896 S 0.01896 0.1377 lbs
5
Como t cae en la región de no rechazo diremos que no hay suficiente evidencia para rechazar H0 :
= 2 , es decir, “aceptamos” H0 : = 2. Luego debemos seleccionar la alternativa que dice que
el proceso de producción está funcionando correctamente.
EJEMPLO 2.4.
Suponga que una empresa tiene una cantidad muy grande de cuentas por cobrar y que los saldos de
esas cuentas tienen aproximadamente una distribución normal.
En los libros de la empresa aparece registrado un saldo promedio para esas cuentas de C$ 25850.
Un auditor con el fin de reducir la cantidad de revisión detallada que necesita utiliza muestreo
estadístico para seleccionar una muestra de 100 cuentas, obteniendo un saldo promedio de C$
27,550 y una desviación estándar de los saldos de C$ 1200.
¿Deberá el auditor concluir que el saldo es distinto a C$ 25850 y que, por lo tanto, debe hacer un
asiento de ajuste al valor en libros a un nivel de significación del 2%?
En este problema los elementos a estudiar son las cuentas y la característica de interés X será el
saldo de las cuentas. Será de interés hacer suposiciones acerca de la media poblacional que
representará el saldo promedio de las cuentas.
97
Podemos ver la revisión de los saldos de las cuentas por cobrar como la acción y la diferencia del
saldo promedio con respecto a C$ 25850 como el efecto.
donde H0 : = 25850 está suponiendo que no hay diferencia en el saldo promedio con respecto a
C$ 25850 mientras que la hipótesis alterna H1 : 25850 supone que hay diferencia en el saldo
promedio con respecto a C$ 25850.
Observe que la prueba es de dos colas porque nos interesan tanto las diferencias del saldo promedio
hacia la izquierda de C$ 25850 como hacia la derecha de C$ 25850.
Altenativas Hipótesis
H0: = 25850 es V H1: 25850 es V
No hacer asiento de ajuste Correcta Error II
Hacer asiento de ajuste Error I Correcta
donde Error I se da cuando hacemos un asiento de ajuste en libros cuando en realidad el saldo
promedio de las cuentas es igual a C$ 25850.
X
Z =
̂ X
Como la prueba es de dos colas quedará repartido en las dos colas así
= 0.02 = 0.01
Los valores críticos -z/2 y z/2 se determinan respectivamente de P( Z < -z/2 | Z = 0) = =
2
0.01 y P(Z z/2 | Z = 0) = = 0.01, pero como la tabla de la distribución de Z sólo
2
proporciona valores de z que tienen a su izquierda el área acumulada que señala dicha tabla,
podemos determinar primero el valor negativo -z/2 de P( Z < -z/2 | Z = 0) = = 0.01, o bien
2
podemos determinar primero el valor positivo. Una vez determinado el primero, el segundo será,
según la propiedad de simetría, el opuesto.
Determinemos primero el valor negativo - z α 2 encontrando el área más cercana a 0.01, que es
0.0099, a la cual le corresponde - z α 2 = - 2.33. El otro valor crítico será el opuesto del anterior,
esto es, z α 2 = 2.33
0.01 0.01
Z
- 2.33 0 2.33
R NR R
Fig. 2.6
X = C$ 27550
S = C$ 1200
Como la población se considera muy grande el valor del estadístico de prueba es:
Como el valor de Z cae en la región de rechazo diremos que hay suficiente evidencia para rechazar
H0 : = 25850 a un nivel de significación = 0.02, lo cual implica que estamos aceptando H1 :
25850.
μY p y σY p (1 - p)
Como las hipótesis serán suposiciones acerca de p, el estadístico de prueba será naturalmente la
proporción muestral pS pero estandarizada, esto es, la diferencia pS - p0 expresada en unidades del
error estándar de pS
pS - p 0
, p0 es el valor supuesto de p
ˆ p S
100
ˆ Y p0 (1 - p0 )
donde ˆ p = si la población es infinita
S
n n
ˆ Y N-n p0 (1 - p0 ) N-n
o ˆ p = si la población es finita.
S
n N -1 n N -1
Esto significa que el valor del estadístico de prueba Z se obtendrá de una muestra de tamaño n y
representará también una diferencia que puede ser significativa o no significativa.
EJEMPLO 2.5.
¿Tiene suficiente evidencia el gerente para concluir a un nivel de significación del 5% que el nuevo
sistema es mejor que el anterior, esto es, que la proporción de envases defectuosos ha descendido?
En este problema los elementos a estudiar son los envases plásticos y la característica de interés Y es
la seguridad que ofrece el envase en cuanto a si cumple o no cumple los estándares de sellado.
Como estamos interesados en los envases defectuosos el éxito será que no cumplen.
Por tanto estamos en presencia de una población de Bernoulli de la cual nos interesan las
suposiciones acerca de la proporción p de envases que no cumplen los estándares de sellado.
Podemos ver el proceso de producción de llenado de los envases plásticos como la acción y el
descenso de la proporción de envases defectuosos con respecto a 0.04 como el efecto.
donde H0 : p 0.04 está suponiendo que no hay descenso en la proporción de envases que no
cumplen con respecto a 0.04 mientras que la hipótesis alterna H1 supone que hay descenso en la
proporción de envases que no cumplen.
101
Observe que la prueba es de cola izquierda porque sólo nos interesan los descensos de la
proporción de envases que no cumplen con respecto a 0.04.
Alternativas Hipótesis
H0: p 0.04 es V H1: p 0.04 es V
El nuevo sistema no es mejor Correcta Error II
El nuevo sistema es mejor Error I Correcta
donde el error I consiste en decir que el nuevo sistema es mejor cuando en realidad no hay descenso
en la proporción de envases que no cumplen.
pS - p 0
Z =
ˆ p S
Es decir que z es significativamente distinto de cero si cae a la izquierda de - 1.64 según se observa
en la figura de abajo
0.05
102
- 1.64 0 Z
R NR
Fig. 2.7
Por tanto la regla de decisión dirá lo siguiente:
X 10
pS = = = 0.025
n 400
pS - p0 0.025 - 0.04
pS - p 0 - 0.015
Z =
ˆ p S
= p0 (1 p0 ) = 0.04 (0.96) = = -1.5306
0.0098
n 400
EJEMPLO 2.6.
Una empresa tiene 1500 cuentas por cobrar.
En los libros de la empresa aparece registrado que sólo el 2% de los documentos no satisfacen los
requisitos establecidos.
Un auditor selecciona una muestra aleatoria de 300 y verifica que 12 no satisfacen los requisitos
establecidos.
¿Hay evidencia suficiente para que el auditor declare a un nivel de significación del 1% que más del
2% de las cuentas no satisfacen los requisitos establecidos por la institución?
1. FORMULACION DE LA HIPOTESIS.
Ahora los elementos a estudiar son las cuentas por cobrar y la característica de interés Y es la
verificación de las cuentas en cuanto a si satisfacen o no satisfacen los requisitos. Por lo tanto hay
una población de Bernoulli de la cual nos interesan las suposiciones acerca de la proporción p de
cuentas que no satisfacen los requisitos establecidos.
Podemos ver la verificación de las cuentas como la acción y son más del 2% la proporción de
cuentas que no satisfacen los requisitos como el efecto.
103
donde H0 : p = 0.02 está suponiendo que no son más del 2% la proporción de cuentas que no
satisfacen los requisitos, mientras que la hipótesis alterna H1 : p 0.02 supone que son más del 2%
la proporción de cuentas que no satisfacen los requisitos.
Observemos que la prueba es de cola derecha porque sólo nos interesa si son más del 2% la
proporción de cuentas que no satisfacen los requisitos.
Alternativas Hipótesis
H0: p = 0.02 es V H1: p 0.02 es V
El 2% de las cuentas no satisfacen. Correcta Error II
Más del 2% de las cuentas no satisfacen. Error I Correcta
donde Error I consiste en declarar que más del 2% de las cuentas no satisfacen los requisistos
cuando en realidad sólo el 2% de las cuentas no satisfacen los requisitos.
pS - p 0
Z =
ˆ p S
Es decir que Z es significativamente distinto de cero si cae a la derecha de 2.33 según se observa en
la figura de abajo
0.01
Z
0 2.33
NR R
Fig. 2.8
X 12
pS = = = 0.04
n 300
pS - p 0
pS - p 0
Z = = p0 (1- p0 ) N - n
ˆ p S
n N -1
n 300
Porque la población es finita con = = 0.20 0.05
N 1500
105
Así que
0.04 - 0.02
0.02
Z = 0.02 (0.98) 1200 = (0.0081) (0.8947) = = 2.7597
300 1499
Como Z cae en la región de rechazo diremos que hay suficiente evidencia para rechazar H0 : p =
0.02 a un nivel de significación = 0.01, lo cual implica que aceptamos H1 : p 0.02
Luego el auditor debe declarar que más del 2% de las cuentas no satisfacen los requisitos
institucionales.
17.4, 18.9, 39.6, 34.4, 19.6, 33.7, 37.2, 27.5, 41.7, 24.1
2. El rendimiento promedio de maíz en las plantaciones hace un tiempo era de 50qq. por manzana
con una desviación estándar de 4qq. Se utilizó un nuevo fertilizante a un grupo de 52 plantaciones
seleccionadas al azar obteniendo un rendimiento promedio de 55qq. por manzana. Suponiendo que
la desviación estándar de los rendimientos con el nuevo fertilizante sigue siendo la misma, ¿ Se
106
3. Suponga que se tiene un proceso de produccion de llenado de cajas de pasas del cual se supone
que el peso neto de las pasas en las cajas tiene una distribución aproximadamente normal, y que
además, proporciona un peso neto promedio de pasas por caja de 15 onzas.
Debido a que ha habido quejas de consumidores que dicen que las cajas contienen un peso neto
menor que el anunciado por la etiqueta del producto, se tomó una muestra aleatoria de 20 cajas para
aclarar el asunto obteniéndose un peso neto promedio de 13.5 onzas y una desviación estándar de 1
onza.
¿ Podemos decir a un nivel de significación del 1% que el reclamo de los consumidores es justo ?
4. Un vendedor de neumáticos está interesado en comprar unidades cuya duración promedio sea
mayor de 15,000 millas. Una firma productora le informa que posee neumáticos que cumplen con
ese requisito. El vendedor selecciona una muestra aleatoria de 25 unidades y determine que:
5. Un fabricante vende ejes traseros de camiones. Los ejes han de soportar una capacidad
promedio de resistencia de 80,000 lbs por plg2 en las pruebas de esfuerzo, pero los ejes demasiados
fuertes elevan considerablemente los costos de producción. La experiencia indica que la desviación
estándar de los ejes es de 4,000 lbs por plg2. El fabricante selecciona una muestra de 100 ejes en la
última serie de producción, los somete a prueba y averigua que la capacidad promedio de resistencia
de la muestra es de 79,000 lbs por plg2.
¿ Puede decir el fabricante que los ejes no cumplen los requisitos de esfuerzo a un nivel de
significación del 5%?
6. Un laboratorio lanza al mercado un nuevo producto logrado a base de hormonas afirmando que
al ser suministrado a las aves de corral el peso promedio de sus huevos será igual o mayor que 3
onzas. En una de nuestras granjas avícolas se aplicó el tratamiento masivamente y un día
determinado se tomaron de forma aleatoria 80 huevos, y se comprobó que el peso promedio de los
mismos era de 2.9 onzas, con una desviación estándar de 0.2 onzas. ¿Podría decir usted que la
afirmación del laboratorio no es cierta a un nivel de significación del 5%?
7. La biblioteca de una universidad sospecha que el número promedio de libros prestados a cada
alumno por visita ha cambiado en los últimos años. Anteriormente, un promedio de 3.4 litros se
prestaba a los alumnos. Sin embargo, una muestra reciente de 23 estudiantes dio un promedio de 4.3
libros por visita, con una desviación estándar de 1.5 libros.
Suponiendo que el número de libros prestados sigue una distribución normal
¿ Ha cambiado el promedio de libros prestados? En un nivel de significación de 0.01.
8. Una tienda ha iniciado una promoción especial para su horno de gas propano y piensa que la
promoción deberá culminar en un cambio de precios. Sabe desde antes de comenzar la promoción
que el precio de menudeo de los hornos sigue una distribución normal y que el precio promedio de
menudeo de los hornos era de C$ 419.50, con una desviación estándar de C$53.60. La tienda
107
muestrea 16 de sus detallistas una vez iniciada su promoción y descubre que el precio promedio al
menudeo de los hornos es de C$ 389.50. En un nivel de significación de 0.02. ¿ tiene motivos para
pensar que el precio promedio al menudeo ha disminuido?
9 Un proceso industrial usado por una fábrica durante algunos años da una producción promedio
de 100 unidades por hora con una desviación estándar de 8 unidades. Acaba de ponerse en el
mercado una nueva máquina para producir el mismo producto. Aunque es muy costosa comparada
con la que se usa actualmente, su adopción sería muy lucrativa , si su producción promedio fuera
mayor de 150 unidades por hora. La gerencia de la fábrica compra una de las nuevas máquinas
como un experimento y la prueba durante 35 horas encontrando una producción promedio de 160
unidades por hora.
Suponiendo que la desviación estándar de la producción para la nueva máquina es idéntica a la de
las antiguas, ¿ deberá ser adquirida la nueva máquina a un nivel de significación del 1% ?
10. Un nuevo sistema de enseñanza de cierto curso de Estadísticas asegura que proporciona un
rendimiento promedio de 75 puntos. En una muestra aleatoria de 10 estudiantes se comprobó que
sus calificaciones fueron:
70, 80, 75, 55, 65, 85, 90, 60, 75, 55.
Suponiendo que la distribución de las calificaciones es normal, ¿Podemos decir que el nuevo
sistema no alcanza el rendimiento promedio que asegura? Use un nivel de significación del 5%.
11. El gerente de una compañía financiera se queja de que el 7% de los pagos parciales de
préstamos hechos a consumidores no se cubren a tiempo. ¿Podríamos afirmar que esta cifra es
diferente, si 80 de 1500 pagos de préstamos no se hacen a tiempo? Utilice un nivel de significación
del 1%?
12. Un corredor de bolsas sostiene que puede predecir con un 85% de exactitud si una acción del
mercado bursátil cambiará de valor durante el próximo mes. A manera de prueba predice el
resultado de 60 acciones y acierta en 45 de sus pronósticos. ¿Ofrecen los datos evidencia
concluyente, cuando el nivel de significación es del 2%, de qué la exactitud de su predicción es
significativamente diferente al 85% afirmado por el corredor?.
13. ENEL utiliza decenas de miles de luminarias cada año. La marca que ha utilizado hasta ahora
tiene una vida promedio de 1,000 horas con una desviación estándar de 90 horas. Se le ofrece una
nueva marca al director de ENEL a un precio mucho más bajo que el que ha estado pagando. El
director decide que se debiera comprar la nueva marca ahora a menos que tengan una vida promedio
menor de 1,000 horas en un nivel de significación de 0.05. Se prueba 100 luminarias de la nueva
marca, que dan promedio de 990 horas. Suponiendo que la desviación estándar para la nueva marca
es la misma que la vieja. ¿ Cuál sería la decisión del director de ENEL?.
14. Una empresa de camiones de carga sospecha que la duración promedio de 25,000 Kms que se le
adjudica a ciertos neumáticos es demasiado larga. Para demostrar la afirmación la empresa coloca
una muestra tomada al azar de 35 neumáticos en sus camiones y descubre después que su duración
108
promedio es de 24410 Kms y la desviación estándar es de 1348 Kms. ¿Se podría concluir a un nivel
de significación de 0.01 que la duración promedio no es tan larga como se afirma?
15. Una persona que planea abrir un restaurante cerca de una zona residencial de cierta ciudad,
informa al banco al que desea pedir el capital necesario, que por lo menos el 50% de los residentes
en ese distrito patrocinarán su restaurante esporádicamente cuando este abierto. Suponga que Ud. Es
el encargado de préstamos del banco y desea verificar si lo que dice la persona no es cierto con un
nivel de significación del 5%. Además suponga que de una muestra aleatoria de 50 residentes de ese
distrito solamente el 44% indicaron su intención de patrocinar el restaurante propuesto.
b) Suponga que la muestra ha sido de 200 en lugar de 50, y que la proporción muestral fuera aún
de 0.44, ¿ Sería diferente su conclusion ?
16. Un fabricante de salsa de tomate está a punto de decidir si producir una marca nueva de mucho
condimento. El departamento de investigación de la fabrica aplicó una encuesta telefónica a nivel
nacional a 6,000 familias y averiguó que la salsa sería comprada por 335 de ellas. Un estudio mucho
más exhaustivo hecho dos años antes reveló que el 5% de las familias comprarían la marca. En un
nivel de significación de 1% ¿ Debería la compañía concluir que hay un mayor interés en el sabor
tan condimentado?
17. La experiencia de un comerciante en aparatos y accesorios mostró que el 10% de clientes que
compran a plazos liquidan sus cuentas antes del vencimiento de la última mensualidad. Al sospechar
un incremento en este porcentaje, el comerciante muestreó 200 compradores a crédito para saber sus
intenciones, 33 de ellos afirmaron tener planeado pagar sus deudas antes de la última mensualidad.
¿Son los datos suficientes para indicar que el porcentaje de compradores a plazos que pagarán sus
deudas antes de la última mensualidad excede de 10% ?. Haga la prueba con un nivel de
significacion de 0.02.
18. El departamento de personal de una empresa quiere estimar los gastos médicos promedios por
familia de sus empleados, a fin de determinar un plan de seguro médico. Una muestra aleatoria de
10 empleados mostró los gastos médicos familiares siguientes en un año:
Suponiendo que los gastos médicos por familia siguen una distribución normal
A un nivel de significación de 0.10. ¿ Podría concluir el gerente de personal que los gastos médicos
promedios por familia de todos los empleados es distinto a $200.
19. El departamento de servicio a cliente de una empresa local de servicios públicos telefónicos
quiere estimar el tiempo promedio entre la llegada de la solicitud de servicio y la conexión del
mismo. De los registros disponibles del año anterior se seleccionó una muestra aleatoria de 15 casos.
Los resultados en días fueron los siguientes:
20. Un fabricante de televisores anuncia que el 90% de sus aparatos no necesitan ninguna
reparación durante los dos primeros años de uso. La oficina de protección al consumidor selecciona
una muestra de 100 aparatos y encuentra que 14 necesitan alguna reparación durante los dos
primeros años de uso. A un nivel de significación de 0.05. ¿a qué conclusión puede llegar la oficina
de protección al consumidor?
21. El editor de una revista encontró basándose en su experiencia que el 60% de sus suscriptores
renuevan sus suscripciones. Como la compañía se encaminaba a una recesión en sus negocios,
decidió seleccionar una muestra de clientes para determinar si planeaban renovar sus suscripciones.
108 personas de una muestra de 200 indicadores que si pensaban renovarlas. ¿Proporcionan los
datos suficiente evidencia para detectar una reducción en la proporción de los suscriptores que si
renovarán? Realice la prueba usando un nivel de significación del 5%.
22. Aproximadamente uno de cada diez consumidores de una región determinada prefieren el
refresco de cola marca A. Después de una campaña de promoción en esa región, se seleccionó
aleatoriamente 200 consumidores de ese producto resultando que 26 expresaron su preferencia por
el refresco de cola marca A. ¿ Hubo aumento en la preferencia del refresco de cola marca A en la
región a un nivel de significación del 10% ?
23. Un fabricante de azúcar que la empaca en bolsas de plástico dice que cuando el proceso está
bajo control cada bolsa debe contener 10 onzas como promedio. Periódicamente se toma una
muestra de 9 bolsas para comprobar el proceso. Se acaba de tomar una muestra aleatoria de 9 bolsas
y se encontró que el peso promedio es de 10.3 onzas con una desviación estándar de 0.45 onzas.
Suponiendo que los pesos de las bolsas de azúcar siguen una distribución normal, ¿ podrá decirse
que el proceso está fuera de control a un nivel de significación del 2%?
3.1. INTRODUCCION
110
El propósito fundamental del análisis de regresión es estimar la relación que puede existir entre dos
o más variables, con el fin de que la media de una variable pueda ser estimada o predicha a partir de
valores conocidos o fijados de la otra u otras.
1. Un economista puede esta interesado en estudiar la relación entre las siguientes variables.
En este tema sólo estudiaremos la relación entre 2 variables, motivo por el cual al análisis de
regresión se le llama simple.
Yi 4300
Yi 3500
Fig. 3.1
A la línea que pasa por las medias de Y la llamaremos línea de regresión poblacional
Por ejemplo, supongamos que las características de interés en las familias de una comunidad están
dadas por las siguientes variables:
X representa el ingreso mensual y Y representa el consumo mensual.
Si xi representa el i-ésimo valor que toma X y Yi la i-ésima observación de Y, entonces podemos
decir que para un nivel de ingreso xi = C$ 4000 hay una subpoblación en la cual podemos suponer
que Yi tiene una distribución normal con un consumo promedio dado por μ Yi | x i C$3800
Supongamos que para el nivel xi = C$ 4000 se selecciona al azar una familia y se registra la
observación Yi = C$ 4300
Supongamos ahora que para el nivel x i = C$ 4000 se selecciona al azar una familia y se registra la
observación Yi = C$ 3500
En la figura 3.1 pueden apreciarse estas observaciones y toda la población de observaciones con la
línea de regresión poblacional pasando sobre las medias de Yi.
Fig. 3.2
o + 1 xi
ii) Un término aleatorio o error aleatorio, no explicado por X, que denotaremos por
i
y que se verá como una variable aleatoria sustituta de todas las demás variables omitidas en el
modelo y que pueden estar relacionadas con Y.
Esta componente i es la que le imparte aleatoriedad a Yi
Este supuesto implica que también Yi es una variable aleatoria con distribución normal.
Esto quiere decir que cada observación particular yi se considerará que proviene de una distribución
normal de Yi.
113
Este supuesto plantea que para dos observaciones diferentes i y j los errores i y j , además de estar
distribuidos normalmente, no están correlacionados. La anterior implica que i y j son
independientes.
Como consecuencia de este supuesto podemos decir que también las observaciones Yi y Yj son
independientes, esto es, que cada observación es independiente de cualquier otra observación que se
haya dado.
μ i | x i 0 μ Yi | x i β 0 β1x i
Por ejemplo, suponiendo que las familias de la comunidad con un nivel de ingreso de x i = C$4000
tienen siempre un consumo promedio dado por μ Yi | x i C$3800 entonces los errores aleatorios para
los consumos de las familias seleccionadas al azar anteriormente estarían determinadas así:
i = Yi - μ Y
i | xi = 4300 – 3800 = C$500 y i = Yi - μ Y | x = 3500 – 3800 = C$ -300
i i
Este supuesto plantea que aquellas variables que no están incluidas en el modelo, incorporadas, por
tanto, en i , no afectan sistemáticamente la media de Yi.
En otras palabras, los valores positivos de i se cancelan con los valores negativos de tal manera que
su efecto sobre la media de Yi es cero.
En las figuras 3.1 y 3.2 puede apreciarse una población de observaciones y una línea de regresión
poblacional neutralizando los errores aleatorios i , esto es, pasando sobre las medias de Yi
Observe que las medias de Y están relacionados linealmente con los valores conocidos de X.
Al gráfico de esta función le llamaremos línea de regresión poblacional.
Fig.3.3
σ2i | x i σ 2 σ 2Yi | x i σ 2
2 2
La expresión σ i | x i se leerá, la varianza de i cuando que X toma el valor xi y la expresión σ Yi | x i
se leerá la varianza de Yi cuando que X toma el valor xi
115
2
En este supuesto observe que σ 2 no tiene el subíndice i, lo cual significa que σ i para cada xi es
2
una constante igual a σ 2 , lo cual implica que σ Yi para cada xi es también una constante igual a σ 2 .
En otras palabras las distribución de probabilidad de Yi tienen siempre la misma varianza
independientemente del valor que tome X.
En las figuras 3.4 y 3.5 pueden apreciarse dos líneas punteadas trazadas a una distancia de la línea
de regresión poblacional y paralelas a esa misma línea de regresión, que nos señala que
posiblemente la mayor parte de las observaciones quedan dentro de esos límites.
La magnitud de me indicará qué tanto se alejan o se acercan las observaciones Yi de las medias de
Yi que están sobre la línea de regresión poblacional.
Al comparar la figura 3.4 con la figura 3.5 pueden apreciarse distintos valores para . En qué figura
las observaciones están más alejadas de su línea de regresión?
Fig 3.4
Fig. 3.5
Finalmente todos los supuestos anteriores pueden resumirse diciendo que los x i son valores
constantes y que los Yi son variables aleatorias independientes distribuidas normalmente con
μ Yi | x i β 0 β1 x i y σ 2Yi | x i σ 2
xi Yi
x1 Y1
x2 Y2
. .
. .
. .
xn Yn
Cuando los pares ordenados (xi , Yi) de la muestra tomen sus propios valores los ubicaremos sobre
un plano cartesiano para obtener una nube de puntos que llamaremos diagrama de dispersión.
0 X
Fig. 3.6
La impresión visual de este diagrama nos va a sugerir si existe posiblemente una relación lineal
entre X , Y
117
bo será el estimador de o
b1 será el estimador de 1
Teniendo los estimadores b0 y b1 resulta natural definir la función de regresión muestral así
ˆ b 0 b1 X
Y
Ŷ es un estimador puntual insesgado de μ Y | X , razón por la cual se identificará como una media
estimada de Y para el nivel X.
ˆ i b 0 b1x i
Y
b1 es la pendiente estimada. Representa una estimación del cambio en el valor medio de Y por
cambio unitario de X.
ei = Yi - Ŷi
Cuando conocemos el intercepto y la pendiente de una línea decimos que dicha línea está claramente
especificada. La línea de regresión estimada quedará determinada cuando conozcamos las fórmulas
que definen a los estimadores bo y b1.
Un buen método para encontrar las fórmulas para bo y b1 es buscar una línea que mejor se ajuste a
la nube de puntos, esto es, que pase por ella minimizando la suma de los cuadrados de la resíduos,
según se muestra en la figura siguiente.
Yi
ei
b1
Ŷi
b0
b 0 b1 x i
0 xi X
Fig. 3.7
n
Hagamos que Q e.
2
i
n n
Q Yi - Ŷi
i 0 1 i en donde n es el tamaño de la muestra.
2 2
entonces Y - b - b x
. .
Q = f ( bo , b1 )
119
Q n
bo
2 Yi - b o - b1
.
x i ( -1 )
Q n
b1
2 Yi - bo - b1 x i ( - x i )
.
n n
1. Yi n bo b1 x i
. .
n n n
2. .
x i Yi b o x i b1 x i 2
. .
n n
n x Y i i
x i Yi - . .
n n
b1 . n
2 y Yi - b1 x i
n
b0 . .
n
x i n
x -
2
i
.
. n
cuyo gráfico, según este método, podrá llamarse línea de ajuste o línea de los mínimos cuadrados.
e i 0
n n
x Y
n n
120
EJEMPLO 3.1.
La gerente de una compañía desea estimar la relación entre los costos de materiales usados en un
proceso químico (Y) y las horas de operación (X). Con esta información ella espera ser capaz de
preparar un presupuesto más preciso y tener un mejor control sobre los costos.
Datos sobre los costos en centenas de dólares para varias horas de operación del proceso son
presentados abajo.
Horas Costos
50 6.5
20 4.0
30 4.5
50 6.0
40 5.5
30 5.0
30 5.5
10 3.5
40 6.0
20 4.5
Y 7
Línea de ajuste
6
0
0 10 20 30 40 50 X 60
Fig. 3.8
121
ii) Encuentre la función de regresión lineal muestral e interprete los coeficientes de regresión
estimados.
xi Yi xi2 xi Yi Y i2
50 6.5 2500 325 42.25
20 4.0 400 80 16.00
30 4.5 900 135 20.25
50 6.0 2500 300 36.00
40 5.5 1600 220 30.25
30 5.0 900 150 25.00
30 5.5 900 165 30.25
10 3.5 100 35 12.25
40 6.0 1600 240 36.00
20 4.5 400 90 20.25
320 51.0 11800 1740 268.50
n n
n xi Y i
x i Yi - . .
n
320 ( 51 )
1740 -
b1 . 10
2 = =
n
( 320) 2
n
x i 11800 -
10
x -
2
i
.
. n
1740 - 1632 108
0.0692
11800 - 10240 1560
n n
Yi - b1 x i
=
51 - 0.0692 ( 320 )
=
51 - 22.1440
28.8560
b0 . .
10 10 10
n
2.8856
Ŷ = 2.8856 + 0.0692 X
b1 se interpreta así: Por cada hora adicional de operación el costo promedio de materiales usados en
el proceso aumenta en 0.0692 (en centenas de $)
iii) Estime el costo promedio de materiales utilizados cuando el proceso opere 15 horas.
Yi - Y = ( Yˆ i - Y ) ( Yi Yˆ i )
La desviación explicada por X es la desviación del valor ajustado Ŷi con respecto Y
La desviación no explicada por X es la desviación de Yi con respecto al valor ajustado Ŷi , esto
es, el i-ésimo resíduo ei.
Fig. 3.9
Para las n observaciones de Y la suma de los cuadrados de estas desviaciones puede demostrarse
que es
n n n
- Y Yˆ i - Y Y ˆi
2 2 2
Yi i - Y
SST Será llamada suma de cuadrados total y representa una medida de variación de las
observaciones Yi alrededor de Y . Esta medida tendrá asociada n – 1 grados de libertad. Un
n
grado de libertad es perdido debido a la restricción ( Yi - Y) 0 que tienen sus
.
desviaciones.
SSE Será llamada suma de cuadrados debida al error y representa una medida de variación de
Y no explicada por X alrededor de la línea de regresión estimada.
Esta medida tendrá asociada n - 2 grados de libertad. Dos grados de libertad son perdidos
debido a la estimación de los dos parámetros o y 1.
SSR Será llamada suma de cuadrados debida a la regresión y representa una medida de
variación de Y, explicada por X, y asociada con la línea de regresión estimada.
Esta medida tendrá asociada 1 grado de libertad.
Las fórmulas computacionales para SST, SSR y SSE puede demostrarse que son las siguientes.
2
n
n
Yi
SST Yi
2
-
n
n n n
SSE Y i
2
- bo Y i - b 1 x i Yi
Fuente de variación SS GL MS
Regresión SSR 1 MSR = SSR/1
Error SSE n-2 MSE = SSE/n -2
SST n-1
Una suma de cuadrados dividida por sus correspondientes grados de libertad la llamaremos media
cuadrática y la denotaremos por MS.
Estaremos interesados en la media cuadrática de regresión denotada y definida así:
SSR
MSR = 1
= SSR
SSE
y la media cuadrática del error denotada y definida así: MSE = n - 2
3.4.2 EL ESTIMADOR DE
Recordemos que 2 representa la varianza de Y alrededor de la línea de regresión poblacional y que
representa la desviación estándar de Y para cualquier nivel de X.
Puede demostrarse que MSE es un estimador insesgado de 2.
SSE
y la desviación estándar estimada de Y por σ̂ Y MSE
n-2
n n n
Y i
2
- b o Yi - b 1 x i Yi
σ̂ Y
n-2
EJEMPLO 3.2
Utilizando los resultados del ejemplo 3.1
i) construya la tabla de análisis de varianza
125
i) Sabemos que
n n n n
x i 320 , Y i = 51 , Y i
2
= 268.5 , xY i i = 1740
y que Ŷ = 2.8856 + 0.0692 X
2
n
n
Y i
= 268.5 -
(51) 2
= 268.5 - 260.1 = 8.4
SST Y i
2
-
n
10
n n n
SSE Y i
2
- b o Yi - b 1 x i Yi = 268.5 - 2.8856 (51) - 0.0692 (1740)
Arreglando estas sumas de cuadrados con sus correspondientes grados de libertad llegamos a la
siguiente tabla ANOVA.
Fuente de variación SS GL MS
Regresión 7.4736 1 7.4736
Error 0.9264 8 0.1158
8.4000 9
ii) Observe que MSE = 0.1158 y que por lo tanto σ̂ Y = MSE 0.1158 0.3403
n n n
Y - b o Yi - b 1 x i Yi
2
i
σ̂ Y
n-2
0.9264
= = 0.1158 0.3403
8
COEFICIENTE DE DETERMINACION.
Podríamos considerar que SST es una medida de variación total de las observaciones Yi que refleja
la incertidumbre en estimar o predecir Y cuando ninguna variable independiente X es tomada en
126
cuenta. Cuando un modelo de regresión que utilice la variable independiente X es utilizado SST se
dividirá en dos componentes SSE y SST tales que el cociente
SSE
SST
representará una medida de la proporción de la variación de Y no explicada por X que aún queda y
el complemento
SSE SST SSE SSR
r2 1 donde 0 r 2 1
SST SST SST
una medida de la proporción de la variación total de Y explicada por X que llamaremos coeficiente
de determinación muestral. Esta medida podrá verse también como una reducción proporcional
de la variación total de Y (incertidumbre) cuando la variable independiente X es introducida.
La relación entre X,Y es perfecta en los datos muestrales. Aquí toda variación en las observaciones
Yi es explicada por X. Este caso es mostrado en la siguiente figura.
Y
Ŷ b0 b1X
Yi
Fig. 3.10
2. r2 = 0 SSR = 0 (Ŷi - Y) 2
0 Ŷi Y b1 = 0
No hay relación entre X , Y en los datos muestrales. Aquí la variación en las observaciones Yi no
son explicadas por X. X no ayuda a reducir la variación en las observaciones Yi
Este caso es mostrado en la siguiente figura.
127
Y
Ŷ Y
Fig. 3.11
EJEMPLO 3.3.
Para el ejemplo 3.1 determine el coeficiente de determinación e interprételo.
2 7.4736
r 0.8897
8.4000
El 88.97% de la variación en el costo de materiales se puede explicar por las horas de operación del
proceso.
La variación total en el costo de materiales es reducida en un 88.97% cuando las horas de operación
es considerada.
COEFICIENTE DE CORRELACION.
La raíz cuadrada de r2.
Interpretación de r
No tiene una interpretación tan clara como la de r2 , sin embargo podemos decir que a medida que
| r | se acerque a 1 mayor será el grado de relación entre X, Y, lo cual permitirá hacer inferencias
más precisas sobre Y a partir de X.
EJEMPLO 3.4
Para el ejemplo 3.1 determine el coeficiente de correlación.
128
r 0.8897 0.9432
La cercanía de r con 1 implica que posiblemente hay alto grado de relación entre X, Y
x
.
2
i - .
n
ERROR ESTANDAR ESTIMADO DE b1
σ̂ Y
σ̂ b1
n
n
xi
2
donde σ̂ Y es el estimador de
.
2
xi - .
Podemos ver la verificación del valor que toma la pendiente 1 como la acción y la diferencia de 1
con respecto a cero como el efecto.
donde H 0 : β 1 0 esta suponiendo que no hay diferencia de 1 con respecto a cero, mientras que la
hipótesis alterna H 1 : β 1 0 supone que hay diferencia de 1 con respecto a cero.
Observe que la prueba es bilateral porque nos interesan tanto las diferencias de 1 hacia la izquierda
de cero como hacia la derecha de cero.
Como las hipótesis son suposiciones acerca de 1 el estadístico de prueba será su estimador b1 pero
estandarizado, esto es,
b1 - 0
σ̂ b
1
b1
puede demostrarse que σ̂ b
sigue una distribución t de Student con n – 2 grados de libertad.
1
b1 Pendiente estimada σ̂ Y
t donde σ̂ b
σ̂ b El error estándar de b1 1 2
n
xi
1
-
n .
2
xi
. n
α α
2 2
- t / 2 t
t /2
0
R NR R
Figura 3.12
Si t cae en la región de no rechazo entonces diremos que no hay suficiente evidencia para rechazar
H 0 : β 1 0 , esto es, aceptamos H 0 : β 1 0 . Luego no hay relación lineal entre X , Y.
EJEMPLO 3.5.
Para el ejemplo 3.1 pruebe si hay una relación lineal significativa entre el número de horas de
operación del proceso y el costo de los materiales a un nivel de significación del 5%.
donde H 0 : β 1 0 esta suponiendo que no hay diferencia de 1 con respecto a cero mientras que
la hipótesis alterna H 1 : β 1 0 supone que hay diferencia de 1 con respecto a cero.
Observe que la prueba es bilateral porque nos interesan tanto las diferencias de 1 hacia la izquierda
de cero como hacia la derecha de cero.
Controlaremos el error I suponiendo que P (error I ) 0.05. Luego hemos elegido un nivel de
significación = 0.05.
-
n .
x i2
. n
y la regla de decisión:
α α
0.025 0.025
2 2
t
- 2.306 0 2.306
R NR R
132
Figura 3.13
Por tanto
σ̂ Y 0.3403
σ̂ b1
320 2
2
n x
n . i
11800 -
2
xi - 10
. n
0.3403 0.3403 0.3403
0.0086
11800 - 10240 1560 39.4968
1 b 0.0692
Luego t σ̂
0.0086
8.0465
b1
1 xh -x
2
σ Ŷ σ Y 2
μ Ŷh μ Yh y
h
n n x
n
2 . i
xi -
. n
El error estándar estimado del valor ajustado Ŷh se denota y obtiene así:
1 xh - x 2
σ̂ Ŷ σ̂ Y 2
h
n n x donde σ̂ Y es el estimador de σ
n
2 . i
xi -
. n
Ŷh - μ Yh
Como sigue una distribución t de Student con n – 2 grados de libertad
σ̂ Ŷ h
puede demostrarse que un estimador por intervalo de confianza del ( 1 - ) 100% para μ Yh esta
dado por
Ŷh t /2 σ̂ Ŷ h
Fig. 3.14
σ̂
La mayor precisión de la estimación se obtiene cuando x h x porque Ŷh toma su valor mínimo.
EJEMPLO 3.6
Para el ejemplo 3.1 construya un intervalo de confianza del 99% para el costo promedio de
materiales utilizados cuando el proceso opere 40 horas.
134
1 xh - x 2
σ̂ Ŷ σ̂ Y 2
h
n n x
n
2 . i
xi -
. n
2
1 (40 - 32) 1 64
( 0.3403 ) 2
( 0.3403 ) ( 0.3403 ) 0.1410
10 (320) 10 1560
11800 -
10
0.3403 (0.3755) 0.1278
α
Para α 0.01 0.005 y n – 2 = 10 - 2 = 8 g.l. tenemos que t /2 3.355
2
Esto es,
135
2
2 2 2 2 1 (x h x) 2 2 1 1 (x h
σ̂ σ̂ σ̂ σ̂ σ̂ σ̂
Yh Ŷh Y Y n 2 Y Y n
n
xi
n
2 .
n
2
xi xi
. n .
Puede demostrarse que un estimador por intervalo de predicción del (1 - )100% para una valor
individual Yh está dado por
1 xh - x 2
σ̂ Y σ̂ Y 1 2
h n n x
n 2 . i
xi -
. n
Hay una diferencia conceptual entre un estimador por intervalo de predicción y un estimador por
intervalo de confianza. Un estimador por intervalo de confianza representa una inferencia sobre un
parámetro. Un estimador por intervalo de predicción es una proposición acerca del valor que puede
tomar una variable aleatoria.
EJEMPLO 3.7
Para el ejemplo 3.1 determine un intervalo de predicción del 99% del costo de materiales que serán
utilizados en un proceso particular que operará 40 horas.
Por tanto
136
ˆ Yh ˆ Y 1
1
xh - x 2
n n -
n
xi
2
x
.
2
i
.
n
5.6536 1.2199
Observe que el intervalo de predicción del 99% para un valor individual Yh aquí obtenido es más
ancho que el intervalo de confianza del 99% para μ Y obtenido en el ejemplo 3.6, la razón es que
cuando predecimos un valor individual tomamos en cuenta tanto la variabilidad en Ŷh como la
variación dentro de la distribución de probabilidad de Y.
Cantidad Utilidad
Año Invertida anual
1997 2 20
1998 3 25
1999 4 30
2000 5 34
137
2001 11 40
2002 5 31
a) Dibuje un diagrama de dispersión y comente las impresiones visuales que le ofrece la figura.
b) Obtenga la función de regresión muestral de Y sobre X e interprete la pendiente.
c) Prediga la utilidad anual para 2003 suponiendo una inversión de 8 millones de C$ en
investigación y desarrollo.
d) Trace sobre el diagrama del inciso a) la línea de ajuste.
2. El ministerio de Agricultura hizo un estudio para determinar la relación que existe entre la
producción de café (Y) y la cantidad de fertilizante utilizado (X) en una región determinada. Se
tomó una muestra aleatoria de 6 haciendas y se recopiló la siguiente información:
3. La demanda de un artículo en toneladas (Y) para diferentes precios en córdobas (X) se presenta
en la tabla de abajo.
X Y
20.5 4.5
21.0 4.0
21.0 4.7
21.5 3.5
21.5 3.0
21.5 4.0
22.0 3.5
22.0 2.5
22.5 2.0
138
23.0 1.8
a) Construya un diagrama de dispersión y comente las impresiones visuales que le ofrece la figura.
b) Determine la función de regresión muestral de Y sobre X e interprete la pendiente estimada.
c) Obtener la demanda esperada si el precio del bien fuese de C$ 22.40
d) Trace sobre el diagrama de dispersión del inciso a) la línea de los mínimos cuadrados.
4. Para probar en cierto tipo de fábricas el efecto de un filtro purificador que absorbe parte de la
emisión de gases residuales, se han medido los niveles de CO 2 (dióxido de carbono) emitidos por 7
fábricas donde éste se ha instalado.
Hemos supuesto que X representa el número de días después de la instalación y Y representa la
emisión de CO2 en mg/dl para presentar los siguientes resultados.
X Y
5 5.2
10 4.8
15 4.6
20 4.5
25 4.3
30 4.0
35 3.8
5. El Banco Central quiere estimar la relación entre la cantidad de dinero circulante (X) y el
ingreso nacional (Y).
Suponga que dispone de los siguientes datos históricos en millones de dólares.
Cantidad Ingreso
Año Circulante Nacional
1997 3.3 7.2
1998 4.0 7.3
1999 4.2 8.4
2000 4.6 9.0
2001 4.8 9.7
2002 5.0 10.0
139
6. El gerente de personal de una empresa intuye que quizás haya relación entre el ausentismo en
días (Y) y la edad en años (X) por lo que quiere tomar la edad de un trabajador para desarrollar un
modelo de predicción de días de ausencia durante un año laboral. Se selecionó una muestra aleatoria
de 10 trabajadores con los resultados que se presentan a continuación:
X Y
27 15
61 06
37 10
23 18
46 09
58 07
29 14
36 11
64 05
40 08
7. Supóngase que una cadena de supermercados financia un estudio sobre los gastos anuales en
comestibles de familias de 4 miembros. La investigación se limitó a familias con ingresos netos
(después de los impuestos) que van de C$20000 a C$60000. Se obtuvo la siguiente ecuación de
regresión lineal:
Ŷ = - 200 + 0.10X
En la cual Y representa los gastos anuales estimados en comestibles y X representa los ingresos
netos anuales
Supóngase que la ecuación proporciona un ajuste razonablemente bueno, y que se obtuvieron
los datos por medio de métodos de muestreo aleatorio,
a) Estime los gastos de una familia de 4 miembros, con un ingreso anual de C$25000.
140
8. Un asegurador de propiedades realizó un estudio para investigar el pago anual (Y) por concepto
de demandas por daños a propiedades (en miles de dólares) en la región norte de Nicaragua
como una función del número X de huracanes que azotan esa región durante el año. Un modelo
de regresión lineal, que se ajusta a los datos de un período de 10 años, produjo la siguiente
ecuación:
Ŷ = 22.4 + 15.8 X
con x i 15 , x 2
i = 27.45 , σ̂ Y2 = 41.2
a) ¿Proporcionan los datos evidencia suficiente para indicar que el número X de huracanes aportan
información para predecir la cantidad anual pagada por el asegurador por concepto de daños a
propiedades a un nivel de significación del 5%?
b) Encuentre un intervalo de confianza del 90% para el pago anual promedio si un huracán azota la
región en un año dado.
c) Obtenga un intervalo de predicción del 90% para el pago anual si dos huracanes azotan la
región en un año dado.
9. Un estudio de mercado trata de cuantificar el efecto que sobre la demanda de un artículo tiene
una campaña publicitaria en televisión. Para ello se miden las cantidades demandadas, en miles de
unidades, antes de la campaña (X) y la cantidades demandadas, en miles de unidades, después de la
campaña (Y). Después de 3 semanas de emisión del anuncio en 10 regiones se obtuvo la siguiente
relación lineal estimada entre X, Y.
Ŷ = 65.5812 + 0.3547X
10. Un investigador esta interesado en conocer la relación entre los años de experiencia en ventas
(X) y el volumen de ventas en millones de córdobas (Y) de los vendedores de cierta compañía.
141
x i Yi = 84.6 , Y i
2
= 130.98
Si con la información anterior se obtuvo la siguiente relación lineal estimada.
Ŷ = - 0.08 + 1.56 X
Fuente SS G.L MS
Regresión 24.336 1 24.3360
Error 0.844 3 0.2813
25.180 4
i) Interprete la pendiente.
ii) ¿Qué proporción de la variación total del volumen de ventas puede ser explicada por los años de
experiencia?
iii) Estime la varianza de Y alrededor de la línea de regresión.
iv) ¿Existe relación lineal significativa entre los años de experiencia y el volumen de ventas a un
nivel de significación del 2%?
v) Determine un intervalo de confianza del 99% para el volumen esperado de ventas de un
vendedor que tiene 3.5 años de experiencia.
11. Un economista desea establecer la relación entre las exportaciones FOB (X) y las
importaciones FOB (Y). De los Indicadores Económicos publicados por el Banco Central de
Nicaragua para los años 1994 – 2002 resume la siguiente información. (no incluye importaciones ni
exportaciones de Zona Franca).
n = 9 , x i = 3791.1 , Y i = 7705.2 , x Y =
i i 3548993.65
x i2 = 1846729.93 , Y i
2
= 7072151.74
a) Suponiendo una relación lineal, use el método de mínimos cuadrados para encontrar los
coeficientes de regresión bo y b1.
b) Interprete el significado del intercepto bo y la pendiente b1.
142
c) Prediga el valor de las importaciones cuando las exportaciones asciendan a 500 millones de
dólares.
d) Calcule el coeficiente de determinación y el coeficiente de correlación e interprete sus
significados.
e) A un nivel de significación de 0.01 ¿Hay alguna relación lineal significativa entre las
exportaciones y las importaciones para los años mencionados?.
12. Una cadena de tiendas de repostería ha tenido grandes fluctuaciones en sus ingresos durante
los últimos años. Abundantes ofertas y técnicas de publicidad se han utilizado durante este tiempo,
por lo cual es difícil determinar cuáles de esos factores tienen la influencia más profunda en las
ventas. El departamento de mercadotecnia ha estudiado varias relaciones y piensa que los gastos
mensuales destinados a carteles pueden ser significativos.
Se muestreó 7 meses con los siguientes resultados:
x i 167 , Y
i 203 , x Y
i i 5427 , x 2
i 4703 , Y
i
2
6527
Ŷ = 9.6185 + 0.8124X
13. Con los siguientes datos sobre el costo de construcción de residencias unifamiliares en miles
de dólares (Y) y el tamaño del lote en miles de pies cuadrados (X).
14. Una investigación del departamento de publicidad de una empresa en la que se buscaba la
relación entre las ventas en unidades (Y) y el número de comerciales televisados (X) dió los
siguientes resultados:
143
15. Un analista toma una muestra aleatoria de 10 embarques recientemente enviados por camión y
registra la distancia en kilómetros (X) y el tiempo de entrega en días (Y) para determinar si existe
relación entre ellos y obtiene los siguientes resultados:
Ŷ = 0.1181 + 0.0036X
16. El gerente de mercadotecnia de una cadena de supermercados quiere determinar el efecto del
espacio de las estanterías en pies (X) sobre la venta semanal de cosméticos en cientos de córdobas
(Y). Seleccionó una muestra aleatoria de 12 tiendas de igual tamaño obteniendo los resultados
siguientes:
Fuente SS G.L MS
Regresión 2.0535 1 2.0535
Error 1.0490 10 0.1049
3.1025 11
144
a) Interprete la pendiente.
b) Pruebe al nivel de significación de 0.05 si los resultados de la muestra permiten llegar a la
conclusión de que hay una relación lineal significativa entre el espacio en las estanterías y la venta
semanal de cosméticos.
c) Calcule los coeficientes de determinación y de correlación e interprételos.
d) Obtenga un intervalo de predicción del 90% de las ventas semanales de una tienda con 8.6 pies
de espacio en estantes destinados a cosméticos.
17. Los economistas a menudo quieren estimar las funciones consumo. Esto lo hacen obteniendo
la regresión del consumo Y sobre el ingreso X (en esta regresión, los economistas dan a la
pendiente el nombre de propension marginal al consumo). En una muestra de 15 familias, se
calculó una pendiente de 0.9 y un error estándar de la pendiente de regresión de 0.25.
A un nivel de significación = 0.05 ¿existe alguna relación lineal significativa entre el consumo y
el ingreso?
18. Con el propósito de determinar el efecto del precio del galón de diesel en el costo de la
canasta básica de 53 productos de la ciudad de Managua se extrajeron los datos que se presentan a
continuación:
Año 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
X 1.14 5.67 5.88 7.02 7.75 8.4 10.38 12.31 13.94 19.81
Y 517.27 718.01 730.02 887.00 970.61 1078.89 1225.59 1402.82 1552.64 1624.11
Múltiple R .95772
R Square .91723
Adjusted R Square .90689
Standard Error 114.32865
Analysis of Variance
Los resultados obtenidos que se relacionan con nuestro curso son los siguientes:
Ahora conteste:
a) Escriba la ecuación de la línea de mínimos cuadrados que nos permitirá predecir el costo
promedio de la canasta básica de la ciudad de Managua en términos del precio del diesel.
b) Interprete b1 .
c) Suponiendo que para el año 2003 que el precio del diesel será de C$ 21.50, estime el costo
promedio de la canasta básica para ese año en la ciudad de Managua
d) Interprete el coeficiente de determinación y el coeficiente de correlación.
e) ¿Existe relación lineal significativa entre el precio del diesel y el costo de la canasta básica a un
nivel de significación del 5%?.
OBJETIVOS.
4.1. INTRODUCCION
Toda institución (la familia, la escuela, la empresa, el gobierno) tiene que hacer planes para el futuro
si ha de sobrevivir y progresar.
146
La Escuela: Sus planes tienen que ver con su desarrollo futuro para ofrecer servicios educativos
adecuados a la siempre creciente población.
La empresa: Sus planes tienen que ver con la demanda de sus productos, la producción, la
financiación, el personal, las ventas, las inversiones, el mercadeo.
El gobierno: Sus planes tienen que ver con los ingresos y gastos futuros para influir de esta manera
en la actividad comercial agregada de modo que el progreso económico del país no se vea demorado
por la inflación o la deflación.
La técnica más importante para hacer inferencias sobre el futuro con base en lo ocurrido en el
pasado es el análisis de las series de tiempo que se puede definir así:
Un conjunto de observaciones de una variable que se refieren a diferentes períodos sucesivos de
tiempo usualmente de la misma magnitud (años, trimestres, meses, etc).
La creencia de que el comportamiento pasado de una serie puede continuarse en el futuro constituye
una base racional para la predicción estadística.
Los movimientos de las series de tiempo son causados por una variedad de factores, algunos
económicos, algunos naturales y otros institucionales. Más aún, algunos de los factores tienden a
afectar los movimientos a largo plazo de las series, mientras que otros tienden a producir
fluctuaciones a corto plazo.
Una serie la consideraremos constituida por los siguientes componentes que son las que explican los
cambios observados en un período de tiempo.
i) La tendencia.
ii) Las variaciones estacionales.
iii) Las variaciones cíclicas.
iv) Las variaciones irregulares.
Para obtener una impresión visual de los movimientos de una serie de tiempo, se contruye sobre un
plano cartesiano una gráfica en la cual la variable de interés Y estará en el eje vertical y los períodos
sucesivos de tiempo en el eje horizontal.
147
Ejemplo. Los siguientes datos representan producciones trimestrales de cierto artículo en miles de
unidades de un país hipotético durante 1999 - 2003.
Y 11
10 tendencia lineal
9
8
7
6
5 datos originales
4 variaciones
3 variaciones cíclicas
estacionales
2
1
0
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Figura 4.1
LA TENDENCIA
Es el movimiento suave y regular de una serie que refleja un crecimiento o una declinación en
un período de tiempo muy prolongado (al menos de 15 años) (debe incluir 2 ó más ciclos).
Observe que los movimientos de la serie de tiempo de la figura 4.1 tienden en promedio a
desplazarse continuamente hacia arriba a través del tiempo. Se representa mediante una recta a
través de la curva irregular.
Si estudiamos la serie de la figura 4.1 de año en año vemos que en el primer trimestre comienza
siendo baja, luego crece, después alcanza la mayor altura alrededor del tercer trimestre de cada año y
finalmente desciende nuevamente.
Las variaciones estacionales pueden definirse como los movimientos periódicos que vuelven
con cierta regularidad dentro de un período especificado (un año)
Factores que influyen en estas variaciones: las estaciones del año, condiciones climáticas,
costumbres sociales, festividades religiosas.
En condiciones climáticas y estaciones del año tenemos: la producción agrícola, los trabajos de
construcción, la explotación de bosques y aserraderos, el consumo energía eléctrica, etc.
148
Observando la curva en forma de zig-zag sobre la serie irregular original encontramos fluctuaciones
pronunciadas que se desplazan hacia arriba y hacia abajo.
Las variaciones cíclicas pueden definirse como los movimientos recurrentes ascendentes y
descendentes con respecto a la tendencia que tienen por lo general una duración de 2 ó más
años.
Cada ciclo puede diferir de todo el resto en duración, amplitud y causas. Ello explica la existencia
de tantas teorías de los ciclos como casi números de ciclos registrados.
Prosperidad Recesión
Pico
Pico
bache bache
Figura 4.2
Las pequeñas irregularidades en forma de dientes de serrucho en la serie original es lo que se llama
variaciones irregulares.
Las variaciones irregulares pueden definirse como movimientos que son por lo general de
corta duración y que son causados por fuerzas aleatorias o por fuerzas esporádicas tales como:
huelgas, terremotos, inundaciones, cortes de energía, guerras, sequías y otras calamidades
naturales.
Observaciones: A veces las series contiene todas las componentes anteriores, otras veces contienen
solamente algunas de ellos. A veces hay tanto predominio de una componente que se le puede
reconocer a partir de los datos originales como:
149
La producción de fibras sintéticas y la producción de alimentos congelados que tienen una fuerte
tendencia ascendente.
Los bienes duraderos que sufren grandes cambios cíclicos.
Las ventas de tiendas que son predominantemente estacionales.
La componente que se estudia con más frecuencia en estas series de tiempo es la tendencia.
Estudiaremos la tendencia como una ayuda para hacer pronósticos a mediano y largo plazo.
Consiste en obtener la ecuación de una línea recta que me indique el comportamiento de la variable
de interés a través de los años.
Utilizaremos los métodos que exponemos a continuación tomando la mitad de cada año (1 de Julio)
como punto de representación de los datos de ese año.
Para una serie de datos con un número par de años el método dice que hagamos lo siguiente:
Le asignamos al primer año de la serie el código 0, convirtiendo de esta manera el primer año de la
serie en el año origen.
Después, a cada año sucesivo se le asignan los códigos 1, 2, 3, 4, ..., de modo que el último año en la
serie, el n-ésimo año, tenga el código n-1.
ii) Aplicar las mismas fórmulas que utilizamos para estimar la función de regresión poblacional.
n n
n x Y i i
x Yi
i - . .
n
b1 .
2 Representa el cambio anual estimado del valor anual de Y.
n
n
x i
x -
2
i
.
. n
150
n n
Sustituir bo y b1 en la expresión:
Ŷ = bo + b1X
Origen: 1 de julio del año X = 0
X en años
EJEMPLO 1
Las ventas anuales de una empresa desde el año 1997 al 2002 se presentan a continuación en
decenas de miles de C$
Yi
AÑO xi Ventas xi Yi x i2
1997 0 78 0 0
1998 1 70 70 1
1999 2 65 130 4
2000 3 46 138 9
2001 4 46 184 16
2002 5 35 175 25
15 340 697 55
Y 90
80
70
60
50
40
30
20
10
0
1996 1997 1998 1999 2000 2001 2002 2003
0 1 2 3 4 5
X
Figura 4.3
(15) (340)
697 -
6 697 - 850 - 153
b1 - 8.7429
( 15) 2 55 - 37.5 17.5
55 -
6
La disminución anual estimada de las ventas anuales es 8.7429 en decenas de miles de C$.
La venta anual estimada para el año 97 es 78.5239 en decenas de miles de C$.
Para una serie de tiempo con un número impar de años el método dice que hagamos lo siguiente:
152
El esquema más eficiente de codificación que se puede seleccionar para facilitar los cálculos es
elegir el año central de la sucesión como origen y asignarle el código x = 0. Después, a todos los
años posteriores se les asignan códigos crecientes de enteros 1, 2, 3, 4, ... , mientras que a todos los
años anteriores se les asignan códigos decrecientes de enteros -1, -2, -3, -4, ... , de modo que
n
siempre ocurrirá que xi
.
0
ii) Aplicar las mismas fórmulas que utilizamos para estimar la función de regresión poblacional.
El esfuerzo de los cálculos se reduce haciendo xi
.
0 en dichas fórmulas, con lo cual quedan
así:
n
x i Yi
b1 .
n
Representa el cambio anual estimado del valor anual de Y
x
.
2
i
Ŷ = bo + b1 X
Origen: 1 de Julio del año X = 0
X en años
EJEMPLO 2
Las ventas anuales de una empresa desde el año 1999 al 2003 se presentan a continuación en
decenas de miles de C$
Yi
153
AÑO xi Ventas xi Yi x i2
1999 -2 32 -64 4
2000 -1 46 -46 1
2001 0 50 0 0
2002 1 66 66 1
2003 2 68 136 4
0 262 92 10
Y 80
70
60
50
40
30
20
10
0
1998 1999 2000 2001 2002 2003 2004
-2 -1 0 1 2
X
Figura 4.4
92
b1 9.2
10
El incremento anual estimado de las ventas anuales es 9.2 en dec miles C$
262
bo 52.4
5
La venta anual estimada para el año 2001 es 52.4 en dec miles C$
La ecuación de tendencia lineal es
Ŷ = 52.4 + 9.2 X
Origen: 1 – Jul - 2001
X en años
Las observaciones de una variable de interés Y de una serie de tiempo pueden corresponder a
períodos más pequeños que los de un año tales como: trimestres, meses, semanas, días, etc.
Analicemos ahora las series de tiempo con datos trimestrales.
b1
donde representa el cambio trimestral estimado del valor trimestral de Y
16
b 0 b1
y (0.5) representa el valor trimestral estimado de Y para X = 0 (el trimestre origen)
4 16
EJEMPLO 3
Los datos que aparecen a continuación son las importaciones trimestrales de materiales de
construcción en miles de dólares durante el período 2000 - 2002
Trimestre
155
AÑO 1 2 3 4
2000 90 104 113 100
2001 83 99 126 127
2002 125 170 165 144
Y 180
170
160
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
0
1 2 3 4 1 2 3 4 1 2 3 4
Figura 4.5
x i Yi
197
n
Y 1446
b1 .
98.5 en miles de $, i
482 en miles
n
2 b0 .
3
x
.
2
i n
de $
Ŷ = 482 + 98.5 X
Origen: 1 – Jul -2001
156
X en años
Para convertir la ecuación de tendencia anual anterior a una de tendencia trimestral cuyo origen sea
el 15 de Agosto de 2001 procedemos así.
482 98.5
Ŷ ( X 0.5 )
4 16
Ŷ = 120.5 + 6.1562 ( X + 0.5 ) = 120.5 + 3.0781 + 6.1562 X
Ŷ = 123.5781 + 6.1562 X
Origen: 15 – Ago - 2001
X en trimestres
La importación trimestral estimada para el tercer trimestre del año 2001 es 123.5781 en miles de
dólares.
Determinaremos los pares ordenados de dos puntos cualesquiera suficientemente alejados, digamos
los correspondientes al primer trimestre del año 2000 y al cuarto trimestre del año 2002.
Como X toma el valor 0 para el tercer trimestre del año 2001 (porque es el trimestre origen) , X
tomará el valor -6 para el primer trimestre del año 2000 y el valor 5 para el cuarto trimestre del año
2002.
Para X = -6, Ŷ = 123.5781 + 6.1562 (-6 ) = 123.5781 - 36.9372 = 86.6409
Para X = 5, Ŷ = 123.5781 + 6.1562 (5 ) = 123.5781 + 30.781 = 154.3591
En la figura 4.5 se han unido estos puntos con una recta
Las variaciónes estacionales de una serie de tiempo pueden detectarse haciendo que las
observaciones de la variable de interés Y correspondan a periodos de tiempo pequeños (días,
semanas, meses o trimestres).
157
Las medidas de las variaciones estacionales serán expresadas por números índices estacionales.
Este método esta basado en el modelo multiplicativo de una serie que expresa que cualquier valor
observado Yi es el producto de los valores de las cuatro componentes, es decir,
Yi = Ŷi · Si · Ci · Ii
donde Ŷi es la tendencia que expresaremos en las mismas unidades de los datos originales,
mientras que las componentes Si , Ci , Ii son los valores de las variaciones estacionales, cíclicas e
irregulares respectivamente que expresaremos como porcentajes cuyo valor medio es 100.
Los índices estacionales serán obtenidos eliminando Ŷi , Ci e Ii de las observaciones originales Yi
en base a cocientes según los siguientes pasos.
De la suma de los valores de los 4 trimestres del primer año obtenemos el total móvil de esos
trimestres, el cual se asociará al punto medio de dichos trimestres. El siguiente total móvil se
obtiene eliminando del total móvil anterior el valor del primer trimestre del primer año y agregando
el valor del primer trimestre del segundo año, el cual se asociará al punto medio de los 4 trimestres
que se conservan.
Continuamos de esta manera el proceso de desplazar el total móvil de 4 trimestres sobre la serie de
tiempo hasta incluir el último valor de ella.
Asociamos a cada trimestre (excepto los dos primeros y los dos últimos de la serie de tiempo) el
promedio de los dos promedios móviles que caen arriba y abajo, que llamaremos promedio móvil
centrado. Con este proceso de divisiones se han eliminado los componentes estacionales e
irregulares (Si Ii) quedando los componentes cíclicos y los de tendencia, esto es, la tendencia cíclica
(Ŷi C i )
4. Determinar qué porcentaje de cada promedio móvil centrado es igual a su valor trimestral
correspondiente.
Para determinar este porcentaje dividimos cada valor trimestral entre su correspondiente promedio
móvil centrado, luego multiplicamos el resultado por 100. Este paso nos permite aislar los
componentes estacional e irregular así
158
Yi Ŷi S i C i I i
(100) (100) S i I i (100)
Ŷi C i Ŷi C i
5. Arreglar los porcentajes de los promedios móviles centrados Si Ii(100) del paso anterior según el
número de trimestre de cada año luego calculamos el promedio de los primeros, segundos, terceros y
cuartos trimestres de los años de la serie.
Los valores Si Ii para los mismos trimestres se promedian para eliminar I i quedando aislado de esta
manera el índice estacional Si . Por tanto cada número de trimestre tendrá asociado un índice
estacional, esto es, habrán 4 índices estacionales.
La base de un índice estacional es 100, en consecuencia, los 4 índices deberán sumar 400.
Si la suma de los 4 índices estacionales calculados no es igual a 400, para corregir este error
multiplicamos cada uno de estos índices por una constante de ajuste que determinamos así.
Lográndose de esta manera que la suma de los 4 índices estacionales sea 400.
EJEMPLO 4
Para las importaciones trimestrales de materiales de construcción en miles de dólares del ejemplo 3.
i) Calcule los índices estacionales para los 4 trimestres por el método del cociente del promedio
móvil. Haga una representación gráfica de los índices estacionales.
159
2000 1 90 - - - -
2 104 - - - -
407 101.75
3 113 100.9 112.0
400 100.00
4 100 99.4 100.6
395 98.75
2001 1 83 100.4 82.7
408 102.00
2 99 105.4 93.9
435 108.75
3 126 114.0 110.5
477 119.25
4 127 128.1 99.1
548 137.0
2002 1 125 141.9 88.1
587 146.75
2 170 148.9 114.2
604 151.0
3 165 - - - -
4 144 - - - -
5. Los porcentajes del promedio móvil (SI) para los mismos trimestre se promedian para eliminar
I quedando solamente los índices estacionales pero sin ajustar
Trimestres
AÑO 1 2 3 4
2000 - - 112.0 100.6
2001 82.7 93.9 110.5 99.1
2002 88.1 114.2 - -
Indice estacional sin ajustar 85.4 104.0 111.2 99.8 Suma real = 400.40
Indice estacional ajustado (S) 85.3 103.9 111.1 99.7 Suma deseada = 400
S
120
100
80
60
40
20
0
1 2 3 4
Trimestres
Figura 4.6
ii) Interprete los índices estacionales ajustados que corresponden al primero y tercer trimestre.
Las importaciones trimestrales del primer trimestre han estado por lo general un 14.7% por debajo
de las importaciones trimestrales promedio del año cuyo centro corresponde a ese trimestre.
Las importaciones trimestrales del tercer trimestre han estado por lo general un 11.1% por encima de
las importaciones trimestrales promedio del año cuyo centro corresponde a ese trimestre.
iii) Prediga las importaciones para el primer trimestre de 2003 utilizando la tendencia y los índices
estacionales.
Para desestacionalizar los valores de una serie dividimos los valores reales de la serie entre el índice
estacional correspondiente y luego multiplicamos por 100, esto es,
Yi
(100) Debido a que
Si
Yi Ŷi S i C i I i
(100) (100) Ŷi C i I i (100)
Si Si
los datos desestacionalizados de una serie pueden verse como una tendencia cíclica irregular
expresada en las mismas unidades que los datos originales, pero que no representan ocurrencias
reales, más bien son valores que sólo tienen sentido para propósitos de comparación.
EJEMPLO 5.
Para las importaciones trimestrales de materiales de construcción en miles de dólares del ejemplo 3.
Trim Yi S Yi desestacionalizado
1 125 85.3 146.5
2 170 103.9 163.6
3 165 111.1 148.5
4 144 99.7 144.4
ii) Comente la comparación de las importaciones trimestrales de los trimestres primero y segundo
de 2002, con base en los valores trimestrales reales y los valores trimestrales desestacionalizados.
Al pasar del primero al segundo trimestre hay un aumento de las importaciones trimestrales de 45
mucho mayor que lo esperado estacionalmente 152.3 - 125 = 27.3, pues se considera que la
tendencia cíclica irregular de las importaciones trimestrales la levantó al pasar de 146.5 a 163.6
iii) Comente la comparación de las importaciones trimestrales de los trimestres segundo y tercero
de 2002, con base en los valores trimestrales reales y los valores trimestrales desestacionalizados
Al pasar del segundo al tercer trimestre las importaciones trimestrales disminuyen 5 contrario a lo
que estacionalmente se esperaba que era un aumento de 181.8 - 170 = 11.8 , se considera que la
tendencia cíclica irregular de las importaciones trimestrales la bajó al pasar de 163.6 a 148.5
1. Con qué componente de una serie de tiempo asociaría usted cada uno de los siguientes factores:
2. Supongamos que se dispone de datos sobre las ventas trimestrales de libros de texto en la librería
de la Universidad durante los últimos 10 años.
a) ¿Cree usted que estos datos acusarían una tendencia definida? Explicar por qué.
b) ¿Cree usted que estos datos trimestrales mostrarían un esquema estacional? ¿Si así fuera,
porqué?
c) ¿Qué factores podrían causar una variación cíclica en las ventas trimestrales?
d) ¿Qué factores tenderían a causar variaciones irregulares en los datos?
3. La producción en Nicaragua de cierto artículo en millones de unidades durante los años 1996-
2002 aparece en la siguiente tabla.
Año Producción
1996 10
1997 9
1998 8
1999 8
2000 5
2001 6
2002 3
4. Una compañía de productos alimenticios tiene los siguientes datos sobre el número de cajas de
cereal en miles que ha vendido en los últimos 6 años.
Año Producción
1997 21.0
163
1998 19.4
1999 22.6
2000 28.2
2001 30.4
2002 25.0
5. El total de ventas anuales de una compañía están dadas en millones de córdobas por la siguiente
tabla.
Año Ventas
1998 21
1999 24
2000 29
2001 29
2002 34
6. Dados los siguientes datos sobre producción de una compañía en millones de unidades.
Año Producción
1997 24
1998 17
1999 20
2000 18
2001 14
2002 15
Año Producción
1998 80
1999 82
164
2000 85
2001 84
2002 89
8. Dada la siguiente serie relativa a la existencia de ganado ovino y caprino en miles de cabezas en
una Empresa Agropecuaria..
Ŷ = 677.7 + 1.4 X
Origen: 1 - 7 - 2000
X en años
a) Interprete los elementos que intervienen en esta ecuación dentro del contexto del problema.
b) Pronostique la producción de azúcar para el 2° trimestre de 2003
10. La ecuación de tendencia para las producciones trimestrales de cierto artículo (en miles de
unidades) es:
Ŷ = 12.25 + 0.50 X
Origen:15 - 08 - 2001
X en trimestres
a) Interprete los elementos que intervienen en esta ecuación dentro del contexto del problema.
b) Prediga la producción para el 1er trimestre de 2003.
11. Los datos que aparecen a continuación son las ventas trimestrales en millones de una empresa
durante el período 2000-2002.
Trimestres
Año 1 2 3 4
2000 4.9 5.9 6.1 7.6
165
13. A continuación aparecen datos trimestrales de ventas ( en miles de córdobas ) para una pequeña
empresa de materiales de construcción en 3 años recientes.
Trimestres
Año 1 2 3 4
1 50 35 25 40
2 45 35 20 30
3 35 20 15 25
a) Construya un gráfico de las ventas trimestrales y observe si hay un patrón estacional constante.
b) Determinar la ecuación de tendencia lineal de las ventas trimestrales. Trace sobre el gráfico
anterior la recta de tendencia e interprete la pendiente estimada.
c) Calcule los índices estacionales para los cuatro trimestres. Haga una representación gráfica de
los índices estacionales e interprete el 3er. Índice estacional.
14. Una compañía constructora ha reunido datos trimestrales sobre número de casas que ha iniciado
durante los últimos cuatro años.
Trimestres
Año 1 2 3 4
1999 7 9 6 4
166
2000 8 10 7 4
2001 8 11 7 5
2002 9 12 8 6
15. La producción trimestral de madera de pino, en miles de pies cuadrados del aserradero
LUMBER, desde 1999 es:
Trimestres
Año 1 2 3 4
16. Un fabricante de cierto artículo comprueba que el índice estacional de ventas en el 1 er trimestre
es de 40%, en tanto que en el 2° trimestre es de 160%. ¿Cómo interpretaría usted estos resultados?
17. El índice estacional de ventas para la compañía ABC en el 1er trimestre fue de 40%. Si en el
primer trimestre de 2002 las ventas totalizaron 120 millones de córdobas ¿A qué son iguales las
ventas desestacionalizadas?
18. El personal empleado por una industria de productos químicos agrícolas aumentó de 10 mil en
el 2° trimestre a 15 mil en el 3 er trimestre. La información desestacionalizada índica una declinación
de 10 mil a 7.5 mil.
Fila 1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 10480 15011 01536 02011 81647 91646 69179 14194 62590 36207 20969 99570 91291 90700
2 22368 46573 25595 85393 30995 89198 27982 53402 93965 34095 52666 19174 39615 99505
167
3 24130 48360 22527 97265 76393 64809 15179 24830 49340 32081 30680 19655 63348 58629
4 42167 93093 06243 61680 07856 16376 39440 53537 71341 57004 00849 74917 97758 16379
5 37570 39975 81837 16656 06121 91782 60468 81305 49684 60672 14110 06927 01263 54613
6 77921 06907 11008 42751 27756 53498 18602 70659 90655 15053 21916 81825 44394 42880
7 99562 72905 56420 69994 98472 31016 71194 18738 44013 48840 63213 21069 10634 12952
8 96301 91977 05463 07972 18876 20922 94595 56869 69014 60045 18425 84903 42508 32307
9 89579 14342 63661 10281 17453 18103 57740 84378 25331 12566 58678 44947 05585 56941
10 85475 36857 53342 53988 53060 59533 38867 62300 08158 17983 16439 11458 18593 64952
11 28918 69578 88231 33276 70997 79936 56865 05859 90106 31595 01547 85590 91610 78188
12 63553 40961 48235 03427 49626 69445 18663 72695 52180 20847 12234 90511 33703 90322
13 09429 93969 52636 92737 88974 33488 36320 17617 30015 08272 84115 27156 30613 74952
14 10356 61129 87529 85689 48237 52267 67689 93394 01511 26358 85104 20285 29975 89868
15 07119 97336 71048 08178 77233 13916 47564 81056 97735 85977 29372 74461 28551 90707
16 51085 12765 51821 51259 77452 16308 60756 92144 49442 53900 70960 63990 75601 40719
17 02368 21382 52404 60268 89368 19885 55322 44819 01188 65255 64835 44919 05944 55157
18 01011 54092 33362 94904 31273 04146 18594 29852 71585 85030 51132 01915 92747 64951
19 52162 53916 46369 58586 23216 14513 83149 98736 23495 64350 94738 17752 35156 35749
20 07056 97628 33787 09998 42698 06691 76988 13602 51851 46104 88916 19509 25625 58104
21 48663 91245 85828 14346 09172 30168 90229 04734 59193 22178 30421 61666 99904 32812
22 54164 58492 22421 74103 47070 25306 76468 26384 58151 06646 21524 15227 96909 44592
23 32639 32363 05597 24200 13363 38005 94342 28728 35806 06912 17012 64161 18296 22851
24 29334 27001 87637 87308 58731 00256 45834 15398 46557 41135 10367 07684 36188 18510
25 02488 33062 28834 07351 19731 92420 60952 61280 50001 67658 32586 86679 50720 94953
26 81525 72295 04839 96423 24878 82651 66566 14778 76797 14780 13300 87074 79666 95725
27 29676 20591 68086 26432 46901 20849 89768 81536 86645 12659 92259 57102 80428 25280
28 00742 57392 39064 66432 84673 40027 32832 61362 98947 96067 64760 64584 96096 98253
29 05366 04213 25669 26422 44407 44048 37937 63904 45766 66134 75470 66520 34693 90449
30 91921 26418 64117 94305 26766 25940 39972 22209 71500 64568 91402 42416 07844 69618
31 00582 04711 87917 77341 42206 35126 74087 99547 81817 42607 43808 76655 62028 76630
32 00725 69884 62797 56170 86324 88072 76222 36086 84637 93161 76038 65855 77919 88006
33 69011 65795 95876 55293 18988 27354 26575 08625 40801 59920 29841 80150 12777 18501
34 25976 57948 29888 88604 67917 48708 18912 82271 65424 69774 33611 54262 85963 03547
35 09763 83473 73577 12908 30883 18317 28290 35797 05998 41688 34952 37888 38917 88050
36 91567 42595 27958 30134 04024 86385 29880 99730 55536 84855 29080 09250 79656 73211
37 17955 56349 90999 49127 20044 59931 06115 20542 18059 02008 73708 83517 36103 42791
38 46503 18584 18845 49618 02304 51038 20655 58727 28168 15475 56942 53389 20562 87338
39 92157 89634 94824 78171 84610 82834 09922 25417 44137 48413 25555 21246 35509 20468
40 14577 62765 35605 81263 39667 47358 56873 56307 61607 49518 89656 20103 77490 18062
41 98427 07523 33362 64270 01638 92477 66969 98420 04880 45585 46565 04102 46880 45709
42 34914 63976 88720 82765 34476 17032 87589 40836 32427 70002 70663 88863 77775 69348
43 70060 28277 39475 46476 23219 53416 94970 25832 69975 94884 19661 72828 00102 66794
44 53976 54914 06990 67245 68350 82948 11398 42878 80287 88267 47363 46634 06541 97809
45 76072 29515 40980 07391 58745 25774 22987 80059 39911 96189 41151 14222 60697 59583
46 90725 52210 93974 29992 65831 38857 50490 83765 55657 14361 31720 57375 56228 41546
47 64364 67412 33339 31926 14883 24413 59744 92351 97473 89286 35931 04110 23726 51900
48 08962 00358 31662 25388 61642 34072 81249 35648 56891 69352 48373 45578 78547 81788
49 95012 68379 93526 70765 10592 04542 76463 54328 02349 17247 28865 14777 62730 92277
50 15664 10493 20492 38391 91132 21999 59516 81652 27195 48223 46751 22923 32261 85653
51 16408 81899 04153 53381 79401 21438 83035 92350 36693 31238 59649 91754 72772 02338
-3. .0013
-2.9 .0019 .0018 .0017 .0017 .0016 .0016 .0015 .0015 .0014 .0014
-2.8 .0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019
-2.7 .0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026
-2.6 .0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036
-2.5 .0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048
-2.4 .0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064
-2.3 .0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084
-2.2 .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110
-2.1 .0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143
-2.0 .0227 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183
-1.9 .0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233
-1.8 .0359 .0351 .0344 .0336 .0329 .0322 .0314 .0307 .0300 .0294
-1.7 .0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367
-1.6 .0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455
-1.5 .0668 .0655 .0643 .0630 .0618 .0606 .0594 .0582 .0571 .0559
-1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0721 .0708 .0694 .0681
-1.3 .0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823
-1.2 .1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985
-1.1 .1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190 .1170
-1.0 .1587 .1562 .1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379
-.9 .1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611
-.8 .2119 .2090 .2061 .2033 .2005 .1977 .1949 .1921 .1894 .1867
-.7 .2420 .2389 .2358 .2326 .2297 .2266 .2236 .2206 .2177 .2148
-.6 .2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451
-.5 .3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776
-.4 .3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121
-.3 .3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483
-.2 .4407 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859
-.1 .4602 .4562 .4522 .4483 .4443 .4404 .4364 .4325 .4286 .4247
-.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641
.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8079 .8106 .8133
.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9700 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9773 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3. .9987
BIBLIOGRAFIA
Elementos de Muestreo
Richard L. Scheaffer
William Mendenhall
Lyman Ott
Grupo Editorial Iberoamérica, 1986