Inferencia Estadistica
Inferencia Estadistica
Inferencia Estadistica
Inferencia Estadística
Universidad de Cartagena
Facultad de Ciencias Exactas y Naturales
Programa de Matemáticas
Cartagena de Indias D.T. y C., Colombia
2011
Índice general
2. ESTIMACIÓN PUNTUAL 97
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
2.2. El problema de la estimación: Estimación puntual . . . . . . . . . . . . . . . . 100
2.3. Propiedades de los estimadores puntuales . . . . . . . . . . . . . . . . . . . . 104
2.3.1. Error cuadrático medio del estimador . . . . . . . . . . . . . . . . . . 104
Índice general 3
A. Muestreo 308
A.1. Definición de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
A.2. Tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
A.2.1. Muestreo aleatorio simple (MAS) . . . . . . . . . . . . . . . . . . . . 311
A.2.2. Muestreo aleatorio sistemático . . . . . . . . . . . . . . . . . . . . . . 313
A.2.3. Muestreo estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . 314
A.2.4. Muestreo por áreas o conglomerados . . . . . . . . . . . . . . . . . . 316
A.2.5. Muestreo polietápico . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
A.3. Muestreos no probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
A.3.1. Muestreo intencional u opinático . . . . . . . . . . . . . . . . . . . . . 317
Índice general 5
1.1. Introducción
Una vez asentadas las bases de teoría de probabilidad podemos intentar inferir de la pobla-
ción, es decir, extraer información sobre las distintas características de interés de una cierta
población de la que se ha observado un conjunto de datos. Así, puede ser de interés estimar los
parámetros de la distribución de probabilidad asociada a la población, construir intervalos de
confianza, predecir valores futuros o verificar si ciertas hipótesis son coherentes con los datos
observados. Por tanto, la inferencia comprende alguna de las fases del método estadístico. Estas
fases son: recogida y depuración de datos, estimación, contrastes de simplificación, diagnosis y
validación del modelo.
Cuando realizamos una introducción general de la estadística decimos que uno de los objeti-
vos fundamentales es el de obtener conclusiones basándonos en los datos que se han observado,
proceso que se conoce con el nombre de inferencia estadística, es decir, utilizando la informa-
ción que nos proporciona una muestra de la población se obtienen conclusiones o se infieren
valores sobre características poblacionales. En un sentido amplio, se entiende por Inferencia a
la parte de la estadística que estudia grandes colectivos a partir de una pequeña parte de éstos.
Así pues, la inferencia estadística es aquella rama de la estadística mediante la cual se trata
de sacar conclusiones de una población en estudio, a partir de la información que proporciona
una muestra representativa de la misma. También se denomina estadística inductiva o inferen-
cia inductiva ya que es un procedimiento para generar nuevo conocimiento científico.
Toda inferencia inductiva exacta es imposible ya que disponemos de información parcial, sin
embargo, es posible realizar inferencias inseguras y medir el grado de inseguridad si el expe-
rimento se ha realizado de acuerdo con determinados principios. Uno de los propósitos de la
inferencia estadística es el de conseguir técnicas para hacer inferencias inductivas y medir el
grado de incertidumbre de tales inferencias. La medida de la incertidumbre se realiza en térmi-
nos de probabilidad.
1.1 Introducción 7
Es frecuente que no se pueda observar toda la población por un sinfín de motivos (empe-
zando por el económico) de manera que normalmente trabajaremos con un subconjunto de la
población que se denominará la muestra. Técnicamente la inferencia consiste en, una vez estu-
diada la muestra, proyectar las conclusiones obtenidas al conjunto de la población. Por motivos
obvios, la calidad del estudio que se realice depende, por una parte, de la calidad de la muestra
y, por otra, del uso que de ella se haga. La primera de las cuestiones se resuelve a través de la
Teoría de Muestreo, mientras que en la segunda se utilizan las herramientas suministradas por
la Estadística Descriptiva y el Cálculo de Probabilidades.
Si es posible recoger datos referidos a una muestra con objetividad y confiabilidad, enton-
ces, podemos estudiar sus características y aprovechar dicha información igualmente confiable
para tomar decisiones a nivel poblacional en el campo científico, político, social, económico y
otros de carácter práctico. Ahora bien, una muestra objetiva y confiable debe ser aleatoria. Un
conjunto de observaciones constituye una muestra aleatoria de tamaño “n” seleccionada de una
población finita de tamaño “N ”, si es elegida en forma tal, que cada subconjunto o muestra de
“n” elementos de los “N ” elementos que contiene la población, tiene la misma probabilidad de
ser elegido.
Podemos estar interesados en conocer de hogares diferentes atributos tales como: edad de la
madre, ingresos familiares, número de hijos, estado civil de la madre, tenencia de la vivienda y
concepto que a la madre le merece un proyecto de ley que busca modificar algunas funciones de
las Cajas de Compensación Familiar. Los tres primeros atributos son de naturaleza cuantitativa,
pero los tres últimos son de naturaleza cualitativa y por ejemplo al último, podríamos asignarle
tres posibles respuestas tales como: “de acuerdo”, “en desacuerdo”, “no sabe o no responde”.
La totalidad de los hogares, que podríamos llamar población objetivo, es la misma para cada
uno de los atributos considerados, puesto que el papel fundamental de la variable aleatoria, es
precisamente indicarnos, cual es el atributo de interés tomado en cuenta al estudiar una pobla-
8 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
ción objetivo dada. Los atributos encontrados en la muestra son la base para la generalización
en la población objetivo.
A continuación se dan unas pinceladas que ayudan a comprender algunos de los aspectos
de la Teoría de Muestreo. Su análisis en profundidad escapa de los objetivos de estas notas, y
resulta fuera de lugar debido a su gran extensión y complejidad.
1. Ante todo, una muestra debe ser suficientemente representativa de la población de la cual
ha sido extraída, tratando de reflejar lo mejor posible las particularidades de ésta. Las par-
tes de la citada población que no estén debidamente representadas en la muestra llevan a
la aparición de sesgos o errores sistemáticos que viciarán el proceso de la inferencia des-
de el origen. Por ejemplo, una muestra para un estudio de estaturas no incluirá solamente
individuos bajos o altos, sino individuos de ambas clases en proporciones similares a las
de la población. Para alcanzar buenos niveles de representatividad existen distintos tipos
de muestreo que, de forma sucinta, se estudiarán en el apéndice (A).
2. La segunda de las condiciones que se pide a una muestra, es que a través de ella se al-
cancen unos objetivos de precisión fijados de antemano. Esta condición tiene que ver con
el hecho de que, al no hacerse un estudio exhaustivo, existen márgenes de error en el
cálculo de las características de la población, en la determinación de la estructura proba-
bilística de ésta, etc. Mayores niveles de precisión exigirán una mayor información sobre
la población, es decir, un mayor tamaño muestral.
En otros casos una población finita no es muy extensa, pero es recomendable utilizar una mues-
tra, puesto que los elementos incluidos en la misma deben ser destruidos al analizarlos. Ejemplo:
Con el fin de conocer la máxima temperatura promedio tolerada por los fusibles fabricados por
una compañía, éstos son sometidos gradualmente a una temperatura cada vez más alta hasta
que se destruyan los mismos. Un censo en tal caso resultaría antieconómico, porque implicaría
destruir la totalidad de los fusibles. Por lo tanto, estudiar una muestra es un procedimiento más
práctico.
Sobre cada uno de los individuos medimos una o varias características que denominamos
variables. Así a cada población le corresponde una variable aleatoria que denotaremos con
X. En la teoría de la estadística quedan identificadas población y variable aleatoria asociada.
Así, en toda la teoría de la inferencia población significará el conjunto de individuos a estudiar,
pero también la variable aleatoria asociada a la característica que medimos sobre los individuos.
1.1 Introducción 9
Las poblaciones en estadística pueden ser finitas o infinitas. Una población es finita cuando
consta de un número limitado de unidades, y es infinita cuando su tamaño es indefinidamen-
te grande. En definitiva, con frecuencia, las poblaciones en estadística suelen ser consideradas
infinitas. El gran tamaño que presentan algunas poblaciones es precisamente la principal razón
que hace recomendable reducir su estudio a muestras obtenidas de ellas.
Ejemplo 1.1.
1. Si consideramos el número de hermanos que tienen los estudiantes de un curso de una
institución determinada, estaríamos hablando de una población finita. Habría tantos va-
lores como estudiante haya en dicho curso.
2. Si obtenemos una serie de medidas del tiempo que tarda un alumno en resolver una
división de dos cifras, estas medidas se pueden considerar como parte de un conjunto
mucho mayor, de tamaño indefinidamente grande, constituido por todas las medidas que
obtendríamos si repitiésemos la experiencia una y otra vez.
Por otro lado, sabemos que una población se puede caracterizar por los valores de algunos
parámetros poblacionales, por ello es lógico que en muchos problemas estadísticos se centre
la atención sobre esos parámetros poblacionales. Por ejemplo, supongamos una población de
tubos fluorescentes, en donde la característica que estamos investigando es el tiempo de dura-
ción del tubo y nos interesa conocer la duración media, es decir, el parámetro poblacional µ. El
valor de este parámetro poblacional µ se podría calcular utilizando cada tubo fluorescente de la
población, anotando su tiempo de duración y calculando la media de los tiempos de duración
de todos los tubos de la población. Pero, evidentemente, no sería posible calcular el valor de
µ de esta forma, pues el proceso de observar el tiempo de duración de cada tubo de la pobla-
ción es destructivo, y no quedarían tubos fluorescentes para la venta. Un método alternativo
sería, seleccionar una muestra de tubos fluorescentes, observar el tiempo de duración de cada
10 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
uno y calcular su media, la cual sería la estimación o valor aproximado de µ. En este caso el
estadístico media muestral X, función de las observaciones muestrales, o variables aleatorias
de la muestra X1 , X2 , . . . , Xn , se utiliza para la estimación del parámetro poblacional µ. Como
veremos después, el estadístico media muestral es el mejor estadístico para estimar la media
poblacional µ.
Vemos pues que en muchos casos no será posible determinar el valor de un parámetro po-
blacional analizando todos los valores poblacionales, pues el proceso a seguir para determinar
el valor del parámetro puede ser destructivo, como en el ejemplo anterior, o nos puede costar
mucho tiempo o dinero el analizar cada unidad poblacional. En estas situaciones la única salida
que tenemos es utilizar, la inferencia estadística para obtener información sobre los valores de
los parámetros poblacionales, basándonos en la información contenida en una muestra aleatoria.
En la mayor parte de las investigaciones reales suponemos que las variables o transformacio-
nes de las mismas (logaritmos, etc, . . .) tienen distribuciones aproximadamente normales.
Por su parte, la inferencia paramétrica se puede estudiar desde dos enfoques diferentes:
Formalmente, dicha distinción implica dos categorías, la primera de ellas, como ya ha que-
dado de manifiesto, supone el encontrarse dentro de la Teoría de Muestro, mientras que la
segunda se conoce como Diseño de Experimentos.
La Teoría de Muestro, en primer lugar necesita establecer los protocolos que se deben respe-
tar para alcanzar los niveles de representatividad y precisión prefijados; a ésto se le llama diseño
muestral, que conduce a una muestra potencial. Una vez realizado dicho diseño, se procede a
la obtención de una o varias muestras mediante la observación, la medición o la encuestación.
12 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
Estas alternativas están directamente relacionadas con la naturaleza de los datos: atributos, va-
riables continuas, discretas o de clase, ordenadas o no.
El Diseño de Experimentos, por su parte, fue creado por Fisher en la década de 1920 y en sus
orígenes tuvo una clara aplicación al mundo agrícola, relacionando las condiciones en las que se
realizaban los cultivos, que constituyen los denominados factores, con la producción obtenida,
variable dependiente. El campo de aplicación se ha ido extendiendo con el paso de los años, te-
niendo en la actualidad una aplicación generalizada en la mayoría de los campos científicos. En
cualquier caso, en lo que sigue no se considera como objeto de análisis, con lo cual los estudios
que a continuación se llevan a cabo se restringen a la Teoría de Muestro.
Antes de continuar, es necesario aclarar algunas cuestiones de vital importancia para entender
el desarrollo teórico que aquí se presenta.
Cuando de cada individuo se estudia una única característica se habla de análisis univaria-
ble o univariante, cuando se estudian dos, bivariable o bivariante y cuando se consideran
más de dos, multivariable o multivariante. En lo que sigue, se considerará un análisis
univariable.
2. A veces no todos los elementos de una población están localizables. En el ejemplo ante-
rior puede ocurrir que haya personas nacidas en Colombia que vivan en otros países.
1.5 Estadísticos y distribuciones muestrales 13
3. En ocasiones la población tiene un gran número de elementos, pudiendo ser ésta poten-
cialmente infinita. Considérense, por ejemplo, poblaciones cuyos elementos se obtienen
a partir de la realización de un experimento aleatorio, como la tirada de un dado o la
contabilización del número de clientes que utilizan un cierto servicio en un tiempo fijo.
4. Existen situaciones en las que cuando se analiza un elemento éste queda inutilizable o
destruido. Si se quiere comprobar la calidad del vino de una cierta cosecha, un análisis
completo llevaría a la desaparición de la población. Bastaría tomar una medición en cada
tonel o conjunto de éstos.
5. Por motivos de precisión. Aunque parezca contradictorio, a veces un análisis total, implica
el que se cometan errores graves en la medición, codificación, resumen, etc., cuestiones
que pueden ser mucho mejor controladas utilizando un estudio a partir de una muestra.
Por otro lado, es mucho más fácil formar y controlar a un pequeño número de medidores
– observadores – encuestadores, que a un gran número de éstos.
Ahora bien, la inferencia se hace a partir de muestras que deben estar debidamente escogidas.
Por esta razón trataremos previamente a los métodos de la inferencia, las técnicas de muestreo,
es decir, las diversas formas de poder seleccionar una muestra que sea adecuada para realizar
las inferencias, controlando el posible error.
Para trabajar este tema se necesita el manejo de los números combinatorios como herramien-
ta de cálculo y el conocimiento y uso de la distribución normal y sus propiedades.
Las variables Xi , con i = 1, 2, . . . , n, son independientes. Por tanto, si FX1 ,X2 ,...,Xn es la
función de distribución conjunta de la muestra, entonces
n
Y n
Y
FX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = FXi (xi ) = F (xi ).
i=1 i=1
Definición 1.1. Sea X la variable aleatoria correspondiente a una población con función de
distribución F (x). Llamaremos muestra aleatoria simple de tamaño n de la variable aleatoria
X con distribución teórica F (x) a n variables aleatorias X1 , X2 , . . . , Xn independientes e
igualmente distribuidas con distribución común F (x), que es la distribución de la población.
Hemos utilizado letras minúsculas, como en estadística descriptiva, para denotar las observa-
ciones particulares de una muestra, y letras mayúsculas para denotar las variables aleatorias de
las que se han tomado. A lo largo de la exposición teórica ambas serán intercambiables y serán
utilizadas indistintamente para representar a las correspondientes variables aleatorias.
pi = P (X = xi ) i = 1, 2, . . . , n,
Si la muestra aleatoria simple procede de una población de tipo continuo con función de densi-
dad f (x), entonces la función de densidad de la muestra será:
n
Y
f (x1 , x2 , . . . , xn ) = f (xi ).
i=1
1.5 Estadísticos y distribuciones muestrales 15
Llamaremos espacio muestral al conjunto de muestras posibles que pueden obtenerse al se-
leccionar una muestra de un tamaño determinado de una cierta población.
Por ejemplo, si la característica a investigar sabemos que sigue una distribución exponencial
de parámetro λ su función de densidad será:
(
λe−λx , si x > 0
f (x) =
0, si x ≤ 0.
pero esta función de densidad no estará totalmente descrita hasta que no se dé el valor del pará-
metro λ, y entonces será cuando podremos formular preguntas concretas sobre esa distribución,
es decir, podremos calcular las diferentes probabilidades.
θ. El problema es determinar qué función será la “mejor” para estimar el parámetro θ, lo cual
será resuelto en el capítulo dedicado a la estimación.
estimador → θb = T (x1 , x2 , . . . , xn )
El estimador del parámetro poblacional θ es una función de las variables aleatorias u observa-
ciones muestrales y se representa por
θb = T (X1 , X2 , . . . , Xn ) .
θb = T (x1 , x2 , . . . , xn ) .
Ejemplo 1.2. Sea X una variable aleatoria que sigue una distribución normal de media des-
conocida, µ, y varianza σ2. La función T (X1 , X2 , . . . , Xn ) = X, es decir, la media muestral,
es un estadístico y estimador de la media µ de la población. Si se toma la muestra x1 = 2,5,
x2 = 2, x3 = 3,4, x4 = 1,5, x5 = 4, el valor numérico x = 2,68 es una estimación de µ.
La necesidad de definir los estadísticos se debe a que, aunque con la muestra se ha reducido
bastante la dimensión del problema, el excesivo tamaño de ésta obliga a comprimir aún más
la información para obtener respuestas a las preguntas que puedan hacerse y, de esa forma,
completar el proceso inferencial. El objetivo que se persigue al definir los estimadores es el de
resumir la información muestral, en aras, de obtener valores próximos a los verdaderos valores
de los parámetros desconocidos de la distribución de la población.
Vemos pues que existe diferencia entre estimador y estimación. Utilizaremos el término esti-
mador cuando nos referimos a la función de las variables aleatorias muestrales X1 , X2 , . . . , Xn ,
y los valores que toma la función estimador para las diferentes realizaciones o muestras concre-
tas serán las estimaciones. El estimador es un estadístico y, por tanto, una variable aleatoria y
el valor de esta variable aleatoria para una muestra concreta x1 , x2 , . . . , xn será la estimación
puntual.
Un estadístico es también una variable aleatoria ya que es una función de variables aleatorias.
Por ejemplo la media muestral
n
1X
X= Xi
n i=1
18 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
y a medida que vamos tomando muestras diferentes se obtienen distintos valores del estadísti-
co, resultando que efectivamente el estadístico T es también una variable aleatoria y por consi-
guiente tendrá su correspondiente distribución, a la que llamaremos distribución muestral del
estadístico, como veremos posteriormente.
Vemos pues que un parámetro y un estadístico son conceptos muy diferentes, pues el pará-
metro es una constante y cuando se conoce determina completamente el modelo probabilístico,
sin embargo el estadístico es una variable aleatoria cuyo valor dependerá de las observaciones
muestrales.
Ahora vamos a distinguir entre medidas numéricas calculadas con conjuntos de datos po-
blacionales y las calculadas con datos muestrales. Así pues, si la medida numérica se calcula
para el conjunto de datos poblacionales le llamaremos valor del parámetro poblacional y si
se calcula para el conjunto de datos muestrales, le llamaremos valor del estadístico muestral.
Supongamos que en una población de tamaño N hemos atribuido a cada elemento de la po-
blación un valor de acuerdo con determinada característica X que hemos medido. Podemos
seleccionar una muestra de tamaño n y calcular un estadístico, por ejemplo, la media, para los
n valores seleccionados. Si volvemos a extraer muestras aleatorias y repetimos la operación
sucesivamente, lograremos reunir un número elevado de medias.
Con las medias obtenidas, podemos construir una distribución de frecuencias para los valores
de las medias, X. Pues bien, a medida que aumenta el número de muestras extraídas de tama-
ño n, esa distribución se aproxima a una distribución teórica que denominaremos distribución
muestral del estadístico media.
Ejemplo 1.3. Para ilustrar este concepto, construiremos la distribución muestral del estadístico
media, X, cuando extraemos muestras aleatorias de tamaño 2 en una población constituida por
los valores {1, 2, 3}. La muestra estará formada por los valores de las dos variables aleatorias:
X1 (resultado de la primera selección) y X2 (resultado de la segunda elección). A su vez, la
media muestral X es también una variable aleatoria, puesto que se obtiene por combinación
lineal de las dos variables aleatorias X1 y X2 .
20 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
x1 1 1 2 2 2 1 2 3 3 1 1 2 3 3 2 1 1 3 3 1
x2 2 3 1 3 2 3 1 1 3 1 2 3 3 2 1 2 2 2 1 3
x 1.5 2 1.5 2.5 2 2 1.5 2 3 1 1.5 2.5 3 2.5 1.5 1.5 1.5 2.5 2 2
Tabla 1-1.:
La distribución de frecuencias para los valores de la media obtenidos quedaría tal y como
muestra la tabla (1-2).
x ni fi
1 1 1/20 = 0.05
1.5 7 7/20 = 0.35
2 6 6/20 = 0.30
2.5 4 4/20 = 0.20
3 2 2/20 = 0.10
Tabla 1-2.:
b) Procedimiento teórico. -Sin tener que extraer repetidas muestras para calcular la media
de los valores que las componen, podemos construir una distribución muestral teórica,
valiéndonos de conceptos probabilísticos. Así podemos determinar las 9 muestras alea-
torias posibles con reemplazamiento a partir de la población considerada y calcular las
respectivas medias.
x1 1 1 1 2 2 2 3 3 3
x2 1 2 3 1 2 3 1 2 3
x 1 1.5 2 1.5 2 2.5 2 2.5 3
Tabla 1-3.:
1.5 Estadísticos y distribuciones muestrales 21
Teniendo en cuenta las medias de las nueve muestras posibles, todas ellas equiprobables,
puedo construir la función de probabilidad para la variable aleatoria X.
x ni fi
1 1 1/9 = 0.11
1.5 2 2/9 = 0.22
2 3 3/9 = 0.33
2.5 2 2/9 = 0.22
3 1 1/9 = 0.11
Tabla 1-4.:
Supongamos que la población es P = {1, 2, 3, 5} y que representa el tiempo (en horas diarias)
que cada uno de un grupo de cuatro estudiantes de la universidad dedican al estudio.
Siguiendo la misma técnica utilizada en ejemplo anterior tenemos:
1 2 3 5
1 1 1.5 2 3
2 1.5 2 2.5 3.5
3 2 2.5 3 4
5 3 3.5 4 5
x ni
1 1
1.5 2
2 3
2.5 2
3 3
3.5 2
4 2
5 1
x ni
1 1
4/3 3
5/3 6
2 7
7/3 9
8/3 9
3 10
10/3 6
11/3 6
4 3
13/3 3
5 1
e) Igual podemos hacer la distribución muestral de medias de tamaño 4. En este caso hay
256 muestras diferentes.
x ni
1 1
5/4 4
6/4 10
7/4 16
2 23
9/4 28
10/4 34
11/4 32
3 31
13/4 24
14/5 22
15/4 12
4 10
17/4 4
18/4 4
5 1
T= 256
En resumen, se han construido las tres distribuciones muestrales de medias, asociadas con la
población P . Las características de la población P y de las tres distribuciones muestrales se
exponen a continuación.
Tabla 1-9.:
24 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
Diagrama de Barras
1.0
0.8
0.6
Frecuencias
0.4
0.2
0.0 1 2 3 5
Población
Diagrama de Barras
3.0
2.5
2.0
Frecuencias
1.5
1.0
0.5
0.0
Medias
Diagrama de Barras
10
8
6
Frecuencias
4
2
0
1 2 3 4 5
Medias
Diagrama de Barras
30
25
20
Frecuencias
15
10
5
0
1 1.5 2 2.5 3 3.5 4 4.5
Medias
También vemos que las medias de las cuatro distribuciones coinciden, y en cambio, las des-
viaciones estándares disminuyen a medida que aumenta el tamaño de las muestras.
En la mayor parte de los casos supondremos que nuestra población tiene distribución normal
y que los estadísticos que vamos a utilizar son la media y la desviación estándar (o la cuasi
desviación estándar).
Definición 1.3. En una población finita de tamaño N los parámetros poblacionales media,
varianza y proporción poblacional vienen dados por:
N
1 X
µ= Xi (1-1)
N i=1
26 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
N
2 1 X
σ = (Xi − µ)2 (1-2)
N i=1
X número de éxitos en N pruebas
p= = (1-3)
N número de pruebas
Definición 1.4. Para una muestra aleatoria simple de tamaño n, X1 , X2 , . . . , Xn , los estadísti-
cos media, varianza y proporción muestral se definen como:
n
1X
X= Xi (1-4)
n i=1
n
2 1 X
S = (Xi − X)2 (1-5)
n − 1 i=1
X número de éxitos en n pruebas
pX = = (1-6)
n número de pruebas
El estadístico varianza muestral, S 2 , se puede formular también mediante las siguientes ex-
presiones algebraicas:
n 2
P
n
! n Xi
2 1 X
2 2 1 X 2 i=1
S = Xi − nX = Xi − (1-7)
n − 1 i=1 n − 1 i=1 n
En efecto:
n
2 1 X
S = (Xi − X)2
n − 1 i=1
n
1 X 2 2
= Xi − 2Xi X + X
n − 1 i=1
n n n
!
1 X X X 2
= Xi2 − 2X Xi + X
n−1 i=1 i=1 i=1
n
!
1 X 2
= Xi2 − 2X(nX) + nX
n−1 i=1
n
!
1 X 2
= Xi2 − nX
n−1
i=1 2
n
P
n Xi
1 X 2 i=1
= X −
n − 1 i=1 i n
1.6 Función de distribución empírica 27
n
1 X
s2 = (xi − x)2 (1-9)
n − 1 i=1
x
pb = (1-10)
n
Luego, vemos que efectivamente el estadístico es una función de las observaciones muestrales,
y en estos casos asigna a cada muestra observada la media de los valores, la varianza o la
proporción, respectivamente.
F (x) = P (X ≤ x)
Definición 1.5. Consideremos una población con función de distribución F (x) y sean x1 , x2 , . . . , xn
los valores observados correspondientes a una muestra aleatoria simple procedente de esa po-
blación, y designamos por N (x) el número de valores observados que son menores o iguales
que x. Entonces definimos la función de distribución empírica de la muestra, que la notaremos
por Fn (x), como:
N (x)
Fn (x) = . (1-11)
n
Ejemplo 1.4. Dada una muestra aleatoria formada por las observaciones muestrales 3, 8, 5,
4, 5. Obtener la función de distribución empírica y su correspondiente representación gráfica.
La función de distribución empírica tiene las mismas propiedades que la función de dis-
tribución de la variable aleatoria, y, se puede demostrar, utilizando el teorema de Glivenko-
que Fn (x) converge en probabilidad
Cantelli, a F (x), es decir, para todo ε > 0, se verifica
lı́m P sup | Fn (x) − F (x) |≥ ε = 0. Lo cual, a efectos prácticos, implica que cuando
n→∞ −∞<x<∞
el tamaño de la muestra crece la gráfica de la función de distribución empírica se aproxima
bastante a la de la función de distribución de la población, y se puede utilizar como estimador
de la misma. Así, si la muestra es suficientemente grande y se verifica el teorema, entonces la
muestra puede proporcionar información casi exacta sobre la distribución de la población.
De todo esto se deduce que la función de distribución empírica o su gráfica se puede utilizar
para determinar la forma general de la distribución poblacional. También es fácil y muy fre-
cuente el reconocer la forma de la distribución observando el histograma correspondiente que
nos daría idea de la función de densidades.
1.7 Distribución muestral del estadístico 29
La distribución exacta de los estadísticos dependerá del tamaño muestral n. Así, en muchas
situaciones, encontrar la distribución de probabilidad exacta del estadístico media muestral X,
incluso para n pequeño y variables aleatorias discretas, será bastante pesado, pero sin grandes
dificultades teóricas. En muchos de estos casos serán relativamente sencillo, mientras que en
otros lo mejor que se puede hacer es tomar una muestra grande y utilizar la distribución límite
apropiada.
El término distribución muestral se utiliza para poner de manifiesto que hay diferencia entre
la distribución de la población de la cual se ha extraído la muestra y la distribución de alguna
función de esa muestra.
La distribución de todos los valores posibles que se pueden tomar por algún estadístico, cal-
culados a partir de muestras del mismo tamaño extraídas aleatoriamente de la misma población,
se llama distribución muestral de ese estadístico.
1. De una población finita, discreta de tamaño N , se extraen aleatoriamente todas las mues-
tras posibles de tamaño n.
30 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
3. Se enumeran en una columna los diferentes valores observados del estadístico y, en otra
columna, la frecuencia correspondiente de la ocurrencia de cada uno de esos valores.
Ejemplo 1.5. Suponga se que de una población de tamaño N = 5 edades de niños, dadas
como {6, 8, 10, 12, 14}, la media poblacional µ = 10 y la varianza poblacional σ 2 = 8 y la
varianza muestral es s2 = 10. Si extraemos todas las muestras posibles de tamaño n = 2,
si consideramos un muestreo con remplazo y calculamos la media tendremos N n muestras
posibles, es decir 52 = 25 posibles muestras, de tamaño 2.
6+6 6+8 6 + 10 6 + 12 6 + 14
x1 = =6 x2 = =7 x3 = =8 x4 = =9 x5 = = 10
2 2 2 2 2
8+6 8+8 8 + 10 8 + 12 8 + 14
x6 = =7 x7 = =8 x8 = =9 x9 = = 10 x10 = = 11
2 2 2 2 2
10 + 6 10 + 8 10 + 10 10 + 12 10 + 14
x11 = =8 x12 = =9 x13 = = 10 x14 = = 11 x15 = = 12
2 2 2 2 2
12 + 6 12 + 8 12 + 10 12 + 12 12 + 14
x16 = =9 x17 = = 10 x18 = = 11 x19 = = 12 x20 = = 13
2 2 2 2 2
14 + 6 14 + 8 14 + 10 14 + 12 14 + 14
x21 = = 10 x22 = = 11 x23 = = 12 x24 = = 13 x25 = = 14
2 2 2 2 2
Tabla 1-11.:
Tabla 1-12.:
Ejemplo 1.6. Supongamos una población formada por las cinco tiendas existentes en un ba-
rrio. La característica a investigar será el número de horas que diariamente permanecen abier-
tas esas tiendas, lo cual representaremos por la variable aleatoria X; los valores poblacionales
se expresan en la tabla (1-13).
Tiendas Valores de X
T1 x1 = 12
T2 x2 = 10
T3 x3 = 14
T4 x4 = 9
T5 x5 = 10
N
1 X 1 1
µ= Xi = (12 + 10 + 14 + 9 + 10) = (55) = 11
N i=1 5 5
32 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
N
2 1 X
σ = (Xi − µ)2
N i=1
1
(12 − 11)2 + (10 − 11)2 + (14 − 11)2 + (9 − 11)2 + (10 − 11)2
=
5
1
(1)2 + (−1)2 + (3)2 + (−2)2 + (−1)2
=
5
1
= (1 + 1 + 9 + 4 + 1)
5
1
= (16)
5
16
=
5
Las diez posibles muestras aleatorias simples de tamaño 3 que se pueden tomar y el valor del
estadístico media muestral aparecen en la tabla (1-14).
Tabla 1-14.: Posibles muestras de tamaño 3 y valores del estadístico media muestral.
La distribución de probabilidad del estadístico media muestral X viene dada por la tabla
(1-15).
Ahora veamos otro ejemplo más completo para muestras de tamaño dos en el cual obtendre-
mos las distribuciones de probabilidad de los estadísticos media, X, y varianza, S 2 , muestral.
También obtendremos las medias y varianzas de ambos estadísticos.
Ejemplo 1.7. Sea una empresa dedicada al transporte y distribución de mercancías, la cual
tiene una plantilla de 50 trabajadores. Durante el último año se ha observado que 25 trabaja-
dores han faltado un solo día al trabajo, 20 trabajadores han faltado dos días y 5 trabajadores
han faltado tres días. Si se toma una muestra aleatoria, con reemplazamiento, de tamaño dos
(X1 , X2 ) del total de la plantilla, obtener:
7. La probabilidad de que el estadístico varianza muestral, S 2 , sea menor o igual que 0,5.
20
2 P (X = 2) = P (2) = 50 = 0,4
5
3 P (X = 3) = P (3) = 50 = 0,1
y la varianza
X
σ 2 = V ar(X) = E[(X − µ)2 ] = (xi − µ)2 P (X = xi )
i
Observamos que si sumamos el número total de faltas al trabajo que se han producido en
la población de los 50 empleados y dividimos por los 50 empleados tenemos la media.
25 · 1 + 20 · 2 + 5 · 3 25 + 40 + 15 80
= = = 1,6.
50 50 50
Análogamente sucede con la varianza.
Tabla 1-17.: Muestras de tamaño dos y valores obtenidos para las distribuciones de probabili-
dad de X y S 2 .
Para obtener las probabilidades correspondientes a los diferentes valores muestrales, ten-
dremos en cuenta que las variables X1 y X2 son independientes, pues el muestreo se ha
realizado con reemplazamiento. Luego,
La información que nos proporciona la Tabla (1-17) la utilizaremos para obtener la dis-
tribución de probabilidad del estadístico media muestral X, así pues:
P (X = 1) = 0,25
P (X = 1,5) = 0,20 + 0,20 = 0,40
P (X = 2) = 0,05 + 0,16 + 0,05 = 0,26
P (X = 2,5) = 0,04 + 0,04 = 0,08
P (X = 3) = 0,01
1
s2 = (1 − 1,5)2 + (2 − 1,5)2
2−1
1
(−0,5)2 + (0,5)2
=
2−1
= 0,25 + 0,25 = 0,5.
Las probabilidades correspondientes a los diferentes valores del estadístico S 2 , las obte-
nemos a partir de la Tabla (1-17), así pues:
4. Para el cálculo de la media y varianza del estadístico media muestral tendremos en cuenta
su distribución de probabilidad dada en la Tabla (1-18).
Utilizando la definición de valor esperado de una variable aleatoria de tipo discreto tene-
mos:
X
µX = E[X] = xi · P (X − xi )
i
h 2 i X
2
σX = V ar[X] = E X − E[X] = (xi − 1,60)2 · P (X − xi )
i
X
µS 2 = E[S 2 ] = s2i · P (S 2 = s2i )
i
Con este ejemplo, se pone de manifiesto que incluso para muestras de tamaño pequeño y
estadísticos con pocos valores posibles se hace pesado el obtener la distribución de probabilidad
de los estadísticos muestrales. Para evitar esto en los siguientes apartados daremos algunos
resultados que simplifican estos problemas.
1.8 Media y varianza de algunos estadísticos 39
1. Que E[X] = E[X], es decir, que la media del estadístico media muestral es igual a la
media de la población.
2. Que E[S 2 ] = V ar(X), es decir, que la media del estadístico varianza muestral es igual a
la varianza de la población.
V ar(X)
3. Que V ar(X) = , es decir, que la varianza del estadístico media muestral es
2
igual a la varianza de la población dividida por el tamaño de la muestra, n.
Tabla 1-20.: Media y varianza poblacional y de los estadísticos media y varianza muestral del
ejemplo anterior, para n = 2.
Estos resultados no sólo se verifican para este ejemplo sino que se verifican en general, como
veremos en los siguientes teoremas.
σ2
E[X] = µ V ar(X) = (1-12)
n
Demostración. Teniendo en cuenta la definición de muestra aleatoria simple, resulta que las
variables aleatorias X1 , X2 , . . . , Xn son independientes, todas tienen la misma distribución de
probabilidad que la población X y en consecuencias todas tienen la misma media y la misma
40 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
X 1 + X2 + · · · + Xn 1
V ar[X] = V ar = 2 V ar [X1 + X2 + · · · + Xn ]
n n
1 1
= 2 (V ar[X1 ] + V ar[X2 ] + · · · + V ar[Xn ]) = 2 σ 2 + σ 2 + · · · + σ 2
n n
nσ 2 σ2
= 2 = .
n n
Luego, vemos que se puede obtener la media y la varianza del estadístico media muestral
X sin necesidad de conocer la distribución de probabilidad del estadístico X, y sin importar la
distribución de probabilidad de la población siempre y cuando la varianza tenga un valor finito.
Observando los resultados de la expresión (1-12) se pone de manifiesto que el valor central del
estadístico media muestral es la media poblacional µ, y como la dispersión del estadístico media
muestral X en torno a su media µ es:
h 2 i σ2
V ar[X] = E X −µ =
n
1.8 Media y varianza de algunos estadísticos 41
resulta que cuanto mayor sea el tamaño muestral n menor será la V ar(X), es decir, menor será
la dispersión de X en torno a la media poblacional µ, y el valor observado del estadístico X
estará más próximo a µ, lo cual nos permite decir que el estadístico media muestral se puede
considerar como un buen estimador de la media poblacional µ.
El resultado obtenido en el teorema (1.1) es válido cuando el muestreo se hace de una pobla-
ción infinita, o bien de una población finita, pero con reemplazo, pues las variables aleatorias
X1 , X2 , . . . , Xn , tienen que ser independientes. Si el muestreo se hace sin reemplazo en una
población finita de tamaño N , las variables aleatorias X1 , X2 , . . . , Xn no son independientes y
entonces tendríamos que:
σ2 N − n
E[X] = µ, V ar[X] = .
n N −1
N −n
Al término se le suele llamar factor de corrección de población finita solo se utiliza
N −1
cuando n ≥ 0,05N .
n
A la fracción se le llama fracción de muestreo. Cuando la fracción de muestreo es menor
N
que 0,05, no es necesario usar el multiplicador de población finita.
Antes de demostrar la ley débil de los grandes números, estableceremos las desigualdades de
Markov y de Chebysheff.
Teorema 1.2 (Desigualdad de Markov). Si X es una variable aleatoria no negativa cuyo valor
esperado E[X] existe, entonces para todo número real a > 0, se satisface:
E[X]
P (X ≥ a) ≤ .
a
X
Como X > 0, tenemos que I ≤ . Entonces
a
X 1 E[X]
E[I] ≤ E = E[X] = .
a a a
E[I] = 1 · P (X ≥ a) + 0 · P (X ≥ a) = P (X ≥ a) .
E[X]
Por lo tanto, P (X ≥ a) ≤ .
a
Ejemplo 1.8. Por experiencia, un profesor sabe que la nota obtenida por un estudiante en el
examen final de una materia es una variable aleatoria con media 3.2. Obtener una cota superior
para la probabilidad de que el estudiante obtenga en el examen final una nota mayor o igual a
4.5.
E[X] 3,2
P (X ≥ 4,5) ≤ = = 0,711.
4,5 4,5
Esto es,
P (X ≥ 4,5) ≤ 0,711.
1.8 Media y varianza de algunos estadísticos 43
Ejemplo 1.9. Suponga que X es una variable aleatoria con distribución binomial de paráme-
1
tros 5 y . Usar la desigualdad de Markov para encontrar una cota superior para P (X ≥ 2).
3
Calcular de manera exacta P (X ≥ 2) y comparar los resultados.
1 1 5
Solución. Como X ∼ B 5, , tenemos que E[X] = np = 5 · = .
3 3 3
Por lo tanto, de la desigualdad de Markov se tiene que:
E[X] 5/3 5
P (X ≥ 2) ≤ = = .
2 2 6
Por otro lado,
P (X ≥ 2) = 1 − P (X < 2) = 1 − P (X = 0) − P (X = 1)
0 5 1 4
5 1 2 5 1 2
=1− −
0 3 3 1 3 3
= 0,53909.
Esto implica que la información aportada por la desigualdad de Markov no es de mucha utilidad
en este caso.
Teorema 1.3 (Desigualdad de Chebysheff). Sea X una variable aleatoria con V ar[X] < ∞.
Entonces, para todo > 0, se satisface lo siguiente:
1
P (|X − E[X]| ≥ ) ≤ var[X].
2
2 2
E[|X − E[X]|2 ]
P |X − E[X]| ≥ ≤ .
2
1
Es decir, P (|X − E[X]| ≥ ) ≤ var[X].
2
Observe que:
p
Si tomamos = σk, con k > 0 y σ := V ar[X] en la desigualdad de Chebysheff,
tenemos que
1
P (|X − E[X]| ≥ kσ) ≤ .
k2
Si en la desigualdad de Chebysheff se reemplaza E[X] por cualquier número real C, se
obtiene:
E |X − C|2
P (|X − C| ≥ ) ≤ .
2
Esta última expresión es lo que algunos autores llaman desigualdad de Chebysheff.
Ejemplo 1.11. Se lanza una moneda legal 100 veces consecutivas. Sea X el número de caras
obtenidas. Usar la desigualdad de Chebysheff para encontrar una cota inferior de la probabi-
X 1
lidad de que difiera de en menos de 0.1.
100 2
Solución. Sea X una variable aleatoria definida como:
X: “Número de caras obtenidas en 100 lanzamientos de una moneda”.
σ2
1 1 1
Es claro que X ∼ Ber . Entonces E[X] = µ = y V ar[X] = = , donde
2 2 n 4n
X
X= pues n = 100.
100
De la desigualdad de Chebysheff, tenemos que:
1
P X − E[X] ≥ ≤ 2 var[X].
1.8 Media y varianza de algunos estadísticos 45
De donde,
1
1 − P X − E[X] < ≤ 2 var[X].
Esto es,
1
P X − E[X] < ≥ 1 − 2 var[X].
Así,
X 1 1
P
− < 0, 1 ≥ 1 −
100 2 4n2
1
=1−
4(100)(0, 1)2
1
=1−
4
3
=
4
X 1 3
Por lo tanto, P − < 0, 1 ≥ .
100 2 4
Como una aplicación de la desigualdad de Chebysheff se obtiene la ley débil de los grandes
números. Éste es uno de los resultados teóricos más importantes de la teoría de la probabilidad
que fue demostrado inicialmente por Jacobo Bernoulli para un caso particular. La ley débil
de los grandes números establece que el valor esperado E[X] de una variable aleatoria X se
puede considerar como una idealización para n suficientemente grande, del promedio aritmético
X 1 + X2 + · · · + Xn
X = , donde X1 , X2 , . . . , Xn son variables aleatorias independientes e
n
igualmente distribuidas con la misma distribución de X.
Teorema 1.4 (Ley débil de los grandes números). Sea X1 , X2 , . . . una sucesión de variables
aleatorias independientes e igualmente distribuidas con media µ y varianza finita σ 2 . Entonces,
para todo > 0, se satisface:
σ2
X1 + X 2 + · · · + Xn
P − µ > ≤ 2 ,
n n
X 1 + X2 + · · · + Xn
Demostración. Sea X := la media aritmética de las primeras n variables
n
aleatorias.
46 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
σ2
Claramente, E[X] = µ y V ar[X] = . Por la desigualdad de Chebysheff se obtiene que, para
n
todo > 0, se satisface:
var[X]
P X − E[X] ≥ ≤ ,
2
que es lo que se quería demostrar.
Corolario 1.1 (Ley de Bernoulli). Sea X1 , X2 , . . . una sucesión de variables aleatorias inde-
pendientes e igualmente distribuidas con distribución de Bernoulli con parámetro p. Entonces,
para todo > 0, se tiene que:
Kn 1
P − p ≥ ≤
,
n 4n2
donde Kn = X1 + X2 + · · · + Xn .
Para ver una demostración consultar el texto Probabilidad, primera edición, de la doctora
Liliana Blanco Castañeda, página 141.
Ejemplo 1.12. Supongamos que jugamos diariamente a un número de una lotería que, entre
otros premios, devuelve el monto jugado a todos los números que acaban en la misma cifra que
el número ganador.
Consideremos la variable X(n) , que nos da el número de veces que nos han devuelto el monto
jugado cuando se han realizado n sorteos. En este caso sabemos que la variable aleatoria
X(n) sigue una distribución binomial de parámetros n y p = 0, 1. ¿Cuál es la probabilidad
aproximada de que en un año nos hayan devuelto el dinero al menos cincuenta veces?
1.8 Media y varianza de algunos estadísticos 47
donde cada una de estas probabilidades se encontraría mediante la fórmula de la binomial que
ya conocemos, en nuestro caso:
365
P (X(365) = k) = (0,1)k (0,9)365−k .
k
En cambio, si renunciamos a pedir que la probabilidad sea exacta y nos conformamos con una
muy buena aproximación, podemos utilizar el hecho de que la distribución de X(365) se puede
aproximar por una normal de parámetros µ = np = 365 · 0,1 = 36,5 y σ 2 = np(1 − p) =
365 · 0,09 = 32,5.
X(365) − 36,5
50 − 36,5
Así, P X(365) ≥ 50 = P √ ≥ √ , y si llamamos Z a una variable
32,85 32,85
aleatoria N(0, 1), esta probabilidad será aproximadamente:
50 − 36,5
P Z≥ √ = P (Z ≥ 2,36) = 0,0091.
32,85
Por tanto, la probabilidad aproximada de que nos devuelvan el dinero cincuenta veces o más a
lo largo del año es únicamente del 0,0091.
Observe que hemos calculado P (X(365) ≥ 50), pero que esta cantidad es la misma que
P (X(365) ≥ 49,5), ya que la variable sólo toma valores naturales. Obsérvese que si la apro-
ximamos por la normal, obtendremos:
X(365) − 36,5
49,5 − 36,5
P X(365) ≥ 49,5 = P √ ≥ √ .
32,85 32,85
De donde,
49,5 − 36,5
P Z≥ √ = P (Z ≥ 2,26) = 0,0119,
32,85
que es una cantidad ligeramente diferente de la obtenida antes. Se dice que este valor se ha
obtenido haciendo una corrección de continuidad, ya que aproximamos una variable discreta
por una continua. Podemos considerar buenos los dos resultados.
48 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
Un caso concreto del teorema central del límite es la distribución binomial. A partir de
n = 30, la distribución binomial se comporta estadísticamente como una normal, por lo que
podemos aplicar las pruebas estadísticas apropiadas para esta distribución.
La importancia del teorema central del límite radica en que mediante un conjunto de teore-
mas, se desvela las razones por las cuales, en muchos campos de aplicación, se encuentran en
todo momento distribuciones normales o casi normales.
Teorema 1.6. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con media µ y
varianza σ 2 . Si n es lo bastante grande (n ≥ 30), sea cual sea la distribución de la variable
de interés, la distribución de la media muestral X es aproximadamente normal, con µX = µ y
σ2
V ar[X] = .
n
en donde cada sumando del numerador en el lado derecho es una variable con media cero y va-
rianza uno. Así pues, sin pérdida de generalidad, supondremos que cada variable de la sucesión
tiene media cero y varianza uno.
√
Consideremos entonces la suma Zn = (X1 + X2 + · · · + Xn )/ n. Se desea probar que
d
− N(0, 1). En efecto:
Zn →
2
Es suficiente demostrar que φZn (t) → e−t /2 . Por independencia e idéntica distribución, se
tiene que
√ √ n
φZn (t) = E eit((X1 +X2 +···+Xn )/ n) = φX (t/ n) ,
1.8 Media y varianza de algunos estadísticos 49
donde φX (t) es la función característica de cualquier elemento de la sucesión, que por la expan-
sión
n−1
X (it)k (it)n
φW (t) = E(W k ) + (E(W n ) + o(1)) ,
k=0
k! n!
es decir,
0 t2 2 it3 3 (it)n
φW (t) = E(W ) + itE(W ) − E(W ) − E(W ) + . . . + (E(W n ) + o(1)) ,
2 6 n!
X −µ
donde W = , siendo X cualquiera de las variables Xi . Es claro que E(W ) = 0 y
σ
V ar(W ) = 1
adquiere la expresión,
1
φW (t) = 1 − t2 (1 + o(1)) cuando t → 0.
2
Por lo tanto, n
t2
φZn (t) = 1 − (1 + o(1)) .
2n
2 /2
Haciendo n → ∞ se obtiene que φZn (t) → e−t .
El Teorema Central del Límite, es aplicable también a otros estimadores como la proporción,
la diferencia de medias y la diferencia de proporciones, que se verán más adelante.
Dada cualquier variable aleatoria con esperanza µ y varianza σ 2 , y para n lo bastante grande,
X −µ
la distribución de la variable es una N(0, 1).
error estándar
Recordemos que si la variable tiene una desviación estándar conocida σ, el error estándar se
σ
puede calcular como √ .
n
S
Cuando σ es desconocida, calculamos el error estándar como √ .
n
Ejemplo 1.13. Una empresa de mensajería que opera en la ciudad tarda una media de 35
minutos en llevar un paquete, con una desviación estándar de 8 minutos. Supongamos que
durante el día de hoy han repartido 200 paquetes.
a) ¿Cuál es la probabilidad de que la media de los tiempos de entrega de hoy esté entre 30
y 35 minutos?
50 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
b) ¿Cuál es la probabilidad de que, en total, para los 200 paquetes hayan gastado más de
115 horas?
Por el teorema del límite central sabemos que la media muestral X se comporta como una
82
normal de esperanza µX = 35 y varianza V ar[X] = = 0,32. Es decir, desviación estándar
200
σX = 0,566.
donde Z es una N(0, 1). Es decir, tenemos una probabilidad aproximada del 0,5 de que la
media del tiempo de entrega de hoy haya estado entre 30 y 35 minutos.
b) Debemos pasar las horas a minutos, puesto que ésta es la unidad con la que nos viene
dada la variable. Observe que 115 horas por 60 minutos nos dan 6900 minutos. Se nos
pide que calculemos la probabilidad siguiente:
6900
P X> = P (X > 34,5)
200
y como que sabemos que la media se distribuye aproximadamente como una normal de
media 35 y desviación estándar 0,566 (supondremos siempre que la distribución de la
media es normal, ya sea porque la variable de interés es normal o porque la muestra
es lo bastante grande), esta probabilidad se puede aproximar por la probabilidad de una
distribución normal estándar Z:
34,5 − 35
P Z> = P (Z > −0,88) = 1 − P (Z < −0,88) = 1 − 0,1894 = 0,8106
0,566
1.8 Media y varianza de algunos estadísticos 51
µ4 3−n 4
E[S 2 ] = σ 2 y V ar[S 2 ] = + σ (1-14)
n n(n − 1)
n
21 X
S = (Xi − X)2
n − 1 i=1
n n
2 1 X 1 X
S = (Xi − X)2 = (Xi − µ + µ − X)2
n − 1 i=1 n − 1 i=1
n
1 X 2
= (Xi − µ) − (X − µ)
n − 1 i=1
n
1 X
(Xi − µ)2 + (X − µ)2 − 2(Xi − µ)(X − µ)
=
n − 1 i=1
" n n n
#
1 X X X
= (Xi − µ)2 + (X − µ)2 − 2(X − µ) (Xi − µ)
n − 1 i=1 i=1 i=1
" n #
1 X
= (Xi − µ)2 + n(X − µ)2 − 2(X − µ)(nX − nµ)
n − 1 i=1
" n #
1 X
= (Xi − µ)2 + n(X − µ)2 − 2n(X − µ)2
n − 1 i=1
" n #
1 X
= (Xi − µ)2 − n(X − µ)2
n − 1 i=1
n
1 X n
= (Xi − µ)2 − (X − µ)2 (1-15)
n − 1 i=1 n−1
52 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
Luego, vemos que la esperanza del estadístico varianza muestral es igual a la varianza pobla-
cional. Resultado que también será de bastante utilidad cuando estudiemos la estimación.
La segunda parte no la demostraremos, pues aunque no presenta dificultad los desarrollos son
algo pesados.
Sabemos que muchos fenómenos que se observan en la realidad tienen distribuciones de fre-
cuencias relativas que al representarlas tienen una forma parecida a la distribución normal, por
ello podemos suponer que la mayoría de las poblaciones con las que nos encontraremos serán
normales, y las variables aleatorias observadas en una muestra aleatoria simple X1 , X2 , . . . , Xn
serán independientes y tienen la misma distribución.
n n
Y = a1 X1 + a2 X2 + · · · + an Xn sigue una distribución N a2i σi2
P P
ai µ i , .
i=1 i=1
Este resultado nos será de bastante utilidad para obtener la distribución de la media muestral,
como veremos en el siguiente teorema.
Teorema 1.8. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de tamaño n, procedente de
una población N(µ, σ 2 ). Entonces la distribución del estadístico media muestral tendrá una
distribución normal, es decir:
n
σ2
1X
X= Xi ∼ N µ, (1-16)
n i=1 n
y en consecuencia el estadístico
X −µ
Z= √ ∼ N(0, 1)
σ/ n
Demostración. Sea X una variable aleatoria distribuida N(µ, σ 2 ). Sabemos que la función ge-
neratriz de momentos (f.g.m.) de una variable aleatoria X está dada por:
1 2 2
MX (t) = E[etX ] = etµ+ 2 t σ
Como las variables Xi son independientes y todas tienen la misma distribución N(µ, σ 2 ), en-
tonces la función generatriz de momentos del estadístico media muestral será:
n
" P #
1
h i t n Xi h X1 X2 Xn
i
M (t) = E etX = E e i=1
X = E et( n + n +···+ n )
1 t2 2 t 1 t2 2 1 t2 2
h t i h t i h t i t t
= E e n X1 E e n X2 · · · E e n Xn = e n µ+ 2 n2 σ e n µ+ 2 n2 σ · · · e n µ+ 2 n2 σ
n
t 1 t2 2 1 2 σ2
µ+ σ
= e n 2 n2 = etµ+ 2 t n
σ2
Por lo tanto, X ∼ N µ, .
n
Por otro lado,
X−µ
h t√n t√n i
tZ t σ/√
MZ (t) = E e =E e n
= E e σ X− σ µ
h t√n i h t√n i √ √
t n 1 t2 n σ 2 t n
= E e σ X E e− σ µ = e σ µ+ 2 σ2 n · e− σ µ
√ √
t n
µ 1 2
t − t σn µ 1 2
=e σ ·e 2 ·e = e2t
X −µ
Por lo tanto, Z = √ ∼ N(0, 1).
σ/ n
54 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
σ2
X ∼ N µ, . (1-17)
n
siempre que el tamaño muestral sea grande, n ≥ 30. Este resultado es una consecuencia inme-
diata del Teorema Central del Límite.
Ejemplo 1.14. El número de libros encuadernados diariamente por una máquina automática
sigue una variable aleatoria cuya distribución no se conoce, con una desviación estándar de 16
libros por día. Si se selecciona una muestra aleatoria de 49 días, determinar la probabilidad
de que el número medio de libros encuadernados durante esos días (la media muestral) se
encuentre a lo sumo a 3 libros de la verdadera media poblacional.
σ2
256
X ∼ N µ, = N µ, .
n 49
O bien, la distribución de la variable aleatoria
X −µ X −µ
Z= √ = √ ∼ N(0, 1).
σ/ n 16/ 49
La probabilidad que nos piden, se calcula utilizando la tabla de la distribución normal estándar:
P | X − µ |≤ 3 = P −3 ≤ X − µ ≤ 3
3 X −µ 3
=P − √ ≤ √ ≤ √
16/ 49 16/ 49 16/ 49
= P (−1, 31 ≤ Z ≤ 1, 31)
= F (1, 31) − F (−1, 31)
= 0, 9049 − 0, 0951
= 0, 8098
Ejemplo 1.15. Refiriéndonos al ejemplo (1.14). Determinar el tamaño de la muestra para que
la media muestral se encuentre a lo sumo a 3 libros de la media poblacional con una probabi-
lidad del 0,95.
1.9 Distribuciones de estadísticos muestrales de poblaciones normales 55
pues
Teorema 1.9 (Teorema de cambio de variable). Sea X una variable aleatoria continua con
valores dentro de un intervalo (a, c) ⊆ R, y con función de densidad fX (x). Sea ϕ : (a, c) → R
una función tal que admite la descomposición
(
ϕ1 (x), si x ∈ (a, b),
ϕ(x) =
ϕ2 (x), si x ∈ (b, c),
en donde a < b < c, y cada una de las funciones ϕ1 (x) : (a, b) → R y ϕ2 (x) : (b, c) → R
es continua, estrictamente creciente o decreciente, y con inversa diferenciable. Entonces la
variable aleatoria Y = ϕ(X) toma valores dentro del intervalo ϕ(a, c), y tiene función de
densidad
−1
d −1 −1
d −1
fY (y) = fX (ϕ1 (y)) ϕ1 (y) · 1ϕ1 (a,b) (y) + fX (ϕ2 (y)) ϕ2 (y) · 1ϕ2 (b,c) (y).
dy dy
FY (y) = P (Y ≤ y)
= P (ϕ(X) ≤ y)
= P [(ϕ1 (X) ≤ y) ∩ (X ∈ (a, b))] + P [(ϕ2 (X) ≤ y) ∩ (X ∈ (b, c))] .
56 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
Nos interesa el comportamiento de estas probabilidades como funciones de y, puesto que cal-
cularemos la derivada de ellas para encontrar fY (y). Por ejemplo, la primera probabilidad, vista
como función de y, es
y 7−→ P [(ϕ1 (X) ≤ y) ∩ (X ∈ (a, b))] ,
que permanece constante para y ∈
/ ϕ1 (a, b), de modo que, suponiendo por ejemplo ϕ1 creciente,
y para y ∈ ϕ1 (a, b),
d d
P [(ϕ1 (X) ≤ y) ∩ (X ∈ (a, b))] = P (X ≤ ϕ−1
1 (y)) ∩ (X ∈ (a, b))
dy dy
d
= P a < X ≤ ϕ−1
1 (y)
dy
d
FX ϕ−1
= 1 (y) − FX (a)
dy
d
= FX ϕ−1
1 (y)
dy
d −1
= fX (ϕ−1
1 (y)) ϕ (y).
dy 1
De manera análoga se procede respecto del segundo sumando, considerando también el caso
cuando se presenta la monotonía decreciente. De esta forma se obtiene la fórmula enunciada.
Ejemplo 1.16. Sea X continua con función de densidad fX (x). Considere la transformación
ϕ(x) = x2 , la cual es estrictamente decreciente en (−∞, 0), y estrictamente creciente en
(0, ∞).
Defina entonces las funciones monótonas ϕ1 (x) = x2 sobre (−∞, 0), y ϕ2 (x) = x2 sobre
√ √
(0, ∞). Entonces sus inversas son ϕ−1 −1
1 (y) = − y y ϕ2 (y) = y. La variable Y = X 2 tiene
1.9 Distribuciones de estadísticos muestrales de poblaciones normales 57
fX (−√y) √
1 √ 1
+ fX ( y) √ , si y > 0,
fY (y) = 2 y 2 y
0, si y ≤ 0,
h i h i
MX,Xi −X (t1 , t2 ) = E et1 X+t2 (Xi −X) = E et2 Xi +(t1 −t2 )X
X1 +...+Xi +...+Xn
h i
= E et2 Xi +(t1 −t2 )( n )
n
(t2 + t1 −t2 X + (t1 −t2 )
n ) i
P
n
Xj
j=1
=E e j6=i
n
(t1 −t2 ) P
n
Xj
h t −t
i j=1
=E e( t2 + 1 n 2 )Xi
·E j6=i
e
σ2
2n −1
X ∼ N µ, y Xi − X ∼ N 0, σ .
n n
58 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
0,
en otro caso
En este caso se escribe X ∼ (χ2(n) ). El término (χ2 ) se lee ji-cuadrada. La gráfica de esta
función de densidad se muestra en la figura (1-9).
f (x) = Γ(r)
0, en otro caso
Z ∞
donde Γ(·) es la función gamma, esto es, Γ(r) = tr−1 e−t dt.
0
1
Así, la distribución Ji-cuadrado no es más que una distribución gamma con parámetros λ =
2
n
y r = . Por tanto, la esperanza de χ2(n) es n y su varianza es 2n. Observe que la distribución
2
2 1
χ(n) con n = 2 se reduce a la distribución exponencial, Exp(λ), con λ = .
2
1.9 Distribuciones de estadísticos muestrales de poblaciones normales 59
Cuando el número de variables aleatorias es muy grande, es decir, cuando n > 100, la va-
riable se puede aproximar por una normal. En este caso se verifica la siguiente aproximación:
q √
2χ2(n) ≈ N( 2n − 1, 1) aunque esta aproximación es lenta.
√ 1 √ 1
fX 2 (x) = fX ( x) √ + fX (− x) √
2 x 2 x
√ 1
= fX ( x) √
x
1 x 1
= √ e− 2 √
2π x
1 x 1
= 1 1 e− 2 x 2 −1
2 2 Γ( 2 )
Ejemplo 1.17. La velocidad (cm/s) de un objeto de masa 1 kg, viene dada por una variable
mV 2
aleatoria V que sigue una N(0, 25). Si K = , donde m es la masa del objeto, es la
2
variable aleatoria que representa la energía cinética de dicho objeto, calcular la probabilidad
de que la energía cinética sea menor que 200.
mV 2
P (K < 200) = P < 200
2
2
V 200 × 2
=P <
625 625
2
V
=P < 1,28
625
= P χ2(1) < 1,28
= 0,725
60 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
Teorema 1.12. Sean X1 , X2 , . . . , Xm independientes tales que cada Xi tiene distribución χ2(ni ) ,
m
Xi ∼ χ2 P
P
para i = 1, . . . , m. Entonces las estadísticas m .
i=1 ( ni )
i=1
Sabemos que, si (X, Y ) un vector absolutamente continuo con función de densidad fX,Y (x, y),
entonces X + Y tiene función de densidad
Z ∞
fX+Y (u) = fX,Y (u − v, v)dv. (1-18)
−∞
Z u
fX+Y (u) = fX (u − v)fY (v)dv
0
Z u
1 u−v n 1 v m
= n
e− 2 (u − v) 2 −1 m m e− 2 v 2 −1 dv
n
0 2 Γ( 2 ) 2 2 2 Γ( 2 )
Z u
1 u n m
= n+m n m
e− 2 (u − v) 2 −1 v 2 −1 dv.
2 2 Γ( 2 )Γ( 2 ) 0
v
Haciendo el cambio de variable w(v) = se obtiene
u
Z 1
1 −u n+m
−1 n m
fX+Y (u) = n+m e2 u 2 (1 − w) 2 −1 w 2 −1 dw.
2 2 Γ( n2 )Γ( m2 ) 0
n m
n m
Γ( n2 )Γ( m2 )
La integral resultante es la función beta B , . Pero B , = . Entonces
2 2 2 2
Γ( n+m2
)
1 u n+m
fX+Y (u) = n+m e− 2 u 2
−1
.
2 2 Γ( n+m
2
)
Teorema 1.13. Sean X1 , X2 , . . . , Xn independientes cada una con distribución N(µ, σ 2 ). En-
tonces
n
X (Xi − µ)2
2
∼ χ2(n) .
i=1
σ
Teorema 1.14. Sean X y Y independientes tales que X tiene distribución χ2(n) , y X + Y tiene
distribución χ2(m) con m > n. Entonces Y tiene distribución χ2(m−n) .
= E et(X+Y ) · E e−tX
m n
= (1 − 2t)− 2 · (1 − 2t) 2
m−n
= (1 − 2t)− 2
que es la función generatriz de momentos correspondiente a una variable aleatoria Y con distri-
bución χ2(m−n) .
Así como al estudiar la distribución del estadístico media muestral decíamos que era de gran
utilidad para realizar inferencias, aquí no podemos decir lo mismo del estadístico varianza
muestral, pues, la distribución muestral del estadístico S 2 tiene pocas aplicaciones prácticas
(n − 1)S 2
en estadística, sin embargo, si las tiene el estadístico y por ello será el estadístico del
σ2
que nos ocuparemos a continuación.
Con ayuda del teorema (1.14) se demuestra ahora el siguiente resultado de particular importan-
cia en estadística.
(n − 1) 2
S ∼ χ2(n−1) .
σ2
62 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
De donde,
n 2
(Xi − µ)2
X (n − 1) 2 X −µ
= S + √ .
i=1
σ2 σ2 σ/ n
El término del lado izquierdo tiene distribución χ2(n) , mientras que el segundo sumando del
lado derecho tiene distribución χ2(1) . Por el teorema anterior, y recordando que X y S 2 son
independientes, se concluye que el primer sumando del lado derecho tiene distribución χ2(n−1) .
(n − 1)S 2
La función de densidad del estadístico será la correspondiente a una distribución
σ2
χ2(n−1) y por tanto a una Γ n−1 1 n−1 1
2
, 2
, y su media será la de una Γ 2
, 2
, es decir:
(n − 1)S 2
E = n − 1.
σ2
De donde, tenemos:
n − 1 2
E S = n − 1,
σ2
esto es,
E S 2 = σ2.
n−1 1
Análogamente, la varianza de una distribución Γ , es:
2 2
(n − 1)S 2
V ar = 2(n − 1),
σ2
1.9 Distribuciones de estadísticos muestrales de poblaciones normales 63
Veamos qué significado tiene el término grados de libertad. Para ello consideramos el esta-
dístico vananza muestra S 2 : n
1 X
S2 = (Xi − X)2
n − 1 i=1
el cual incluye la suma de cuadrados de las cantidades
las cuales no son independientes de la información, pues la suma de todas ellas debe ser igual a
cero n n n n
X X X X
(Xi − X) = Xi − X= Xi − nX = 0
i=1 i=1 i=1 i=1
se deduce que
n−1
X
Xn − X = −(X1 − X) − (X2 − X) − · · · − (Xn−1 − X) = − (Xi − X).
i=1
Estas cantidades son independientes unas de otras, y podríamos decir que tenemos n grados de
libertad para estimar la varianza poblacional σ 2 . Sin embargo, como la media de la población,
en la práctica no suele ser conocida, tiene que ser sustituida por su estimación, es decir, por X,
utilizando por tanto uno de estos grados de libertad, quedando (n − 1) observaciones indepen-
dientes para utilizarlas en la inferencia sobre la varianza poblacional y entonces decimos que
tenemos (n − 1) grados de libertad.
Supongamos que tenemos una población normal y tomamos una muestra aleatoria de esta
población con el fin de hacer alguna inferencia sobre la varianza poblacional, entonces utili-
zando la distribución χ2 veremos que efectivamente esto es posible, como lo prueba el ejemplo
siguiente.
Ejemplo 1.18. En una fábrica conservera se admite que la distribución de pesos de las latas
de conservas es normal. El director comercial está muy interesado en que el peso neto del
producto incluido en el interior de la lata tenga poca variabilidad, pues en ciertas ocasiones
ha observado diferencias entre el peso real y el peso anunciado en la etiqueta. Si se selecciona
una muestra aleatoria de 25 latas, obtener los valores k1 , y k2 tales que
2 2
S S
P ≤ k1 = 0,05 y P ≥ k2 = 0,05.
σ2 σ2
Luego,
P (S 2 ≤ 0,577σ 2 ) = 0,05.
Es decir, existe una probabilidad del 0.05 de que la varianza muestral sea inferior o igual al
57.7 % de la varianza poblacional.
o bien
0,95 = P χ224 ≤ 24k2
Figura 1-10.: Representación gráfica de la probabilidad de que la variable aleatoria χ224 es menor
o igual que 13,848 y también de que sea mayor o igual que 36,420.
A la teoría de pequeñas muestras también se le llama teoría exacta del muestreo, ya que tam-
bién la podemos utilizar con muestras aleatorias de tamaño grande.
En este caso se escribe X ∼ t(n) . La gráfica de esta función de densidad se muestra en la figura
(1-11). dt(x, 30)
0.4
0.3
0.2
0.1
0.0
−4 −2 0 2 4
Figura 1-11.: Función de densidad de la distribución t de Student con 30 (color negro), 10 (color
rojo), 3 (color verde), 2 (color azul) y 1 (color marrón) grado de libertad.
La distribución t de Student es simétrica respecto a cero, con una varianza mayor que la
N(0, 1) y tiende a ésta a medida que n lo hace hacia infinito (se puede considerar que sus pro-
babilidades coinciden a partir de un n superior a 120).
La distribución t de Student utiliza una tabla de probabilidad especial, cuyo uso sugiere como
compensación el cálculo previo de los grados de libertad (ν), que se define como el tamaño de
la muestra n, al cual se le ha restado tantas unidades como parámetros de la población halla que
estimar a partir de la muestra. En el caso de la distribución en el muestreo de la media, tendre-
mos que estimar al parámetro σ 2 , por lo cual para conocer los grados de libertad (ν), tendremos
que restar al tamaño de la muestra n, el valor de 1.
Esta distribución apareció por primera vez en 1908 en un trabajo publicado por William
Gosset bajo el seudónimo de Student. El estadístico William Gosset trabajaba en una empre-
sa cervecera Irlandesa, la cual prohibía que sus empleados difundieran los resultados de sus
1.9 Distribuciones de estadísticos muestrales de poblaciones normales 67
investigaciones, y para eludir esta prohibición él publicaba sus trabajos bajo el seudónimo de
Student, de aquí el nombre de la distribución t-Student.
Ejemplo 1.19. Sea X una variable aleatoria que sigue una t20 . Hallar a tal que P (|X| > a) =
0,01.
Solución. Para ello basta tener en cuenta que la distribución t de Student es simétrica, con lo
cual
Así pues, el a requerido es el que verifica P (X > a) = 0,005, de donde se obtiene, buscando
en las tablas, que a = 2,845.
Por lo tanto,
n
ns2 2ns2 n 2 −1 sn−2 2ns2
1 s2 1 ns2
fS,T (s, t) = fX (s)fY · 3 = √ e− 2 n n e− 2t2 · .
t2 t 2π 2 2 Γ( 2 ) tn−2 t3
Integrando respecto a s,
n ∞ s2 (1+ n2 )
Z
1 n2 t
fT (t) = √ n
−1
sn e− 2 ds.
2π 2 2 Γ( n2 )tn+1 0
n
s2 1 + 2
Ahora efectuamos el cambio de variable r(s) = t , de donde obtenemos dr =
2
n
s 1 + 2 ds, y entonces
t
n Z ∞
1 n2 n−1
−r
fT (t) = √ n n+1 r 2 e dr
2π 2 2 Γ( )tn+1 2 + 2
−1 n 1 n
2 0
n+1
2 2 2t
Γ 2 1
=√ n
n+1
nπΓ 2 1 + t2 2
n
n+1
− n+1
Γ 2 t2 2
=√ 1 +
nπΓ n2
n
Si el tamaño de la muestra es pequeño, n < 30, los valores de la varianza muestral S 2 varían
considerablemente de muestra en muestra, pues S 2 disminuye a medida que n aumenta, y la
distribución del estadístico
X −µ
√
S/ n
1.9 Distribuciones de estadísticos muestrales de poblaciones normales 69
Este problema fue resuelto en 1908 por el estadístico William Gosset a partir del teorema
(1.17).
de donde
1
F(1−α,m,n) = .
F(α,m,n)
1.0
0.6
0.8
0.5
0.6
0.4
df(x, 5, 10)
pf(x, 5, 10)
0.3
0.4
0.2
0.2
0.1
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
x x
√
1
donde π=Γ .
2
Designamos por X la variable aleatoria que representa el tiempo de duración del primer tipo
de tubos y admitimos que sigue una distribución N(µX , σX 2
). Análogamente la variable alea-
toria Y representa el tiempo de duración del segundo tipo de tubos que sigue una distribución
N(µY , σY2 ). Se selecciona una muestra aleatoria de tamaño nX , del primer tipo de tubos y una
muestra aleatoria de tamaño nY , del segundo tipo de tubos, ambas muestras independientes.
Entonces si designamos por X y Y los estadísticos medias muestrales de ambas muestras, es-
tamos interesados en conocer la distribución muestral de la diferencia X − Y para las muestras
respectivas de tamaño nX y nY , procedentes de dos poblaciones normales e independientes.
Teorema 1.20. Sean X1 , X2 , . . . , Xnx e Y1 , Y2 , . . . , Yny dos muestras aleatorias simples e in-
dependientes de tamaños nx , y ny , procedentes de las poblaciones N(µx , σx2 ) y N(µy , σy2 ), res-
pectivamente. Entonces la distribución muestral de la diferencia de medias X − Y , tendrá una
distribución normal con media y desviación estándar:
s
σx2 σy2
µX−Y = µx − µy y σX−Y = + .
nx ny
Es decir,
σx2 σy2
X − Y ∼ N µx − µy , + .
nx ny
72 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
De donde el estadístico
(X − Y ) − (µx − µy )
Z= s ∼ N(0, 1).
σx2 σy2
+
nx ny
σ2
tµy + 12 t2 ny
MY (t) = E[etY ] = e y
Ahora bien, teniendo en cuenta la unicidad de la función generatriz de momentos resulta que:
σx2 σy2
X − Y ∼ N µx − µy , +
nx ny
Si las dos muestras provienen de poblaciones tales que µx = µy , entonces:
σx2 σy2
X − Y ∼ N 0, +
nx ny
o bien, si σx2 = σy2 = σ 2 , es decir, las dos muestras provienen de poblaciones que tienen la
misma varianza, entonces:
1 1
X − Y ∼ N µx − µy , σ 2
+
nx ny
Así las cosas, estandarizando la variable aleatoria normal, se tiene:
(X − Y ) − (µx − µy )
Z= s ∼ N(0, 1).
σx2 σy2
+
nx ny
1.9 Distribuciones de estadísticos muestrales de poblaciones normales 73
Nota 1.1. Si las distribuciones no son normales y los tamaños muestrales nx , y ny , son grandes,
mayores o iguales que 30, entonces por el Teorema Central del Límite la aproximación normal
para la distribución de X − Y es muy buena. Sin embargo si nx , y ny , son pequeños entonces
la forma de la distribución muestral de X − Y dependerá de la naturaleza de la población
muestreada.
Ejemplo 1.20. Analizando los salarios, en Estados Unidos, de los trabajadores de dos Esta-
dos, se deduce que en el Estado A el salario medio es de 1590 dolares. con una varianza de
25 dolares2 , y en el Estado B el salario medio es de 1550 dolares. con una varianza de 30
dolares2 . Si tomamos una muestra aleatoria de 36 personas en del Estado A y de 49 personas
en del Estado B, determinar la probabilidad de que la muestra procedente del Estado A tenga
un salario medio que sea al menos 42 dolares superior al salario medio del Estado B.
Solución. Observe que no se ha dicho que las poblaciones, de partida son normales, pues no
es necesario ya que como los tamaños muestrales nx = 36 y ny = 49, son mayores o iguales
que 30, la aproximación a la distribución normal dada por el teorema (1.20) es muy buena, sin
necesidad de que las poblaciones de partida sean normales.
Entonces del problema se sigue que:
Estado A: µx = 1590, σx2 = 25 y nx = 36.
Estado A: µy = 1550, σx2 = 30 y nx = 49.
Aplicando el teorema (1.20), la distribución muestral de la diferencia de los salarios medios
muestrales X − Y será:
25 30
X − Y ∼ N 1590 − 1550, +
36 49
Esto es, X − Y ∼ N(40, 1,306689).
La probabilidad de que de que el salario medio muestral del Estado A sea al menos 42 dola-
res superior al salario medio muestra del Estado B, viene dado por:
(X − Y ) − 40 42 − 40
P (X − Y ) ≥ 42 = P ≥
1,143105 1,143105
= P (Z ≥ 1,749621)
= 1 − P (Z ≤ 1,749621)
= 1 − 0,9599
= 0,0401.
Este resultado nos dice que la probabilidad, de que la media de una muestra aleatoria de 36
salarios del Estado A exceda en 42 o más dolares a la media de una muestra aleatoria de 49
salarios del Estado B, es 0,0401.
74 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
(X − Y ) − (µx − µy )
Z= s ∼ N(0, 1)
σx2 σy2
+
nx ny
1.9 Distribuciones de estadísticos muestrales de poblaciones normales 75
y como las variables aleatorias Z y W son independientes, teniendo en cuenta el teorema (1.16),
resulta que:
Z
T =s ∼ tnx +ny −2 (1-19)
W
nx + ny − 2
(X − Y ) − (µx − µy )
r
1 1
σ +
nx ny
T =r
(nx − 1)Sx2 + (ny − 1)Sy2
/(nx + ny − 2)
σ2 p
(X − Y ) − (µx − µy ) nx + ny − 2
=r
1 1 q
+ (nx − 1)Sx2 + (ny − 1)Sy2
nx ny
p √
(X − Y ) − (µx − µy ) nx + ny − 2 · nx · ny
=q √ ∼ tnx +ny −2
(n − 1)S 2 + (n − 1)S 2 nx + ny
x x y y
En este caso encontrar una distribución de la diferencia de medias poblacionales que nos
pueda ser útil después para la obtención de un intervalo de confianza, no es fácil, y se le conoce
con el nombre de problema de Behrens-Fisher. Bajo condiciones especiales se puede encontrar
alguna distribución, pero el obtener una solución general no es sencillo, aquí se proporcionaran
algunas aproximaciones.
Si las varianzas poblacionales son distintas y desconocidas utilizamos las varianzas muestra-
les Sx2 y Sy2 como estimadores de σx2 y σy2 .
(X − Y ) − (µx − µy )
Z= s ∼ N(0, 1) (1-20)
Sx2 Sy2
+
nx ny
76 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
pues para nx y ny , grandes Sx2 y Sy2 son muy buenos estimadores de σx2 y σy2 , puesto que, co-
mo veremos después, la varianza muestral es un estimador insesgado de la varianza poblacional.
b) µx y µy desconocidas.
Al ser las medias poblacionales µx y µy conocidas, las podemos utilizar para el cálculo de
las varianzas muestrales Sx2 y Sy2 y como las muestras son independientes y además proceden
de distintas poblaciones, entonces los estadísticos:
nx
1 X
Sx∗2 = (Xi − µx )2
nx i=1
ny
1 X
Sy∗2 = (Yi − µy )2
ny i=1
son independientes y podemos expresarlos como:
nx n 2
nx Sx∗2 X x
X 2 Xi − µx
nx Sx∗2 = (Xi − µx ) ⇒ = ∼ χ2nx
i=1
σx2 i=1
σx
1.9 Distribuciones de estadísticos muestrales de poblaciones normales 77
ny n 2
ny Sy∗2 X y
X 2 Y i − µy
ny Sy∗2 = (Yi − µy ) ⇒ = ∼ χ2ny
i=1
σy2 i=1
σy
pues la suma de n variables aleatorias N(0, 1), independientes y elevadas al cuadrado siguen
una χ2n .
Y recordando que la variable aleatoria F de Snedecor con nx y ny grados de libertad, F(nx ,ny ) ,
se define como un cociente entre dos variables aleatorias χ2 independientes y divididas cada
una de ellas por sus grados de libertad, tendríamos:
nx Sx∗2
/nx
σx2 Sx∗2 σy2
F = = · ∼ F(nx ,ny )
ny Sy∗2 Sy∗2 σx2
/ny
σy2
Al ser las medias poblacionales desconocidas, que será lo que casi siempre ocurra, y ser las
muestras independientes y además procedentes de distintas poblaciones, entonces los estadísti-
cos: nx
1 X 2
Sx2 = Xi − X
nx − 1 i=1
ny
1 X 2
Sy2 = Yi − Y
ny − 1 i=1
son independientes y teniendo en cuenta el Teorema (1.15) resulta:
nx nx 2
2
X 2 (nx − 1)Sx2 X Xi − X
(nx − 1)Sx = Xi − X ⇒ 2
= ∼ χ2nx −1
i=1
σ x i=1
σx
ny n
y 2
(ny − 1)Sy2 X
X 2 Yi − Y
(ny − 1)Sy2 = Yi − Y ⇒ = ∼ χ2ny −1
i=1
σy2 i=1
σy
Análogamente a como ocurría en la situación anterior, llegaremos a una F -Snedecor con nx − 1
y ny − 1 grados de libertad, en efecto:
(nx − 1)Sx2
/(nx − 1)
σx2 Sx2 σy2
F = = · ∼ F(nx −1,ny −1)
(ny − 1)Sy2 Sy2 σx2
/(ny − 1)
σy2
σy2
A partir de aquí podremos obtener la distribución del cociente de varianzas , así pues la
σx2
función de distribución será:
78 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
c) µx conocida y µy desconocida.
d) µx desconocida y µy conocida.
pero son similares a los casos anteriores; así pues llegaríamos a tener: F(nx ,ny −1) y F(nx −1,ny ) ,
respectivamente.
Luego, la distribución muestral del estadístico proporción muestral tendrá la misma forma
que la distribución binomial de X y como la distribución binomial se puede aproximar a la
normal cuando n es grande, n ≥ 30, entonces teniendo en cuenta el Teorema Central del Límite
resulta que el estadístico proporción muestral sigue una distribución normal, es decir:
X pq
pb = PX = ∼ N p, , (1-23)
n n
donde q = 1 − p, puesto que
X 1 1
E[b
p] = E[PX ] = E = E[X] = · np = p
n n n
1.10 Distribución de la proporción muestral 79
X 1 1 p(1 − p) pq
V ar[b
p] = V ar[PX ] = V ar = 2
V ar[X] = 2 · np(1 − p) = =
n n n n n
PX − p
Z= r ∼ N(0, 1)
pq
n
r
pq
error estándar del estadístico proporción muestral pb =
n
De manera análoga a como ocurría con el estadístico media muestral, aquí resulta que para un
parámetro p fijo, el error estándar de la proporción muestral disminuye cuando el tamaño de la
muestra aumenta. Lo cual implica que cuando el tamaño de la muestra aumenta la distribución
del estadístico proporción muestral pb está más concentrada en torno a su media, es decir, en
torno a la proporción población.
X
1. Si notamos por pb = el estadístico proporción muestral, debemos encontrar:
n
0,25 − p pb − p 0,32 − p
P (0,25 ≤ pb ≤ 0,32) = P r ≤ r ≤ r
pq pq pq
n n n
0,25 − 0,30 0,32 − 0,30
=P r
0,30 · 0,70 ≤ Z ≤ r
0,30 · 0,70
400 400
= P (−2,18 ≤ Z ≤ 0,873)
= F (0,873) − F (−2,18)
= 0,8078 − 0,0146
= 0,7932.
Luego la proporción muestral de viviendas que tienen más de un baño, caerá en el interior
del intervalo (0,25, 0,32) para aproximadamente el 79.32 % de las muestras de tamaño
400 procedentes de esta población.
2. Análogamente, tenemos:
pb − p 0, 33 − p 0,33 − 0,30
P (b
p > 0,33) = P r
pq > r = P Z > r = P (Z > 1,31)
pq 0,30 · 0,70
n n 400
= 1 − P (Z ≤ 1,31)
= 1 − F (1,31)
= 1 − 0,9049
= 0,0951.
Así pues, sean dos muestras aleatorias simples e independientes de tamaño nx y ny y proce-
dentes de poblaciones binomiales con parámetros px y py respectivamente, entonces la distribu-
ción muestral de la diferencia de proporciones muestrales
X Y
pbx − pby = −
nx ny
tendrá aproximadamente (para nx y ny grandes) una distribución normal con media y desviación
estándar
µpbx −bpy = px − py
px qx py qy
r
σpbx −bpy = + .
nx ny
Es decir,
px qx py qy
pbx − pby ∼ N px − py , +
nx ny
1.12. Ejercicios
1. ¿Qué es una distribución muestral? ¿Por qué son importantes las distribuciones muestra-
les? ¿Qué es el error estándar? ¿Qué efecto tiene aumentar el tamaño de la muestra sobre
la variabilidad de una distribución muestral de proporciones?
2. ¿Qué efectos tiene cada uno de los siguientes cambios sobre la variabilidad de una dis-
tribución muestral de la proporción muestral de muestras aleatorias simples de tamaño
n?
a) Un aumento en la desviación estándar de la población.
b) Un aumento en el tamaño de la muestra.
c) Una disminución en la proporción de la población.
b) ¿Cuál es la probabilidad de que esa misma media esté comprendida entre 98 y 102?
5. ¿Cuántas muestras de tamaño 32 pueden extraerse de una población de tamaño 750? Rta:
1,95 × 1056 .
8. Quinientos cojinetes de bolas, tienen un peso medio de 5.02 onzas y una desviación están-
dar de 0.30 onzas. Hallar la probabilidad de que una muestra aleatoria de 150 cojinetes,
tenga un peso medio de más de 5.10 onzas. Rta: 0.0005.
9. Suponga que una máquina produce tornillos, cuyos diámetros se distribuyen normalmen-
te, con media igual a 0.5 pulgadas y desviación estándar de 0.01 pulgadas. ¿Cuál es la
probabilidad de que el diámetro medio esté comprendido entre 0.49 y 0.51 pulgadas, para
una muestra de 4 tornillos?. Rta: 0.9544.
10. Las puntuaciones obtenidas en la escala de Locus de Control de James por los sujetos
depresivos, siguen una distribución Normal de media 90 y desviación estándar 12. Si se
extraen muestras aleatorias simples de 30 sujetos depresivos ¿Por debajo de que cantidad
se encontrará el 90 % de las veces el valor de la varianza de la muestra?
11. Los estudiantes de Psicología en general manifiestan que tienen dificultad para memo-
rizar. Experiencias anteriores han consistido en exponer 5 palabras ante los estudiantes
durante 10 segundos al comienzo de la clase y luego preguntar por ellos al final de la
clase, obteniéndose la siguiente distribución de probabilidades:
Cantidad de palabras que recuerdan 0 1 2 3 4 5
P (X = x) 0,05 0,15 0,20 0,25 0,30 0,05
En una muestra aleatoria de 64 estudiantes, ¿Cuál es la probabilidad de que en promedio
recuerden por lo menos 3 palabras?
12. En una determinada población se sabe que el valor de la tasa diaria de consumo de calorías
sigue una distribución normal con desviación estándar σ = 400 calorías.
Si la media poblacional es µ = 1600 calorías y se elige al azar una muestra aleatoria
de 100 personas de esa población, determinar la probabilidad de que el consumo medio
diario de calorías en esa muestra esté comprendido entre 1500 y 1660 calorías.
1.12 Ejercicios 83
13. En una cierta prueba, el 35 % de la población examinada obtuvo una nota superior a 6, el
25 % entre 4 y 6, y el 40 % inferior a 4. Suponiendo que las notas siguen una distribución
normal, hállese la nota media y la desviación estándar. ¿Qué porcentaje de la población
tiene una nota que se diferencia de la media en menos de dos unidades? Rta. µ = 4,7874,
σ = 3,1496 y 47.14 %.
14. En cierta población humana, la media muestral X de una característica se distribuye me-
diante una distribución Normal. La probabilidad de que X sea menor o igual que 75 es
0.58 y la de que X sea mayor que 80 es 0.04. Hallar la media y la desviación estándar de
X. (Tamaño muestral n = 100). Rta. µ = 74,3; σ = 3,23.
15. La edad a la que contraen matrimonio los hombres de cierta Ciudad es una variable alea-
toria que se puede aproximar por una distribución Normal de media 35 años y desviación
estándar de 5 años. Se elige aleatoriamente una muestra de 100 hombres de dicha Ciudad.
Sea X la media muestral de la edad de casamiento.
a) ¿Cuál es la media y la varianza de X?
b) ¿Cuál es la probabilidad de que la edad media de casamiento de la muestra esté
comprendida entre 36 y 37 años?
16. Los salarios diarios de cierta industria están distribuidos normalmente con una media de
US$1320. Si el 9 % de las medias de los salarios diarios en muestras de 25 obreros, es
inferior a US$1250, ¿cuál es la desviación estándar de la industria?. Rta: US$261.19.
17. De una población de 120 alumnos, hay 48 que tienen 2 o más hermanos. Si de dicha
población se toman muestras de tamaño 40.
a) ¿Qué distribución siguen las proporciones muestrales?
b) ¿Cuál es la probabilidad de que se encuentre en dicha muestra una proporción de
más del 55 % de alumnos con 2 o más hermanos?
18. Las notas de cierto examen se distribuyen según una normal de media µ = 5,3 y desvia-
ción estándar σ = 2,4. Hallar la probabilidad de que un estudiante tomado al azar tenga
una nota:
a) Superior a 6.5.
b) Inferior a 5.2.
c) Comprendida entre 5 y 6.5.
d) Halla las mismas probabilidades para la media de las notas de 16 estudiantes elegi-
dos al azar.
20. En una ciudad, el 20 % de los hogares están asegurados contra incendios. Con objeto de
establecer una encuesta en el área, una compañía de seguros selecciona 5 hogares al azar.
Calcular:
a) el número de hogares que se espera que estén asegurados. Rta. 1
b) la probabilidad de que dos hogares estén asegurados. Rta. 0.2048
c) la probabilidad de que ninguno esté asegurado. Rta. 0.3277
d) la probabilidad de que alguno esté asegurado. Rta. 0.6723
21. Se sabe que 2 de cada 8 habitantes de una ciudad utiliza el transporte público para ir a su
trabajo. Se hace una encuesta a 140 de esos ciudadanos. Determinar:
a) El número esperado de individuos que no van a su trabajo en transporte público.
Rta. 35
b) Probabilidad de que el número de individuos que va al trabajo en transporte público
esté entre 30 y 45. Rta. 0.8375
22. En un saco mezclamos frijoles blancos y pintos en la relación de 14 blancos por cada
pinto. Extraemos un puñado de 100 frijoles. Calcula la probabilidad de que la proporción
de frijoles pintos esté comprendida entre 0.05 y 0.1.
23. El cociente intelectual, CI, de unos universitarios se distribuye normalmente con media
100 y desviación estándar 11.
a) Se elige al azar una persona. Hallar la probabilidad de que su CI esté entre 100 y
103.
b) Se elige al azar una muestra de 25 personas. Encontrar la probabilidad de que la
media de sus cocientes intelectuales esté entre 100 y 103.
25. La probabilidad de que un bebé sea varón es 0.515. Si han nacido 184 bebés, ¿cuál es la
probabilidad de que haya 100 varones o más? Rta. 0.2420
26. Se sabe que el 10 % de los habitantes de una determinada ciudad va regularmente al teatro.
Se toma una muestra al azar de 100 habitantes de esta ciudad. ¿Cuál es la probabilidad de
que, al menos, un 13 % de ellos vaya regularmente al teatro? Rta. 0.2033
1.12 Ejercicios 85
27. Se conoce que el número de días de permanencia de los enfermos de un hospital sigue
una normal de media 8,1 días y desviación estándar 9 días. Se elige al azar una muestra
de 100 enfermos:
a) Razona cuál es la distribución de la media muestral. Rta. N(8,1, 0,81).
b) ¿Cuál es la probabilidad de que la media muestral esté comprendida entre 8 y 10
días?. Rta. 0,5219.
28. Una variable aleatoria X tiene una distribución normal, siendo su desviación estándar
igual a 3.
a) Si se consideran muestrasde tamaño
16, ¿qué distribución sigue la variable aleatoria
9
media muestral?. Rta. N µ, .
4
b) Si se desea que la media de la muestra no difiera en más de 1 unidad de la media
de la población, con probabilidad de 0.99, ¿cuántos elementos, como mínimo, se
deberían tomar en la muestra?. Rta. n = 60.
29. El peso de las peras de una cosecha se distribuye según una normal de media 115 gramos
y desviación estándar igual a 25 gramos.
a) ¿Cuál es la probabilidad de que una pera elegida al azar pese más de 120 gramos?.
Rta. 0,4207.
b) ¿Cuál es la probabilidad de que el peso medio de una muestra de 64 peras esté entre
112 y 119 gramos?. Rta. 0,7312.
30. Se quiere estudiar la altura de los alumnos de octavo grado y se estimó, en experiencias
anteriores, que dicha característica se distribuye según una distribución normal de media
167 cm y varianza 1,024 cm2 . Si se toma una muestra aleatoria simple de 10 alumnos,
a) Calcular la probabilidad de que la media muestral de las alturas de los 10 alumnos
no sea inferior a 165 cm.
b) Hallar la probabilidad de que la varianza muestral de las alturas de los 10 alumnos
sea superior a 15.90 cm2 .
32. La probabilidad de que un deportista gane una competición es 0.4. ¿Cuántas veces ha-
bremos de verle competir para que haya una probabilidad de al menos 0.95, de que la
frecuencia relativa de triunfos difiera de 0.4, en valor absoluto, como máximo en 0.02?
Rta: n = 12000 veces.
33. El gasto diario de la familia Robles sigue una distribución normal de media de 30000
pesos y varianza 500. Supongamos que el gasto de cada día es independiente del de los
otros días. Si el ingreso mensual es de 970000 pesos, ¿cuál es la probabilidad de que no
gasten más de lo que ganan? ¿Cuánto deberían ganar para tener una seguridad del 99 %
de que no gastarán más de lo que han ganado?
34. Hemos hecho una encuesta entre los hombres de una población determinada y, a partir
de los resultados, deducimos que el peso de los hombres de esta población sigue una
distribución normal de media 72 kg. Para saber si los datos que hemos obtenido son
fiables, pesamos a cuatro de los encuestados y obtenemos una media de 77.57 kg, con
una desviación estándar de 3.5 kg. ¿Tenemos suficientes motivos para pensar que los
encuestados han mentido cuando nos han dicho su peso?
37. Un psicólogo clínico afirma que con su terapia para tratar “el miedo a volar en avión” se
recupera el 80 % de los pacientes. Si seleccionamos al azar 16 pacientes que han acudido
a su consulta durante los últimos 3 meses por este tema, ¿cuál es la probabilidad de que
al menos el 75 % se hayan recuperado y puedan tomar aviones?
Rta. 0.798
38. Se sabe que las puntuaciones de un test siguen una distribución normal de media 36 y
desviación estándar 4.8.
1.12 Ejercicios 87
39. Un partido político cree que el 60 % del electorado está a favor de su programa. Como su
líder encuentra que esta predicción es demasiado optimista decide hacer un sondeo con
una muestra de 90 personas, ¿cuál es la probabilidad de que como máximo 60 personas
estén a favor de su partido? Rta. 0.9192
40. Disponemos de los datos del Instituto Nacional de Estadística sobre el aumento del em-
pleo durante el año 1998, el cual se encuentra en un 45 % . Si tomamos una muestra
aleatoria de 200 ciudadanos, ¿cuál es la probabilidad de que más del 50 % tenga empleo?
Rta. 0.0869 (con corrección por continuidad).
41. Si la altura de un grupo de población sigue una distribución normal con media 176 cm y
desviación estándar de 12 cm, calcular la P r(S ≤ 10) para una muestra de tamaño 8.
Rta. 0.3232
42. Un investigador quiere estimar la media de una población usando una muestra suficien-
temente grande para que la probabilidad de que la media muestral no difiera de la media
poblacional en más del 25 % de la desviación estándar sea 0,95. Hallar el tamaño de
muestra necesario.
45. Una expresión alternativa de S 2 . Sea X1 , X2 , . . . , Xn una muestra aleatoria simple. De-
88 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
mostrar que
n n
1 XX
2
S = (Xi − Xj )2
2n(n − 1) i=1 j=1
46. Establecer las siguientes relaciones recursivas para la media y varianza muestrales. Sean
X n y Sn2 la media y la varianza muestrales de X1 , X2 , . . . , Xn . Suponer ahora que se
dispone de otra observación Xn+1 . Demostrar que:
Xn+1 + nX n
a) X n+1 = .
n+1
2 n 2
b) nSn+1 = (n − 1)Sn2 + Xn+1 − X n
n+1
47. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una N(µ, σ 2 ), X y S 2 definidos de
la forma usual. Sea Xn+1 una nueva observación independiente r y de la misma población
n Xn+1 − X
que las anteriores. Encontrar la distribución del estadístico . ¿Para qué
n+1 S
podría ser utilizado?
48. Si la variable aleatoria X tiene una distribución N(0, 1) y extraemos de ella una muestra
aleatoria simple X1 , X2 , . . . , Xn , construir, utilizando las fórmulas recursivas de X n y Sn2
(ejercicio 46), una demostración inductiva de que (n − 1)Sn2 tiene una distribución χ2(n−1) .
49. Sea X1 , X2 , . . . , Xn , una muestra aleatoria simple de una población N(µ, σ 2 ). Supon-
gamos que Xn+1 se distribuye N(µ, σ 2 ) y que X1 , X2 , . . . , Xn+1 , son independientes.
Obtener con todo detalle la distribución en el muestreo de
r
Xn+1 − X n
.
S n+1
y el rango muestral:
R = X(n) − X(1)
52. Las estaturas de 1000 estudiantes están distribuidas aproximadamente de forma normal
con una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se
extraen 200 muestras aleatorias de tamaño 25 de esta población, determine:
a) la media y la desviación estándar de la distribución muestral del promedio muestral.
b) el número de las medias muestrales que caen entre 172.5 y 175.8 centímetros.
55. De una población normal de media y desviación estándar desconocida se ha obtenido una
muestra de 26 elementos que tiene como media aritmética 5 y desviación estándar 1.2.
¿Cuál es la probabilidad de que la media poblacional sea superior a 5.3? Rta. 0.114.
56. La media de una muestra aleatoria de tamaño 36 se utiliza para estimar la media de
una población infinita con desviación estándar de 5.4. Qué podemos afirmar sobre la
probabilidad de que el error muestral sea menor o igual que 2.3 en valor absoluto? Rta:
0.9896.
57. Suponga que los tiempos requeridos por un cierto autobús para alcanzar uno de sus des-
tinos en una ciudad grande forman una distribución normal con una desviación estándar
σ = 1 minuto. Si se elige al azar una muestra de 17 tiempos, encuentre la probabilidad
de que la varianza muestral sea mayor que 2. Rta. 0.01
58. Encuentre la probabilidad de que una muestra aleatoria de 25 observaciones, de una po-
blación normal con varianza σ 2 = 6, tenga una varianza muestral:
a) Mayor que 9.1. Rta. 0.05
b) Entre 3.462 y 10.745. Rta. 0.94
90 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
59. De una variable aleatoria X con distribución N(−1, σ 2 ) se extrae una muestra aleatoria
simple de tamaño 10 cuyo resultado es
1,03, −1,79, 1,45, −2,54, 0,37, −0,60, 0,53, 0,28, −2,21, −2,66.
Calcular la probabilidad de que la media muestral sea mayor o igual que −1,2.
63. Un fabricante de baterías para automóvil garantiza que sus baterías duran en promedio 3
años con desviación estándar de 1 año. ¿Si 5 de dichas baterías presentan una varianza
de 0.815, está el fabricante aún convencido de que la duración de sus baterías tienen
una desviación estándar de un año? Se sabe que la duración de las baterías se distribuye
normalmente. Rta. No hay razón para sospechar que la desviación estándar siga siendo
de un año.
1.12 Ejercicios 91
64. El tiempo promedio para realizar una tarea por parte de los empleados del turno 1 de una
compañía es de 20 minutos con una desviación estándar de 6 minutos. Dichos valores
para los empleados del turno 2 son 25 minutos y 5.5 minutos respectivamente.¿Cuál es
la probabilidad de que en un concurso que se ha programado, el promedio para 10 em-
pleados del turno 1, sea mayor que el rendimiento medio de 9 empleados del turno 2?
Se supone que el tiempo empleado por los empleados en ambos turnos, se distribuyen
normalmente. Rta: 0.0298.
65. Un rodamiento para una troqueladora producida por la empresa A, tiene una vida media
útil de 3.5 años con una desviación estándar de 0.4 años. El mismo tipo de rodamientos
producido por la empresa B, tiene una vida media útil de 3.3 años con una desviación
estándar de 0.3 años. ¿Cuál es la probabilidad de que una muestra de 25 rodamientos de
la empresa A tenga una vida media de por lo menos 0.4 años más, que la vida media de
una muestra de 36 rodamientos de la empresa B? Rta. 0.017
66. En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en
una escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se
sabe que tanto para niños como para niñas los pesos siguen una distribución normal. El
promedio de los pesos de todos los niños de sexto grado de esa escuela es de 100 libras
y su desviación estándar es de 14.142, mientras que el promedio de los pesos de todas
las niñas del sexto grado de esa escuela es de 85 libras y su desviación estándar es de
12.247 libras. Si x1 representa el promedio de los pesos de 20 niños y x2 es el promedio
de los pesos de una muestra de 25 niñas, encuentre la probabilidad de que el promedio de
los pesos de los 20 niños sea al menos 20 libras más grande que el de las 25 niñas. Rta.
0.1056.
67. Uno de los principales fabricantes de televisores compra los tubos de rayos catódicos a
dos compañías. Los tubos de la compañía A tienen una vida media de 7.2 años con una
desviación estándar de 0.8 años, mientras que los de la B tienen una vida media de 6.7
años con una desviación estándar de 0.7. Determine la probabilidad de que una muestra
aleatoria de 34 tubos de la compañía A tenga una vida promedio de al menos un año más
que la de una muestra aleatoria de 40 tubos de la compañía B. Rta. 0.0023.
69. Sean X e Y dos variables aleatorias que siguen una t(36) y una χ2(62) , respectivamente.
a) Hallar x tal que P (|X| > x) = 0,05.
b) Hallar y tal que P (|Y | > y) = 0,05.
70. Se sabe que la anchura de las piezas fabricadas por una cierta máquina, medida en cen-
tímetros, se distribuye según una Normal de media 10 y desviación estándar 0.25. Si se
toma una muestra aleatoria simple de 25 piezas, calcular:
a) P (9,68 ≤ X ≤ 10,1).
b) P (S 2 ≤ 0,19).
72. El fabricante de una dieta de adelgazamiento dice que su producto permite una reducción
media de peso de 3.5 kg. Con objetivo de investigar su eficacia, se seleccionaron al azar
40 personas, observando en ellas el peso antes de aplicar la dieta, X y el peso después de
acabar el tratamiento, Y , lo que proporcionó una cuasivarianza para la diferencia de:
40
X 2
Sd2
= (Xi − Yi ) − X − Y = 1,8
i=1
73. Se sabe que la longitud del fruto de dos variedades A y B de tomate pepita, sigue, en am-
bos casos, una distribución normal. Para la variedad A la media es 7.3 cm y la desviación
estándar es 0.4 cm y para la variedad B la media es 6.0 cm y la desviación estándar es
0.5 cm.
a) ¿cuál es la distribución de la diferencia de medias muestrales de la longitud de frutos
tomando nA = nB = 5?
b) ¿cuál es la probabilidad de que la diferencia entre los promedios muestrales sea
mayor o igual a 1.5 cm si nA = nB = 10?
1.12 Ejercicios 93
74. Los cinescopios para la televisión del fabricante A tiene una duración media de 6.5 años y
una desviación estándar de 0.9 años, mientras que los del fabricante B tienen una duración
media de 6.0 años y una desviación estándar de 0.8 años. ¿Cuál es la probabilidad de que
una muestra aleatoria simple de 36 cinescopios del fabricante A tenga una duración media
que sea al menos de un año más que la duración media de una muestra de 49 cinescopios
del fabricante B?
75. La velocidad (cm/s) de un objeto de masa 1 kg, viene dada por una variable aleatoria V
mV 2
que sigue una N(0; 625). Si K = , donde m es la masa del objeto, es la variable
2
aleatoria que representa la energía cinética de dicho objeto, calcular la probabilidad de
que la energía cinética sea menor que 200. Rta. 0.725.
76. Las compañías A y B fabrican dos tipos de cables que tienen una resistencia media a la
rotura de 4000 y 4500 libras y desviaciones estándar de 300 y 200 libras respectivamente.
Si se comprueban 100 cables de A y 50 cables de B; ¿cual es la probabilidad de que la
media a la rotura de B sea mayor que la de A en 400 libras o más? Rta. 0.9925.
77. Si se tienen dos poblaciones referidas al tiempo de servicio de los trabajadores de dos
compañías tales que las desviaciones estándar correspondientes son 2.3 años y 3.4 años,
se pide calcular el error estándar de las diferencias de medias muestrales para muestras
respectivas de tamaños 36 y 64. Rta. 0.57.
78. Supongamos dos poblaciones normales, referidas al consumo promedio mensual de ener-
gía eléctrica de los hogares de dos barrios de una ciudad, de los cuales tomamos muestras
de tamaños 9 y 16 respectivamente. Se pide calcular el error estándar de las diferencias
de medias muestrales, si las desviaciones estándar de dichas muestras son 130 y 180
respectivamente. Rta. 68.48.
79. Una persona que desea encontrar trabajo se presenta a dos entrevistas en las empresas A
y B. En la entrevista de la empresa A obtiene una puntuación de 9, con una media de
puntuación de 7 para la totalidad de los candidatos y un varianza de 4. En la entrevista
de la empresa B obtiene una puntuación de 8, con una media de puntuación de 6 para
la totalidad de los candidatos y una desviación estándar de 1.5. ¿En qué entrevista ha
obtenido esa persona una mejor puntuación relativa?
80. En una granja avícola pueden usar dos sistemas de alimentación para sus gallinas: A y
B. Con ambos sistemas se recoge aproximadamente el mismo número de huevos, pero
cuando se usa el A el peso de los huevos sigue una normal, de 62 g de media y 3.5 g
94 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
81. Un experto afirma que el tiempo promedio que se requiere para realizar un trabajo de
torno A es 2.5 horas, mientras que el tiempo promedio que se requiere para realizar un
trabajo de torno B es de 3.2 horas. Un analista para comprobarlo hace un estricto segui-
miento a la producción de 15 piezas de A y 16 piezas de B y encontró que para la pieza
A se requirió un promedio de 2.7 horas con desviación estándar de 0.01 horas, mientras
que para la pieza B se requirió un promedio de 3.0 horas con una desviación estándar
de 0.01 horas. El analista acepta la afirmación del experto solamente si el valor de t cal-
culado se encuentra dentro del intervalo −t0,005 y +t0,005 . ¿Qué decisión debe tomar el
analista? Se sabe que para ambas piezas el tiempo se distribuye normalmente. El analista
debe rechazar la afirmación del experto.
82. Un supervisor de planta en una compañía de acuerdo con sus registros, sabe que los traba-
jadores inician labores en promedio 4.5 minutos con desviación estándar de 0.8 minutos
después de firmar la planilla de asistencia. El superintendente quiere comprobar tal afir-
mación, para lo cual toma una muestra aleatoria de los registros de 12 trabajadores, con
media igual 3.2 y desviación estándar igual a 0.8. El superintendente acepta la afirmación
del supervisor, si el valor de t calculado se encuentra según la tabla entre −t0,025 y +t0,025 .
Rta. El superintendente podría concluir que el supervisor está equivocado.
83. El 46 % de la población de una ciudad está descontento con la gestión realizada por el
ayuntamiento. Si extraemos una muestra aleatoria de tamaño 200, ¿cuál es la probabilidad
de que al menos 100 de ellos estén descontentos? Rta. 0.1282
85. En unas elecciones a alcalde, el 56 % de los votantes optó por el candidato A, mientras
que el 44 % lo hizo por el candidato B.
a) Halla la distribución de proporciones de las muestras de tamaño 50 extraídas de la
población. Rta. N(0,56; 0,0049)
b) Calcula la probabilidad de que en una muestra de 50 votantes haya, al menos, 30
favorables al candidato A. Rta. 0.2838
86. Se ha demostrado por reclamos que se han hecho, que el 20 % de las encomiendas llegan
averiadas al utilizar una compañía intermunicipal de transporte. ¿Cuál es la probabilidad
de que al enviar 100 encomiendas, la proporción de averiadas sea menor que el 25 %?
Rta. 0.8944.
87. En una gran compañía, el 18 % de los trabajadores están de acuerdo con un proyecto
de ley que modifica el código laboral Colombiano. La gerencia de la compañía desea
conocer la probabilidad de que en una muestra aleatoria de 120 trabajadores, el 30 % o
más estén de acuerdo con dicho proyecto de ley. Rta. 0.003.
88. Por experiencia se sabe que el 68 % de los clientes de un supermercado, utilizan vales de
consumo. Si se toma aleatoriamente una muestra de 500 clientes, ¿cual es la probabilidad
de que menos del 65 % utilicen dichos vales? Rta. 7.93 %.
89. Dos máquinas A y B, producen un mismo artículo. La máquina A produce como término
medio una proporción de 14 % de artículos defectuosos, mientras que la máquina B, pro-
duce en término medio una proporción de 20 % de artículos defectuosos. Si se obtiene
una muestra aleatoria de 200 unidades del artículo que provengan de la máquina A y una
muestra aleatoria de 100 unidades provenientes de la máquina B, calcular la probabili-
dad de que B tenga una proporción de defectuosos 8 % o más que A. Se supone que la
población es infinita. Rta. 0.3336.
90. Cierto censo hecho a televidentes de un gran barrio A en una ciudad, revela que el 65 %
de las amas de casa ven una determinada telenovela a las 10 a.m . Si se selecciona una
muestra de 100 amas de casa de dicho barrio, cual es la probabilidad de que más del 68 %
vean la referida telenovela. El barrio tiene según el censo 1200 amas de casa? Rta: 0.2576.
92. Se sabe que según unas elecciones, el 25 % de los electores de una región A votaron a
favor de un candidato X, mientras que en una región B el 33 % de los electores también
96 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
lo hicieron por dicho candidato. Se toman muestras aleatorias de 150 para la región A y
de 100 para la región B, se pide calcular la probabilidad de que la proporción en la región
A sea igual o mayor que en la región B. Rta. 0.0869.
93. Un laboratorio, lanza al mercado una droga para aliviar el resfriado para lo cual tiene pre-
viamente comprobada su eficacia en el 80 % de los casos. Si se selecciona aleatoriamente
una muestra de 49 enfermos de gripa, ¿qué probabilidad hay de que en la misma se pre-
sente una diferencia en la proporción mayor del 10 % en valor absoluto, a lo comprobado
por el laboratorio? Rta. 0.0802.
95. Hallar el valor b tal que P (F < b) = 0,01, sabiendo que la variable aleatoria F sigue una
distribución F(7,20) .
96. Sea X una variable aleatoria que sigue una distribución F de Snedecor con 10 grados de
libertad en el numerador y 8 grados de libertad en el denominador. Determinar el valor
de a que verifica la siguiente igualdad:
a) P (X < a) = 0,9. Rta. 2.538
b) P (X > a) = 0,05. Rta. 3.3472
97. En una clase de ciencias, se toma una muestra aleatoria simple de 51 alumnos que se pre-
sentaron al examen de matemáticas y otra, independiente de la anterior, de 19 alumnos
presentados al examen de física. Se sabe que las notas de los alumnos tanto en matemá-
ticas como en física siguen una distribución normal con la misma varianza. ¿Cuál es la
probabilidad de que la varianza observada en la primera muestra sea al menos el doble de
la segunda? Rta. 0.0632
A. Muestreo
Las técnicas de muestreo, no solo sirven para el estudio de poblaciones infinitas, sino que
también son utilizadas para aquellas poblaciones finitas que contienen una enorme cantidad de
elementos, que impiden la realización de un censo, por limitaciones económicas o de tiempo o
inexistencia de personal especializado, etc. Por ejemplo, sabemos que buena parte de los Co-
lombianos no están de acuerdo con la legalización del aborto. Sin embargo, no sabemos hasta
que punto comparten o no esa opinión los profesionales de la salud, que están más en contacto
con éste fenómeno. Se podría llegar a conocer el porcentaje de dichos profesionales, interrogan-
do a la totalidad de ellos (población objetivo); pero éste procedimiento, no solo exigiría mucho
tiempo y dinero, sino que también podría resultar impracticable. Para solucionar éste problema,
sería más práctico investigar solamente una muestra o porción de la población objetivo y gene-
ralizar las conclusiones encontradas en dicha muestra, para la totalidad de la población a la cual
pertenece la misma.
Aunque la teoría que se desarrolla está referida solamente a muestras aleatorias simples, rea-
lizaremos aquí una rápida revisión de posibles métodos para la toma de muestras que podemos
encontrarnos en la práctica.
Un método de muestreo será el procedimiento mediante el cual elegimos a las unidades es-
tadísticas que forman la muestra, dentro del conjunto que constituye la población.
A continuación se establece una primera clasificación de los tipos de muestreo que es común-
mente aceptada en la Estadística:
dad de que cada uno de los elementos de la población pertenezca a la muestra. Es decir,
el muestreo es probabilístico cuando todos los elementos de la población poseen un pro-
babilidad conocida (o calculada de antemano), no nula, de ser elegidos para formar parte
de la muestra. Se contrapone al llamado muestreo no probabilístico, en el que, o bien no
se conoce la probabilidad de que los elementos de la población sean seleccionados para
la muestra, o bien para parte de ellos esta probabilidad es nula y, por tanto, no es posible
llevar a cabo inferencias estadísticas.
3. Muestreo sin norma. Es aquel en el que se toma como muestra un trozo de la población
por razones, en general, de comodidad.
La ventaja del muestreo probabilístico es que pueden determinarse los errores que se cometerán
en el proceso inferencial, siendo el único que interesa desde el punto de vista estadístico. El
muestreo opinático se justifica en función del conocimiento que se tenga de la población bajo
estudio. Finalmente, el muestreo sin norma puede utilizarse como una primera aproximación a
una población de la que no se dispone de información alguna.
Las generalizaciones de resultados, a partir del estudio de muestras extraídas mediante pro-
cedimientos de muestreo no probabilístico, nos impiden conocer el margen de error con el que
hacemos las generalizaciones a la población. En cambio, el muestreo probabilítico permite ha-
cer inferencias sobre la población, y gracias a los procedimientos de la estadística inferencial
podemos conocer el error con el que se realizan las generalizaciones.
Las muestras que se elijan para hacer un estudio deben ser lo más pequeñas posible por exi-
gencias de tiempo y coste. Además, el aumento del número de datos no siempre acarrea una
mayor certeza, ya que más importante que escoger muchos datos es que los datos estén bien
seleccionados, con el fin de que sean representativos de la población que se desea estudiar. Se
verá como el azar juega un papel importante en la elección de la muestra para que ésta sea
representativa.
Aunque la teoría que será desarrollada más tarde está referida solamente a muestras aleatorias
simples, realizaremos aquí una rápida revisión de posibles métodos para la toma de muestras
que podemos encontrarnos en la práctica.
Sea representativa.
Un estudio exhaustivo cuyos datos se utilizan para muchos trabajos e investigaciones es el Cen-
so 1 de Población. Requiere un gran esfuerzo tanto económico como de medios y en él se recaba
información de todos los habitantes de un país. Sin embargo, para el conocimiento de algunas
características de la población, se utilizan métodos alternativos que reducen el costo y el tiem-
po. Los modelos reducidos de la población, constituidos por las muestras, tienen como finalidad
obtener resultados que puedan ser aplicables (extrapolables) a la población.
a) El costo temporal. Estudiar una población de tamaño considerable exige una dedicación
de tiempo que retrasaría enormemente las investigaciones en marcha y prolongaría en
exceso la realización de los estudios. A veces, esto último podría entrar además en con-
flicto con el carácter vivo, cambiante, en continua evolución de las realidades que ocupan
el interés de los investigadores en el campo de las ciencias sociales, cuyo estudio desde
una perspectiva sincrónica, requiere la concreción en segmentos temporales limitados.
Por ejemplo, si queremos saber cómo ha afectado a la intención de voto de los españoles
1
Se da el nombre de censo a la enumeración y anotación de ciertas características de todos los elementos de una
población.
100 A Muestreo
Los pasos a seguir para la recolección de una muestra son los siguientes:
Definir las variables a medir o las preguntas que se harán si se trata de una encuesta.
Por otro lado, el uso del muestreo presenta limitaciones, entre estas destacamos:
a) El riesgo que supone la toma de una muestra que pueda no ser representativa.
d) Cuando la población esté formada por un número muy pequeño de elementos, ya que una
ligera equivocación en la toma de la muestra puede originar grandes errores.
Para el investigador tienen especial interés las muestras en la medida en que permiten genera-
lizar los resultados de un estudio a las poblaciones de las que fueron extraídas. Para que ello
sea posible es necesario que el muestreo se realice siguiendo determinados procedimientos que
garanticen la representatividad de la muestra y, por tanto, las posibilidades de generalización.
En cuanto al tipo de muestreo, algunas de las características más importantes de los muestreos
probabilísticos más usuales se detallan a continuación:
En el muestreo aleatorio simple con reemplazamiento, todas las unidades poblacionales tie-
nen la misma probabilidad de pertenecer a la muestra, pudiendo medirse varias veces el mismo
individuo. Las variables aleatorias que componen una muestra obtenida a través de este proce-
dimiento son independientes e idénticamente distribuidas.
Ejemplo A.1. En una urna se tienen 100 bolas: 60 bolas rojas, 25 bolas blancas y 15 bolas
amarillas. Se extraen de la misma (con reemplazamiento) dos de ellas. Para averiguar cuál es
la probabilidad de que la primera bola sea blanca y la segunda roja, se definen los eventos:
A = “sacar la primera bola blanca”.
B = “sacar la segunda bola roja”.
Puesto que hay reemplazamiento, sacar bola blanca y sacar bola roja son sucesos independien-
25 60
tes, con lo cual, P (A ∩ B) = P (A)P (B) = .
100 100
En le muestreo aleatorio simple sin reemplazamiento, igual que en el caso anterior, todos los
individuos tienen idéntica probabilidad de pertenecer a la muestra, pero los individuos no pue-
den seleccionarse varias veces. En este caso, las variables aleatorias que componen la muestra
no son independientes.
Ejemplo A.2. En el caso del ejemplo anterior, si se extraen de nuevo dos bolas de la urna pero
esta vez sin reemplazamiento, la probabilidad de extraer primero una bola blanca y luego una
25 60
roja es P (A ∩ B) = P (A)P (B|A) = .
100 99
Concretando, el muestreo aleatorio simple consiste en seleccionar n elementos con o sin re-
emplazamiento de entre los N elementos que componen la población, de tal modo que todas las
muestras de tamaño n que se puedan formar tengan la misma probabilidad de ser elegidas.
Si bien los dos métodos son distintos, cuando el tamaño de la población es infinito o tan
grande que pueda considerarse como infinito, ambos métodos llegan a las mismas conclusio-
n
nes. Si la fracción de muestreo es mayor de 0.1 (se muestrea más del 10 % de la población)
N
la diferencia entre ambos métodos puede ser apreciable, llegando a conclusiones contradictorias
según se aplique un método u otro.
Recuérdese que “al azar” no significa “de cualquier manera”, para que el procedimiento de
muestreo sea válido es necesario utilizar correctamente el proceso de generación de números
aleatorios.
A.2 Tipos de muestreo 103
Entre las ventajas de este procedimiento esta la compensación de valores altos y bajos con lo
que la muestra tiene una composición similar a la de la población, es además un procedimiento
sencillo y produce estimadores de los parámetros desconocidos próximos a los valores reales
de los mismos.
Ejemplo A.4. Si en una población de 834 individuos deseamos extraer una muestra de 42,
asignaríamos un número a cada uno de los 834 elementos de la población. Para determinar
los 42 elementos de la muestra, marcaríamos un número en la tabla de números aleatorios al
azar y a partir de éste leeríamos en dicha tabla números de tres dígitos en cualquier dirección,
desestimando los que superen 834.
son grandes. En lugar de recurrir a papeletas, bolas, tablas de números aleatorios o calculadora,
puede determinarse la muestra eligiendo sistemáticamente, en una relación ordenada de los
individuos de la población, aquellos que se encuentren a una distancia determinada. Suponiendo
que el tamaño de la población es N y que la muestra que queramos extraer constara de n
individuos, procederíamos del siguiente modo:
N
a) Calculamos el coeficiente de elevación, k = .
n
b) Elegimos aleatoriamente un número m comprendido entre 1 y k.
m, m + k, m + 2k, m + 3k . . . , m + (n − 1)k.
Para que la muestra conserve el carácter aleatorio, debemos procurar que la ordenación de los
individuos de la población no presente tendencias que hagan recaer la elección sistemática so-
bre unidades que no sean representativas de la heterogeneidad de la población.
La ventaja principal es que es más sencillo y más barato que el muestreo aleatorio simple,
además, se comporta igual si no hay patrones o periodicidades en los datos.
Este tipo de muestreo puede utilizarse, por ejemplo, en encuestas telefónicas programadas
mediante ordenador.
Ejemplo A.5. Supongamos que queremos hacer una investigación en una institución de 720
alumnos y alumnas, de los que queremos tomar una muestra de 80 individuos. En primer lugar,
ordenar todos los alumnos y alumnas alfabéticamente sería un buen criterio de ordenación. Sin
embargo, disponer los alumnos situando una tras otra las listas de los alumnos de cada grado,
en las que estos aparezcan por orden de calificaciones, podría llevar a que se seleccionaran
sistemáticamente los alumnos con calificaciones altas y no los de las calificaciones bajas, o
viceversa.
720
Una vez ordenados adecuadamente, calculamos el coeficiente o factor de elevación = 9.
80
Elegimos aleatoriamente un número entre 1 y 9 (tabla de números aleatorios, calculadora, etc.).
Si el número obtenido fuese 6, los individuos seleccionados serían:
Evidentemente, k no suele ser un número entero. Si se desprecian los decimales ocurrirá que
una parte de los sujetos que se encuentran al final de la ordenación pierden toda posibilidad de
ser elegidos. Una solución podría consistir en mantener los decimales del coeficiente k y re-
dondear el resultado de las sumas al número entero más próximo, una vez que se han realizado
todas ellas. Otra sería, sumar alternativamente las cantidades Ent(k) y Ent(k) + 1.
Además del procedimiento que acabamos de exponer, existen otras formas de muestreo que
también se consideran muestreos sistemáticos. Por ejemplo, para elegir una muestra de perso-
nas, podemos seleccionar una o varias letras del abecedario y tomar como muestra todos los
sujetos cuyo apellido comience por esa(s) letra(s).
Ejemplo A.6. En una empresa hay seis categorías diferentes de trabajadores, cada una
con un número similar de empleados y con varianzas parecidas para la variable salario.
Si se quiere tomar una muestra de 60 individuos para estudiar el salario promedio de los
60
trabajadores, habría que tomar de cada categoría = 10 trabajadores.
6
Ni
población, le corresponderá un total de n elementos muestrales.
N
n1 n2 n3 nK n1 + n2 + n3 + · · · + nK n
= = = ··· = = = .
N1 N2 N3 NK N1 + N2 + N3 + · · · + NK N
Ejemplo A.7. Para realizar un estudio sobre una característica de una población de 1000
habitantes, donde 600 son hombres y 400 mujeres, suponiendo que la varianza de dicha
característica sea similar para ambos sexos, se debería tomar la muestra de manera que
se mantuviera esa proporción, es decir, que el 60 % de la muestra fuesen hombres y el
40 % fuesen mujeres.
Grupo Edades fi σi
1 <18 0.25 0.1
2 19 - 35 0.40 0.3
3 36 - 55 0.20 0.5
4 >55 0.15 0.1
Tabla A-1.:
Se decide tomar una muestra de 600 habitantes, de manera que de cada grupo, dado que
A.2 Tipos de muestreo 107
4
P
σi Ni = 260, habrá que tomar:
i=1
250 × 0,1
n1 = 600 = 60
260
400 × 0,3
n2 = 600 = 276
260
200 × 0,5
n3 = 600 = 228
260
150 × 0,1
n1 = 600 = 36
260
Como propiedad a destacar, hay que señalar que el muestreo estratificado permite un estudio
diferenciado para cada estrato.
Se selecciona una muestra aleatoria de cada estrato tratando de que todos los estratos de la
población queden representados.
Se puede observar que las ideas que subyacen en el muestreo estratificado y por conglome-
rados son opuestas, ya que los elementos de la población que pertenecen al mismo estrato son
homogéneos entre sí y heterogéneos con el resto de los estratos, sin embargo, los conglomera-
dos son homogéneos entre ellos y heterogéneos internamente.
La característica principal del muestreo por áreas es que permite limitar la toma de muestras
a un conjunto de áreas que representen al resto.
Por ejemplo, los conglomerados en un estudio sobre la situación de las mujeres en una deter-
minada zona rural pueden ser los municipios de la zona.
Ejemplo A.10. Se quiere realizar un estudio sobre cuánto gastan las familias colombianas al
año. Para simplificar el problema que supone obtener las listas de toda la población, se eligen
aleatoriamente algunos departamentos como representantes del conjunto de ellos, de las cuales
se obtendrá la muestra deseada.
Se selecciona una muestra de conglomerados al azar y se toma el conglomerado completo o
A.2 Tipos de muestreo 109
No obstante, el muestreo polietápico puede extenderse a más de dos etapas dando lugar a
una selección sucesiva de unidades cada vez menores, que están jerarquizadas de tal modo que
la unidades de la primera etapa son divisibles en unidades de la segunda etapa, éstas a su vez
en unidades de la tercera etapa, y así hasta alcanzar las unidades que finalmente constituirán la
muestra. Estas unidades finales no necesariamente han de ser los individuos.
En cada etapa, la selección de las unidades podrá hacerse siguiendo procedimientos de mues-
treo aleatorio, sistemático o estratificado.
Ejemplo A.12. En el ejemplo anterior referido al estudio sobre la influencia de un determinado
pienso en el engorde de cerdos, supongamos que el estudio se realiza a nivel de toda Colom-
bia. Entonces, en una primera etapa, podríamos seleccionar de forma aleatoria una serie de
departamentos; en segundo lugar, en cada uno de los departamentos seleccionar también alea-
toriamente algunos municipios (bien delimitados); posteriormente, dentro de cada municipio
elegir al azar un grupo de granjas; y finalmente, en cada una de ellas estudiar todos los cerdos
o una muestra de ellos elegida adecuadamente.
110 A Muestreo
Ejemplo A.13. Se pretende hacer una encuesta en una institución, entre los alumnos de 9o
(noveno grado), para saber la modalidad de bachillerato que seguirán los que continúen estu-
diando en décimo grado. El coordinador pregunta a unos cuantos alumnos de cada grupo de
9o , con el único criterio de que piensa que esos seguirán estudiando en la institución.
Este tipo de muestreo carece, pues, de una base teórica satisfactoria a pesar de lo cual su uso
está bastante generalizado, especialmente el llamado muestreo por cuotas.
El muestreo por cuotas no es un muestreo probabilístico, y por tanto, no permite llevar a cabo
estimaciones rigurosas en las que podamos calibrar el error cometido.
A.3 Muestreos no probabilísticos 111
Ejemplo A.15. Para estimar el problema de absentismo escolar, un investigador puede selec-
cionar los alumnos de un centro situado en una zona de trabajadores agrícolas temporeros que
han de desplazarse en determinadas épocas del año, los alumnos de un centro situado en una
barriada marginal de una gran ciudad y los de un centro residencial, dado que por su conoci-
miento teórico del problema sabe que éstos representan los diferentes tipos de comportamientos
en relación con la asistencia a clase.
Ejemplo A.16. Estas muestras se emplean a menudo en la vida corriente, por ejemplo, en el
comercio cuando se supone que un trozo de tela o un sorbo de vino, representa bien a los artícu-
los completos. Por otra parte, influye en la adopción de este procedimiento en estas cuestiones
de la realidad cotidiana el hecho de que, en caso de equivocación, las consecuencias no serían
demasiado graves.