Llibro Manual Basico Estadistica
Llibro Manual Basico Estadistica
Llibro Manual Basico Estadistica
Manual básico
de Estadística
-IN tiiíMt•iié a.
<:(
u
e Libros
de autor
¡:::
C/.)
~
C/.)
w
w
Cl
~
z
o
~
z
i=
¡:'.
¡:::
C/.)
z
Madrid, 2007
Ficha editorial
NIPO: 605-07-048-X
Tarifa: 4
Edita: INE
Paseo de la Castellana, 183 - 28046 Madrid
También creemos que puede ser de gran utilidad para el personal que desarrolla
tareas semejantes en los ministerios, comunidades autónomas, empresas públicas
o privadas, ... , ya que cada día se incrementa la necesidad de información relativa a
todos los aspectos de la realidad económica y social de un país.
3
que se requiere distinto grado de formación y de especialización. La participación
de todas ellas es igualmente importante para la consecución de productos de alta
calidad.
Por todo ello, espero y deseo que este Manual sea ampliamente difundido y uti-
lizado no solo por el personal del !NE sino también por todas aquellas personas
que participan en la producción de información estadística en cualquier ámbito
institucional.
4
,,
Indice
Presentación 3
5
■ Capítulo 10. Variables aleatorias 75
1. Concepto 75
2. Media y varianza de una variable aleatoria 77
3. Algunas distribuciones de probabilidad 78
4. La distribución normal 82
■ Capítulo 11. Muestreo probabilístico y muestreo
aleatorio simple 87
1. Introducción 87
2. Variabilidad de muestreo. Error estándar 88
3. El papel de la distribución normal en el muestreo probabilístico 91
4. Estimadores y error estándar en muestreo aleatorio simple 95
■ Capítulo 12. Población y marco. Muestreo en
etapas 101
1. Unidades de muestreo y unidades elementales 101
2. Marco de muestreo 102
3. Muestreo en etapas 103
■ Capítulo 13. Muestreo estratificado 105
1. Definición y objetivos 105
2. Un ejemplo: ventas de supermercados 106
3. Afijación 108
■ Capítulo 14. Estimador de razón 111
6
Capítulo 1. Operaciones estadísticas
Capítulo 1
Operaciones estadísticas
7
Capítulo 1. Operaciones estadísticas
8
Capítulo 1. Operaciones estadísticas
3. la producción estadística
•ED;t.Fevistador -Costes-viabilidad
Recogida
•ChleStiQJ1<1Jio
-Finalidad
-Objetivos
-Ediciói;r
-información que
:-Atípicos
---.i existe
-Fuentes de datos
eExp<!)JSÍÓll Información primarios
ponderacién
Análisis -Costes-viabilidad
9
Capítulo 1. Operaciones estadísticas
3. Las necesidades que se pretenden satisfacer son las que determinan los con-
ceptos o temas que se quieren estudiar, así como las variables, definiciones y
clasificaciones más adecuadas. Siempre que sea posible deben utilizarse instru-
mentos armonizados ya que ello permitirá a los usuarios comparar e integrar in-
formación procedente de distintas fuentes y les ayudará a una mejor comprensión
de la información.
4. Una vez decidida la realización del estudio, la producción del mismo consiste
esencialmente en un proceso de transformación de información numérica: recogi-
da de la información que servirá de base para el estudio o datos primarios, proceso
o transformación de los mismos en datos útiles y obtención de resultados finales.
En forma esquemática:
10
Capítulo 1. Operaciones estadísticas
6. Debe indicarse, por otra parte, que los números estadísticos son el resultado
de mediciones sobre las unidades que se desean estudiar y, como cualquier medi-
da, está sujeta a errores. No debe pensarse que porque estemos tratando núme-
ros, aparentemente exactos, éstos están libres de error. Precisamente una parte
importante de la producción estadística debe dedicarse a la detección y depura-
ción/corrección de errores, de forma que se llegue a datos finales que reflejen de
forma fiel la realidad del fenómeno que estamos analizando.
11
Capítulo 2. Formas de tomar datos de una población
Capítulo 2
Formas de tomar datos de una población
1. Censos y muestras
1. Para estudiar una población la primera posibilidad es obtener los datos nece-
sarios de todas y cada una de las unidades que forman la población. Estaríamos
entonces ante un estudio censal o censo. El censo se caracteriza por obtener in-
formación de todos los elementos de la población de interés, mientras que en el
muestreo sólo se obtienen datos de una parte de la población que representa al
conjunto de la misma.
13
Capítulo 2. Formas de tomar datos de una población
4. Cuando se utiliza el muestreo para estudiar una población debe tenerse pre-
sente que, dependiendo de qué elementos entren en la muestra se obtendrán
unos u otros resultados, es decir, la información sobre la población que se obtenga
al seleccionar una muestra va a depender de la muestra seleccionada, lo que da
origen al error de muestreo que se estudiará más adelante.
2. Ventajas e inconvenientes
1. Un censo presenta dos principales ventajas respecto al muestreo: la primera
es que los resultados finales se basan en toda la población y no están, por tanto,
sujetos a error de muestreo, y la segunda es el grado de detalle de la información
final, la cuál puede proporcionarse para subgrupos y áreas geográficas de pequeño
tamaño respecto a la población total. Pero presenta también inconvenientes: el
coste, esto es, la operación censal puede ser muy costosa para grandes poblacio-
nes; el tiempo de realización, que puede ser grande respecto a una operación por
muestreo y, finalmente, los errores de recogida de datos y proceso que suelen
aumentar con el número de elementos de los que se recogen datos.
14
Capítulo 2. Formas de tomar datos de una población
Los inconvenientes del muestreo se corresponden con las ventajas del censo: la
información basada en una muestra está sujeta a error de muestreo y el grado de
detalle de la información final está siempre limitado por el tamaño de muestra que
la soporta por lo que no es posible llegar a los niveles de desglose de un censo.
4. Otro aspecto a considerar se relaciona con los informantes, es decir, las uni-
dades que tendrán que aportar sus datos: el grado de molestia a las unidades in-
formantes es menor en una muestra ya que sólo hay que dirigirse a las que se
incluyen en la muestra y no a toda la población.
15
Capítulo 2. Formas de tomar datos de una población
- Molestias: no hay molestias para los informantes ya que los datos que se pre-
cisan ya han sido facilitados. Esto es fundamental, ya que las necesidades de in-
formación son cada vez mayores y su primera consecuencia es el aumento de la
carga de respuesta. Siempre que sea posible hay que utilizar registros administra-
tivos como fuente de datos primarios.
16
Capítulo 3. Métodos de recogida de datos
Capítulo 3
Métodos de recogida de datos
1. La recogida de datos
1. La recogida de datos es el proceso encaminado a conseguir que el informante
facilite los datos primarios requeridos. Se incluye aquí la solicitud y obtención de
los datos, la comprobación preliminar de su coherencia y completitud y el segui-
miento y control del desarrollo de la operación de recogida, también llamada ope-
ración de campo.
3. Uno de los aspectos más importantes para conseguir el éxito de una opera-
ción estadística es el nivel de respuesta obtenido y la calidad de la información
suministrada. En este contexto, los informantes constituyen el recurso más valioso
para las instituciones que producen información estadística y por tanto se les de-
berá dar todo tipo de facilidades para que proporcionen los datos solicitados redu-
ciendo al mínimo la carga que este trabajo supone.
17
Capítulo 3. Métodos de recogida de datos
tiempo real para poder tomar las medidas adecuadas y resolver los problemas que
se van presentando.
2. Métodos de recogida
1. Entrevista personal (cara a cara): la recogida de datos se realiza por medio de
entrevistadores bien entrenados que visitan a las unidades informantes y recogen
los datos por medio de un cuestionario. Si los entrevistadores reciben el entrena-
miento adecuado, éste es un buen método para asegurar mejores tasas de res-
puesta y una buena calidad en los datos recogidos. Sin embargo es un procedi-
miento costoso debido a los costes asociados al entrenamiento de los entrevista-
dores y a los viajes necesarios para localizar y entrevistar a los informantes.
4. Entrevista telefónica con ayuda de ordenador (CA TI): es una entrevista telefó-
nica como la anterior, pero en la que el entrevistador graba directamente las con-
testaciones en un ordenador. Ahorra la posterior grabación de datos, aunque pue-
de ser costosa de implantar por la infraestructura informática que necesita. Los
entrevistadores necesitan tener habilidad para la grabación. Como en el sistema
CAPI, algunos controles de validación son simultáneos a la entrevista.
18
Capítulo 3. Métodos de recogida de datos
5. Correo: el cuestionario se envía por correo a los informantes, que los devuel-
ven, una vez completados, también por correo. Es un método poco costoso de
recogida de información y permite distribuir grandes cantidades de cuestionarios
en poco tiempo. Da también la oportunidad de llegar a unidades con las que resul-
ta muy difícil contactar. Para el informante es más cómodo: no tiene que contestar
al momento y puede decidir cuando rellenar el cuestionario dentro del plazo esta-
blecido. La recogida de datos por correo requiere el uso de listas actualizadas de
direcciones. Su mayor desventaja es que las tasas de respuesta son bastante
menores que las proporcionadas por otros métodos y ello puede tener consecuen-
cias en la calidad de los datos y en la fiabilidad de los resultados. Las personas
con bajo nivel cultural pueden tener problemas para entender y rellenar el cuestio-
nario.
7. En los dos últimos métodos, por correo y entrega en mano, es el propio in-
formante quien rellena el cuestionario. Ello requiere un cuidadoso diseño del mis-
mo, bien estructurado y con instrucciones claras para que sea sencillo y cómodo
de rellenar. Pese a todo, es recomendable incluir en el cuestionario el nombre de
una persona de contacto y un número de teléfono, de llamada gratuita, para resol-
ver cualquier duda que se le pueda presentar al informante.
19
Capítulo 3. Métodos de recogida de datos
Por ejemplo, la recogida por correo es bastante más eficiente cuando se combina
con llamadas telefónicas de seguimiento, e incluso visitas personales en los casos
más reacios a responder.
20
Capítulo 4. El cuestionario y los entrevistadores
Capítulo 4
El cuestionario y los entrevistadores
1. El cuestionario: concepto
1. El cuestionario es el conjunto de preguntas y cuestiones diseñadas para reco-
ger los datos de los informantes. Un cuestionario puede ser directamente cumpli-
mentado por el informante o administrado por un entrevistador. El cuestionario
juega un papel fundamental en la recogida y calidad de los datos, por lo que su
imagen y redacción de las preguntas influye en la obtención de datos válidos y
fiables, en el comportamiento de los informantes y en el trabajo de los entrevista-
dores.
21
Capítulo 4. El cuestionario y los entrevistadores
estudio, sin preguntas superfluas, siguiendo un orden lógico en las preguntas que
facilite la respuesta. En lo posible, deben evitarse preguntas ya hechas en otro
estudio y tampoco deben incluirse preguntas que no vayan a ser posteriormente
objeto de explotación.
3. Los entrevistadores
1. El papel del entrevistador, como persona que recoge los datos de los infor-
mantes, es muy importante. El proceso de obtener datos a través de entrevista
requiere ciertas cualidades y habilidades, sin las cuales la eficiencia y calidad de los
datos puede reducirse sensiblemente. Algunas de ellas son:
22
Capítulo 4. El cuestionario y los entrevistadores
- Explicar los objetivos del estudio, por qué ha sido seleccionado para la muestra
y la importancia de su colaboración.
23
Capítulo 5. Proceso de datos
Capítulo 5
Proceso de datos
1. Concepto
1. Los datos primarios, los datos recogidos, son simplemente observaciones o
hechos. Cuando los datos se organizan y presentan adecuadamente se hacen
información. El proceso de datos consiste en transformar datos en información. En
forma simplificada:
2. Desde hace años el proceso de datos se hace de forma rápida y fácil gracias al
uso de ordenadores. El proceso de datos comprende los siguientes pasos:
- Codificación de datos.
- Grabación/entrada de datos.
- Edición/imputación de datos.
- Producción de información.
25
Capítulo 5. Proceso de datos
2. Codificación
1. Antes de que los datos primarios sean introducidos en el ordenador deben
codificarse. La codificación significa etiquetar las respuestas de forma abreviada y
única para cada respuesta (a menudo con simples códigos numéricos). La razón de
codificar es que hace mucho más fácil la grabación y posterior manipulación de los
datos. La codificación puede ser hecha por los propios entrevistadores o por per-
sonal de oficina.
3. Grabación
1. El teclado de un ordenador es una de las herramientas actuales más conoci-
das para la introducción de datos en ordenador, al igual que hace años lo eran las
tarjetas perforadas. Otros instrumentos que se utilizan para la entrada de datos
son los lectores de código de barras, escáner, aparatos de lectura óptica y lápices
de pantalla.
2. Mientras que hace años la grabación de datos solía hacerse de forma centrali-
zada por personal especializado, el uso extensivo del ordenador ha hecho que la
grabación de datos se realice de forma muy cercana a la recogida de los mismos.
3. Con los métodos de entrevista con ayuda de ordenador, bien sea entrevista
personal (CAPI) o telefónica (CATI) son los propios entrevistadores los que realizan
directamente la entrada de datos.
26
Capítulo 5. Proceso de datos
- Validación: asegura que los datos caen dentro de ciertos límites. Por ejemplo,
que caracteres alfabéticos no aparezcan en un campo numérico, o que el mes del
año no sea mayor de 12.
27
Capítulo 5. Proceso de datos
5. Estimación - expansión
1. Con este proceso los datos primarios depurados se convierten en informa-
ción. Para ello, a cada dato primario se le aplica el factor de ponderación/expansión
necesario para referir los datos a la población objeto de estudio, obteniéndose los
datos ponderados o expandidos. La posterior agregación de los datos ponderados
para las distintas poblaciones/subpoblaciones sobre las que se deba facilitar infor-
mación proporciona las tablas finales para su publicación en los distintos medios
de difusión (papel, soporte magnético, internet u otros).
28
Capítulo 6. Trabajar con porcentajes
Capítulo 6
Trabajar con porcentajes
Matriculación de turismos
1996 968.363 566.970 58,5%
1997 1.091.190 661.078 60,6%
1998 1.282.970 821.928 64,1 %
1999 1.502.531 994.102 66,2%
2000 1.457.494 956.360 65,6%
29
Capítulo 6. Trabajar con porcentajes
2. Podemos ver que en 1999 se han matriculado 219.561 turismos más (diferen-
cia absoluta) que en el año anterior, lo que supone un incremento relativo de
es decir, estamos expresando que por cada 100 turismos matriculados en 1998,
se han matriculado 117 en 1999. La cantidad por la que se divide en el denomina-
dor es la base del porcentaje. En caso de no multiplicar por 100 se obtiene el tanto
por uno o variación relativa por unidad. Al mismo resultado se llega dividiendo di-
rectamente las matriculaciones de ambos años
1.502.531 x100=117,1
1.282.970
3. Al ser cocientes entre dos cantidades los porcentajes son directamente com-
parables. Así, podemos ver que la matriculación de turismos de importación en
1999 se ha incrementado en 72.114 unidades, una cantidad lógicamente inferior a
las 219.561 unidades de incremento total, pero en términos relativos el crecimien-
to de los importados es de
30
Capítulo 6. Trabajar con porcentajes
1.457.494 X 100 = 97
1.502.531
A-B x100
B
es decir, por cada 100 turismos matriculados en 1996, casi 59 fueron de importa-
ción. Suele expresarse diciendo que la participación de turismos de importación en
el total matriculados era del 58,5% en el año 1996. En forma similar se han calculado
el resto de datos de la columna %importación del cuadro del párrafo 1.
7. Los porcentajes están íntimamente ligados con los números índices. Un nú-
mero índice es el cociente entre dos valores de una variable multiplicado por 1OO.
En la tabla de matriculaciones figuran los turismos matriculados en cada año to-
31
Capítulo 6. Trabajar con porcentajes
mando como base 100 el año 1996, es decir, estamos dividiendo las matriculacio-
nes de cada año por las correspondientes de 1996. Así, el índice de matriculacio-
nes del total turismos en 2000 respecto a 1996 es
En forma similar se calculan el resto de los valores índices de la tabla. Las tasas
de variación interanuales que hemos visto anteriormente pueden calcularse igual-
mente a partir de los respectivos índices de matriculación. Así, la variación porcen-
tual del total de turismos matriculados en 1999 con respecto a 1998 es
9. Al manejar porcentajes hay que tener siempre cierto cuidado. Debemos ser
conscientes de que un porcentaje es, en el fondo, un cociente y hay que tener
claro cuál es la base del porcentaje. Un error que se comete con cierta frecuencia
es el de sumar porcentajes. Así, a partir de las tasas de variación interanuales del
total de turismos matriculados, podría pensarse que la variación acumulada de las
32
Capítulo 6. Trabajar con porcentajes
33
Capítulo 6. Trabajar con porcentajes
años es P2 =
P1
Yv
ºYav, , por lo que la operación correcta para calcular el crecimiento de
2
o,
. 1,30 ¾
precios es - - = 10,5°0.
1,176
12. El ejemplo del párrafo anterior muestra también que hay que ser cuidadosos
en la interpretación de datos. El resultado muestra que aparentemente los turis-
mos han experimentado un crecimiento en sus precios de un 10,5% en 1998 res-
pecto al año anterior. Sin embargo, lo que refleja realmente el número, es que el
coste unitario para el consumidor de un turismo matriculado en 1988 ha sufrido un
incremento de un 10,5% respecto a 1997, y esta cifra incluye también un posible
desplazamiento de los gustos de los compradores de coches hacia turismos de
gama alta en detrimento de los de menor coste. Y este posible desplazamiento es
bastante real si nos fijamos en la evolución tan positiva que se ha visto en los tu-
rismos de importación y le añadimos el que este tipo de vehículos son en su ma-
yoría de gama alta.
2. Primeros gráficos
1. La representación gráfica juega un importante papel en la descripción y com-
prensión de datos estadísticos por lo que interesa empezar a familiarizarse con los
distintos tipos de gráficos que suelen utilizarse. De hecho, la información estadísti-
34
Capítulo 6. Trabajar con porcentajes
[~T;t~l-11-- Importados]
1.600.000 - -
1.400.000
1.000.000
35
Capítulo 6. Trabajar con porcentajes
200
180
160
14D -- ---- -
36
Capítulo 6. Trabajar con porcentajes
1 r:ilTotal □ Importados_]
30,0
24,3
25,0
20,9
20,0
16,6
15,0
12,7
10,0
5,0
0,0
1997 1998 1999
-5,0
58,5
37
Capítulo 7. Variables y distribuciones
Capítulo 7
Variables y distribuciones
2. Cada unidad estadística puede ser descrita en relación a una o varias caracte-
rísticas. Así, sí consideramos el personal del INE pueden estudiarse características
como: sexo, edad, categoría profesional, estado civil, antigüedad, salario. En la
matriculación de automóviles puede estudiarse si son o no de importación, marca
y modelo, cilindrada, tipo de combustible que utilizan, provincia en que se matricu-
lan. Estas posibles características a estudiar sobre las unidades se llaman variables
estadísticas o simplemente variables.
39
Capítulo 7. Variables y distribuciones
2. Distribuciones de frecuencia
1. Cuando sobre un conjunto de unidades estadísticas estudiamos una variable,
cada unidad queda asociada al valor o categoría (clasificación) de la variable que le
corresponde según que ésta sea cuantitativa o cualitativa respectivamente. El
conjunto de unidades junto con el valor o categoría definido para cada unidad cons-
tituye una distribución estadística. Por ejemplo si en el colectivo de funcionarios
del INE consideramos el grupo profesional (A, B, C o D) al que se pertenece, ten-
dríamos la distribución de funcionarios por grupo:
40
Capítulo 7. Variables y distribuciones
Funcionario Grupo
1 D
2 B
3 e
4 e
5 A
6 B
41
Capítulo 7. Variables y distribuciones
e
o
Q_
2
(.'.J
6,20 5,45 9,60 4,80 7,75 6,00 6,00 4, 15 5,40 5,60 6,55
4,75 6,05 5,20 5,20 5,65 6,65 8,75 7,70 8,60 3,35 4,35
5,90 4,25 6,35 4,30 6,75 9,90 4,20 3,60
3,35 3,60 4, 15 4,20 4,25 4,30 4,35 4,75 4,80 5,20 5,20
5,40 5,45 5,60 5,65 5,90 6,00 6,00 6,05 6,20 6,35 6,55
6,65 6,75 7,70 7,75 8,60 8,75 9,60 9,90
42
Capítulo 7. Variables y distribuciones
Podemos agrupar los datos por intervalos de euro, es decir, precio menor o igual
a 4 euros, mayor de 4 y menor o igual que 5, ... , mayor de 9, obteniéndose la si-
guiente tabla:
Precio Frecuencia
4 2
5 7
6 9
7 6
8 2
9 2
10 2
Total 30
Los intervalos de precio que sirven para la agrupación de las unidades se llaman
intervalos de clase o simplemente clases. Las clases se corresponden a las cate-
gorías de la variable. Obsérvese la forma de presentar las clases de precios en la
tabla: para cada clase se da el límite superior y contiene las unidades con precio
superior al límite de la clase anterior y menor o igual al límite de clase, así, la clase
7 contiene los supermercados con precio mayor de 6 (límite de clase anterior) y
menor o igual que 7 euros. Cuando nos enfrentamos a un gran número de obser-
vaciones la agrupación en clases resulta imprescindible para poder apreciar la natu-
raleza general de la información. De hecho es bastante normal que al publicar re-
sultados estadísticos nos encontremos con distribuciones de frecuencia agrupadas
en clases. Así, la población ocupada por grupos de edad que proporciona la En-
cuesta de Población Activa en el 4º trimestre de 2002 es como sigue:
43
Capítulo 7. Variables y distribuciones
44
Capítulo 7. Variables y distribuciones
45
Capítulo 7. Variables y distribuciones
47,3%
(1J
·¡:;
e
Gl
::,
ü
Gl
tt
5,7% 5,6%
46
Capítulo 7. Variables y distribuciones
50
45
40
35
if 30
cu
·¡:¡
~ 25
::,
ü
QJ
u:: 20
10
o
o o o o
L.() ó
N
oLD ó
o
Intervalo de ventas
50
45
40
35
if 30
cu
·¡:¡
~ 25 .'
::,
ü '
QJ 1
u:: 201
15 e
10
o+----~
o 10 20 30 40 50 60 70 80 90 100
Ventas
47
Capítulo 7. Variables y distribuciones
100 -----.
90 ~ - - -
•
80
70
Q)
.§' 60 ° --
e
Q)
2
o
CL
50 - ---------
40
30 -- - - - -
20 -
10
o 10 20 30 40 50 60 70 80 90 100
Ventas
48
Capítulo 8. Medidas descriptivas de una variable estadística
Capítulo 8
Medidas descriptivas de una variable estadística
49
Capítulo 8. Medidas descriptivas de una variable estadística
11.00 r
10,00 7
9,00 -
1A
8,00
o 7,00
ü
------"-=':....,."---~-"'----...i;r..--...,¡,.,,----,
(J)
o:: 1
6,00
precio medio '
3,00
2,00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Supermercado nº
50
Capítulo 8. Medidas descriptivas de una variable estadística
1' 64 = O 275 ➔ 27 5%
5,97 ' '
51
Capítulo 8. Medidas descriptivas de una variable estadística
1' 64 = O 205 ➔ 20 5%
8,00 ' '
CV=~
X
6. Tanto la medía como la desviación estándar sólo son calculables con variables
numéricas, ya que se requiere calcular la suma de los valores de la variable, y esto,
obviamente, es posible sí la variable toma valores numéricos. Con variables cualita-
tivas pueden calcularse porcentajes: porcentaje de mujeres, porcentaje de turis-
mos que utilizan combustible eurosuper. Así, en la tabla de funcionarios del INE de
7.2.1 puede verse que los funcionarios del grupo A son el 16,1 % del total. Estos
porcentajes, en distribuciones cualitativas se conocen como proporciones y hacen
referencia a la fracción porcentual de la población que cumple una determinada
propiedad.
dicotómica es - = ~= p
x =L_ , es decir, la proporción de unidades que pertene-
n n
cen a la clase y la expresión de la varianza se convierte en ci = p(1- p) .
52
Capítulo 8. Medidas descriptivas de una variable estadística
25,0% ~ - - - - - - - - - - -
(/)
o
u
-~ 15,0%
Q.
Q)
u
Q)
.N
810,0% +--------
º
CL
o 2 3 4 5 6 7 8
Número de goles
53
Capítulo 8. Medidas descriptivas de una variable estadística
. _ 0-21+1-65+2-85+··•+7-5+8·2 I / ·d
me d 1 a = x = - - - - - - - - - - - - - - =288
, goespart1 o
380
CT=
respectivamente, y en las que f indica la frecuencia con que se presenta cada va-
lor. Aunque ambas fórmulas puedan aparentar ser diferentes a las vistas en el
apartado anterior, son conceptualmente iguales y lo único que hacen es tomar en
cuenta la frecuencia repetitiva de los distintos valores de la variable a la hora de
sumar. En el cálculo pueden emplearse indistintamente las frecuencias absolutas o
las relativas. En caso de utilizar las relativas debe tenerse presente que la suma de
54
Capítulo 8. Medidas descriptivas de una variable estadística
Intervalo Frecuencia
clase absoluta (n
600 o
650 2
700 2
750 3
800 9
850 17
900 13
950 5
1.000 3
1.050 2
1.100 4
mayor o
Total 60
Recuérdese la forma de presentar las clases por su límite superior, esto es, las 9
observaciones en 800 corresponden a las 9 bombillas cuya duración es mayor que
750 horas y menor o igual que 800 horas.
55
Capítulo 8. Medidas descriptivas de una variable estadística
56
Capítulo 8. Medidas descriptivas de una variable estadística
introducir la suposición respecto a las marcas de clase para los cálculos, resultando
que los valores obtenidos para la media y la desviación estándar son aproximacio-
nes a los valores verdaderos de 851,32 y 102,57 respectivamente, que habíamos
obtenido utilizando todos los valores, es decir, toda la información.
16
14
C/J 12
~
.o
§10
.o
Gl
u
o 8
cii
E
,:::,
z 6
o
650 700 750 800 850 900 950 1.000 1.050 1.100
Intervalo duración
57
Capítulo 8. Medidas descriptivas de una variable estadística
tanto que la otra mitad tiene valores iguales o mayores que la mediana. La deter-
minación de la mediana requiere la ordenación de las unidades de la población por
valores de la variable de estudio en forma creciente o decreciente. Si el número de
unidades n es impar la mediana corresponde al valor de la unidad que ocupa el
90,0%
80,0%
30,0% --- - - - - - - - - - / - - -- - - + - - M - - - ~ - - - - + - - - - - + - -
20,0%
10,0%
0,0%
o 2 3 4 5 6 7 8
Número de goles
58
Capítulo 8. Medidas descriptivas de una variable estadística
100
90 -
80
70
o;,R
co
> 60 -----
·;:::;
m
e:i
m
·u
e
Q)
::, 40 - - - - -------- -
:c=_---___
Q)
et -+---
1
----j---
650 700 750 800 850 900 950 1.000 1.050 1100
Intervalo duración
3. Tanto la moda como la mediana son, al igual que la media, características cen-
trales de una distribución. A diferencia de la media, su cálculo no está basado en
todos los valores de la distribución, por lo que posibles valores extremos no tienen
incidencia en el valor de la moda o mediana, mientras que sí pueden influir de for-
ma notable sobre la media. Así, la mediana de los 7 valores (5, 5, 6, 8, 8, 1O, 1O) es
8 y su media es 7,42. Ahora, para los 7 valores (5, 5, 6, 8, 8, 1O, 100), la mediana
sigue siendo 8, pero la media es 20,3 por la influencia del valor 100, que es clara-
mente un valor atípico. Cuando se tienen valores extremadamente altos o bajos en
una distribución, es aconsejable calcular la media con todos los valores y realizar
también su cálculo excluyendo los valores extremos para poder decidir cuál de los
59
Capítulo 8. Medidas descriptivas de una variable estadística
100
90
80
,R_
70
2..-
co
>
·.¡:;
60
co
~ 50 _:
co
·u
e
(1)
:J 40
ü
~
LL
30
20
intervalo
10 . intercuartílico ,
-.:;¡_;c--v,v;:~~:_.,.;; ?=z '--'/
o
650 700 750 800 850 900 950 1.000 1.050 1.100
Intervalo duración
5. La curva de concentración
1. Vamos a considerar la siguiente tabla con las ventas anuales en millones de
euros de 1O supermercados.
60
Capítulo 8. Medidas descriptivas de una variable estadística
61
Capítulo 8. Medidas descriptivas de una variable estadística
100
80
70
Q)
·ro
~ 60
ü
o
~ 50
Q)
U)
~ 40
Q)
>
30
20
10
10 20 30 40 50 60 70 80 90 100
Número en porcentaje
62
Capítulo 8. Medidas descriptivas de una variable estadística
el menor valor) de casi 200 millones. Calculados con todos los valores individuales,
algunos valores característicos son: venta media = 8,54 millones, desviación típica
= 17,02 millones, coeficiente de variación = 199%, mediana = 3,91 millones. Ve-
mos que es una distribución con alta variabilidad, como ya se desprendía de los
gráficos descriptivos, y su alto grado de asimetría, visto también en los gráficos, se
refleja en la fuerte diferencia entre la media y la mediana, influenciada la media por
las altas ventas de los grandes supermercados.
4. Vamos a añadir a la tabla de frecuencias del capítulo anterior las ventas que
totalizan los supermercados incluidos en cada intervalo de clase, es decir, vamos a
considerar la siguiente tabla:
Vemos que los 2.960 supermercados totalizan 25.265 millones de euros de ven-
tas, de los cuales 5.001 millones (el 19,8%) corresponden a los 1.400 supermer-
cados (el 47,3%) cuyas ventas individuales están comprendidas entre 2,5 y 5 mi-
llones de euros, mientras que el 0,9% de supermercados que venden por encima
de 100 millones suponen el 13,3% de las ventas. También se ha añadido una últi-
ma columna con las ventas acumuladas en forma porcentual, dónde se puede ver
que el 90,5% de supermercados con ventas iguales o inferiores a 15 millones
totalizan el 47,7% de las ventas, mientras que el 9,5% restante de establecimien-
tos se reparten el otro 52,3% de las ventas. La tabla es totalmente similar a la del
párrafo 1, pero resumiendo los datos por intervalos de clase, en lugar de conside-
rar la lista ordenada de los 2.960 supermercados. Tablas como las anteriores que
63
Capítulo 8. Medidas descriptivas de una variable estadística
50 T - -
45 ~
40 -------
35
30
25
20
15
10
o
2,5 5 7,5 10 15 20 50 100 mayor
intervalo de ventas
64
Capítulo 8. Medidas descriptivas de una variable estadística
el segundo caso que el 10% de supermercados más grandes realizan más del
50% de las ventas:
100
90
(fJ
80
_¡g
e
Q)
>
70
Q)
"O
o 60
"O
{lJ
:i
E 50
::,
ü
(O
Q) 40
.N
e
Q)
2
30
o
o...
20
10-
o"'
o 10 20 30 40 50 60 70 80 90 100
Porcentaje acumulado de supermercados
90
(fJ
80
_¡g
e
Q)
>
70
Q)
"O
o 60
"O
~
::,
E 50
::,
ü
(O
Q) 40
..§'
e
Q)
ü 30
o
o...
20
10
o
o 10 20 30 40 50 60 70 80 90 100
Porcentaje acumulado de supermercados
65
Capítulo 8. Medidas descriptivas de una variable estadística
90
80
70
U)
~
e
<D 60
>
<D
"D
<D 50
'.§'
e:
<D
u 40
o
o...
30
20
10
10 20 30 40 50 60 70 80 90 100
Porcentaje de establecimientos
7. Habíamos definido la mediana como el valor de la variable que divide a las ob-
servaciones ordenadas en dos partes iguales en número de unidades. De forma
análoga se define la media/a como el valor de la variable que divide a las observa-
ciones ordenadas en dos partes, conteniendo cada una las unidades que realizan el
50% del total de la variable. En el caso de los supermercados, la mediala divide a
los mismos en dos partes: los que presentan ventas inferiores a la mediala y totali-
zan el 50% de las ventas, y los que presentan valores superiores a la mediala y
totalizan el otro 50%. En forma gráfica la mediana se obtenía de la distribución
acumulativa de la frecuencia relativa y ahora la mediala se obtiene de la curva
acumulativa porcentual de ventas, como se ilustra en el gráfico que sigue, en el
que se aprecia que la mediala se sitúa en un valor algo superior a los 16 millones
de euros. Puede verse también que los supermercados con ventas inferiores a la
mediala son, en número, algo más del 90%.
66
Capítulo 8. Medidas descriptivas de una variable estadística
100
90 % acumulado de observaciones
80
70,
60 -
% acumulado de ventas
40 -
20
10
O 10 20 30 40 50 60 70 80 90 100
MEDIANA MEDIALA
Ventas (millones)
67
Capítulo 9. El concepto de probabilidad
Capítulo 9
El concepto de probabilidad
1. Aleatoriedad y sucesos
1. La idea intuitiva de probabilidad como posibilidad de que ocurra algo es bas-
tante común en todas las personas y en muchas ocasiones se tiene una aprecia-
ción de su valor. Cuando juegas un décimo a la lotería de Navidad sabes que la
probabilidad de que te toque el premio gordo es muy pequeña, pero sabes tam-
bién que puedes coger algo en los premios menores e incluso recuperar el dinero
gastado si el número que juegas tiene su última cifra igual a la del primer premio.
Lo mismo sucede con la primitiva, las quinielas o cualquier otro juego de azar. Al
lanzar una moneda bien hecha sabemos que aproximadamente la mitad de las
veces obtendremos cara. La posibilidad de obtener un as en una baraja de 40 car-
tas es de 4 sobre 40.
69
Capítulo 9. El concepto de probabilidad
sido los ingresos del día. La incertidumbre sobre el resultado, aunque sea peque-
ña, es consustancial a la aleatoriedad y la probabilidad lo que hace es medir numé-
ricamente el grado de incertidumbre.
Los resultados que se obtienen serán similares a los de la siguiente tabla, refle-
jados también en el gráfico que sigue:
1 Ojo, no cinco tiradas más sino que lanzamos la moneda 15 veces de nuevo.
70
Capítulo 9. El concepto de probabilidad
70 - -- -- - - - - - - - - - - - - - - - - - - - - - - - - -
65 ------------
60
~
ro 55
ü
Q)
v
ro -
·uee?
-
50 ~-··
Q)
::,
ü
11! 45
lL
40
35
30
10 100 1.000
Número de lanzamientos (escala logarítmica)
71
Capítulo 9. El concepto de probabilidad
2. Probabilidad
1. La probabilidad de un suceso elemental es un número comprendido entre O y
1 que mide la posibilidad o verosimilitud de su ocurrencia, y tal que la suma de
probabilidades de todos los sucesos elementales es igual a 1. Una probabilidad
cercana a O corresponde a un resultado muy poco verosímil (la probabilidad O le
correspondería a un suceso imposible de suceder), mientras que si la probabilidad
es cercana a la unidad el resultado es muy posible que ocurra (la probabilidad 1
sería para un suceso seguro de ocurrir). Es frecuente expresar la probabilidad en
forma porcentual. Al lanzar una moneda bien hecha la probabilidad de cara es 1/2,
que también se expresa como del 50%. En el lanzamiento de un dado la probabili-
dad de cada uno de los 6 resultados elementales posibles es 1/6. La probabilidad
de obtener el 7 de oros en una baraja de 40 cartas es de 1/40.
72
Capítulo 9. El concepto de probabilidad
des de todos los sucesos elementales es la unidad, y esto es así porque es seguro
que uno de ellos ocurrirá.
73
Capítulo 9. El concepto de probabilidad
3. Independencia
1. Consideremos una urna con 7 bolas blancas y 3 negras. Si sacamos una bola
la probabilidad de que sea blanca es de 7/1 O. Si ahora devolvemos la bola extraída
a la urna y sacamos una segunda bola, la probabilidad de que esta segunda bola
sea negra es de 3/1 O, ya que seguimos teniendo en la urna 7 blancas y 3 negras.
Ahora bien, si la primera bola extraída no la devolvemos a la urna, nos quedan 9
bolas y la probabilidad de obtener negra en la segunda extracción va a depender
del resultado de la primera bola sacada: si la primera bola ha sido blanca, quedan 6
blancas y 3 negras y la probabilidad de negra a la segunda es de 3/9; pero si la
primera bola fue negra, quedan 7 blancas y 2 negras y ahora la probabilidad de
negra será de 2/9. Al devolver la primera bola a la urna el resultado de la segunda
extracción no está condicionado por la primera bola sacada y ambas extracciones
son independientes. Es decir, dos sucesos son independientes si la ocurrencia de
uno no influye sobre la probabilidad de que ocurra el otro.
74
Capítulo 10. Variables aleatorias
Capítulo 10
Variables aleatorias
1. Concepto
1. Consideremos el número de caras que se pueden obtener al lanzar una mo-
neda tres veces (o también al lanzar tres monedas una vez). Los posibles resulta-
dos y la probabilidad de cada uno se detallan a continuación:
Como sólo estamos interesados en el número de caras podemos resumir los re-
sultados en la tabla siguiente:
Número de Probabilidad %
caras
o 1/8=12,5
1 3/8=37,5
2 3/8=37,5
3 1/8=12,5
75
Capítulo 10. Variables aleatorias
Estamos ante una variable aleatoria, el número de caras que se obtienen al lan-
zar una moneda tres veces, es decir, los valores numéricos de la variable están
asociados al resultado de un experimento aleatorio. La probabilidad de cada resul-
tado posible induce la probabilidad de que la variable aleatoria tome un valor cual-
quiera. Así, la probabilidad del valor 1 corresponde a la probabilidad de obtener
cualquiera de los resultados XXC, XCX o CXX, esto es P(1) = P(XXC) + P(XCX) +
P(CXX) = 1/8 + 1/8 + 1/8 = 3/8 = 0,375 = 37,5%.
2. El conjunto de posibles valores de una variable aleatoria junto con la probabili-
dad de cada valor, define una distribución de probabilidad. La tabla anterior refleja
la distribución de probabilidad del número de caras que se obtienen al lanzar una
moneda tres veces y que, gráficamente, presenta el siguiente aspecto:
Distrib11.1ción de probabilidad del m'.m11ern de caras al lanzar una moneda tres veces
0,375
0,125 0,125
o 2 3
Número de caras
76
Capítulo 10. Variables aleatorias
Número de Probabilidad
caras
o 1/8
1 3/8
2 3/8
3 1/8
1 3 3 1
O• - + 1- - + 2 • - + 3 • - = 15 caras
8 8 8 8 '
2. A diferencia de las variables estadísticas en las que el valor medio y otras ca-
racterísticas son valores calculados con datos observados, en el caso de una varia-
ble aleatoria su valor medio es ideal o teórico en la misma medida que lo es la
probabilidad asociada a cada valor de la variable aleatoria. El número medio de
caras al lanzar tres monedas es el promedio que se espera obtener cuando se
hace un número infinito de lanzamientos. Esta idea de media como valor esperado
hace que a la media de una variable aleatoria se la llame también esperanza ma-
temática. La variable aleatoria más sencilla es la que corresponde al lanzamiento
de una moneda una vez.
77
Capítulo 10. Variables aleatorias
Número de Probabilidad
caras
o 1/2
1 1/2
Su valor medio es 0*1/2 + 1 *1/2 = 0,5 y el gráfico de 9.1.3, que sirvió para ilus-
trar la idea de probabilidad, refleja también el concepto de esperanza matemática
de una variable aleatoria como el promedio esperado en un número infinito de
repeticiones.
Número de Probabilidad
éxitos
o 1-p =q
1
78
Capítulo 1O. Variables aleatorias
0,14
0,12
B(100,0.1)
0,1
;g 0,08
el
B(100,0.4)
:o
(ll
_o
o
o:: 0,06
O 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60
Valor de la variable
0,451
0,4 i
0,35 \
\
0,3, \
~
lA::Q,1J
Valor de la variable
79
Capítulo 10. Variables aleatorias
0,3
0,25
f+P(2)
.-+-P(5)
0,2 ~P(S)
--0
ro
~
:g 0,15
..o
e
CL
0,1
0,05
1~1
o 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Valor de la variable
80
Capítulo 10. Variables aleatorias
0,2
0,14
TI 0,12
ro
;g
ftJ_o 0,1
o
O:: 0,08
0,06
0,04
0,02 ~
o d,,~""--+-~Y-"'~
o 2 3 4 5 6 7 8 9 10 11 12 13
Valor de la variable
81
Capítulo 10. Variables aleatorias
25,0
20,0
CJJ
o
"O
·~ 15,0
o.
Q)
"O
Q)
·ro
§ü 10,0
o
(l_
5,0
0,0
o 2 3 4
Número de goles
5 6
- -~
1,3 1,8
7
~
l ll'lilli.
0,5 0,7
4. la distribución normal
1. Las variables aleatorias que hemos visto pueden tomar sólo los valores O, 1,
2, ... , y son, por tanto, variables discretas. Pero al igual que sucede con las varia-
82
Capítulo 10. Variables aleatorias
bles estadísticas existen variables aleatorias que pueden tomar cualquier valor
dentro de un intervalo dado: son variables aleatorias continuas. Mientras que para
una variable discreta cada valor posible de la misma tiene asociado una probabili-
dad concreta de que tome ese valor, en el caso continuo la variable aleatoria puede
tomar los infinitos valores que existen en su intervalo de definición, resultando que
la probabilidad de un valor particular es cero. Si hablamos del peso de todas las
personas residentes en España, la probabilidad de encontrar una persona que pese
exactamente 61,345768934123 kg será prácticamente nula; sin embargo encon-
traremos un porcentaje apreciable de personas cuyo peso esté comprendido entre
60 y 65 kg. Es decir, en el caso de variables continuas en lugar de hablar de fun-
ción de probabilidad, hablamos de densidad de probabilidad: la masa unitaria de
probabilidad se distribuye en el intervalo de definición de la variable de forma que
en unas zonas la densidad de probabilidad es mayor que en otras. En el caso del
peso de personas, encontraremos un mayor porcentaje de personas (mayor densi-
dad de probabilidad) con peso entre 60 y 65 kg que entre 130 y 135 kg.
0,25 T
0,2
0,15
0,1 -
0,05 -
2 3 4 5 6 7 8 9 10 11 12 13 14 15
Valor de la variable
83
Capítulo 10. Variables aleatorias
0,250
0,196 0,197
0,200
-o 0,150 ~
m '
~
..o
m
..o
o
et 0,100 -
0,050
0,009 0,009
l ~ I
3 4 5 6 7 8 9 10 11 12 13
Valor de la variable
84
Capítulo 1O. Variables aleatorias
2 3 4 5 6 7 8 9 10 11 12 13 14 15
Valor de la variable
85
Capítulo 11. Muestreo probabilístico y muestreo aleatorio simple
Capítulo 11
Muestreo probabilístico y muestreo aleatorio
simple
1. Introducción
1. Vimos en el capitulo 2 que una muestra es una parte de una población y que
el objetivo que se tiene al estudiar una muestra es el conocimiento de característi-
cas o valores de todo el conjunto poblacional del que se ha tomado la muestra, es
decir, nuestro interés es el conocimiento de valores poblacionales. Un valor pob/a-
cional es una expresión que sintetiza los valores de la variable de estudio en las N
unidades de la población completa. Así, si llamamos x a la variable, podemos estar
N
N ¿x
interesados en conocer su total X= ¿x o su promedio
1
X = -1-
N
en toda la
87
Capítulo 11. Muestreo probabilístico y muestreo aleatorio simple
mente pequeño, por ejemplo una muestra de 10.000 personas, el número de po-
sibles muestras es prácticamente infinito. Cuando tomamos una muestra de n
unidades para conocer un valor poblacional lo que obtenemos es una estimación
del mismo que, dependiendo de qué elementos entren en la muestra, podrá tomar
valores diferentes. Es decir, el valor estimado es un valor obtenido con los datos
proporcionados por las unidades de la muestra y como tal es un valor único para
cada muestra, pero depende de las n unidades concretas que se hayan seleccio-
nado, varía de muestra a muestra: muestras diferentes proporcionan estimaciones
diferentes.
88
Capítulo 11. Muestreo probabilístico y muestreo aleatorio simple
2. Sobre el eje de abscisas se señalan los componentes de cada una de las posi-
bles 20 muestras aleatorias de tamaño 3, todas equiprobables, es decir la probabi-
lidad de tomar una muestra cualquiera es 1/20. En el eje de ordenadas se señala
para cada una de las muestras la media muestra! correspondiente. También se
indica la media poblacional que es constante e igual a 5,7, de acuerdo al cálculo
anterior.
3. El gráfico refleja cómo el valor poblacional (la media) es una constante pero su
estimador (la media muestral) presenta valores diferentes según las unidades que
componen la muestra, es decir, la estimación, varía de muestra a muestra. Puede
observarse también como las distintas estimaciones se sitúan alrededor del verda-
dero valor que se quiere estimar.
4. Puesto que cada muestra en el ejemplo tiene una probabilidad de 1/20 de ser
seleccionada, cada uno de los 20 valores muestrales tiene también una probabili-
89
Capítulo 11. Muestreo probabilístico y muestreo aleatorio simple
dad de 1/20 de ser obtenido, es decir, denotando por x la media muestra! resulta
P(x=2,7)=P(x=3,7)= .. ·=P(x=8,7)=1/20. Este conjunto de posibles valores del
estimador junto con la probabilidad de obtener cada valor constituye la distribución
en el muestreo del estimador. En base a esta distribución puede calcularse la pro-
babilidad de que el estimador tome valores en un cierto intervalo; así, el intervalo
(4,5; 6,5) comprende 9 de las 20 muestras. Es decir, la probabilidad de que la me-
dia muestra! tome valores comprendidos entre 4,5 y 6,5 es de 9/20.
(J =
n
donde x = ~X¡ es el valor medio. En nuestro caso xi son las 20 estimaciones del
90
Capítulo 11. Muestreo probabilístico y muestreo aleatorio simple
91
Capítulo 11. Muestreo probabilístico y muestreo aleatorio simple
Intervalo % de
estimación % muestras
20 0,0
22 3,0
24 25,0
26 38,0
28 29,0
30 4,0
32 1,0
92
Capítulo 11. Muestreo probabilístico y muestreo aleatorio simple
co
·¡:;
e
Q)
:J
u
Q)
L.t
0,0% 0,5%
45,0%
40,0%
35,0%
30,0%
co
·g 25,0%
Q)
:J
u
L.tQ) 20,0%
5,0%
93
Capítulo 11. Muestreo probabilístico y muestreo aleatorio simple
verdadero estimación
valor
68,3 % de confianza
94
Capítulo 11. Muestreo probabilístico y muestreo aleatorio simple
4 5 6 7 8 9 10 11 12 13
media estimada (intervalo de clases)
del total implica multiplicar cada valor de la muestra por el factor ~ denominado
n
media es crx = ✓ 5 - 3 3'~ = 1,5, que coincide con el allí calculado sobre la base de
6-1 -v3
sobre el uso de s 2 ).
96
Capítulo 11. Muestreo probabilístico y muestreo aleatorio simple
Suele ser muy habitual manejar los errores estándar en términos relativos, que
se obtienen al dividir el error absoluto por el valor estimado:
CT- S CV
eer = _: = - - = -
X x✓n ✓n
s
donde cv = = es una estimación del coeficiente de variación de la población calcu-
x
lado con los datos muestrales. Fácilmente puede comprobarse que el error están-
dar relativo es igual para la media que para el total.
97
Capítulo 11. Muestreo probabilístico y muestreo aleatorio simple
50
,L.; (X¡ - -X)2
"'""'
1
(incluyendo las no ocupadas) y la desviación típica s = es 1,70 per
n -1
sonas. Puesto que N = 5.000 y n = 50, el factor de expansión de los datos mues-
trales es 5.000/50 = 100 y obtenemos la población estimada de la ciudad multipli-
cando los datos muestrales por 100:
y una confianza del 95,5% de que el verdadero valor esté comprendido en el inter-
valo
' d ar en terminas
El error estan ' . re 1atIvos
. es eer ºº
2 - = 9, 8 '?o,
= -1 ·-
12.200
)/ .
Igua 1 para 1a me-
98
Capítulo 11. Muestreo probabilístico y muestreo aleatorio simple
cr = ✓ p(1-p) = -
0,16(1-0,16) 52
---- = t
pun os
P n 50 '
99
Capítulo 11. Muestreo probabilístico y muestreo aleatorio simple
4.500 ',.
\;;4,225
·,
4.000
3.500
~
tí
Q)
3.000
::,
E
0 2.500
,e
m
§ 2.000
1-
1.500
1.000
500
o
1,4 1,2 0,8 0,6 0,4 0,2
Coeficiente de Variación
ción muestral debería calcularse como cr~ =(1-~)p(,-p). Sin embargo el factor
N n-1
(1-n/N) es muy pocas veces importante y con muestras de tamaño moderado o
grande no importa que se trabaje con n ó n-1. De ahí que en 11.4.4 se haya utili-
.' ~
za do 1a expresIon crP = ✓ p(1-
n
p)
.
100
Capítulo 12. Población y marco. Muestreo en etapas
Capítulo 12
Población y marco. Muestreo en etapas
1 Una sección censal es una porción de territorio bien delimitado. Las secciones censales cubren todo
el territorio nacional y no se solapan entre sí. España está dividida en unas 34.000 secciones, con un
tamaño medio que no llega a 1.500 habitantes.
101
Capítulo 12. Población y marco. Muestreo en etapas
se toma una muestra de viviendas. Tenemos dos unidades de muestreo: las sec-
ciones, en primer lugar, y las viviendas de las secciones de la muestra, en segundo
lugar. Las unidades de estudio son las personas que habitan las viviendas selec-
cionadas. La muestra de la EPA es un ejemplo de muestreo en dos etapas.
2. Marco de muestreo
1. El concepto de población establecido anteriormente como conjunto de unida-
des de las que se desea información, se refiere a la población objetivo o población
de referencia y constituye un modelo ideal. En la práctica, la muestra se selecciona
a partir de un material soporte, denominado marco, que coincide en mayor o me-
nor grado con la población objetivo. En sentido estricto, el marco de muestreo se
define como la lista de unidades de muestreo a partir de la cual se selecciona la
muestra.
102
Capítulo 12. Población y marco. Muestreo en etapas
3. Muestreo en etapas
1. Es frecuente que el muestreo de unidades elementales no sea utilizado en la
práctica por la imposibilidad práctica en muchas ocasiones de obtener una lista de
unidades elementales en la cuál basar la selección de la muestra, y también por-
que la selección de unidades elementales proporciona en general una muestra
muy esparcida de unidades a entrevistar con el consiguiente incremento de coste
y tiempo.
103
Capítulo 12. Población y marco. Muestreo en etapas
104
Capítulo 13. Muestreo estratificado
Capítulo 13
Muestreo estratificado
1. Definición y objetivos
1. El muestreo estratificado consiste en : 1º) Dividir la población de N unidades
en un cierto número de subpoblaciones llamadas estratos, de forma que las unida-
des que componen cada estrato sean lo más homogéneas posibles en cuanto a la
variable objeto de estudio. Cada unidad de la población ha de pertenecer a uno y
sólo uno de los estratos formados. El número de unidades que pertenecen a un
estrato dado es el tamaño del estrato. 2º) Seleccionar una muestra probabilística
en cada estrato. La muestra de cada estrato es independiente de la muestra de
cualquier otro estrato. Si la muestra dentro de cada estrato es una muestra aleato-
ria simple (probabilidades iguales) tenemos el muestreo aleatorio estratificado.
105
Capítulo 13. Muestreo estratificado
2. Sabemos que la superficie de venta está correlacionada con las ventas según
puede verse en el gráfico.
106
Capítulo 13. Muestreo estratificado
200
180 o
160 o
o
140
o
o
120 o o o
o
(/)
ca o
~ 100 · ºººocg o
o o
o 8
(1) 80 o o
> ºo aogo oo o o
o o o o o
o
80 ºººº
Soggi ºo
o o o
oc° o o 8 o o o
0 00°
60 o o o ºº o
o cPo 0
40 8 o
o
o 2.000 4.000 6.000 8.000 10.000 12.000 14.000 16.000 18.000 20.000
Superficie de venta
Podemos utilizar la superficie como variable para formar tres estratos: entre 400
y 999 metros cuadrados, de 1.000 a 2.499 m 2 y 2.500 m 2 y más. Los datos pobla-
cionales se resumen en la siguiente tabla:
107
Capítulo 13. Muestreo estratificado
3. Afijación
1. En muestreo estratificado surge el problema de cómo distribuir la muestra to-
tal entre los estratos, que se conoce como afijación de la muestra. En principio la
muestra puede distribuirse de cualquier forma, según el buen juicio del diseñador
de la misma. Pero lo normal es que se utilice alguno de los dos siguientes crite-
rios.
3. La afijación óptima distribuye la muestra total entre los estratos de forma que
se minimice el error de muestreo. Para ello tiene en cuenta no sólo el número de
unidades de cada estrato, sino también la desviación típica de cada uno. En el caso
de los supermercados puede verse en el cuadro que la desviación típica en cada
estrato varía entre 2, 11 en los pequeños y 38,08 en los más grandes y la conse-
cuencia es que la afijación óptima tira de la muestra hacia los grandes. La anterior
muestra de 100 supermercados repartida de forma óptima supondría muestrear
30, 20 y 50 supermercados en los estratos 1, 2 y 3, respectivamente, es decir, la
muestra se va hacia los estratos con mayor desviación típica. El error de muestreo
que se obtendría con esta distribución muestra! es del 5,9%. Vemos, pues, que la
estratificación y la forma de distribuir la muestra entre estratos puede producir
importantes ganancias en precisión:
108
Capítulo 13. Muestreo estratificado
19,9%
11,6%
109
Capítulo 14. Estimador de razón
Capítulo 14
Estimador de razón
n=100 Yn Xn
total muestra! y=5.100 t x=1.700 ha
A N n N
Y=- ¿Y¡ =-y=50*5.100=255.000t
n 1 n
111
Capítulo 14. Estimador de razón
X=-
n
~ N
¿xi =-X=50*1.700=85.000
n
1
N
n
ha
X X
El cociente - - - constituye una cierta medida de la representatividad de la
X X
En muestro ejemplo
y = 255 .000 t 1OO .OOO ha = 255 .OOO t 100 .000 ha = 3 ¼ 100 .000 ha = 300 .000 t
R 85.000 ha 85.000 ha ha
YR =Ny
n
Nx
-x
=X
x
:t Y¡=
1
100.000ha 5.100 t
1.700ha
= 300.000 t
n
es decir, el estimador del total por razón equivale a la expansión de los datos
muestrales mediante el factor X/x , relación entre el valor poblacional y el valor
muestra! de la variable auxiliar X; , en lugar de utilizar la expansión N/n de número o
expansión simple, directa o de diseño. Al factor X/x le llamamos factor-X. El co-
ciente entre ambos factores coincide con la medida de representatividad muestra!
X
-;;- , ya que
X
112
Capítulo 14. Estimador de razón
3. Otros ejemplos del método de razón los encontramos cuando se estiman ven-
tas o valores de producción de una población de empresas o establecimientos
utilizando los datos de personal empleado como variable auxiliar. En general, cuan-
713
Capítulo 15. Muestreo sistemático
Capítulo 15
Muestreo sistemático
1. Sea una población {u 1,u 2 , .. . ,uN}. La selección sistemática de una muestra den
unidades se realiza en la siguiente forma: sea k = N/n (suponemos N divisible por
n), tomamos un número i al azar 1::; i::; k con probabilidad 1/k y la muestra siste-
mática queda formada por las n unidades {u¡,ui+k,ui+zk, ... ,ui+(n-,)iJ Como vemos, la
selección de la primera unidad determina la muestra completa y existen k = N/n
muestras posibles. Las k muestras posibles son equiprobables (prob. = 1/k) y la
probabilidad de que la unidad u; esté en la muestra es 1/k = n/N. La media mues-
tra! es el estimador insesgado de la media poblacional.
2. Por ejemplo si N=60 y n=1 O tenemos (k=6) las siguientes seis muestras posibles,
dónde se indica el valor de la variable X en estudio en cada unidad seleccionada:
Muestra
2 3 4 5 6
x1 x2 x3 x4 \ x6
x7 XB xg \o \1 x12
x49 x5º x51 x52 x53 x54
x55 x56 x57 x58 x59 x6º
3. El muestreo sistemático es de fácil aplicación práctica y asegura además que
la muestra se extiende a toda la población. El comportamiento del muestreo sis-
temático respecto al muestreo aleatorio simple, depende en gran medida de las
propiedades de la población. En poblaciones en las cuales la numeración de las
unidades puede considerarse al azar respecto a la característica que se mide, ca-
bría esperar que el muestreo sistemático fuera equivalente al muestreo aleatorio
simple y que tuviera un error de muestreo similar e incluso menor por su efecto
distribuidor de la muestra.
115
Capítulo 15. Muestreo sistemático
Muestrn
1 2 3 4 5 6
30 50 70
- -
90 11 O 130
150 170 190 210 230 250
270 290 310 330 350 370
390 410 430 450 470 490
510 530 550 570 590 610
630 650 670 690 710 730
750 770 790 810 830 850
870 890 910 930 950 970
Media 450 470 490 510 530 550
1.200
1.000
(l)
800
:oro
·~
>
~ 600
<D
-o
o
ro
>
400
200
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47
Unidad u1
116
Capítulo 15. Muestreo sistemático
6. En poblaciones cuya ordenación tiene una componente periódica hay que ser
especialmente cuidadosos en el uso del muestreo sistemático. El cuadro y gráfico
que siguen presenta los datos de una población con valor medio X= 198 y las
distintas muestras sistemáticas:
Muestra
2 3 4 5 6 7
- - 8 9
101 169 289 258 128 119 246 294 182
100 186 295 242 117 131 261 287 165
101 204 299 226 108 145 274 277 149
106 221 299 208 102 161 285 265 134
114 238 297 191 100 178 293 250 122
125 254 291 173 100 195 298 234 112
Media 108 212 295 216 109 155 276 268 144
(1)
:oro
>
fü 200 - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
.!Q
\
(1)
~ 150
-º
100
1 muestra 2 1
50 media poblacional
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53
Unidad U¡
117
Capítulo 15. Muestreo sistemático
Muestra
1 2 3 4 5 6 7 8 9
195 246 261 242 173 295 102 293 100
234 169 100 117 178 131 100 186 299
112 287 114 277 165 297 226 204 250
299 254 101 294 274 145 134 122 125
101 289 161 238 191 106 285 182 128
258 108 298 208 119 265 149 291 221
media 200 226 173 229 183 207 166 213 187
El gráfico proporciona las medias estimadas por cada muestra sistemática cuan-
do la ordenación tiene una componente periódica o es aleatoria: la variabilidad de
las estimaciones (error de muestreo) con ordenación aleatoria es sensiblemente
menor.
350 ---
300-----
250
o
u
Pºº
·_¡:;
(f)
(1)
.2150 - - - - - - -
>"'
100 - - - - - -
50
o~--------,----------,----~---,-----~-----~-----------1
2 3 4 5 6 7 8 9
Muestra
118
Capítulo 15. Muestreo sistemático
Media poblacional
119
Capítulo 16. El efecto del diseño
Capítulo 16
El efecto del diseño
Efd = v(x)
V as (X)
De dónde
_ _ n s2 s2 s~
v(x) = v as(x) · Efd = (1--)-· Efd =- ·Efd = -
N n n n
con
121
Capítulo 16. El efecto del diseño
, . . , v(x) s2 cv 2 cv 2
En termmos relativos tendriamos ~ = _ 2 Efd = -
· . Efd = _ d
x x n n n
2. s~ puede considerarse como una varianza por elemento que incorpora todas
las complejidades del diseño muestra! y, por tanto, varía con cualquier cambio que
se haga en el diseño de la muestra, mientras que s2 se refiere a la varianza por
elemento sin considerar el diseño muestra!. De la misma forma cv sería el coefi-
ciente de variación sin incluir el diseño muestra! y cvd se referiría a un coeficiente
de variación que incorpora toda la complejidad del diseño. El Efd suele ser menor a
la unidad en muestreo estratificado, expresando la reducción en la varianza debida
a la estratificación, mientras que en muestreo de conglomerados será mayor que
uno debido al similar comportamiento de las unidades dentro de cada conglomera-
do, que hace perder eficiencia al muestreo. Una ventaja de introducir la idea del
efecto del diseño es que permite manejar, en diseños de muestreo complejos, los
conceptos de error estándar y tamaño de muestra con las fórmulas sencillas del
muestro aleatorio simple.
122
Capítulo 17. Otros aspectos del muestreo
Capítulo 17
Otros aspectos del muestreo
123
Capítulo 17. Otros aspectos del muestreo
124
Capítulo 17. Otros aspectos del muestreo
b) Mantener en cada periodo una proporción rcc de muestra común con el perio-
do anterior, renovando el resto de la muestra.
4. Con los datos de muestras sucesivas de la misma población hay tres clases
de cantidades a estimar y, en cada caso, la política de renovación de la muestra es
diferente si deseamos maximizar la precisión:
125
Capítulo 17. Otros aspectos del muestreo
- Para estimar el valor promedio sobre varios periodos, es mejor tomar muestras
independientes en cada periodo.
126
Capítulo 17. Otros aspectos del muestreo
127
Capítulo 18. Errores ajenos al muestreo
Capítulo 18
Errores ajenos al muestreo
1. Introducción
1. Hasta ahora hemos supuesto que 1) la población marco coincide con la pobla-
ción objetivo, 2) que la muestra real alcanzada se corresponde con la muestra ini-
cialmente planificada y seleccionada probabilísticamente y 3) que la información
obtenida en cada unidad muestra! es correcta. En estas condiciones la única fuen-
te de error del estimador es el error de muestreo que es la variación aleatoria que
se presenta cuando se miden n de las unidades en lugar de la población completa
N. Lamentablemente esta situación ideal no se da con frecuencia en la práctica y
debemos asumir la presencia de otros errores, que se presentan cuando no se
cumple cualquiera de los tres supuestos mencionados y que se agrupan bajo el
nombre de errores ajenos al muestreo.
2. Errores de cobertura
1. Cuando la población marco no coincide con la población objetivo tenemos los
llamados errores de cobertura. Recordemos que la población marco es la población
que sirve de base para la selección de la muestra. Podemos pensar en un listado
del que se selecciona la muestra: puede haber unidades de la población objetivo
no contenidas en el listado (omisiones) o puede haber unidades en el listado que
no se corresponden con la población objetivo (unidades vacías), incluso el listado
puede contener unidades duplicaqas:
129
Capítulo 18. Errores ajenos al muestreo
Omi-
(1) siones
(3)
3. Falta de respuesta
1. Cuando la muestra real alcanzada no se corresponde con la muestra inicial-
mente planificada, es decir, no se obtiene información en todas las unidades de la
muestra, decimos que existe falta de respuesta o no respuesta. Aparte la no res-
puesta por unidades omitidas en el marco, ya mencionada, la falta de respuesta
puede agruparse en dos principales tipos:
130
Capítulo 18. Errores ajenos al muestreo
a3) Enfermedad.
b7) Los hueso duro. Personas que cerradamente rechazan ser entrevistadas o
están sistemáticamente fuera de casa durante el tiempo disponible para el trabajo
de campo.
b8) Falta de habilidad del entrevistador para conseguir la colaboración. Vale aquí
el comentario de a6): hay entrevistadores que consiguen mejores tasa de respues-
ta que otros.
131
Capítulo 18. Errores ajenos al muestreo
3) Programar visitas repetidas puede ser de gran efectividad para reducir los
no-en-casa.
132
Capítulo 18. Errores ajenos al muestreo
4. Errores de medida
133
Capítulo 18. Errores ajenos al muestreo
2. Como comentario final hay que decir que al planear un estudio por muestreo
debe prestarse especial atención a los errores no de muestreo que pueden pre-
sentarse en cualquier fase del trabajo y, si son importantes, incluso invalidar los
resultados. Por otra parte detectarlos y cuantificarlos no es tarea fácil. Sólo la anti-
cipación y el análisis cuidadoso de cada paso en el proceso de muestreo y de los
resultados pueden ayudar. Los errores de muestreo desde el momento que pue-
den ser evaluados y estimados dejan de tener importancia. El error de muestreo
se constituye en una medida de la calidad del diseño teórico de la muestra pero no
mide la calidad real, afectada por los errores no de muestreo.
134
t\ muestreo -
238; datos de une
f l stras sisternál,._
__fl- _:.-:..:.---
ra 3