Examenes Resueltos Estadística Social PDF
Examenes Resueltos Estadística Social PDF
Examenes Resueltos Estadística Social PDF
htm
Ejercicio1.
La distribución que figura a continuación muestra el número de años de experiencia docente que presenta
una muestra de profesores titulares de una universidad determinada.
Ejercicio 2.
Un jugador de baloncesto tiene la probabilidad de encestar una canasta de 0,75. Si realiza una serie de 20
lanzamientos, ¿cuál es la probabilidad de que acierte exactamente 15 canastas? ¿y 16 ó más canastas en
esa misma serie?
Ejercicio 3.
En una encuesta del CIS sobre uso de los teléfonos móviles realizada en septiembre de 2000 y aplicada a
una muestra de 2500 españoles, 910 declararon que utilizaban el teléfono móvil todos los días. La media
de edad de este grupo de usuarios es de 31,7 años y la desviación típica de 6,3 años. La edad se distribuye
normalmente.
Calcular:
a) El número de usuarios de teléfono móvil con 38 o más años.
b) El número de usuarios entre 25 y 35 años.
c) El porcentaje de usuarios menores de 35 años.
d) ¿Entre qué edades alrededor de la media se moverá el 90% de los casos?
Ejercicio 4.
En un municipio de 1.500.000 habitantes, se conoce que el 60% suelen realizar sus compras en grandes
almacenes. Se ha realizado una encuesta sobre la posibilidad de mantener abiertos dichosa
establecimientos todos los domingos del año, con una muestra de 900 personas y un nivel de confianza del
95,5%.
a) ¿qué error máximo se ha admitido?
b) ¿Qué tamaño debería tener la muestra para que con el mismo nivel de confianza el error admitido
fuera del 2%?
c) ¿Qué ocurriría con el tamaño de la muestra si deseáramos aplicar un 99,7% de nivel de confianza?
Explique las ventajas e inconvenientes de la ampliación y reducción del nivel de confianza.
Soluciones
1 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .htm
Ejercicio 1.
a) Para representar gráficamente los datos hay que tener en cuenta que los intervalos no son
iguales. En este caso no es correcto utilizar las frecuencias relativas como alturas de los
polígonos, sino que se deben calcular las alturas de modo que las áreas de cada polígono
sean proporcionales a las frecuencias relativas.
Si el área de un rectángulo es igual al producto de la base y la altura, dado que queremos que
el área S sea igual al porcentaje de casos en cada intervalo y conocida la base b (amplitud de
El gráfico
muestra una distribución asimétrica (negativa), al estar más concentrados los casos en los
valores altos de la variable. Es decir, en los intervalos de mayor valor en años de experiencia
se reúnen más casos que en los de menor experiencia. El número de casos en cada categoría
aumenta al incrementarse los años de experiencia hasta el intervalo 3-5, para permanecer
luego constante.
2 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .htm
Media: es necesario calcular las marcas de clase xi , o puntos medios de cada intervalo.
Años experiencia xi n xi n
menos de 1 año 0,5 350 175
1-2 2 1300 2600
3-4 4 1500 6000
5-6 6 1500 9000
7-8 8 1500 12000
Total 6150 29775
La media será:
Años n Na
experiencia
menos de 1 año 350 350
1-2 1300 1650
3-4 1500 3150
5-6 1500 4650
7-8 1500 6150
6150
La mediana:
La moda: puede ser definida como el valor de la variable tal que su frecuencia es superior a la
del valor anterior y a la del valor posterior. Esto quiere decir que puede haber varias modas
relativas, siendo la moda absoluta la mayor de ellas. En este caso, tres de las categorías
presentan un valor máximo idéntico, ninguno de los tres valores de la variable cumple la
condición antes enunciada. Ante las dificultades para calcular la moda a partir de
distribuciones con datos agrupados conviene aplicar el criterio propuesto por García Ferrando
(p.89) para obtener el valor de la moda calculando el punto medio de la clase que contiene la
mayor frecuencia. Al haber tres categorías contiguas con la máxima frecuencia, puede
estimarse la moda considerando que el intervalo modal es la suma de los tres intervalos. El
intervalo modal sería por tanto el que contiene los valores de la variable entre 3 y 9, siendo su
punto medio 6.
3 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .htm
xi xi2 ni xi2 ni
0.5 0.25 350 87.5
2 4 1300 5200
4 16 1500 24000
6 36 1500 54000
8 64 1500 96000
Total 179287.5
d) No se da una agrupación de los casos alrededor de la media demasiado alta. Los casos
están repartidos de forma muy homogénea. Llama la atención el corto recorrido de la variable
no habiéndose recogido en la muestra ningún caso con más de 9 años de experiencia. Para
obtener un análisis más detallado sería necesario conocer la antigüedad de la universidad y la
política de contratación en los últimos años.
Ejercicio 2.
4 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .htm
Ejercicio 3.
De los 2500 usuarios sólo 910 utilizan el teléfono a diario. Centrándose en este colectivo y
sabiendo que tienen una edad media de 31,7 años y una desviación típica de 6,3 podemos
utilizar las tablas de la curva normal para calcular el porcentaje de casos que quedan entre la
media y un valor dado.
Consultando la tabla “áreas bajo la curva normal” obtenemos que el valor Z=1 se corresponde
con el valor 0,3413; es decir, el 34,13% de los casos se encuentran entre la media y una
unidad de desviación típica, es decir, entre 31,7 y 38 años. Pero como queremos conocer el
porcentaje de casos que exceden de 38 es necesario restar ese valor de 0,5 ya que el área
bajo la curva normal es igual a la unidad y en la tabla sólo se presentan la mitad de los valores
(los valores positivos de Z).
0,5-0,3413=0,1587
Como se pide el número de usuarios, es necesario calcular el 15,87% de los 910 usuarios, lo
que arroja un valor de 144 usuarios de 38 o más años.
5 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .htm
La proporción de casos comprendidos entre los 25 y los 35 años será entonces la suma:
0,1985 + 0,3554 = 0,5539. Es decir, que el 55,39% de los casos estarán comprendidos en el
intervalo de edad señalado. Expresado en número de usuarios será el 55,39% de 910 = 504
c) Basándonos en el cálculo del apartado b), sabemos que la proporción de casos entre la
media y el valor 35 es 0,1985. Si añadimos 0,5 correspondiente a todos los valores menores a
la media: 0,1985 + 0,5 = 0,6985. Expresado en porcentaje, el 69,85% de los usuarios que
utilizan el teléfono móvil todos los días tiene menos de 35 años.
d) Como el 90% de los casos está repartido por igual a ambos lados de la media, y las tablas
nos dan solamente los valores positivos de Z, hallaremos el valor correspondiente a la mitad
de 0,9; es decir, de 0,4500 que en la tabla es Z=1,65.
6 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .htm
Por tanto podemos afirmar que el 90% de los usuarios habituales de teléfono móvil alrededor
de la media se encuentra entre los 21 y los 43 años.
Ejercicio 4.
a) Utilizando la fórmula del tamaño muestral para poblaciones “infinitas”, puede despejarse el
valor del error.
El valor de Z correspondiente al nivel de confianza del 95,5 se obtiene dividiendo 0,9550 entre
2 con lo que se obtiene 0,4775 que en las tablas “área bajo la curva normal” coincide con el
valor Z = 2.
Los valores de p = 0,6 y q = 0,4 se obtienen del enunciado: 60% de personas que hacen sus
compras en grandes almacenes y consecuentemente 40% de personas que no las hacen.
despejando e tenemos:
el error admitido sería del 3,27%
El número de unidades muestrales necesarias con un nivel de confianza del 95,5% y un error
admitido del 2% es de 2.400
7 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .htm
Como puede verse el tamaño de la muestra aumenta de forma sensible al incrementar el nivel
de confianza. Un nivel de confianza del 99,7% significa que ese porcentaje de las muestras
posibles arrojaría un valor de p que estaría comprendido entre + 2,96 y – 2,96 unidades de
desviación típica, y sólo un 0,03% de las muestras nos darían un valor más extremo. Al
aumentar el nivel de confianza aumenta la proporción de muestras posibles que arrojarían
valores comprendidos en el intervalo, pero también crecería la magnitud del intervalo. También
aumentaría el tamaño de la muestra necesaria, si quisiéramos mantener el error máximo
admitido en el mismo nivel.
8 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm
Ejercicio1.
En un estudio sobre defensa y política exterior realizado en noviembre de 1977, se trabajó con una
muestra de 1211 personas. De ellas, 546 consideraban que la razón por la que seguía existiendo la OTAN
radicaba en que “los Estados Unidos quieren controlar el sistema de defensa europeo”. Esta respuesta se
distribuía por edad del siguiente modo:
Edad %
18-29 31,3
30-49 38,5
50-64 17,2
65 y más 13,0
(N=546)
Ejercicio 2.
En tres aulas distintas se da la composición de alumnos en función de su clase social, según la siguiente
tabla.
Aula Baja Media Alta Total
A 10 5 5 20
B 20 20 20 60
C 10 20 10 40
a) ¿Cuál es la probabilidad de que al extraer al azar un sujeto de cada aula, al menos uno de ellos sea
de clase social alta?
b) ¿Cuál es la probabilidad de que al extraer un sujeto de cada aula, al menos uno de ellos sea de
clase social baja o media?
Ejercicio 3.
En una universidad española que tiene en nómina a 725 profesores, la media de años de trabajo es de 7,3
y la desviación típica de 4,2 Suponiendo que se distribuyan normalmente:
a) ¿A cuantas unidades de desviación típica se encuentra un profesor que lleva 10 años en la
universidad respecto a la media del colectivo?
b) ¿Qué número de profesores lleva menos de tres años en la universidad?
c) ¿Cuál será el menor número de años trabajados por los 100 profesores que llevan el máximo
número de años en la universidad?
Ejercicio 4.
En un estudio sobre el maltrato a mujeres queremos realizar una encuesta dirigida al colectivo femenino.
¿Qué tamaño deberá tener la muestra sabiendo que el total de habitantes de más de 16 años es de 32.000
y que el 53,8% son mujeres?
Nivel de confianza = 95,5%. Error máximo = 3%.
Soluciones
Ejercicio 1.
a) Antes de calcular las frecuencias acumuladas necesitamos conocer las frecuencias absolutas. Lo
haremos a partir de los porcentajes que es el único dato que tenemos. Lo haremos mediante la relación:
1 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm
% n fra
18-29 31,3 171 0,313
30-49 38,5 210 0,698
50-64 17,2 94 0,870
65 y más 13,0 71 1
En la tabla anterior se han calculado también las frecuencias relativas acumuladas. Para ellos
se ha utilizado:
n Na
18-29 171 171
30-49 210 381
50-64 94 475
65 y más 71 546
Para el cálculo de la media debemos calcular las marcas de clase. Por ejemplo para el primer
intervalo, Li el límite inferior es 18 y Ls el límite superior es 29,9999 30. (Por ejemplo una
persona con 29 años 9 meses y siete días, se dice que tiene 29 años).
En este caso:
2 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm
Xi n NXi
18-29 24 171 4104
30-49 40 210 8400
50-64 57,5 94 5405
65 y más 77 71 5467
Total 546 23376
La media será:
c) En este caso como se trata de una variable continua “edad”, una buena solución es la
varianza o la desviación típica. El cálculo de la varianza lo haremos con ayuda de la siguiente
tabla:
Xi n n(Xi)2
18-29 24 171 98496,0
30-49 40 210 336000,0
50-64 57,5 94 310787,5
65 y más 77 71 420959,0
Total 546 1166242,5
3 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm
4 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm
d) Para la representación gráfica en un histograma hay que tener en cuenta que los intervalos,
tienen distinta amplitud, por ello habrán de calcularse las alturas “h”. La base “b” de la figura
es Base=Ls-Li. El área “a” en este caso serán las frecuencias relativas.
Base Área h
18-29 12 31,3 2,6
30-49 20 38,5 1,9
50-64 15 17,2 1,1
65 y más 25 13,0 0,5
5 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm
¿Quiere esto decir que los jóvenes suponen en mayor medida que los mayores que los
“Estados Unidos quieren controlar el sistema de defensa europeo”? Con los datos que
tenemos no podemos afirmarlo así, puesto que en la población general también hay más
jóvenes que mayores.
Ejercicio 2.
a) En este ejercicio se obtiene una muestra de tres elementos en la que cada elemento
pertenece a un estrato (aula). Si denotamos con “1” cuando el elemento seleccionado es
de clase alta y con un “0” en el caso contrario, existen 23=8 muestras posibles:
Aula
A B C
Muestra 1 1 1 1
Muestra 2 1 1 0
Muestra 3 1 0 0
Muestra 4 0 1 0
Muestra 5 0 1 1
Muestra 6 1 0 1
Muestra 7 0 0 1
Muestra 8 0 0 0
La suma de la probabilidad que tiene cada muestra de ser seleccionada es la unidad. De las
ocho muestras en 7 hay un individuo de clase alta. Resulta más cómodo calcular la
probabilidad de obtener la muestra en la que no hay nadie de clase alta y obtener el
complemento a la unidad de dicha probabilidad. Este resultado sería idéntico que la suma de
la probabilidad de las siete primeras muestras.
PA(1)=5/20=0,25 PA(0)=0,75
PB(1)=20/60=0,333 PB(0)=0,667
PC(1)=10/40=0,25 PC(0)=0,75
PA(0)=5/20=0,25 PA(1)=0,75
PB(0)=20/60=0,333 PB(1)=0,667
PC(0)=10/40=0,25 PC(1)=0,75
(En este caso hemos calculado la probabilidad de que la muestra esté compuesta por tres
elementos de clase alta y hemos hallado su complemento respecto a la unidad.)
Ejercicio 3.
6 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm
a)
b)
7 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm
Área(0-1)=0,3413
P(x<3)=0,5-0,3413=0,1587
c)
El área pintada corresponde con los cien profesores más antiguos. Dicho área vale:
El valor pedido es el límite inferior del área sombreada “x”. En primer lugar vamos a hallar el
valor Z correspondiente. Como desde la media hasta el extremo superior el área es ½, el área
no sombreada valdrá:
0,5-0,1379=0,3621
8 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm
Así obtenemos que los cien profesores más antiguos llevan como mínimo 11,9 años.
4. Ejercicio
N=32300x0,538=17377,4
Con n=1044 obtendremos un error inferior al 3% para un nivel de confianza del 95,45%
9 de 9 06/04/2012 11:49
Examen de Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 1sem...
Ejercicio 2.
En una carrera ciclista de 50 Kilómetros participan 10.300 corredores. A los 10 Km. El número de
corredores es de 9.000; a los 20 Km., el número de corredores es de 7.500; a los 30 Km., llegan 5.000
corredores y concluyen la carrera 3.200 corredores.
A) ¿Qué probabilidad tiene un corredor que inicia la prueba de llegar a los 30 Km.?
B) ¿Qué probabilidad tiene un corredor que ha alcanzado los 20 Km. De llegar a los 30 Km.?
C) ¿Qué probabilidad tiene un corredor que inicia la prueba de completarla?
Ejercicio 3.
En una facultad de Ciencias Políticas y Sociología, la media de edad de los matriculados es de 26 años,
con una desviación típica de 4,7 años. Sabiendo que existen 7.800 alumnos matriculados y suponiendo
que dicha población se ajusta al patrón de la distribución normal,
a) ¿Cuál es la probabilidad de extraer al azar de entre los matriculados un alumno mayor de 35 años?
b) ¿Cuántos alumnos tendrán entre 24 y 28 años?
c) ¿Cuántos tendrán menos de 24 años?
d) ¿Cuál es la edad mínima del 20% de los matriculados de mayor edad?
Ejercicio 4.
La UNED quiere realizar un estudio sobre el porcentaje de egresados que se han incorporado al mercado
de trabajo a partir de los 20.000 licenciados que han obtenido su título entre el año 1990 y 2000. Para ello
piensa dedicar 3.500.000 pesetas en realizar la encuesta. El coste de cada entrevista se sitúa en 5.000
pesetas ¿Cuál será el margen de error si se establece un nivel de confianza de Z=2 (95,5%)
EJERCICIO 1.
A) La representación gráfica mediante líneas permite comparar ambas series de datos de la forma
sencilla y clara. Al ser diferente el número de casos de ambos períodos, se representan las
frecuencias relativas.
1 de 6 06/04/2012 11:52
Examen de Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 1sem...
B) Dado que la variable de las series está medida con nivel de intervalo, conviene utilizar la media y la
desviación típica como medidas de tendencia central y dispersión. Para calcular las medias, definiremos
las marcas de clase para cada categoría, y construiremos una tabla con el producto de cada marca de clase
por la frecuencia correspondiente. Utilizando los subíndices 1 y 2 para diferenciar las series de 1980 y
1998,
Marca de clase Frec. 1980 xini 1980 Frec. 1998 xini 1998
2,5 190 475 69 172,5
7,5 195 1462,5 68 510
12,5 167 2087,5 83 1037,5
17,5 632 11060 581 10167,5
22,5 705 15862,5 827 18607,5
27,5 450 12375 697 19167,5
32,5 445 14462,5 533 17322,5
37,5 338 12675 437 16387,5
Totales 3122 70460 3295 83372,5
En cuanto a las marcas de clase utilizadas para el cálculo, es necesario hacer notar que los intervalos de la
tabla están representados de forma que el límite superior de un intervalo parece no coincidir con el límite
inferior del siguiente. Cuando se presentan los datos resumidos, se han redondeado los valores; cuando
leemos que un intervalo comprende, por ejemplo, de 5 a 9 años, hemos incluido desde 5 hasta 9,999 es
decir hemos tomado años cumplidos, con lo que la marca de clase será 7,5.
años ; años.
Para calcular la desviación típica a partir de los datos agrupados, construimos columnas con la diferencia
2 de 6 06/04/2012 11:52
Examen de Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 1sem...
de cada uno de los valores de la variable respecto a la media, elevadas al cuadrado y multiplicadas por la
frecuencia en cada categoría. Para el año 1980,
años
años.
Si hemos de comparar la dispersión en ambas distribuciones, al tener medias diferentes, utilizaremos el
coeficiente de variación como medida de dispersión relativa:
3 de 6 06/04/2012 11:52
Examen de Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 1sem...
también la mirada hacia los hábitos en la conducción, las medidas de seguridad dirigidas a los
niños, la edad a la que se obtiene el carnet de conducir etc, para un análisis más detallado.
EJERCICIO 2.
A) La probabilidad de que al elegir un corredor al azar, éste haya llegado a los 30 Km, será el
cociente del numero de corredores que alcanza esa distancia dividido por el número total de
corredores:
B) De forma análoga, la probabilidad de que un corredor que ha alcanzado los 20 Km llegue a los 30,
considera el número de casos posibles los 7.500 que llegan a los 20 Km y el de casos favorables los
5.000 que llegan a los 30 Km:
B) Teniendo en cuenta que sólo acaban la carrera 3.200, y que la inician 10.300.:
EJERCICIO 3.
A) Dado que la población se ajusta al patrón de la curva normal, hallaremos la proporción de casos
que superen el valor 35. Para ello calculamos el valor Z para x=35, y obtendremos mediante las
tablas de la curva normal, la proporción de casos que se encuentran entre la media y el valor 35.
Como lo que queremos es saber la proporción de casos por encima de 35, debemos restar el valor
de la tabla para el Z dado de 0,5.
4 de 6 06/04/2012 11:52
Examen de Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 1sem...
como la curva es simétrica y 24 está a la misma distancia de la media que 28, el cálculo de Z para 24
produce un resultado idéntico, por lo que el área entre 24 y 28 será la suma de ambos valores
0,1664+0,1664=0,3328.
El 33,28% de los casos queda comprendido en dicho intervalo: el número de alumnos pedido es el
33,28% de 7.800, es decir: 2.596 alumnos.
C) Utilizando el cálculo del apartado anterior, el número de los que tienen menos de 24 años será
0,5-0,1664=0,3336. El 33,36% de 7.800, resulta 2.602 alumnos.
D) La edad mínima la obtenemos utilizando la fórmula de los números Z , pero despejando el valor de
la variable. En las tablas buscaremos el valor Z que se corresponde con el valor 0,3000 pues la
tabla nos ofrece el área entre la media y un valor de la variable y necesitamos el área entre ese
valor y el extremo de la curva (50%-20%=30%).
si despejamos x, queda:
5 de 6 06/04/2012 11:52
Examen de Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 1sem...
años. Será el valor a partir del cual se encuentra el 20% de los alumnos de
más edad.
EJERCICIO 4.
Si tenemos un presupuesto y se gasta entero en las encuestas, sabiendo que cada entrevista cuesta 5.000
Ptas., se podrán hacer 700. Utilizaremos la fórmula del tamaño muestral y despejaremos el margen de
error:
aunque se podría utilizar la fórmula para poblaciones infinitas al ser n muy pequeño
en relación a N y resultar el factor de corrección muy próximo a la unidad.
Teniendo en cuenta que no conocemos los valores de p y q para la población, calculamos suponiendo el
6 de 6 06/04/2012 11:52
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...
Ejercicio 2. El partido X de un país consigue el 20% de los votos en unas elecciones. Se lleva a cabo un
sondeo a 15 electores:
a) ¿Qué probabilidad existe de que entre los encuestados no haya ningún votante de ese partido?
b) Probabilidad de que no haya más de cuatro votantes al partido X.
c) Probabilidad de que al menos 3 voten a ese partido.
d) Calcular la media y la desviación típica del número de votantes a dicho partido entre los 15
ciudadanos entrevistados.
Ejercicio 3. Las notas de una asignatura en un curso siguen una distribución normal, con media 6,4 y
desviación típica 2,5. Calcule:
a) La probabilidad de que un alumno obtenga menos de 5 puntos.
b) ¿Cuántos alumnos de un grupo de 200 obtendrá sobresaliente con un 8,5 o más?
c) ¿Cuál será la nota a partir de la cual se aprueba, si suspende el 30% de los alumnos de ese curso?
Ejercicio 4. Un Centro de Investigación de Temas de Paz y Seguridad decide realizar una encuesta a los
españoles mayores de 18 años acerca de su opinión sobre la intervención militar en Afganistán. ¿Cuántos
elementos deberá tener la muestra sabiendo que se tolera un error máximo de un 3,5% y se ha de contar con
un nivel de confianza del 95%?
***************
Ejercicio 1
a) La frecuencia relativa de cada categoría será el resultado de dividir la frecuencia absoluta “n” de cada
1 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...
Calificación n fr fra
5,0-5,9 170 0,378 0,378
6,0-6,9 130 0,289 0,667
7,0-7,9 70 0,156 0,822
8,0-8,9 60 0,133 0,956
9,0-9,9 20 0,044 1,000
Total 450 1
b) El cálculo de la media cuando los datos están agrupados será el producto de la frecuencia por el valor
medio de la categoría o marca de clase dividido por el total de casos:
Xc n n Xc
5,5 170 935
6,5 130 845
7,5 70 525
8,5 60 510
9,5 20 190
Total 450 3005
c) La dispersión relativa vendrá dada por el Coeficiente de Variación o cociente de la desviación típica
entre la media, medido en porcentaje:
Xc n (Xc)2 n(Xc)2
5,5 170 30,25 5142,5
6,5 130 42,25 5492,5
7,5 70 56,25 3937,5
8,5 60 72,25 4335,0
9,5 20 90,25 1805,0
Total 450 20712,5
2 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...
Entonces:
d) Se trata de una distribución claramente asimétrica, los casos se concentran en los valores más bajos. Es
por ello una distribución unimodal asimétrica positiva. Su representación gráfica sería una línea
descendente de izquierda a derecha.
3 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...
Ejercicio 2
a) Se pide p(x=0)
Por tanto la probabilidad pedida será la diferencia entre las áreas de valores: Z(x-0,5)-Z(x+0,5)
4 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...
b) Se pide p(x<5)
Por tanto
El valor de su área correspondiente es: F(0,97)=0,3340
Por lo tanto p(x<5) será 0,5+0,3340=0,8340
P(x<5)=83,4%
c) Se pide p(x>2)
Por tanto
El valor de su área correspondiente es: F(-0,32)=0,1255
Por lo tanto p(x>2) será 0,5+0,1255=0,6255
P(x>2)=62,55%
5 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...
d) Cálculo ya realizado:
Media:3
Desviación Típica: 1,55
6 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...
Ejercicio 3
Por tanto
El valor de su área correspondiente es: F(-0,56)=0,2123
Por lo tanto p(x<5) será 0,5-0,2123=0,2877
P(x<5)=28,77%
7 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...
b) Se pide p(x>8,5)
Por tanto
El valor de su área correspondiente es: F(0,84)=0,2995
Por lo tanto p(x>8,5) será 0,5-0,2995=0,2005
P(x>8,5)=20,05%
Para N=200, el número de alumnos con calificación mayor de 8,5 será: 200x0,2005=40
8 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...
El valor de p es el resultado de Fy=0,5-0,3. Por lo tanto, el área es 0,2 y el valor de su correspondiente Z es:
-0,525
Si despejamos:
Ejercicio 4
Considerando el caso más desfavorable cuando p=q=0,5. El tamaño “n” de la muestra vendrá dado por la
fórmula:
9 de 9 06/04/2012 11:53
Soluciones Examen Febrero 2003 1ª Semana http://www.uned.es/111044/examenes/febrero 2003/Soluciones Exame...
EJERCICIO 1.- A continuación tiene las dos distribuciones por sexo y edad de los parados españoles (sin
empleo anterior) {abril 2002}
Hombres Mujeres
Grupos de edad Frecuencia Frecuencia
a) ¿Qué población (la de hombres o la de mujeres) presenta una edad media mayor?¿Cuál está más envejecida en
términos medios?
b) ¿Qué media representa con más fidelidad a su población? ¿Por qué?
c) Realice las representaciones gráficas de las frecuencias ordinarias
d) ¿Cómo ha resuelto el problema de los intervalos abiertos (1º y último) para el cálculo de la media? Explíquelo.
EJERCICIO 2.-
Un jugador de baloncesto tiene una estadística de 64/120 en tiros libres. Si realiza una serie de veinte lanzamientos, ¿cuál es la
probabilidad de que acierte exactamente en 15? ¿y 16 ó más veces en esa misma serie?
EJERCICIO 3.-
En una muestra de 1800 niños de 12 años se observó una altura media de 150 cm con una desviación típica de 7,0. Suponiendo
que las alturas se distribuyen de acuerdo con la curva normal, queremos saber:
a) El número de niños que tienen una altura inferior a 150 cm
b) El porcentaje de niños cuya altura se encuentra entre 140cm y 160 cm.
c) La probabilidad de encontrar a un niño cuya altura sea superior a 160cm.
EJERCICIO 4.-
Un Instituto de Investigación ha de encargarse de realizar un encuesta para acercarse al problema de la violencia doméstica.
Para ello toman como universo poblacional al conjunto de las mujeres españolas de 18 ó más años. ¿Qué tamaño muestral les
sería necesario utilizar si el máximo error muestral permitido es del 0,8%, para un nivel de confianza del 95,5% y una varianza
de p=q=50%?
Ejercicio 1
1 de 7 06/04/2012 11:54
Soluciones Examen Febrero 2003 1ª Semana http://www.uned.es/111044/examenes/febrero 2003/Soluciones Exame...
considerar la edad mínima legal para trabajar, que en España es de 16 años, como límite inferior del
primer intervalo, y considerar los 65 años como el límite superior del último intervalo, ya que
prácticamente no hay parados, sin empleo anterior que superen esa edad.
Al tener los datos agrupados en categorías, para hacer los cálculos hallamos las marcas de clase Xc, o
puntos medios, de cada intervalo.
Edad Xc Hombres Xc ni
ni
16-19 18,00 17654 317772,00
20-24 22,50 10943 246217,50
25-29 27,50 9322 256355,00
30-44 37,50 11106 416475,00
45-64 55,00 14216 781880,00
Edad Xc Mujeres Xc ni
ni
16-19 18,00 20902 376236
20-24 22,50 34448 775080
25-29 27,50 26834 737935
30-44 37,50 52854 1982025
45-64 55,00 41274 2270070
La población femenina en paro presenta una media de edad más alta que la de hombres. No obstante, los
valores medios deben considerarse a la luz de la dispersión de los valores y comprobar hasta qué punto la
media representa bien los datos del colectivo.
Hombres
Xc Xc-Media (Xc-Media)2 (Xc-Media)2 ni
18 -13,92 193,79 3421115,59
22,5 -9,42 88,75 971194,93
27,5 -4,42 19,54 182179,28
37,5 5,58 31,13 345709,18
55 23,08 532,65 7572184,46
Suma = 12492383,46
2 de 7 06/04/2012 11:54
Soluciones Examen Febrero 2003 1ª Semana http://www.uned.es/111044/examenes/febrero 2003/Soluciones Exame...
Mujeres
Xc Xc-Media (Xc-Media)2 (Xc-Media)2 ni
18 -16,83 283,33 5922060,96
22,5 -12,33 152,08 5239014,34
27,5 -7,33 53,76 1442651,78
37,5 2,67 7,12 376152,37
55 20,17 406,74 16787687,92
Suma = 29767567,35
La distribución de mujeres paradas presenta una dispersión menor que la de hombres, pero como las
distribuciones que queremos comparar tienen medias diferentes, es necesario que la comparación tenga en
cuenta esta diferencia, por lo que utilizaremos el Coeficiente de Variación:
Coeficientes
de Variación
Hombres 44,03
Mujeres 37,30
Puede observarse que existe mayor variación entre los datos de los hombres que entre los de las mujeres,
por lo que la media de las mujeres representa con más fidelidad a su población.
Ejercicio 2.
Se puede calcular mediante la distribución binomial, ya que se trata de una variable dicotómica en una
sucesión de eventos con una probabilidad de 64/120 para cada suceso aislado (es decir, p=0,53 y q=0,47)
siendo
La probabilidad de conseguir 16 o más canastas, es la suma de las probabilidades de conseguir 16, 17, 18,
19 y 20 canastas respectivamente.
3 de 7 06/04/2012 11:54
Soluciones Examen Febrero 2003 1ª Semana http://www.uned.es/111044/examenes/febrero 2003/Soluciones Exame...
El cálculo se puede hacer de otra manera, con una aproximación mediante la distribución normal, con
media y desviación típica
Para aproximar una distribución binomial mediante una distribución normal, hay que utilizar la corrección
de continuidad, ya que la binomial es discreta mientras que la normal es continua.
Para calcular la probabilidad de que se encesten exactamente 15 canastas, el uso de la corrección equivale
a suponer, que 15 es la marca de clase del intervalo 14,5- 15,5 Por tanto buscamos el área bajo la curva
normal entre los valores Z correspondientes a 14,5 y 15,5
0,4861-0,4599= 0,0262
Obsérvese que para tener en cuenta la continuidad de la curva normal, se resta 0,5 al ser 16 superior a la
media (en caso contrario se restaría 0,5)
4 de 7 06/04/2012 11:54
Soluciones Examen Febrero 2003 1ª Semana http://www.uned.es/111044/examenes/febrero 2003/Soluciones Exame...
Si miramos en las tablas de la curva normal 0,1 para un Z = 2,2 obtenemos un área de 0,4861. Como las
tablas nos ofrecen el área acumulada desde la media hasta ese punto, si queremos conocer el área entre
ese punto y el infinito, debemos restar el valor de 0,5
(ya que el área bajo la curva normal es 1 y la media divide la curva en dos partes simétricas)
0,5-0,4861=0,0139
Ejercicio 3
Ya que las alturas de los alumnos de la muestra se distribuyen según la curva normal, utilizamos la tabla
de “áreas bajo la curva normal”.
Calculamos la distancia entre el valor que queremos considerar y la media de la distribución. Dividimos
ese valor entre la desviación típica y así obtenemos esa distancia medida en unidades de desviación, es
decir en puntuaciones “Z” o “normalizadas”. Posteriormente obtenemos las áreas correspondientes en las
tablas de la curva normal.
El número de niños por debajo de los 150 cm de estatura, es la mitad de todos los niños, ya que el valor
150 es el valor medio, y en una curva normal ese valor, divide la distribución en dos partes iguales.
Por lo tanto, el número de niños por debajo de 150 cm de estatura, será 900 niños.
El porcentaje de niños que tienen entre 140 y 160 cm, se obtendrá sumando las áreas correspondientes a
los valores Z obtenidos para 140 y 160.
5 de 7 06/04/2012 11:54
Soluciones Examen Febrero 2003 1ª Semana http://www.uned.es/111044/examenes/febrero 2003/Soluciones Exame...
Por lo tanto, el porcentaje de niños cuya altura está comprendida entre 140 y 160 cm, será la suma de los
porcentajes representados por las áreas halladas,
0,4251+0,4251=0,8502
es decir, el 85,2% de los niños de la muestra tienen una estatura comprendida entre 140 y 160 cm.
La probabilidad de encontrar un niño cuya altura sea superior a 160 cm, se obtiene restando el porcentaje
de niños que se encuentran entre la media y 160 (que ya hemos calculado anteriormente, 42,51%) del
porcentaje de niños por encima de la media, que es el 50%
50 - 42,51 = 7,49%
Ejercicio 4
Utilizaremos la fórmula de “poblaciones infinitas” para hallar el tamaño muestral requerido para no
superar el error del 0,8 %
6 de 7 06/04/2012 11:54
Soluciones Examen Febrero 2003 1ª Semana http://www.uned.es/111044/examenes/febrero 2003/Soluciones Exame...
Obsérvese que al haber elegido un margen de error muy pequeño, la muestra resulta de un tamaño muy
grande. Si se pudiera renunciar a ese grado de precisión en las estimaciones, se reduciría sustancialmente
el tamaño de la muestra:
Supongamos que admitimos un error del doble del valor propuesto, es decir e = 1,6 %, comprobaremos
que el tamaño muestral se reduce a 3.907 unidades.
7 de 7 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm
Nótese que las frecuencias relativas suman más de la unidad, exactamente 1,019. Esto se debe a que la
FACULTAD
cuestión es de respuesta múltiple, DE CIENCIAS
es decir POLÍTICAS
un entrevistado podíaYseñalar
SOCIOLOGÍA
más de un país como amenaza.
Las frecuencias absolutas suman más del valor de n=757, concretamente 771. Estos 771 no son
ESTADÍSTICA
entrevistados, que sólo APLICADA
hay 757, sino el A LAS CIENCIAS
número de respuestas, SOCIALES
en este caso países mencionados.
Febrero 2003 (2ª Semana)
EJERCICIO 1.-
En el Barómetro de septiembre de 2002 del Centro de Investigaciones Sociológicas, ante la pregunta relativa a la existencia de
algún país que amenace la paz en España, se obtuvo la siguiente distribución de frecuencias:
Países Porcentaje
Marruecos 67%
Estados Unidos 19%
Irak 8,2%
Países árabes e
Islámicos 7,7%
Teniendo en cuenta que de una muestra total de 2484 españoles, sólo 757 afirmaron creer en la existencia de una amenaza a la
seguridad española por parte de algún otro país., y que de estos últimos se obtuvo la distribución de frecuencias anterior:
EJERCICIO 2.-
¿Cuál será la probabilidad de obtener cinco o menos aciertos en una prueba de examen tipo test compuesta por 20 preguntas y
cuatro opciones de respuesta por pregunta?
EJERCICIO 3.-
Los resultados del examen de septiembre de 2002 de una asignatura dieron una puntuación media de 5,3 y una desviación típica de
1,9 sobre un total de 425 alumnos presentados a examen. Suponiendo una distribución normal en los resultados:
a) ¿Cuál es la probabilidad de seleccionar a un alumno con una puntuación de 7 o más?
b) ¿Cuántos alumnos habrán tenido una puntuación de 5 o menos?
c) ¿A partir de qué puntuación se encuentra el 25% de los alumnos peor puntuados?
EJERCICIO 4.-
Un investigador pretende llevar a cabo una encuesta sobre el uso del tiempo por parte de los habitantes de un determinado
municipio de 75.438 habitantes. El Ayuntamiento de dicho municipio le ha concedido para llevar a cabo dicha encuesta una
subvención de 12.000 €. Si cada entrevista tiene un precio de 18 euros, ¿Cuál será el error muestral que tendrá que asumir en
este estudio, para un nivel de confianza del 95,5% y una varianza p=q= 0,5?
1 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm
a) Las frecuencias relativas son los propios porcentajes expresado en tantos por uno. Las frecuencias
absolutas se obtienen a partir de las relativas mediante el producto de estas por el número de casos “n”.
En este ejercicio n=757, que son quienes han respondido a esta pregunta.
Así,
fri ni
Marruecos 0,670 507
Estados Unidos 0,190 144
Irak 0,082 62
Países árabes e islámicos 0,077 58
b) Para la distribución gráfica puede utilizarse los gráficos de barras, áreas, sectores e incluso en este caso
el mapa.
2 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm
c) La codificación de las respuestas dadas por los investigadores resulta confusa por la ambigüedad de la
última categoría. La equivalencia entre países islámicos y árabes es sesgada ideológicamente, porque un
término se refiere a situación geográfica –árabes- y otro a prácticas religiosas –islam-. (Nótese, por
ejemplo que no se dice: países americano católicos).
d)
La razón viene dada por el cociente entre la frecuencia de ambas casillas. En este caso:
Es decir por cada entrevistado que señala que EEUU es una amenaza para España hay más de tres que
piensan lo mismo respecto de Marruecos.
3 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm
Ejercicio 2
Se trata de calcular la probabilidad para x £5 en una distribución binomial, de n=20 y p=0,25. En este caso,
como la media es 5, puede utilizarse la aproximación normal. Mediante la aproximación normal calculamos
los parámetros:
Las tablas señalan que el área para Z=0,26 es p=0,1026, y como x=5,5 se encuentra a la derecha de la
media, la probabilidad será: 0,5+0,1026=0,6026=60,26%.
4 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm
La solución mediante la distribución binomial, aunque mucho más compleja, es más exacta:
0,61717265
En este caso la probabilidad es 61,7% ligeramente superior a la obtenida mediante la aproximación normal.
5 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm
Ejercicio 3
Para este Z el área es: 0,3133 así la probabilidad pedida es: 0,5-0,3133=0,1867
Es decir, el 18,67%
6 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm
b) En primer lugar hay que calcular la probabilidad señalada. Esta será el complemento a un medio del
área Z.
Para este Z el área es: 0,0636 así la probabilidad pedida es: 0,5-0,0636=0,4364
Es decir, el 43,64% que equivale a 425x0,4364=185 alumnos.
7 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm
Por lo tanto:
8 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm
Ejercicio 4
Sin embargo en este caso como supera con creces la relación, N>20n podemos prescindir del factor
corrector de poblaciones finitas. (Tendrá un valor casi idéntico a la unidad). Así:
9 de 9 06/04/2012 11:55
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/Febrero 2004/febrero2004-1.htm
Ejercicio 1.
A continuación tiene dos distribuciones por sexo y salario declarado en el primer empleo tras obtener la
licenciatura de un grupo de titulados por la UNED.
Ejercicio 2.
En un municipio se encontró que el 30% de 1.605 personas tomadas como muestra, tenían sólo estudios
primarios. Con objeto de realizar una prueba en la zona se seleccionan 6 personas y se desea conocer.
a) Número medio de personas que espera tengan estudios primarios de las seis elegidas.
b) Probabilidad de que tres de las seis tengan estudios más altos que primarios.
c) Probabilidad de que ninguno tengan estudios primarios.
Ejercicio 3.
En una muestra de 700 contratados de distintas ONG’S asturianas se observó un salario medio de 930 €,
con una desviación típica de 126 €. Suponiendo que los salarios se distribuyen de acuerdo al patrón de la
curva normal, calcula:
a) El número de contratados que tienen un salario inferior a 600 €.
b) El porcentaje de contratados con salarios entre 750 y 850 €.
c) La probabilidad de encontrar a un contratado con salario superior a 1200 €.
Ejercicio 4.
Un investigador pretende realizar un estudio mediante encuesta para conocer algo mejor las actitudes de
los españoles hacia el control de los contenidos de los programas de las televisiones públicas. Para ello
toman como universo poblacional al conjunto de españoles de 18 o más años. ¿Qué tamaño muestral les
sería necesario utilizar si el máximo error muestral permitido es del 2%, para un nivel de confianza del
95,5% y una varianza máxima de p=p=50%?
SOLUCIONES:
Ejercicio 1.
a)
Para conocer las medias de ambas distribuciones a partir de las tablas, necesitamos cerrar los intervalos
abiertos. Un criterio razonable, entre los posibles, para cerrar los intervalos sería es considerar el salario
mínimo, 450 € al mes establecer el límite del intervalo superior, en 4.500 €, en el supuesto de que en muy
1 de 6 06/04/2012 11:56
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/Febrero 2004/febrero2004-1.htm
pocos casos la primera retribución será superior a esa cantidad y elevar la cuantía distorsionaría el valor
de la media que pretendemos calcular.
Con estos límites calculamos los puntos medios de los intervalos la distribución:
Convirtiendo los porcentajes en frecuencias absolutas podemos calcular la media para los hombres:
Xi Ni Ni*Xi
525 10 5250
750 16 12000
1050 9 9450
2100 55 115500
3750 6 22500
96 164700
Xi Ni Ni*Xi
525 17 8925
750 23 17250
1050 25 26250
2100 30 63000
3750 1 3750
96 119175
Puede verse la gran diferencia entre los salarios medios de ambas poblaciones, el salario medio de los
hombres es aproximadamente 1,4 veces el de las mujeres.
b)
El porcentaje de varones que gana más de 900 € podemos obtenerlo directamente de la tabla sumando los
porcentajes de las tres categorías superiores:
c)
La representación gráfica en un histograma, Al tratarse de intervalos desiguales la mejor forma de ofrecer
una representación gráfica sería haciendo que las áreas correspondientes a cada polígono sean
2 de 6 06/04/2012 11:56
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/Febrero 2004/febrero2004-1.htm
proporcionales al número de licenciadas en cada intervalo, dividiendo los porcentajes (s) por la amplitud
de cada intervalo (b), para obtener así la altura de los polígonos:
h=s/b
Ejercicio 2.
a) Los cálculos se pueden hacer mediante la distribución binomial suponiendo que todas las personas
de la muestra tienen bien estudios primarios o superiores a estos, clasificando a las personas de la
muestra en esas categorías con unas probabilidades respectivamente de 0,3 y 0,7
Si p = 0,3 y n =6
la media pedida = pn aproximadamente 2 (1,8)
3 de 6 06/04/2012 11:56
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/Febrero 2004/febrero2004-1.htm
Los cálculos podrían haberse sustituido por la consulta de las tablas de la distribución de
probabilidad binomial.
Ejercicio 3.
a) Utilizando las tablas de áreas bajo la curva normal, podemos obtener la proporción de
contratados que se encuentra entre el valor medio y otro valor dado.
Teniendo en cuenta que
n=700
En las tablas, la proporción de casos entre la media y 2,62 unidades de desviación es 0,4956
como queremos saber la proporción de casos más allá de ese valor, y sabiendo que el área bajo la
curva es la unidad, restamos de 0,5
0,5-0,4956=0,0044
b) Tenemos que hallar la diferencia de los valores en las tablas correspondientes a los valores Z de
las coordenadas para 850 y 750.
de manera análoga
0,4236-0,2357=0,1879 es decir el 18,79% de los contratados tiene un salario comprendido entre los 750 y
los 850 €
4 de 6 06/04/2012 11:56
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/Febrero 2004/febrero2004-1.htm
c)
hallaremos el área que se encuentra entre el valor Z y el final de la curva
Ejercicio 4.
5 de 6 06/04/2012 11:56
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/Febrero 2004/febrero2004-1.htm
Necesitaremos una muestra de 2500 unidades para no superar el 2% de error, con una probabilidad del
95,5%.
6 de 6 06/04/2012 11:56
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...
Ejercicio 1.
a) Los datos de la distribución vienen en porcentajes. En primer lugar convertimos los porcentajes
en frecuencias relativas dividiendo por cien:
Porcentaje fr
Menos de 1 hora 19,8 0,198
Entre 1 y 2 horas 45% 0,386
38,6 45%
Entre 2 y 3 horas 22,9 0,229
Entre 3 y 4 horas 8,9 0,089
Más de 4 horas 9,8 0,098
100,0 1,000
Por tanto:
Porcentaje fri fi
Menos de 1 hora 19,8 0,198 477
Entre 1 y 2 horas 38,6 0,386 931
Entre 2 y 3 horas 22,9 0,229 552
Entre 3 y 4 horas 8,9 0,089 215
Más de 4 horas 9,8 0,098 236
100,0 1,000 2411
fr fra
Menos de 1 hora 0,198 0,198
Entre 1 y 2 horas 0,386 0,584
Entre 2 y 3 horas 0,229 0,813
Entre 3 y 4 horas 0,089 0,902
Más de 4 horas 0,098 1
1,000
1 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...
b) Para la distribución gráfica tenemos que explicitar los límites de clase. Ello lo haremos en este
caso convirtiendo las horas a minutos. Así menos de una hora será entre 0 y menos de 60 minutos
(59,9999... minutos) , entre una y 2 horas será entre 60 y menos de 120 minutos (119,9999...
minutos) etc.
Para el último intervalo –“más de cuatro horas”- hay que tomar una decisión sobre su límite
superior. Una solución posible es el límite absoluto, en este caso 24 horas. Dicho límite parece
excesivo, nadie puede con regularidad estar 24 horas viendo la televisión. Una solución razonable
puede ser tomar 12 horas, la proporción de personas que pasan más de 12 horas frente a un
televisor parece que tiene ser insignificante. Sin embargo, esta solución no es del todo correcta
porque supone una distribución muy uniforme de la población en el tramo entre 4 y 12 horas. A la
vista de los datos parece lógico pensar que habrá más personas entre cuatro y cinco horas, que
entre 5 y 6, y éstas a su vez serán más que las que estén entre 6 y 7 y así sucesivamente. Es decir
parece lógico pensar que es una distribución que en el último intervalo tiene una distribución
monótona descendente. Para tener en cuenta este hecho, pensando que el intervalo es entre 4 y 12
horas, y teniendo que la marca de clase en el caso de distribución uniforme estaría en 8 horas[1],
podemos rebajar el intervalo superior, hasta 8 horas de forma que la marca de clase estaría
alrededor de 6 horas, algo que parece bastante más razonable en la medida en que se ajusta más al
comportamiento observado de la distribución.
(La reflexión anterior se realiza sin tener en cuenta ninguna otra información.)
Linf Lsup Xc fr h
Menos de 1 hora 0 60 30 0,198 0,198
Entre 1 y 2 horas 60 120 90 0,386 0,386
Entre 2 y 3 horas 120 180 150 0,229 0,229
Entre 3 y 4 horas 180 240 210 0,089 0,089
Más de 4 horas 240 480 360 0,098 0,025
1,000
Como los intervalos son todos iguales excepto el último que tiene una amplitud cuatro veces mayor,
calcularemos la altura del histograma para la representación de forma que h=fr para los primeros
intervalos y para el último será h=fr/4.
Y la gráfica de la distribución:
2 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...
Xci fi Xci fi
Menos de 1 hora 30 477 14321,34
Entre 1 y 2 horas 90 931 83758,14
Entre 2 y 3 horas 150 552 82817,85
Entre 3 y 4 horas 210 215 45061,59
Más de 4 horas 360 236 113413,44
TOTAL 2411 339372,36
Luego:
El consumo medio en día laborable son 140 minutos. Este tiempo son aproximadamente 2 horas y 20
minutos.
3 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...
Ejercicio 2
Se trata de una distribución binomial, que dadas las magnitudes empleadas sólo puede resolverse mediante
una aproximación a la distribución normal.
La desviación típica:
Nos preguntan por la probabilidad de que suspendan 2500 candidatos. Por lo tanto, como la distribución
normal es una distribución continua, deberemos buscar la probabilidad o área comprendida entre los
valores 2499,5 y 2500,5. (Vid. figura)
y para 2500,5
El área entre Z(103,509) y Z(103,496) resulta despreciable y la probabilidad de que suspendan exactamente
2500 ridícula.
(Menor de uno por cada 1.000.000.000.000.000=10-15).
Nótese que el gráfico se ha exagerado, y realmente el área que se busca sería una línea inapreciable, casi
un punto, en el extremo de la cola asintótica.
4 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...
Y para x=10000,5
Los datos muestran, al igual que en el caso anterior, que resulta casi seguro que no suspenderán
exactamente 10000 opositores.
5 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...
Ejercicio 3.
La probabilidad pedida es el área de color rojo, a la derecha de 35. P(x>35). Como la edad está registrada
en edad cumplida, mayor de 35 significa con 36 y más. P(x ³ 36).
El valor Z para x=36 nos señalará el área de color morado. Por tanto el área pedida será el complemento a
0,5.
La tabla nos señala que el área para Z=1,25 es: 0,3944 (área de color morado)
Por lo tanto la probabilidad buscada, área de color rojo, será:
P(x ³ 36)=0,5-0,3944=0,1056.
El 10,56% de los usuarios, que en total de efectivos supone:
Np=820x0,1056=86,59 Es decir 87 elementos de la muestra tendrán más de 35 años.
6 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...
La tabla nos indica que el área desde x=22 hasta la media es: 0,1664
La tabla nos indica que el área desde x=32 hasta la media es: 0,2794
7 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...
El 90% central de los casos ha sido representado mediante el área de color naranja. Es decir a cada
lado de la media dejará el 45% de los casos. Las áreas representadas en negro suponen el 5% de los
casos en cada lado. Se trata ahora de encontrar el valor x, que corresponda a un z, cuya área sea igual
a 0,450.
Las tablas nos indican que el área 0,450 se encuentra entre los valores Z=1,64 y 1,65. El valor medio
entre ambos Z=1,645 será el que utilizaremos. Dados los valores de la distribución tenemos que:
8 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...
Ejercicio 4
El ejercicio no señala ningún dato para la varianza. Suponiendo que lo que interesa al investigador es
conocer una proporción, puede suponerse el caso de máxima varianza, es decir, p=q=0,5. Por tanto
pq=0,25
a) Se trata de una muestra aleatoria en una población finita. La fórmula que liga el tamaño muestral,
error y nivel de confianza es:
En este caso el error es mayor e=5,5%. Para un tamaño muestral fijo (n) la exigencia de un nivel de
confianza mayor aumenta el intervalo de error admitido.
[1] Xc=(4+12)/2=8
9 de 9 06/04/2012 11:57
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 1 se...
Ejercicio 1. En la siguiente tabla aparecen los datos de la población de personas con más de 65 años en la
Comunidad Autónoma de Andalucía, según el censo de población y viviendas de 2001.
Edad Número de
personas
65-69 341.214
70-74 292.027
75-79 213.166
80-84 121.822
85-89 59.827
90 ó más 25.925
Total 1.053.981
Ejercicio 2. Calcule la probabilidad de superar un examen tipo “test” contestando al azar: el examen se
compone de 10 preguntas, con tres respuestas alternativas, de las cuales sólo una de ellas es la correcta.
Para superar el ejercicio el alumno debe responder correctamente al menos cinco de las preguntas del test.
Ejercicio 3. Dado el conjunto de números {1,2,3,4,5} forme todas las combinaciones posibles de tres
elementos.
Calcule la media de cada combinación.
Calcule la media y la desviación típica de la distribución de las medias obtenidas..
Ejercicio 4. Realice los siguientes cálculos del diseño de una muestra aleatoria para hacer una encuesta
de opinión a los estudiantes de una Facultad de Derecho que cuenta con 19.060 matriculados:
El presupuesto para la realización de las entrevistas es de 6.000 € , el coste de cada entrevista es de 20 €.
Suponiendo que P = Q y estableciendo el nivel de confianza en el 95% ¿Qué margen de error deberemos
asumir con el tamaño muestral que permite el presupuesto?
Si decidiéramos reducir el margen de error a la mitad ¿qué presupuesto necesitaríamos?
********************************
Soluciones
Ejercicio 1.
Para calcular la mediana es necesario elaborar la distribución de las frecuencias acumuladas, para saber
en qué intervalo se encuentra el valor mediano.
Edad ni Na
65-69 341214 341214
1 de 5 06/04/2012 11:59
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 1 se...
La mitad de los casos son 1.053.981 / 2 = 526.992,5 valor que se encuentra comprendido en el segundo
intervalo, entre las edades 70 y 74 años.
Conocido el intervalo aplicaremos la fórmula para el cálculo de la mediana:
años
años
años
Ejercicio 2.
Pero al ser n = 10 podemos evitar los engorrosos cálculos consultando las tablas de distribución de
probabilidad binomial y la probabilidad buscada puede obtenerse de forma abreviada sumando las seis
cantidades:
2 de 5 06/04/2012 11:59
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 1 se...
Es necesario señalar que las diferencias en los resultados utilizando bien las tablas o bien el cálculo, son
debidas a que en las tablas se obtienen los valores para p = 0,33 mientras en los cálculos manuales hemos
podido introducir más decimales
p = 0,3333333 ya que la probabilidad de acertar cada pregunta es 1/3.
Ejercicio 3.
Enumeramos en primer lugar las combinaciones de los cinco elementos tomados de tres en tres:
a 1 2 3
b 1 2 4
c 1 2 5
d 1 3 4
e 1 3 5
f 1 4 5
g 2 3 4
h 2 3 5
i 2 4 5
j 3 4 5
Sumando los tres números de cada línea y dividiendo por tres obtenemos la media de cada combinación,
cuya suma dividida por el número de casos combinaciones será la media de las medias.
Suma Medias
1 2 3 6 2,00
1 2 4 7 2,33
1 2 5 8 2,67
1 3 4 8 2,67
1 3 5 9 3,00
1 4 5 10 3,33
2 3 4 9 3,00
2 3 5 10 3,33
2 4 5 11 3,67
3 de 5 06/04/2012 11:59
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 1 se...
3 4 5 12 4,00
Total 30,00
La desviación típica es la suma del cuadrado de las diferencias entre los valores de la variable, en este
caso las medias de cada combinación, y la media de todas las medias:
Procedemos a calcular la desviación típica de la distribución de las medias. Para ello construimos una
tabla con las diferencias entre cada media y la media de las medias al cuadrado:
Ejercicio 4.
La limitación del presupuesto dedicado a realizar las entrevistas 6.000€ con un coste por entrevista de 20€
determina una muestra de 6000/20=300 unidades muestrales.
Partiendo de la fórmula del tamano muestral para poblaciones finitas podemos despejar el valor del error
e.
4 de 5 06/04/2012 11:59
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 1 se...
Para reducir el error a la mitad necesitamos una muestra casi cuatro veces mayor, con lo que el
presupuesto necesario sería de 1146 x 20 = 22920 €.
5 de 5 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 2 se...
Ejercicio 1. En la siguiente tabla se presentan los datos de personas que han sufrido envenenamientos
accidentales por ingestión de drogas y medicamentos en España durante 1999. (Fuente: Instituto Nacional
de Estadística).
Ejercicio 2. Represente gráficamente los datos del ejercicio anterior, teniendo en cuenta que los
intervalos de edad no son iguales.
Ejercicio 3. El PSOE obtuvo en las últimas elecciones generales el 42,64% de los votos. Si
seleccionáramos al azar a 20 electores:
a) ¿Qué probabilidad existe de que ninguno de los 20 hubiera votado a ese partido?
b) ¿Cuál sería la probabilidad de que al menos 3 hubieran votado a ese partido?.
c) ¿Y la probabilidad de que todos fueran votantes del PSOE?
Ejercicio 4. En una gran empresa (6.500 trabajadores), la media de edad de los empleados es de 32 años,
con una desviación típica de 5,7 años. Suponiendo que las edades de dicha población se ajustan al patrón
de la distribución normal,
a) ¿Cuál es la probabilidad de extraer al azar entre los trabajadores uno que tenga más de 45 años?
b) ¿Cuántos trabajadores tendrán entre 40 y 50 años?
c) ¿Cuál es la edad mínima del 20% de los trabajadores de mayor edad?
SOLUCIONES
Ejercicio 1.
Como no disponemos de los datos originales, para calcular las medias a partir de los datos agrupados en
intervalos necesitamos cerrar el último intervalo. Podemos utilizar diferentes criterios, bien referidos a la
1 de 6 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 2 se...
estructura de los datos o a las características y hábitos de la población. Por ejemplo, podemos considerar
que habrá personas de edad muy avanzada que superen los 105 años, pero serán pocas. Si escogiéramos el
valor 105 como límite del intervalo superior, el valor medio que nos serviría como marca de clase para
calcular la media, superaría la esperanza de vida. Sería preferible fijarlo en los 95 años que nos
proporciona una marca de clase más próxima a la esperanza de vida de hombres y mujeres. Conviene no
dejar fuera del límite demasiados casos, y no tratar de incluir casos extremos que desvirtuarían el sentido
de la media. Pero también podríamos tener en cuenta que el colectivo de las personas de más edad
consume más fármacos, aunque no conocemos el origen concreto de las intoxicaciones, que tanto pueden
producirse en el ámbito de tratamiento médico como en situaciones de toxicomanía.
Para simplificar, podemos cerrar ambos intervalos superiores en los 95 años ya que aunque según la tabla
en ese colectivo el número de intoxicaciones es especialmente alto, llegando en el caso de las mujeres al
13% del total de intoxicaciones, no dejaríamos fuera demasiados casos ( si lo cerramos en los 100 años no
obtendríamos una media muy diferente).
Procedamos considerando el límite de 95 años. Construimos la tabla con las marcas de clase y el producto
de las mismas por la frecuencia de cada intervalo:
Procdemos del mismo modo para calcular la edad media de los hombres:
Como podemos ver existe una diferencia importante entre las edades medias de los de las personas que
han sufrido intoxicaciones y que ya era evidente en la lectura directa de la tabla con los datos agrupados.
A la vista de este primer dato de las medias surge una primera explicación para esta gran diferencia podría
consistir en atribuirla a la conocida mayor longevidad de la población femenina y a la mayor dependencia
de los fármacos de las personas de más edad. Por otra parte, los hombres presentan una distribución en la
que las intoxicaciones son mucho más frecuentes que las de las mujeres en las edades menores, lo que nos
remite a los hábitos y la relación social con las sustancias tóxicas. Pero no obstante un análisis más fino
exigiría conocer los tipos de intoxicación de forma pormenorizada.
2 de 6 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 2 se...
Ejercicio 2.
Para realizar la representación gráfica de ambas distribuciones podemos dibujar polígonos de frecuencias,
pero como los intervalos de edad no son iguales deberemos construirlos de forma que las áreas de los
polígonos que representan a cada grupo de edad sean proporcionales al número de casos. Esto se consigue
estableciendo las alturas de los rectángulos mediante la distribución en porcentajes y la fórmula del área
de un rectángulo:
Area (“S”, equivalente al porcentaje de casos en el intervalo) = Base (“b”amplitud del intervalo de
edades) x altura polígonos (“h”).
h = S/b
Gráfico Mujeres
Edad Nº Mujeres S b h=S/b
0-15 4391 25,46 15 1,697
16-34 3699 21,45 15 1,430
35-54 3663 21,24 20 1,062
55-74 3221 18,68 20 0,934
75-95 2271 13,17 20 0,659
Total 17245 100
Gráfico Varones
Edad Nº Varones S b h=S/b
0-15 4917 43,35 15 2,89
16-34 3421 30,16 15 2,01066667
35-54 1269 11,19 20 0,5595
3 de 6 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 2 se...
La representación gráfica de ambas distribuciones nos muestra que las intoxicaciones son mucho más
frecuentes en los tramos de edad inferiores a los 35 años, siendo más frecuentes en el caso de los varones.
Ejercicio 3.
Se trata de calcular las probabilidades mediante el modelo de la distribución binomial en la que p = 0,4264
y q = 1-p = 0,5736
Siendo el número de pruebas 20.
a) Se trata de calcular la probabilidad de que entre veinte electores seleccionados al azar ninguno de
ellos sea votante del PSOE:
Es muy improbable que al seleccionar al azar veinte electores, resulte que ninguno de ellos sea
votante del PSOE
b) La probabilidad de que al menos 3 de los seleccionados sea votante del PSOE, sería la suma de
las probabilidades para x = 3, 4, 5, 6,......20 pero es más corto el cálculo si sumamos las
probabilidades de que x = 0, 1 y 2 y restarlo de la unidad:
4 de 6 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 2 se...
c) La probabilidad de que los veinte seleccionados sean votantes del PSOE sería:
Es muy improbable que entre veinte electores elegidos al azar todos ellos sean votante del PSOE.
También podrían hacerse los cálculos de las probabilidades haciendo una aproximación a la
distribución binomial mediante la distribución normal, pues tanto el producto de np como el de nq
son superiores a 5.
Ejercicio 4.
Consultando las tablas, para ese valor de Z obtenemos 0,4931 que es la probabilidad de obtener un valor
situado entre la media 32 y el valor 46. Como lo que queremos es la probabilidad de obtener valores
superiores a los contenidos en ese intervalo, deberemos restar 0,4931 del total de la tabla 0,5
Por lo tanto la probabilidad buscada será: 0,5 - 0,4931 = 0,0069
5 de 6 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 2 se...
b) De manera análoga podemos obtener la diferencia entre la media y los valores 40 y 50 medida en
unidades de desviación típica Z.
0,4992-0,4192=0,08
Como el tamaño de la población es de 6.500 el 8% de esa cantidad será
0,08 x 6500 = 520 trabajadores
c) Consultando las tablas es sencillo identificar el valor Z que deja un 30% de los casos entre dicho
valor y la media. Siendo probabilidad total representada en las tablas 0,5 buscaremos el valor Z
correspondiente a 0,3 que dejará por debajo el 30% de los casos y por encima el 20%
El valor más próximo a 0,3 en las tablas es 0,2996 que se corresponde con un Z de 0,84
Despejando x en la fórmula
años
6 de 6 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...
Ejercicio 1.
En la siguiente tabla figura la población de la provincia de Huesca en el último censo, clasificada por
grupos de edad. Calcule media y la mediana de la distribución de edades.
Población de Huesca
Edad n.º personas
0-9 16593
10-19 19323
20-29 28480
30-39 31084
40-49 28597
50-59 23160
60-69 22272
70-79 23921
80 ó más 13072
Total 206502
Ejercicio 2.
Los responsables de los servicios sociales de un municipio conocen que sólo el 16% de las personas
mayores se inscriben en las actividades programadas por el ayuntamiento. Para realizar una encuesta se
selecciona previamente una pequeña muestra de 20 unidades.
a) ¿Cuántas personas inscritas en las actividades cabe esperar que encontremos entre las 20 personas
seleccionadas.
b) Calcular la probabilidad de que ninguna de las 20 personas seleccionadas esté inscrita.
c) Calcular la probabilidad de que al menos 2 de las 20 seleccionadas estén inscritas.
Ejercicio 3.
Dada una distribución normal de media 25 y desviación típica 6, calcular:
- El porcentaje de casos que se encuentren entre los valores 20 y 26
- El porcentaje de casos que se encuentran por debajo del valor 16.
- El valor de la variable que delimita el 10% de las puntuaciones más altas.
Ejercicio 4.
Un investigador dispone de 20.000 € para realizar las entrevistas de una encuesta en una gran ciudad y
decide gastarlos en su totalidad. El cuestionario se administrará mediante entrevistas telefónicas, siendo el
coste de cada entrevista de 20 €. ¿Qué margen de error deberá asumir considerando un nivel de confianza
del 95% y p = q = 0,5?
SOLUCIONES
Ejercicio 1.
Para calcular la media hallamos las marcas de clase o puntos medios de cada intervalo Xc. Posteriormente
multiplicamos cada marca de clase por la frecuencia correspondiente al intervalo (Para cerrar el intervalo
“80 y más” establecemos el límite superior en 100 años para no dejar fuera muchos casos al tratarse de
1 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...
una población envejecida). Hallamos el sumatorio de todos estos productos y dividimos el sumatorio por
el número de casos en la población
Para calcular la mediana construimos una tabla con las frecuencias acumuladas Na:
Edad nº personas Na
0-9 16593 16593
10-19 19323 35916
20-29 28480 64396
30-39 31084 95480
40-49 28597 124077
50-59 23160 147237
60-69 22272 169509
70-79 23921 193430
80 o más 13072 206502
Total 206502
Dividimos el total de casos entre dos para buscar el intervalo en el que se encuentra el valor mediano de la
distribución: 206.502 / 2 = 103.251
El intervalo que se corresponde con ese valor de Na es el que incluye las edades comprendidas entre los
40 y los 50 años.
Ejercicio 2.
a) Las personas que cabe esperar que estén inscritas de las veinte seleccionadas se calculará
multiplicando la probabilidad de estar inscrito por 20, es decir, que por término medio, las personas
inscritas serán :
2 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...
0,16 * 20 = 3,2
b) La probabilidad de que no encontremos a ningún inscrito entre los veinte seleccionados sería:
Como ya conocemos la probabilidad de que x sea igual a 0, calculamos la probabilidad de que alcance el
valor 1
Ejercicio 3.
a) Primero necesitamos conocer la distancia entre cada valor de la variable y la media expresada en
términos de desviación típica, es decir los valores de la variable expresados en unidades Z
El valor 20 se encuentra a 0,8333 unidades de desviación típica de la media 25 y el signo nos indica que
se encuentra a la izquierda de la media.
Si representamos los valores gráficamente observamos cómo la zona sombreada en color rojo representa
la distancia entre la media 25 y el valor 25, mientras que la zona sombreada en naranja representa la
distancia entre la media y el valor 20.
3 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...
En las tablas de áreas bajo la curva normal obtendremos las proporciones o porcentajes de la curva que se
corresponden con esos valores Z
b) Para hallar el porcentaje de casos que se encuentran por debajo del valor 16, calculamos el valor Z
correspondiente a ese valor:
En las tablas de la curva normal ese valor de Z =1,5 se corresponde aproximadamente con el valor 0,4332
Como las tablas nos proporcionan la distancia en unidades Z entre la media y un valor de la variable, los
valores por debajo de ese valor, se calculará restando el área obtenida de 0,5
El área buscada será 0,5-0,4332=0,0668 es decir el 6,68% de los casos.
c) Para hallar el valor de la variable que delimita el 10% de los valores más altos buscaremos
directamente en las tablas el valor que resulta de restar 0,10 del total de la tabla 0,5
Por encima de ese valor se encuentran el 10% de los valores más altos.
Ejercicio 4.
Dado que disponemos de 20.000 € y que cada entrevista cuesta 20 €, podemos hacer 1.000 entrevistas.
Utilizando la fórmula del tamaño muestral para poblaciones “infinitas” despejamos e.
4 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...
Población Palencia
Edad Nº personas
0-9 12635
10-19 18361
20-29 24426
30-39 25990
40-49 26229
50-59 19618
60-69 17701
70-79 19158
80 ó más 10025
Total 174143
Ejercicio 2.
¿Cuál será la probabilidad de obtener cinco o menos aciertos en una prueba de examen tipo test
compuesta por 20 preguntas y cinco opciones de respuesta alternativa a cada pregunta?
Ejercicio 3.
Los resultados del examen de Matemáticas en un instituto arrojaron una puntuación media de 5,3
(puntuando sobre 10) y una desviación típica de 1,9 sobre un total de 355 alumnos presentados.
Suponiendo una distribución normal en los resultados:
a) ¿Cuál es la probabilidad de seleccionar a un alumno con una puntuación de 8 o más?
b) ¿Cuántos alumnos habrán tenido una puntuación de 5 o menos?
c) ¿A partir de qué puntuación se encontrará la cuarta parte de los alumnos con menores
calificaciones?
Ejercicio 4.
Una fundación decide realizar una encuesta para conocer la sensibilidad de la población femenina
respecto a la violencia doméstica. Para ello se toma como universo poblacional el conjunto de las mujeres
españolas de 18 ó más años. ¿Qué tamaño muestral sería necesario utilizar si el máximo error que se
pretende asumir es del 3%, para un nivel de confianza del 95,5%, siendo p = q =0,5?
SOLUCIONES
Ejercicio 1.
La moda es el valor más frecuente. De la tabla se deduce que estará en el intervalo 40-49 años, que es el
que concentra más casos. Cuando los datos están agrupados se utiliza la siguiente fórmula para señalar el
1 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...
La mediana es el valor que divide la población estudiada en dos grupos de igual tamaño. En nuestro caso
será el número de casos que se encuentran por encima y por debajo del valor
mediano. Para su cálculo es necesario en primer lugar calcular la distribución de frecuencias acumulada:
fi fia
0-9 12635 12635
10-19 18361 30996
20-29 24426 55422
30-39 25990 81412
40-49 26229 107641
50-59 19618 127259
60-69 17701 144960
70-79 19158 164118
80 y + 10025 174143
Total 174143
El valor mediano se encontrará en el intervalo 40-49 años. Para su cálculo utilizamos la fórmula:
Ejercicio 2
Por tanto:
2 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...
Por lo tanto
**********************************************************************************************
De forma más sencilla puede calcularse mediante la aproximación a la distribución normal. La media será:
y la desviación típica:
3 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...
Ejercicio 3
Como:
Entonces:
El 25% de los alumnos con nota más baja han obtenido 4 puntos o menos.
Ejercicio 4
El tamaño muestral para una población infinita viene determinado por la siguiente fórmula:
Con n = 1112 podemos estimar la proporción solicitada con un nivel de confianza del 95,5% y un error
inferior al 3%.
4 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 1 s...
Ejercicio 2.
Dado un conjunto de números {0,1,2,3,4,5}, calcule:
a) ¿De cuántas maneras diferentes pueden ordenarse los seis números del conjunto?
b) Cuál es el número de combinaciones posibles de los elementos tomados de dos en dos.
c) Realice el mismo cálculo del apartado anterior, tomando los elementos de tres en tres.
Ejercicio 3.
Se sabe que el 35% de los alumnos de sociología de la UNED visitan alguna vez la web de su facultad. Si elegimos
al azar 4 alumnos de entre los matriculados en sociología, calcule las probabilidades de obtener respectivamente
0,1,2,3,4 alumnos que hayan visitado la web, y represente gráficamente la distribución.
Ejercicio 4.
Un investigador se dispone a realizar una encuesta entre los 1500 miembros de una cooperativa agraria, para
conocer la proporción de cooperativistas dispuestos a modificar los estatutos. Dispone de una partida
presupuestaria de 5.000 € para realizar las entrevistas, cuyo coste individual es de 25 €, calcule, para un nivel de
confianza del 95,5%:
a) ¿Qué tamaño muestral se necesitaría para estimar la proporción con un error del 5%, si se desconocen los
valores de p y de q?
b) ¿Qué pasaría con el tamaño muestral si se supiera que la proporción de cooperativistas favorables al cambio de
estatutos fuera de 0,75 ?
_____________________________________________________________________________
Soluciones
Ejercicio 1.
La distribución de frecuencias permite resumir y ordenar una colección de datos para poder tener una visión del
1 de 4 06/04/2012 12:01
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 1 s...
Altura ni
145-149 4
150-154 7
155-159 16
160-164 10
165-169 3
TOTAL 40
Para ver de forma intuitiva la distribución y poder comparar las categorías visualmente, se podría representar la
distribución mediante un histograma:
Como tenemos un listado de las medidas, para calcular la media bastará con sumar, directamente de la tabla
original, todas las alturas y dividirlas por el número de casos.
Aunque en este caso tenemos el listado de datos originales y sólo son 40 datos, también podría calcularse la media
a partir de la tabla de las frecuencias agrupadas, calculando el punto medio de cada intervalo y multiplicándolo por
el número de casos del intervalo.
Altura Xc ni Xcni
145-149 147 4 588
150-154 152 7 1064
155-159 157 16 2512
160-164 162 10 1620
165-169 167 3 501
TOTAL 40 6285
2 de 4 06/04/2012 12:01
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 1 s...
La diferencia entre los resultados obtenidos por este segundo método es debida al agrupamiento de los datos. El
hecho de tomar la marca de clase como valor que representa a todos los elementos del intervalo, produce ese error.
(Para calcular las marcas de clase, al tratarse de una variable continua, hemos de suponer que los datos de las
alturas de la tabla original se han redondeado, de forma que el límite inferior nominal de, por ejemplo el primer
intervalo 145-149 se corresponde con 144,5 pues cualquier valor inferior como 144,49999 se habría redondeado al
entero inferior 144.)
Ejercicio 2.
a) Dado el conjunto de seis elementos {0,1,2,3,4,5}, el cálculo del número de formas diferentes en que pueden
ordenarse es igual a las permutaciones de 6 elementos:
P6 = 6! = 6·5·4·3·2·1 = 720
Ejercicio 3.
El supuesto se presta al cálculo mediante la distribución binomial, puesto que se trata de sucesos discretos
dicotómicos.
Para P = 0,35 las probabilidad de obtener respectivamente 0,1,2,3,4 alumnos que hayan visitado la web se calcula
mediante la fórmula:
3 de 4 06/04/2012 12:01
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 1 s...
Ejercicio 4.
Como la población es pequeña utilizaremos la fórmula del tamaño muestral para poblaciones “finitas”, y como no
se conoce p, se utilizará p = q = 0,5
Como puede verse, el tamaño muestral se reduce sustancialmente al añadir la información sobre P, respecto al caso
de la mayor incertidumbre que supone el tomar p = q = 0,5
4 de 4 06/04/2012 12:01
Febrero 2007 2ª semana http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 2 s...
Altura Nº niños
145-149 4
150-154 7
155-159 16
160-164 10
165-169 3
Total 40
Ejercicio 2.
Dado un conjunto de números {0,1,2,3,4,}, calcule:
a) ¿De cuántas maneras diferentes pueden ordenarse los cinco números del conjunto?
b) ¿Cuál es el número de combinaciones posibles de los elementos tomados de dos en dos?
c) Realice el mismo cálculo del apartado anterior, tomando los elementos de tres en tres.
Ejercicio 3.
Dada una población de 8.000 personas se han extraído todas las muestras posibles de tamaño 800 mediante un
cálculo informático, y se ha hallado la media de ingresos para cada muestra. Las medias de todas las muestras se
distribuye normalmente con una media de 15.000 € y una desviación típica de 4.800 €, calcule:
a) ¿Que proporción de las muestras estarán por encima de los 16.000 €?
b) Entre qué valores de la variable alrededor de la media se encuentra el 50% central de las muestras?
c) ¿Qué porcentaje de muestras tendrían una media inferior a los 10.000 €?
Ejercicio 4.
En un municipio con 20.000 hogares desea conocer la proporción actual de hogares que poseen servicio de banda
ancha de internet. Un estudio anterior sobre el uso de internet sitúa esa proporción en el 12%. El investigador
encargado dispone de una partida presupuestaria de 18000 € para realizar las entrevistas y piensa gastarlo en su
totalidad, siendo el coste de cada entrevista de 25 €. Teniendo en cuenta que se va a emplear un nivel de confianza
del 95,5% :
a) Calcule el error muestral admitido, dada la limitación del presupuesto.
b) ¿Cuál sería el error muestral si el presupuesto para ese fin se amplía un 20%?
Soluciones
Ejercicio 1.
Para calcular la media de la distribución estableceremos primero las marcas de clase o puntos medios de cada
intervalo sumando el límite superior y el inferior de cada intervalo y dividiendo por 2.
Altura Xc
145-149 147
150-154 152
155-159 157
160-164 162
1 de 4 06/04/2012 12:01
Febrero 2007 2ª semana http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 2 s...
165-169 167
Después multiplicamos cada marca de clase por la frecuencia absoluta del intervalo
Altura Xc ni Xcni
145-149 147 4 588
150-154 152 7 1064
155-159 157 16 2512
160-164 162 10 1620
165-169 167 3 501
40 6285
Una vez obtenida la media, hallamos la desviación típica, hallando las diferencias al cuadrado de cada marca de
clase respecto a la media, para multiplicar cada diferencia al cuadrado por la frecuencia de cada intervalo:
2 2
(xi-media) (xi-media) ni
102,515625 410,0625
26,265625 183,859375
0,015625 0,25
23,765625 237,65625
97,515625 292,546875
1124,375
El cálculo de la mediana requiere de la distribución de frecuencias acumuladas para saber en qué intervalo se
encuentra el estadístico:
Altura ni Na
145-149 4 4
150-154 7 11
155-159 16 27
160-164 10 37
165-169 3 40
40
El valor de la variable que divide la distribución en dos partes iguales (20 casos) se encuentra en el intervalo
155-159, por tanto ya podemos calcular:
En el caso del cálculo de la media y la mediana, al tratarse de una variable continua hemos de suponer que los
datos de las alturas de la tabla original se han redondeado, de forma que el límite inferior nominal del intervalo que
contiene la mediana (155) se corresponde con 154,5 pues cualquier valor inferior como 154,49999 se habría
redondeado al entero inferior 154. Para conocer mejor el problema de los límites reales en la creación de categorías
2 de 4 06/04/2012 12:01
Febrero 2007 2ª semana http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 2 s...
Ejercicio 2.
Las diferentes formas de ordenar un conjunto de elementos puede calcularse mediante las permutaciones de los 5
elementos del conjunto:
Las combinaciones de los cinco elementos tomados de dos en dos se calcularía mediante la fórmula:
Realizando el mismo cálculo del apartado anterior, tomando los elementos de tres en tres obtenemos:
Ejercicio 3.
Al ser una distribución normal, con media 15.000 y desviación típica 4.800, podemos utilizar las tablas de las áreas
bajo la curva normal para hacer los cálculos.
Comenzaremos por convertir los valores de la variable a unidades de desviación típica o números “Z”
El valor 16.000 se encuentra a poco más de dos décimas de la unidad de desviación típica. Ese valor Z puede ser
consultado en la tabla de áreas bajo la curva normal y tomando el valor más próximo de la tabla obtenemos un área
de 0,0832.
Como la tabla nos proporciona la proporción de casos que queda entre un valor de la variable y la media, debemos
restar ese valor de 0,5 que es la mitad del área de la curva normal que, completa es igual a la unidad.
Por tanto la proporción de casos por encima de 16.000 será :
Aplicando el mismo razonamiento calcularemos los valores de la variable que encierran el 50% central de los
casos:
Como las tablas que utilizamos sólo contienen media distribución (porque es simétrica y una mitad es igual que la
otra cambiada de signo), buscaremos en la tabla el valor de Z que se corresponde con el 25% de los casos sobre la
media:
Buscando entre los valores de las áreas en la tabla encontramos que el valor más próximo a 0,2500 es 0,2486
correspondiente al valor Z 0,67.
Interpolando llegamos al valor Z=0,674
De forma que despejando en la fórmula de los valores Z tenemos que
3 de 4 06/04/2012 12:01
Febrero 2007 2ª semana http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 2 s...
Por último, para conocer el porcentaje de casos que quedan por debajo del valor 10.0000€, volvemos a utilizar la
fórmula de los valores Z
El valor negativo nos indica que el valor 10.000 se encuentra a 1,04 unidades de desviación típica de la media por
la izquierda.
Buscando en las tablas la proporción de casos que quedan entre ese valor Z y la media es 0,3508, es decir
aproximadamente el 35% de los casos, pero como se pregunta por el porcentaje de casos POR DEBAJO de 10.000,
habrá que restar ese porcentaje de 0,5:
Ejercicio 4.
Si se gasta en su totalidad el presupuesto podremos hacer 18.000/25 = 720 entrevistas con ese dinero
Dado ese tamaño muestral podemos calcular el error asumido despejando e de la fórmula del tamaño muestral para
poblaciones finitas:
En ese caso la muestra posible con ese presupuesto sería 21.600/25 = 864
Aplicando el mismo procedimiento tendríamos:
es decir, el 2,16%
El error asumido se reduce ligeramente, apenas unas décimas, al aumentar el tamaño muestral .
4 de 4 06/04/2012 12:01
Estadística aplicada a las ciencias sociales.
Examen Febrero de 2008 primera semana
Edad Usuarios
Menos de 20 31
Entre 20 y 25 15
Más de 25 10
a) Qué porcentaje de grupos de 5 tendrán una media comprendida entre 1.000 y 1.500
€.
b) Entre que valores alrededor de la media de la distribución muestral se encuentra el
50% central de los grupos.
SOLUCIONES:
Ejercicio 1.
a) para calcular las frecuencias relativas de cada grupo de edad bastará con dividir
el número de trabajadores en una categoría por el total de trabajadores.
Grupos de Nº fr
edad trabajadores
21 a 25 320 0,0295
26 a 30 1.652 0,1524
31 a 35 2.046 0,1887
36 a 40 2.454 0,2264
41 a 45 1.950 0,1799
46 a 50 1.102 0,1017
51 a 55 945 0,0872
56 a 60 341 0,0315
61 a 65 31 0,0029
TOTAL 10.841 1,0000
Grupos de Nº Na
edad trabajadores
21 a 25 320 320
26 a 30 1.652 1.972
31 a 35 2.046 4.018
36 a 40 2.454 6.472
41 a 45 1.950 8.422
46 a 50 1.102 9.524
51 a 55 945 10.469
56 a 60 341 10.810
61 a 65 31 10.841
TOTAL 10.841
N C 10.841 5
Me = Li + − N a −1 ⋅ i = 36 + − 4.018 ⋅ = 38,86
2 ni 2 2.454
N C 10.841 5
Q1 = Li + − N a −1 ⋅ i = 31 + − 1.652 ⋅ = 32,80
4 ni 4 2.046
Para el tercer cuartil Q3 tendremos que:
3N C 3 ⋅10.841 5
Q3 = Li + − N a −1 ⋅ i = 41 + − 6.472 ⋅ = 45,25
4 ni 4 1.950
Ejercicio 2.
31
P1 (< 20 años) = = 0,55
56
Como se hacen extracciones sin reposición al hacer la segunda extracción ya no habrá
56 usuarios sino que quedarán sólo 55 y la probabilidad de obtener un usuario de entre
20 y 25 años estará condicionada a que ya se haya extraído antes uno de menos de 20:
15
P2 (entre 20 y 25 años / < 20) = = 0,27
55
de la misma forma la probabilidad de obtener al azar uno de más de 25 estará
condicionada por las dos extracciones anteriores:
10
P3 (> 25 / entre 20 y 25 años / < 20) = = 0,185
54
Conocidas esas tres probabilidades, la probabilidad de que se produzcan los tres eventos
sucesivamente se calculará multiplicando las tres probabilidades anteriores:
Casos favorables 31 − 1
p2 = = = 0,5455
Casos posibles 56 − 1
Casos favorables 31 − 2
p3 = = = 0,5370
Casos posibles 56 − 2
Casos favorables 31 − 3
p4 = = = 0,5283
Casos posibles 56 − 3
Casos favorables 31 − 4
p5 = = = 0,5192
Casos posibles 56 − 4
Como en el anterior caso, la probabilidad de que se produzcan los cinco eventos es igual
al producto de las probabilidades:
Ejercicio 3.
a) Las tablas de área bajo la curva normal nos dan la proporción de casos entre un
valor dado de la variable y la media, medido en unidades de desviación típica.
Por tanto podemos calcular el porcentaje de casos que quedan entre el valor
1.000 y la media 1.100 y sumarlo al porcentaje de casos que hay entre la media
y el valor 1.500.
xi − x 1.000 − 1.100
Z1.000 = = = −0,7692
S 130
Consultando las tablas ese valor de Z se corresponde con el valor 0,2794, es decir, que
habrá un 27,94% de asalariados que cobren entre 1.000 y 1.100 €. Tomamos el valor sin
tener en cuenta el signo, puesto que las tablas de la curva normal al ser una función
simétrica utiliza sólo el cuadrante positivo.
A continuación calcularemos la proporción de casos que habrá entre la media y el valor
1.500:
xi − x 1500 − 1.100
Z1.500 = = = 3,0769
S 130
Este segundo valor de Z se corresponde con la proporción 0,4999 o bien el 49,9% de los
casos.
Por tanto el porcentaje de asalariados cuyo sueldo varía entre los 1.000 y los 1.500€ será
la suma de los porcentajes anteriores:
27,94%+49,99%=77,93%
b) Para realizar este cálculo emplearemos la mismo fórmula de los valores Z pero
despejando en este caso el valor de la variable:
xi = Z ⋅ S ± x
Al ser la media el valor central de la curva, el 50% central de los casos corresponderá
con la suma de un 25% a la izquierda de la media y un 25% a la derecha. Para conocer
el valor Z correspondiente al 25% de los casos consultamos la tabla y obtenemos un
valor Z=0,68 que sustituido en la fórmula anterior nos permite saber el salario que
corresponde a ese valor Z, de forma que sumando y restando obtendremos los valores
por debajo y por encima de la media que limitan en 50% de los casos alrededor de la
media:
Ejercicio 4.
a)
A partir de los datos del enunciado podemos conocer la proporción de hogares con más
de un coche:
casos favorables 12.530
p= = = 0,41
casos posibles 30.521
por tanto q =1-p = 0,59
Dado que se trata de una población finita, para calcular el tamaño muestral necesario
utilizaremos la fórmula:
b)
Si desconociéramos la proporción de hogares con más de un coche, consideraríamos el
caso más desfavorable, es decir p = q = 0,5 por tanto el tamaño muestral se calcularía de
forma análoga al caso anterior, como sigue:
Ejercicio 2.- En una empresa la media de años de antigüedad de los 895 empleados, es de 11
años y la desviación típica de 3,1. Suponiendo que la distribución de años de antigüedad fuera
una distribución normal calcule:
a) ¿A cuantas unidades de desviación típica se encuentra un trabajador que lleva 2 años en la
empresa, respecto a la media del colectivo?
b) ¿Qué número de trabajadores lleva menos de diez años en la empresa?
c) ¿Cuál será el límite inferior de antigüedad para los 300 trabajadores que llevan más años en la
empresa?
Ejercicio 3.- Una empresa tiene tres departamentos A, B y C, con 20, 7 y 12 trabajadores
respectivamente. Para organizar los turnos de vacaciones decidimos seleccionar al azar,
sucesivamente y sin reposición, a tres trabajadores entre los 39 de la empresa, calcule:
a) La probabilidad de que el primer seleccionado pertenezca al departamento C
b) La probabilidad de que el segundo pertenezca al departamento B.
c) La probabilidad de que el tercero no pertenezca al departamento A.
Ejercicio 4.- Un Instituto de Investigación debe realizar un encuesta para conocer la opinión de
las mujeres sobre el tratamiento informativo de la violencia de género. Para ello toman como
universo poblacional al conjunto de las mujeres españolas de 18 ó más años. ¿Qué tamaño
muestral sería necesario utilizar si el máximo error muestral permitido es del 5%, para un nivel
de confianza del 95,5% y considerando p=q=50%?
SOLUCIONES
Ejercicio 1.
∑x n i i
x= i =1
n
Como los datos están agrupados en categorías por grupos de edad, hallaremos en primer
lugar las marcas de clase o puntos medios de cada intervalo que representarán a cada
grupo de edad en los cálculos. Para cada intervalo procedemos tomando el límite
inferior del intervalo, sumando el límite inferior del siguiente y dividiendo por dos:
Grupos de Modalidad
Marca de
Edad clase Xc Intensiva
De 18 a 19 19 175
De 20 a 24 22,5 200
De 25 a 34 30 180
De 35 a 44 40 116
De 45 a 54 50 49
Más de 55 60 13
TOTAL 733
Xc ni xi*ni
19 175 3325
22,5 200 4500
30 180 5400
40 116 4640
50 49 2450
60 13 780
Total 733 21095
∑x n i i
21.095
x= i =1
= = 28,78
n 733
∑ (x )
n 2
i − x ni
74232,196
V= i =1
= = 101,272
N 733
S = V = 101,272 = 10,0634
Edad ni Na
De 18 a 19 110 110
De 20 a 24 135 245
De 25 a 34 157 402
De 35 a 44 25 427
De 45 a 54 3 430
Más de 55 1 431
TOTAL 431
Dividiendo por dos en número de casos (431/2=215,5) vemos que el número acumulado
de la mitad de los casos está en el intervalo “De 20 a 24 años” y procedemos a calcular
mediante la fórmula:
N c 431 5
Me = Li + − N a −1 i = 20 + − 110 = 23,91
2 ni 2 135
Ejercicio 2.
xi − x 10 − 11
Z= = = −0,32
S 3,1
Consultando las tabla de la curva normal obtenemos la proporción de casos que hay
entre ese valor y la media (obviando el signo, ya que la curva es simétrica y las tablas se
refieren sólo a los valores positivos de Z)
0,1255 o el 12,55%
Pero como se pide hallar la proporción de casos con MENOS de 10 años, sabiendo que
la tabla representa el 50% de los casos restaremos el valor obtenido para hallar la
proporción de casos por debajo de 10:
0,5-0,1255=0,3745
Vemos que el 37,45% de los casos están por debajo de los 10 años de antigüedad, que
expresado en número de trabajadores será el 37,45% de los 895 empleados, es decir
335.
c) Para hallar el límite inferior de años de antigüedad de los 300 trabajadores que
levan más años en la empresa comenzaremos por calcular la proporción que
suponen los 300 trabajadores sobre el conjunto de la empresa:
300
= 0,3352
895
Como el área que proporcionan las tablas se refieren al valor acumulado entre la media
y un punto, debemos restar
0,5-0,3352=0,1648
Consultando las tablas de la curva normal, obtenemos el valor Z correspondiente a esa
proporción: aproximadamente Z=0,425
Conocido Z, podemos despejar xi de la fórmula:
xi − x
Z=
S
xi = Z ⋅ S + x = 0,425 ⋅ 3,1 + 11 = 12,31
podemos asegurar entonces que los 300 trabajadores con mayor antigüedad, superan los
12 años.
Ejercicio 3.
Casos en el Dpto. C 12
p= = = 0,31
Total de trabajadores 39
Podemos plantear que hay dos posibilidades: que el primer seleccionado fuera de B y
que no fuera de B (que fuera de A o de C). Calcularíamos entonces la probabilidad de
que en la primera extracción hubiera sido de B y que la segunda también. Al ser sucesos
independientes, se trata de un producto de probabilidades:
7 6
P( B & B' ) = P( B) * P( B' ) = * = 0,1795 * 0,1579 = 0,0283
39 38
7 32
P ( B) * P ( B') = * = 0,1795 * 0,8421 = 0,1511
39 38
Como el suceso se puede verificar de ambas formas, la probabilidad de que ocurra será
la suma de las probabilidades:
Como podemos ver, al ser sucesos independientes, obtenemos el mismo resultado que si
hubiéramos calculado directamente
Casos en el Dpto. B 7
p= = = 0,17948
Total de trabajadores 39
Z 2 pq 2 2 ⋅ 0,5 ⋅ 0,5
n= 2 = = 400
e 0,05 2
FEBRERO 2009 1ª Semana
Ejercicio 1. En la siguiente tabla figuran los datos del I.N.E. sobre los condenados en
España durante 2006, según la edad de comisión del primer delito.
EDAD ni
De 18 a 20 años 9.077
De 21 a 25 años 14.902
De 26 a 30 años 15.097
De 31 a 35 años 14.288
De 36 a 40 años 13.534
De 41 a 50 años 18.839
De 51 a 60 años 7.124
De 61 a 70 años 2.083
Más de 70 años 580
Total 95.524
Ejercicio 2. En la siguiente tabla figuran los datos del INE sobre los 1.806 expedientes
de suicidios consumados en España durante 2007.
Ambos
Edad sexos Varón Mujer
De 13 a 19 33 22 11
De 20 a 29 180 147 33
De 30 a 39 306 233 73
De 40 a 49 295 228 67
De 50 a 59 273 202 71
60 y más 719 556 163
Total 1.806 1.388 418
Ejercicio 3. Dada una distribución normal con media 5,6 y desviación típica 1,3 calcule
el porcentaje de casos que quedan por debajo del valor 4. Calcule también el número de
casos que quedan por encima de 7,2.
Ejercicio 1.
Para calcular las medidas de tendencia central debemos, en primer lugar, cerrar el
intervalo superior “más de 70 años”. Podemos suponer que los delitos cometidos por
personas de más de 80 años, serán excepcionales y que si cerramos el intervalo en ese
punto apenas dejaremos fuera algún caso atípico (como se trata de una cuestión práctica
de cálculo de estadísticos y no se plantean cuestiones técnicas referidas al derecho penal
o al delito en las edades avanzadas, cualquier criterio planteado puede ser válido).
Con esa decisión obtendremos la siguiente tabla:
La fórmula de la mediana es
N C
Me Li N a 1 i
2 ni
Edad amplitud ni Na
18 a 20 3 9.077 9.077
21 a 25 5 14.902 23.979
26 a 30 5 15.097 39.076
31 a 35 5 14.288 53.364
36 a 40 5 13.534 66.898
41 a 50 10 18.839 85.737
51 a 60 10 7.124 92.861
61 a 70 10 2.083 94.944
71 a 80 10 580 95.524
Total 95524
Si dividimos el total de casos por la mitad obtenemos:
95.524 / 2 = 47.762
Al estar ordenados los casos por la edad, podemos ver que la categoría de edad que
contiene el caso número 47.762 es el grupo “de 31 a 35 años”
N C 95.524 5
Me Li N a 1 i 31 39.076 34,04
2 ni 2 14.288
ni 1 C i 1
Mo Li Ci
ni 1 C i 1 ni 1 C i 1
Tomaremos como clase modal la de mayor frecuencia “de 41 a 50 años”, y por tanto el
límite inferior para nuestro cálculo serán los 41 años:
ni 1 C i 1 7.124 5
Mo Li C i 41 10 43,08 años
ni 1 C i 1 ni 1 C i 1 7.124 5 13.534 10
En este punto es necesario recordar las salvedades que se expresan en la página 41 del
libro de problemas resueltos acerca de las dificultades para calcular exactamente el
valor de la Moda partiendo de datos agrupados.
10
p( x 10) 0,5510 0,451010 1 0,5510 1 0,5510 0,00253
10
b)
Procedemos como en el caso anterior calculando p:
La probabilidad de que al extraer al azar un expediente del conjunto obtengamos el de
una mujer se calcula dividiendo el total de mujeres entre el total de casos:
p = 418/1806 = 0,23 y por tanto q = 0,77
La probabilidad de obtener “al menos” la mitad o “la mitad o más” mujeres será la suma
de obtener 5, 6, 7, 8, 9 o 10 mujeres de cada 10
Podemos obtener esas probabilidades calculando los seis sumandos como en el caso
anterior o bien consultando directamente las tablas de la distribución binomial al final
del libro de problemas resueltos (página 256 para p = 0,23 y n =10):
(Al consultar las tablas observamos que para determinados valores de p no figuran los
algunos casos por ser valores muy próximos a 0, y al utilizar sólo cuatro decimales
serían 0, por ejemplo, para p = 0,23 como es nuestro caso vemos que se omiten los
valores para x = 10 y sólo figuran hasta el valor 9).
c)
Consultando directamente la tabla obtenemos:
p( x 0) 0,0733
Ejercicio3.
Para obtener el porcentaje de casos que quedan por debajo del valor 4 convertiremos la
diferencia del punto a la media en números Z o unidades de desviación típica:
x x 4 5,6
Z 1,23
S 1,3
Para este valor de Z (prescindiendo del signo), en la tabla obtenemos un área de 0,3907
Como la tabla de áreas bajo la curva normal nos ofrece la distancia entre un valor de la
variable y la media, medido en unidades de desviación típica (en este caso la distancia
entre 4 y 5,6 tomando como unidad de medida 1,3), para hallar el área a la izquierda del
valor 4 debemos restar de 0,5
En el segundo caso, el número de casos que quedan por encima del valor 7,2 se
obtendrá de forma análoga:
x x 7,2 5,6
Z 1,23
S 1,3
y al ser equidistante la probabilidad buscada será como en el caso anterior el 10,93% de
los casos.
Ejercicio 4.
Aplicando directamente la fórmula del tamaño muestral para poblaciones finitas
tenemos:
N Z2 pq
n
( N 1) e 2 Z 2 p q
Siendo:
N = 16.580
e = 0,03
p = q = 0,5
Z=2
(Para un nivel de confianza del 95,5% en las tablas saldría interpolando
Z = 2,005 pero para simplificar usaremos Z = 2)
Ambos
Edad sexos Varón Mujer
De 13 a 19 33 22 11
De 20 a 29 180 147 33
De 30 a 39 306 233 73
De 40 a 49 295 228 67
De 50 a 59 273 202 71
60 y más 719 556 163
Total 1.806 1.388 418
Ejercicio 2. Con los datos del ejercicio anterior, calcule los coeficientes de variación de
las edades para hombres y mujeres, comparando las dispersiones de ambos grupos en
función de sus valores medios. Comente el resultado obtenido.
Ejercicio 4. Para conocer la satisfacción con los servicios municipales en una población
de 13.200 hogares, queremos realizar una encuesta a una muestra representativa.
¿Cuántos hogares debemos seleccionar para no superar el error del 4% si establecemos
el nivel de confianza en el 95%? Considere p = q
RESPUESTAS
Ejercicio 1.
Para calcular las medias necesitamos en primer lugar cerrar el intervalo abierto “60 años
o más”. Desgraciadamente a tabla, obtenida de la web del INE, no detalla los valores a
partir de los 60 años. Como podemos ver el número de suicidios aumenta con la edad, y
la tasa de suicidios de personas con edades avanzadas será muy superior que para las
edades inferiores, por tanto tiene sentido llevar el límite superior de ese intervalo hasta
un valor alto. Hemos cerrado el intervalo en los 95 años, conscientes de que se trata de
una aproximación.
x ii ni
X i 1
x ii ni
76.653
X Hombres i 1
55,23
N 1.388
n
x ii ni
23.114
X Mujeres i 1
55,30
N 418
Como podemos ver, a pesar de las mayores frecuencias de suicidios en los hombres, las
edades medias casi coinciden.
x
n
2
i x ni
S i 1
x
n
2
i x ni
164.386,72
S Mujeres i 1
19,83
N 418
Como podemos ver la dispersión de las edades también es muy semejante en ambos
casos, con un valor ligeramente superior en el caso de los hombres.
Ejercicio 2.
A partir de los datos del ejercicio anterior podemos comparar los coeficientes de
variación de ambas distribuciones, en forma de porcentajes.
S
CV 100
X
S 20,13
CV Hombres 100 100 36,45%
X 55,23
S 19,83
CVMujeres 100 100 35,86%
X 55,30
Dada la similitud en las medias y las desviaciones típicas, apenas se aprecian diferencias
en los coeficientes de variación
Ejercicio 3.
xi X
Z
S
Como tenemos el valor de la Varianza (9), la desviación típica será: S V 9 3
a)
xi X 15 10
Z 1,667
S 3
b)
Como los valores 8 y 12 están cada uno a un lado de la media, por encima y por abajo,
calcularemos las diferencias para ambos valores y las sumaremos:
xi X 8 10
Z1 0,667
S 3
que en la curva normal se corresponde con una proporción de 0,2486
xi X 12 10
Z2 0,667
S 3
que igualmente en la curva normal se corresponde con una proporción de 0,2486
c)
Ejercicio 4
TIEMPO: 2 Horas.
MATERIAL: Todo tipo de material. (Calculadoras, libros, apuntes…)
Ejercicio 1.
Una ONG que tiene 64 oficinas repartidas por todo el país. Dicha ONG tiene un servicio de atención telefónica
dedicada a la orientación juvenil en temas sexuales. Un técnico de la organización ha establecido que la relación entre
el número de folletos distribuidos y el total de llamadas recibidas en cada uno de los centros tiene una relación lineal
cuyos datos son: Y=0,01x
Siendo el coeficiente de determinación de 0,64.
El número medio de llamadas efectuadas durante el mes anterior fue de 20 siendo el número medio de folletos
distribuidos de 2000 durante el mismo periodo.
a) Represente gráficamente la función anterior
b) Calcule la expresión que permite conocer el número de folletos necesarios a distribuir para alcanzar un número
determinado de llamadas.
Ejercicio 2.
La tabla siguiente muestra los resultados de una encuesta realizada en un barrio en función del sexo a la pregunta:
¿Cuál es su parecer con el emplazamiento del nuevo ferial?
Varones Mujeres
Muy Bien 25 50
Bien 25 100
Indiferente 100 50
Mal 25 75
Muy Mal 25 25
a) Calcule la proporción de mujeres del conjunto poblacional que les parece bien o muy bien el nuevo emplazamiento
b) ¿Puede afirmarse, para el total poblacional, que a las mujeres les parece mejor que a los varones el nuevo
emplazamiento?
c) Justifique su respuesta teniendo en cuenta que los resultados provienen de una muestra aleatoria.
Ejercicio 3.
Un investigador piensa que existen variaciones en la fecundidad en función de la condición socieconómica de las
familias. Para ello selecciona a seis mujeres de 50 años pertenecientes a tres niveles de condición socioeconómica. El
número total de hijos nacidos por mujer se refleja en la siguiente tabla.
Nivel Socioeconómico
Alto Medio Bajo
2 3 1
1 1 1
3 3 2
2 4 4
1 3 1
1 1 1
a) A partir de estos datos señale si la teoría del investigador se cumple en este caso.
b) Señale si se observa algún sentido en la relación entre fecundidad y nivel socioeconómico. Comente los
resultados
Ejercicio 4
Una semana antes de las elecciones al parlamento de una comunidad autónoma, dos periódicos regionales publican
los resultados de distintas encuestas realizadas de forma independiente. Como puede observar los resultados que
ofrece cada periódico son divergentes.
Periódico “El Día y la Noche”: Votos al partido ZYX= 42%. (n=1800)
Periódico “El Informante”. Votos al partido ZYX=36%. (n=6800)
a) Estos resultados dispares, ¿Son debidos a los distintos tamaños muestrales empleados?
1 de 7 06/04/2012 11:50
a) Dada la naturaleza de los datos el análisis de varianza permite respo... http://www.uned.es/111044/examenes/Junio 2001/solucion.htm
b) Razone su respuesta.
2 de 7 06/04/2012 11:50
a) Dada la naturaleza de los datos el análisis de varianza permite respo... http://www.uned.es/111044/examenes/Junio 2001/solucion.htm
RESPUESTAS
EJERCICIO 1.
a) Si estudiamos la recta obtenida deducimos que cada 100 folletos se produce una llamada. Se trata de
una función lineal, en la que no existe término independiente, por lo tanto la recta pasará por el origen de
coordenadas. Para representar dicha función podemos dar algunos valores, tal y como se hace en la
tabla siguiente:
Y el gráfico correspondiente:
b) Lo que se pide es obtener la recta de regresión que coloque a “x” como variable dependiente:
3 de 7 06/04/2012 11:50
a) Dada la naturaleza de los datos el análisis de varianza permite respo... http://www.uned.es/111044/examenes/Junio 2001/solucion.htm
Tenemos que:
Y por tanto:
Como dicha recta debe pasar por el punto que determinan las medias:
Luego:
EJERCICIO 2.
a) Para realizar dicho ejercicio, en primer lugar calculamos los totales marginales:
Varones Mujeres
Muy Bien 25 50
Bien 25 100
Indiferente 100 50
Mal 25 75
Muy Mal 25 25
Total 200 300
La proporción de mujeres a quienes les parece bien o muy bien el nuevo emplazamiento será:
Es decir un 50%
Un 25%.
Para estudiar si en el total poblacional se mantienen las diferencias observadas en la muestra, realizaremos
una prueba de hipótesis en la que contrastaremos la igualdad de proporciones.
4 de 7 06/04/2012 11:50
a) Dada la naturaleza de los datos el análisis de varianza permite respo... http://www.uned.es/111044/examenes/Junio 2001/solucion.htm
El valor de Z señala que en la población existen, con un nivel de confianza mayor del 99%, diferencias
significativas entre la opinión que sobre la ubicación del recinto ferial tienen hombres y mujeres.
c) Los resultados muestran que efectivamente las opiniones de varones y mujeres son distintas. El
importante tamaño muestral utilizado (n=500) nos permite asegurar esto con gran confianza.
EJERCICIO 3.
a) Dada la naturaleza de los datos el análisis de varianza permite responder a esta cuestión. En primer
lugar calculamos los totales marginales, los cuadrados de estos y las medias:
Nivel Socioeconómico
Alto Medio Bajo Total
2 3 1
1 1 1
3 3 2
2 4 4
1 3 1
1 1 1
Total 10 15 10 35
Total2 100 225 100 425
Media 1,67 2,5 1,67
Total
4 9 1
1 1 1
9 9 4
4 16 16
1 9 1
1 1 1
20 45 24 89
5 de 7 06/04/2012 11:50
a) Dada la naturaleza de los datos el análisis de varianza permite respo... http://www.uned.es/111044/examenes/Junio 2001/solucion.htm
Luego:
=70,83-68,06=2,77
SCd=SCt-SCent
SCd=20,94-2,77=18,17
Glent=k-1=3-1=2
Gld=N-k=18-3=15
Por tanto:
Como para un nivel de confianza del 95% el valor teórico de F=3,68 es mayor que el aquí obtenido no puede
afirmarse a la vista de estos datos que exista relación entre el nivel socioeconómico y la fecundidad.
b) Al observar las medias de cada uno de los grupos se aprecia una relación curvilínea entre fecundidad y
nivel socioeconómico, en el sentido de que las familias medias tendrían una fecundidad más elevada que
las situadas en los extremos de la escala. Sin embargo las observaciones efectuadas anteriormente no
permiten extrapolar dicha afirmación al conjunto poblacional. El investigador si desea probar su teoría
deberá aumentar el tamaño muestral.
Ejercicio 4.
a) Para responder a esta cuestión vamos a contrastar la hipótesis de que no existen variaciones entre
ambos resultados, obtenidos de dos muestras independientes.
6 de 7 06/04/2012 11:50
a) Dada la naturaleza de los datos el análisis de varianza permite respo... http://www.uned.es/111044/examenes/Junio 2001/solucion.htm
El valor obtenido muestra que para niveles de confianza superiores al 99% no podemos considerar que
ambas muestras se refieran a la misma población.
b) A tenor de lo anterior la explicación más probable es que el universo definido para cada encuesta sea
distinto o que se hayan realizado en momentos muy distintos en el tiempo. Lo que esta claro es que la
disparidad de resultados no puede atribuirse al tamaño muestral empleado, sino seguramente a que una o tal
vez las dos encuestas estén mal realizadas. Es decir hayan incluido muestras sesgadas o parciales respecto
al universo de estudio.
7 de 7 06/04/2012 11:50
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/solujunio20012.htm
TIEMPO: 2 Horas.
MATERIAL: Todo tipo de material. (Calculadoras, libros, apuntes…)
EJERCICIO 1.
En la encuesta-barómetro del CIS de octubre de 2000, 1225 entrevistados (de un total de 2500)
manifestaron que el Presidente del Gobierno D. José María Aznar no les inspira confianza. En enero
de 2001 fueron 1313 entrevistados (también de 2500) los que afirmaron lo mismo. ¿Podemos decir
con una probabilidad de acertar de 0,95 que entre octubre y enero ha aumentado en el seno de la
población española la desconfianza en el Presidente del Gobierno?
Llamemos a la probabilidad de encontrar un individuo que ‘desconfía’ del Presidente del Gobierno en
la muestra de octubre de 2000 (o a la proporción de estos individuos en dicha muestra) «p1». Y a la
probabilidad de encontrarlo en la muestra de enero de 2001 «p2». Y al tamaño de la primera muestra
«n1» y siendo el de la segunda «n2»
p1 = = 0,49
p2 = = 0,53
Jugar con una probabilidad de acertar del 0,95 quiere decir que fijamos un nivel de confianza del 95 %
.
Como las muestras son suficientemente grandes la distribución muestral considerada será «normal».
Como n1 = n2 , entonces
1 de 6 06/04/2012 11:50
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/solujunio20012.htm
El «z» crítico (zc) para una prueba unilateral con un nivel de confianza del 95% es:
zc= -1,645
Como ze está en la zona de rechazo al ser su valor absoluto superior al de zc, aceptamos la hipótesis
alternativa.
Podemos, por lo tanto, decir (con una probabilidad de acertar del 0,95) que, entre los meses
considerados, ha aumentado la desconfianza de la Población española hacia el Presidente del
Gobierno.
EJERCICIO 2.
En Marzo de este año el Gabinete de Prospección Sociológica del Gobierno Vasco hizo públicos los
resultados de una encuesta preelectoral. En la provincia de Vizcaya (que cuenta con unos 980 mil
habitantes), un 23,5% de los 1330 individuos entrevistados pensaban votar al PP.
El PP obtuvo en Vizcaya en las anteriores elecciones vascas de octubre de 1998 un 20,2% de los
votos. Con los resultados de la encuesta de marzo de este año ¿podemos decir con un error de ± 2%
que la población vasca ha cambiado (en lo que al voto al PP se refiere)?
La proporción de votantes del PP en la muestra (de marzo de 2001) es p = 0,235. La proporción de éstos
en la Población vizcaína (según los resultados de las elecciones del 98) es P = 0,202.
A. ESTIMACIÓN
Para un error de ± 2%, es decir, en términos de proporción, de ± 0,02, el intervalo de confianza que nos
permite decir que no existe diferencia (significativa) entre el estadístico (muestral) y el parámetro(
poblacional) es el siguiente:
2 de 6 06/04/2012 11:50
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/solujunio20012.htm
B. CONTRASTE DE HIPOTESIS
En este caso:
0,02 = zc · 0,011
Como /zc/ < /ze/ , es decir, como el valor «z» empírico está en la zona de rechazo de la hipótesis nula,
que sostiene que no hay diferencias entre la población de la muestra y la que ya conocemos, tenemos
que admitir (con un error máximo de ± 2%) que la población de la muestra es distinta en lo que a la
proporción de votantes del PP se refiere.
EJERCICIO 3.
En un estudio sobre religiosidad en España encontramos los siguientes datos:
Sexo edad
varón Mujer 18-29 30-45 46-65 > 65
católico/a
practicante 560 920 140 230 530 770
católico/a
no 840 710 470 460 350 170
practicante
Averigüe con qué presenta más asociación la religiosidad, si con el sexo o con la edad.
Tenemos que medir la asociación, por un lado, entre las variables sexo y religiosidad y, por otro, entre
edad y religiosidad.
Para ello tendremos que utilizar el mismo coeficiente en los dos casos (para permitir la
comparabilidad).
Hay que tener en cuenta que la edad se puede utilizar como variable nominal: toda variable cuyo nivel
3 de 6 06/04/2012 11:50
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/solujunio20012.htm
máximo de medición sea intervalar puede contemplarse también en niveles de medición más básicos:
ordinal y nominal.
1. ASOCIACIÓN RELIGIOSIDAD/SEXO
Calcularemos la tabla de frecuencias esperadas en cada casilla (que nos define la no asociación entre
las variables).
Para poder decir más acerca de la asociación entre sexo y religiosidad utilizamos un coeficiente
estandarizado que nos permita la comparación del grado de asociación entre otras variables.
Utilizamos, por ejemplo, el V de Cramer (que en este caso tendría el mismo valor que el coeficiente Ф).
2. ASOCIACIÓN RELIGIOSIDAD/EDAD
De igual modo, calcularemos en este caso la tabla de frecuencias esperadas en cada casilla.
4 de 6 06/04/2012 11:50
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/solujunio20012.htm
χre2 = 663,82
CONCLUSIÓN
Como podemos ver, la religiosidad está mucho más asociada con la edad que con el sexo.
EJERCICIO 4.
En una determinada e imaginaria provincia la edad media de las mujeres es de 47 años (con una
desviación típica de 10 años) y el número medio de hijos de éstas es de 3,2 (con una desviación típica
de 1 hijo). El coeficiente de correlación ‘r’ entre la edad de las mujeres y el número de hijos es de
0,4. Halle la recta que permite predecir el número de hijos conociendo la edad de la mujer.
Llamemos a la «edad» de las mujeres variable «x» y al «nº de hijos» de éstas variable «y»
y = a + bx
Sabemos que
y que
Entonces
; sxy= 4
3,2 = a + 0,04 · 47
5 de 6 06/04/2012 11:50
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/solujunio20012.htm
y = 1,32 + 0,04 x
6 de 6 06/04/2012 11:50
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/junio 2002/junio2002IIs.htm
SOLUCIONES.
Ejercicio 1.
En un artículo referido a una región mediterránea leemos lo siguiente: “A partir de los datos de una
encuesta probabilística, para un nivel de confianza del 99% la edad media de las madres cuando
tienen el primer hijo se encuentra en el intervalo (27,2 años y 29,3 años)”
a) a) ¿Podría señalar cuál es el intervalo para esa muestra con un nivel de confianza del
95,45%?
b) b) ¿Sería capaz de decir cuántas entrevistas se han realizado?
***
En este ejercicio partimos del intervalo de confianza. Dicho intervalo se construye mediante la suma y la
resta al valor del estadístico, en este caso de una media, del error muestral.
En primer lugar calculamos el valor central del intervalo, que será el valor de dicho estadístico:
Es decir, en la muestra la edad media de las madres al primer hijo es 28,25 años.
El error muestral será la diferencia entre los extremos del intervalo respecto al valor del estadístico:
29,3-28,25=1,05 (También puede calcularse como la diferencia respecto al extremo inferior
28,25-27,2=1,05).
En nuestro caso, como el nivel de confianza es del 99%, Z=2,58, y por tanto:
El intervalo para un nivel de confianza del 95,45% vendrá dado por el producto del error típico por Z=2
b) No, a partir de los datos disponibles, media y error típico no puede obtenerse “n”. Para ello habría
hecho falta conocer la desviación típica o la varianza de la edad al primer nacimiento.
Ejercicio 2.
1 de 4 06/04/2012 11:53
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/junio 2002/junio2002IIs.htm
***
Podemos comparar los criterios de evaluación de los jueces de dos en dos, analizando la asociación entre
ellos, utilizando para ello el coeficiente “rho” (r) de Spearman.
Juez 1 Juez 2 D D2
1 4 -3 9
3 2 1 1
2 1 1 1
4 3 1 1
Juez 1 Juez 3 D D2
1 2 -1 1
3 4 -1 1
2 3 -1 1
4 1 3 9
Juez 2 Juez 3 D D2
4 2 2 4
2 4 -2 4
1 3 -2 4
3 1 -2 4
2 de 4 06/04/2012 11:53
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/junio 2002/junio2002IIs.htm
Está claro que el juez 1 es el que más discrepa frente a los criterios de los otros dos.
Ejercicio3.
Un investigador selecciona aleatoriamente trescientas viviendas en alquiler en un determinado
barrio, y a partir de estos datos encuentra una clara relación inversa entre el precio del alquiler y
la distancia a la estación de ferrocarril. Según sus cálculos el coeficiente de determinación es 0,49.
Calcule para un nivel de significación del 0, 5 un intervalo para el coeficiente r de Pearson.
***
2
El coeficiente de determinación (r ) sabemos que es 0,49.
R por lo tanto será 0,7 o bien –0,7
Como nos dicen que la relación entre las variables es inversa ( es decir, a más distancia a la estación
menor será el precio del alquiler), r =-0,7
Convirtiendo de nuevo los valores de Z a valores R mediante la tabla, tenemos que el intervalo pedido
para el coeficiente de correlación en la población sería (-0,639;-0,760)
Ejercicio 4.
Una socióloga está investigando la discriminación laboral de las mujeres. Ha realizado una encuesta
a 400 familias en las que trabajan los dos cónyuges. Cuando ha preguntado el tiempo de
desplazamiento desde el hogar hasta el lugar de trabajo, ha encontrado los siguientes resultados:
Varones Mujeres
Tiempo medio de 35 minutos 56 minutos
desplazamiento diario
Desviación típica 8 minutos 14 minutos
¿Puede decirnos si a partir de estos datos puede señalarse que las mujeres ocupan los puestos de
trabajo en localizaciones más remotas que los varones?
***
Se trata de una prueba de hipótesis de diferencias de medias. En primer lugar calculamos los errores
típicos al cuadrado para varones y para mujeres:
Varones:
Mujeres: 0,49
3 de 4 06/04/2012 11:53
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/junio 2002/junio2002IIs.htm
El elevado valor de Z señala claramente que existen diferencias en los tiempos de desplazamiento laboral
y que las mujeres ocupan puestos de trabajo más lejanos a sus domicilios respecto a sus parejas.
4 de 4 06/04/2012 11:53
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2002/junio 2002 2 semana.htm
SOLUCIONES.
Ejercicio 1.
En los `barómetros´ del CIS se pide a los ciudadanos españoles que se sitúen políticamente en una
escala que va de 1 (posición más a la izquierda) al 10 (posición más a la derecha). El valor central de
la escala es el 5,5.
En febrero de 1998, en una muestra de 1905 entrevistados se obtuvo un valor medio de 4,75 y una
desviación de 1,86.
Un año más tarde, en febrero de 1999, con una muestra de 1751 entrevistados, el valor medio fue de
4,88 y la desviación típica de 1,79.
¿Podemos decir (con un 95% de probabilidades de acertar) que la población española se ha
desplazado a la derecha entre 1998 y 1999?
***
Se trata, claro está, de una prueba de hipótesis. Se trata de comparar los valores medios de lo que
podemos llamar 'autoposicionamiento político' de dos muestras extraidas de dos poblaciones
supuestamente distintas (la p. española de 1998 y la de 1999) y ver si existen o no diferencias
significativas entre ellos.
Como nos dan el sentido de la diferencia (la media de 1999 es mayor que la de 1998; y esto es lo que nos
permite hablar de derechización de la población española), la prueba será unilateral.
La 'significatividad' de la diferencia vendrá dada por el nivel de confianza. Y en este caso, el nivel de
confianza con el que hemos de trabajar es del 95 %. Por lo tanto, el valor "z" asociado a este nc (el 'z
teórico') será "1,645".
En este contraste o prueba de hipótesis, trabajamos con la distribución muestral configurada por la
diferencia entre las medias.
; donde e igualmente
Por lo tanto,
Como , ze está en la zona de rechazo de la hipótesis nula, hipótesis que sostiene que no hay
diferencias significativas. Por lo tanto, hemos de aceptar la hipótesis alternativa (sí hay diferencias:
). Podemos decir, con un nivel de confianza del 95%, que la población española se ha derechizado
1 de 4 06/04/2012 11:53
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2002/junio 2002 2 semana.htm
Ejercicio 2.
Tenemos los siguientes datos de cuatro individuos de un grupo:
Edad Estatura
(en años) (en metros)
Individuo 1 13,1 1,40
Individuo 2 11,2 1,20
Individuo 3 12,0 1,20
Individuo 4 13,2 1,45
Edad Altura X2 Y2 XY
Individuo 1 13,1 1,40 171,61 1,96 18,34
Individuo 2 11,2 1,20 125,44 1,44 13,44
Individuo 3 12,0 1,20 144,00 1,44 14,40
Individuo 4 13,2 1,45 174,24 2,10 19,14
49,5 5,25 615,29 6,94 65,32
La media será:
La varianza será:
La covarianza:
Entonces:
2 de 4 06/04/2012 11:53
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2002/junio 2002 2 semana.htm
Ejercicio 3.
Según el censo de población de 1991, en la Comunidad de Madrid encontramos un total de 289.804
parados, de los cuales 128.186 son hombres y 161.618 son mujeres. Según la encuesta de Población
Activa en el primer trimestre de 1991, en la Comunidad de Madrid encontramos entre los
entrevistados a 620 hombres parados y 730 mujeres paradas.
***
a)
Para estos datos, la proporción de hombres parados (sobre el total de parados) en la población de la
Comunidad de Madrid estará comprendida entre unos parámetros que dependerán del nivel de confianza
que consideremos. Como aquí no se nos da ninguno, fijamos uno, que bien puede ser, por la generalidad
con la que se usa, del 95 % (pero cualquier otro nos valdría: eso sí, obtendríamos resultados diferentes con
cada uno de ellos).
La muestra de 'población parada' estaría formada por 620 + 730 individuos (n = 1350).
P = p ± z · σp
Como el total de parados de la población en valores absolutos es de 289.804, según nuestra estimación, el
número de varones parados en la Comunidad de Madrid estaría entre 125.601 y 141.019. Podemos ver
que nuestra estimación ha sido acertada, ya que este número es de 128.186.
b)
Si la población masculina parada estimábamos que estaría entre el 43,34% y el 48,66%, se supone que la
femenina estará entre el 56,66% y el 51,34%. Comprobémoslo. Aunque no hubiese hecho falta hacer
nada más.
3 de 4 06/04/2012 11:53
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2002/junio 2002 2 semana.htm
Ejercicio 4.
4 de 4 06/04/2012 11:53
junio 2003 1 s http://www.uned.es/111044/examenes/Junio 2003/junio2003.htm
Material permitido: Todo tipo de material. (Libros, apuntes, máquinas electrónicas de cálculo.)
Duración: 2 Horas.
Ejercicio 1
Una organización ecologista establece un sistema de 400 puntos de control repartidos aleatoriamente a lo
largo de la costa afectada por los vertidos de un petrolero hundido. En la semana anterior encontraron que
el 20% de los puntos de muestreo estaba afectado por el vertido. En la semana actual es el 42%.
¿Puede señalarse para un nivel de significación del 5% que el vertido llegado hasta la costa ha crecido
durante la última semana?
Ejercicio 2
A partir de los datos siguientes:
a) Calcule una recta de regresión que permita estimar ‘la tasa de delincuencia’ de una ciudad cuando
se conoce ‘la tasa de paro’.
b) Comente los resultados sobre la relación que se observa entre paro y delincuencia.
Tasa de paro Tasa de delincuencia
Ciudad A 12 6
Ciudad B 10 5
Ciudad C 16 4
Ciudad D 20 4
Ciudad E 10 6
Ejercicio 3
El servicio de atención de calidad de un hospital ha realizado una encuesta de satisfacción con el servicio a
120 varones y a 90 mujeres. El 45% de los varones han expresado distintos motivos de queja por la atención
recibida mientras que sólo lo han hecho el 38% de las mujeres entrevistadas. A la vista de los datos, ¿Puede
sostenerse que existen diferencias en la percepción del servicio entre varones y mujeres? Explique su
respuesta.
Ejercicio 4
La siguiente tabla muestra el número de minutos de televisión consumidos para una muestra de 8 familias
de tres barrios residenciales de distintos niveles de estatus socioeconómico.
Estatus Bajo 120 245 480 355 240 625 440 240
Socioeconómico Medio 240 300 125 100 300 250 90 220
Alto 60 125 340 210 300 400 90 200
A la vista de los resultados anteriores podría señalar si existe relación entre el estatus socioeconómico y el
consumo de televisión.
Ejercicio 1
Se trata de una prueba de hipótesis unilateral del estadístico de la proporción para dos muestras. Para
calcular el error típico se utiliza la proporción media:
1 de 6 06/04/2012 11:55
junio 2003 1 s http://www.uned.es/111044/examenes/Junio 2003/junio2003.htm
Así:
El valor de Z es tan elevado que, sin necesidad de observar la tabla, puede rechazarse la hipótesis nula. Con
un nivel de confianza superior incluso al 99%, puede asegurarse que el vertido ha crecido durante la última
semana.
2 de 6 06/04/2012 11:55
junio 2003 1 s http://www.uned.es/111044/examenes/Junio 2003/junio2003.htm
Ejercicio 2.
Para obtener la recta de regresión calculamos las columnas de cuadrados y productos cruzados y la fila de
los sumatorios.
X Y X2 Y2 XY
144 36 72
12 6
100 25 50
10 5
256 16 64
16 4
400 16 80
20 4
100 36 60
10 6
Por tanto,
b) Los datos muestran una relación inversa o negativa entre paro y delincuencia. Obsérvese que la
covarianza es negativa.
Ejercicio 3
3 de 6 06/04/2012 11:55
junio 2003 1 s http://www.uned.es/111044/examenes/Junio 2003/junio2003.htm
Se trata de una prueba bilateral de diferencia de proporciones Para calcular el error típico se utiliza la
proporción media:
Para un nivel de significación del 95% en una prueba bilateral el valor crítico del estadístico es 1,96. El valor
de la prueba en este caso es claramente inferior, por lo tanto no puede rechazarse la hipótesis nula. Ello
quiere decir que estadísticamente en función del tamaño muestral utilizado no puede sostenerse que existen
diferencias en la valoración de la atención sanitaria que realizan varones y mujeres.
4 de 6 06/04/2012 11:55
junio 2003 1 s http://www.uned.es/111044/examenes/Junio 2003/junio2003.htm
Ejercicio 4
El análisis de varianza permitirá contestar a la pregunta. En primer lugar calculamos las sumas de cuadrados:
X1 X2 X3
120 240 60
245 300 125
480 125 340
355 100 210
240 300 300
625 250 400
440 90 90
240 220 200
2745 1625 1725 6095
5 de 6 06/04/2012 11:55
junio 2003 1 s http://www.uned.es/111044/examenes/Junio 2003/junio2003.htm
El valor otenido de F es menor que el teórico para un nivel de confianza del 95%, por tanto la conclusión es
que no pueden señalarse a partir de esta muestra diferencias entre el consumo televisivo y el estatus
socioeconómico.
6 de 6 06/04/2012 11:55
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/junio 2004/primera junio.htm
Material permitido: Todo tipo de material. (Libros, apuntes, máquinas electrónicas de cálculo.)
Duración: 2 Horas. Cada ejercicio se evaluará sobre 2,5 puntos.
_________________________________________________________________________
Ejercicio 1
Una muestra aleatoria de 225 madrileños reveló que sólo 18 de ellos poseían DVD. ¿Podemos decir
con estos datos que menos del 10 % de los madrileños poseen DVD?
(Considere un nivel de significación del 95%)
En primer lugar tenemos que calcular es el porcentaje de los entrevistados que poseen DVD.
P = 18/225 = 0,08
Para a continuación ver si el 10 % está dentro del intervalo de confianza considerado en la estimación.
Aquí, se nos señala un nivel de significación del 95 %, o lo que es lo mismo un nivel de confianza del 5 %.
El dato no es erróneo, puesto que el nivel de ‘significación’ puede oscilar entre 0 y 100.
Aunque mucha gente puede haber creído que se hablaba de nivel de ‘confianza’.
Consideraremos, por lo tanto, ambos casos.
Es decir, entre 7,89 % y 8,11 %. Entre estos valores estará el valor de la población para el nivel de
significación considerado. Siempre por debajo del 10 %. Podemos afirmar que menos del 10 % de la
población no tienen DVD.
b) Con un nivel de significación del 5 %, esto es, con un nivel de confianza del 95 %.
Esto es entre 4,46 % y 11,55 %. Lo que quiere decir que no podemos asegurar que el parámetro
poblacional se encuentre por debajo del 10 %.
1 de 5 06/04/2012 11:58
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/junio 2004/primera junio.htm
Ejercicio 2
En una encuesta hemos obtenido los siguientes resultados al cruzar el estado de la población activa
con su estado civil:
Soltero Casado
Ocupado 102 638
Parado 6 27
¿Puede explicarse la distinta incidencia del paro entre solteros y casados como resultado de una
variación puramente aleatoria?
p1 = 6/108 = 0,0556
p2 = 27/665 = 0,0406
Buscamos saber si la diferencia en la proporción de parados entre solteros y casados es debida a factores
aleatorios, es decir, si dicha diferencia no es significativa estadísticamente, si podemos decir para la
población que no hay diferencias en las proporciones de parados solteros y parados casados. Para ello
definiremos un nivel de confianza. Por ejemplo, el 95 %. Hubiésemos podido coger cualquier otro, entre 0
y 100.
La distribución muestral de la diferencia entre dos proporciones muestrales (p1 - p2) es normal, siendo n1
y n2 suficientemente grandes, y tiene una media igual a "p1 - p2" y una desviación típica σp
σp=
siendo p una media ponderada de las dos proporciones muestrales, esto es,
y q = 1- p
El estadístico de prueba es
Z=
_______________
2 de 5 06/04/2012 11:58
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/junio 2004/primera junio.htm
q = 1 - 0,0427 = 0,9573
σp=
Por lo tanto,
Z=
Como el Z empírico obtenido está dentro de la región crítica, podemos decir que las proporciones de
parados son iguales para los solteros y para los casados, esto es, que las diferencias obtenidas en las
muestras son puramente aleatorias.
3 de 5 06/04/2012 11:58
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/junio 2004/primera junio.htm
Ejercicio 3
La siguiente tabla muestra la evolución conjunta de los valores medios de la renta y del consumo
privado ‘per cápita’ en los Estados Unidos de América (en dólares).
Año Renta Consumo
1980 9722 8783
1981 9769 8794
1982 9725 8818
1983 9930 9193
= 9786,5 $
= 8885,75 $
X Y X- Y- (X - )2 (Y - )2 (X - ) (Y -
)
9722 8738 -64,5 -147,75 4160,25 21830,06 9529,875
9769 8794 -17,5 -91,75 306,25 8418,06 1605,625
9725 8818 61,5 -67,75 3782,25 4590,06 4166,625
9930 9193 143,5 307,25 20595,25 94402,56 44090,375
X- )2 = 28.844
Y- )2 = 129.240,74
X- )(Y - ) = 59.392,5
El coeficiente que correlaciona renta y consumo es altísimo, lo que quiere decir que una y otro están muy
relacionados o se encuentran muy 'asociados': a cada incremento de renta le corresponderá un incremento
lineal del consumo.
¿A qué se debe esta altísima correlación? Aparte de la relación funcional entre ambas variables tenemos
que tener en cuenta lo que se ha llamado "falacia ecológica" o "correlación ecológica" [en el Manual de
Sánchez Carrión, páginas 44-47 y 536-537]. Al considerar 'unidades agregadas' la correlación siempre será
más alta que si tenemos en cuenta 'unidades individuales'. Nunca se deben mezclar unidades de nivel
4 de 5 06/04/2012 11:58
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/junio 2004/primera junio.htm
Ejercicio 4
Un encuesta del CIS (estudio 2315) realizada en 1999 entrevistó a 938 mujeres residentes en
municipios rurales de 18 a 49 años y a 2733 mujeres residentes en municipios urbanos del mismo
grupo de edad. De las entrevistadas rurales 148 dijeron estar en paro mientras que 503 mujeres
urbanas se consideraron paradas.
Estime para un nivel de significación del 5% la proporción de paradas rurales en el conjunto de la
población española.
Las mujeres rurales en paro supone el 15,78 % del total de mujeres rurales.
5 de 5 06/04/2012 11:58
Ejercicio 1 http://www.uned.es/111044/examenes/junio 2004/soluciones junio2004.htm
Ejercicio 1
En una muestra de 100 individuos hemos obtenido unos ingresos medios de 1400 € al mes
(con una varianza de 160.000).
Con esta muestra, ¿podría afirmarse que los ingresos medios en la población son 1.500 €?
¿Con qué nivel de significación podría afirmarse esto?
Ejercicio 2
Un test nos mide el aprendizaje del castellano (entre 0 y 100) de unas muestras de
estudiantes extranjeros en España procedentes de 3 países distintos. Los resultados
obtenidos en los 13 estudiantes seleccionados son los siguientes:
PAÍSES
A B C
29 90 45
64 66 59
33 73 51
40 55 44
55
¿Son las tres poblaciones representadas en las muestras diferentes en cuanto al grado medio
de aprendizaje del castellano?
Ejercicio 3
Un encuesta del CIS (estudio 2315) realizada en 1999 entrevistó a 938 mujeres residentes en
municipios rurales de 18 a 49 años y a 2733 mujeres residentes en municipios urbanos del
mismo grupo de edad. De las entrevistadas rurales 148 dijeron estar en paro mientras que 503
mujeres urbanas se consideraron paradas.
Señale, con un nivel de confianza del 95%, si la incidencia del paro era más elevado en las
mujeres urbanas respecto a las rurales.
Ejercicio 4
La siguiente tabla elaborada a partir de la Encuesta de Calidad de Vida en el trabajo (MTASS,
trienio 1999-01) clasifica a los asalariados en el sector privado por el tipo de contrato y sexo.
Varones Mujeres
No Fijos 2320 1459
Fijos 3545 1787
RESPUESTAS
Ejercicio 1
1 de 4 06/04/2012 11:58
Ejercicio 1 http://www.uned.es/111044/examenes/junio 2004/soluciones junio2004.htm
Ejercicio 2
Se trata de un análisis de varianza con tres grupos.
Calculamos los datos necesarios:
A B C
X1 X2 X3
29 90 45 841 8100 2025
64 66 59 4096 4356 3481
33 73 51 1089 5329 2601
40 55 44 1600 3025 1936
55 3025
2 de 4 06/04/2012 11:58
Ejercicio 1 http://www.uned.es/111044/examenes/junio 2004/soluciones junio2004.htm
Tabla de varianza:
Suma de Grados de
Cuadrados libertad Varianza
Entre Grupos 1831,89231 2 915,946154
Dentro de Grupos 1547,8 10 154,78
TOTAL 3379,69231 12
Cálculo estadístico F:
Por lo tanto, como el valor empírico es mayor que el crítico concluimos que existen diferencias
en el aprendizaje de los alumnos según nacionalidad con un nivel de confianza del 95%.
Ejercicio 3
Se trata de una prueba unilateral de diferencia de proporciones.
ni ai pi
Rurales 938 148 0,158
Urbanas 2733 503 0,184
Total 3671 651 0,177
H0 :
H1 :
Para el cálculo del error típico de la diferencia de proporciones, calculamos primero la media
de las proporciones. Ya lo tenemos calculado en la última fila de la tabla anterior. La media de
las proporciones es la proporción del total de la muestra.
Obsérvese que:
3 de 4 06/04/2012 11:58
Ejercicio 1 http://www.uned.es/111044/examenes/junio 2004/soluciones junio2004.htm
Como el valor crítico es 1,645 puede rechazarse la hipótesis nula para un nivel de significación
del 95%. Puede afirmarse, con un nivel de confianza del 95% que el paro de las mujeres
urbanas es mayor que el de sus homólogas rurales.
Ejercicio 4
La variable independiente es el sexo. Por lo tanto los porcentajes habrá que calcularlos sobre
el total de cada columna.
Varones Mujeres
No Fijos 39,6 44,9
Fijos 60,4 55,1
Total 100% 100%
La tabla muestra diferencias entre el tipo de contrato y el sexo del trabajador en el sentido de
una inserción laboral menos estable y por tanto más precaria para las mujeres que para los
hombres.
4 de 4 06/04/2012 11:58
FACULTAD DE CIENCIAS POLÍTICAS SOCIOLOGÍA http://www.uned.es/111044/examenes/Junio 2006/2semanajun2006.htm
Ejercicio 1. Los ingresos medios anuales de los asalariados españoles en 2002 según el nivel de estudios se
refleja en la siguiente tabla:
Ingresos (€/año)
1. Sin estudios 12.903
2. Educación primaria 15.640
3. Educación secundaria 21.634
4. Diplomados universitarios 25.760
5. Estudios universitarios superiores 32.997
Si considera el nivel de estudios como variable de rango, numerado del 1 al 5 tal como aparece en la tabla, calcule
el coeficiente de correlación entre las ‘ganancias’ y los ‘estudios’.
Ejercicio 2. La tabla siguiente muestra las tasas de paro de 12 municipios españoles en función del tamaño
poblacional de los mismos.
Estudie si existe alguna relación entre el paro y el tamaño demográfico y calcule el estadístico más pertinente para
ello.
Ejercicio 3. La tabla siguiente señala el número de parados en un municipio clasificados por edad:
>de 25 años De 25 a 34 De 35 a 44 De 45 a 54 De 55 a 64
años años años años
En paro 800 800 400 400 600
Trabajando 400 600 1800 2000 1800
Ejercicio 4. Un investigador obtiene datos sobre una pequeña muestra de pacientes que han sufrido un transplante
de corazón durante los últimos cinco años. Los tiempos de espera desde el diagnóstico hasta la operación son los
señalados en la tabla siguiente:
Paciente A B C D E F G H I J
Meses en lista de espera 22 13 36 16 41 18 21 3 12 15
Calcule mediante un intervalo de confianza cuál será el tiempo medio de espera para un transplante en el conjunto
de la población. Utilice un nivel de significación del 5%.
1 de 5 06/04/2012 12:01
FACULTAD DE CIENCIAS POLÍTICAS SOCIOLOGÍA http://www.uned.es/111044/examenes/Junio 2006/2semanajun2006.htm
Ejercicio 1.
Vista la información, de las variables a nivel ordinal, no hace falta hacer cálculo alguno para determinar que
el valor del coeficiente “Rho de Spearman” Rho=+1. Es decir existe una relación positiva entre nivel de
estudios e ingresos.
(Si se hubiera calculado el coeficiente “r de Pearson” con estudios como rango e ingresos como variable
de rango, el valor obtenido hubiera sido r=+0,99. Nótese no obstante que la relación obtenida es una
relación de grupos y no de individuos, es decir, si conociéramos el nivel de estudios de un individuo no
podríamos pronosticar sus ingresos, simplemente podríamos obtener la media de su grupo. Véase al
respecto los comentarios sobre “falacia ecológica”).
Ejercicio 2.
El ejercicio presenta la información de 12 casos de la variable “tasa de paro” en tres
grupos. Para determinar si la pertenencia a los grupos tiene influencia en el valor de la
variable dependiente (tasa de paro) utilizaremos un análisis de varianza con un solo
factor (ANOVA).
H 0:
H 1:
Municipios
entre 10.001
Municipios < y 50.000 Municipios
10.000 hab. hab. >50.000 hab.
X1 X2 X3
6,4 12,9 18,2
12,1 11 17,1
8,2 9,2 6,3
13 15,3 22,3
Suma 39,7 48,4 63,9
Media 9,925 12,1 15,975
2 de 5 06/04/2012 12:01
FACULTAD DE CIENCIAS POLÍTICAS SOCIOLOGÍA http://www.uned.es/111044/examenes/Junio 2006/2semanajun2006.htm
SCent=
SCent=
Glent=K-1=3-1=2
SCtot=
Suma
40,96 166,41 331,24
146,41 121 292,41
67,24 84,64 39,69
169 234,09 497,29
Suma 423,61 606,14 1160,63 2190,38
SCtot=
GLtot=N-1=12-1=11
SCdent=SCtot-SCent=265,046667-75,1316667=189,915
GLdent=GLtot-GLent=11-2=9
La tabla siguiente resume los cálculos realizados y nos permite obtener la varianza entre
y dentro de los grupos:
3 de 5 06/04/2012 12:01
FACULTAD DE CIENCIAS POLÍTICAS SOCIOLOGÍA http://www.uned.es/111044/examenes/Junio 2006/2semanajun2006.htm
El valor de F será:
Como el valor obtenido es menor que el crítico no podemos rechazar la hipótesis nula, por lo tanto con un
nivel de confianza del 99% podemos señalar que no hay relación entre el paro y el tamaño demográfico
de los municipios.
Ejercicio 3.
c) Comentario. Se observa una relación inversa entre paro y edad, o directa entre ocupación y edad.
A mayor edad la ocupación es mayor, a excepción de las edades de prejubilación en las que se
observa un descenso de la ocupación. El acceso al mercado laboral es tardío hasta bien entrada
en la treintena las tasas de paro son muy elevadas. Los datos expresan una integración difícil en el
mercado laboral y un rechazo por parte del mercado de las edades elevadas.
Ejercicio 4.
Se trata de un intervalo del estadístico de la media para una muestra muy pequeña. Como n es claramente
menor de 30, utilizaremos la distribución “t de Student”. En primer lugar calculamos la media de la
distribución.
4 de 5 06/04/2012 12:01
FACULTAD DE CIENCIAS POLÍTICAS SOCIOLOGÍA http://www.uned.es/111044/examenes/Junio 2006/2semanajun2006.htm
Para calcular el error típico de la media necesitamos conocer la varianza de la población, como no la
conocemos utilizamos la varianza de la muestra:
xi
22 5,29
13 44,89
36 265,69
16 13,69
41 453,69
18 2,89
21 1,69
3 278,89
12 59,29
15 22,09
TOTAL 197 1148,1
El valor de t para 9 grados de libertad y un nivel de confianza del 95% es según tablas:
t9=2,262
El intervalo será:
5 de 5 06/04/2012 12:01
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/2007junio1semanab.htm
Ejercicio 1.
En los barómetros del CIS se pregunta a los encuestados su ubicación política en una escala de 10
posiciones, donde 1 representa la posición más a la izquierda y 10 la posición más a la derecha. Los
resultados de esta pregunta en dos de estos barómetros son los siguientes:
a) ¿Podríamos decir que ha evolucionado la población española hacia la izquierda durante 2006?
(considere un nivel de confianza del 95%
b) ¿Y si consideramos un nivel de confianza del 99%?
Ejercicio 2.
Un investigador desea comprobar la incidencia de una determinada campaña publicitaria sobre los hábitos
de la conducción. Para ello elabora un test con 25 items sobre la percepción de riesgos en la carretera que
se puntúa entre 0 y 100 (100 puntos significa alta percepción de riesgo). El investigador selecciona
aleatoriamente una muestra de 100 individuos y realiza el test antes y después de la campaña publicitaria.
Obtiene los siguientes resultados:
Puntuación antes de la Puntuación después de la
campaña campaña
Media 45 65
Varianza 144 360
Para un nivel de confianza del 95%, señale si considera que la campaña ha sido efectiva.
Ejercicio 3.
La siguiente tabla muestra la información de 420 cuestionarios de una encuesta reciente sobre intención
de voto en un municipio de 48.000 habitantes, así como los resultados electorales de las elecciones
celebradas hace dos años.
A partir de estos datos, señale si el Partido Comarcal revalidará su victoria electoral.
Elecciones 2005 Resultados encuesta 2007
Partido Comarcal 40% 36%
Federación Democrática 35% 34%
Partido independiente 15% 20%
Otras candidaturas 10% 10%
Ejercicio 4.
Una multinacional elige aleatoriamente 7 de los países en los que actúa para estudiar cómo influyen los
gastos en publicidad sobre las ventas. Obtiene los siguientes resultados para cada país (en millones de
dólares)
Ventas 20 25 24 30 32 40 28
Gastos en publicidad 0,2 0,2 0,2 0,3 0,3 0,4 0,3
¿En qué grado los gastos en publicidad determinan las ventas?
Soluciones
Ejercicio 1.
Se trata de realizar una prueba de hipótesis para comparar las dos muestras.
Enunciamos la hipótesis nula en el sentido de que no hay diferencia entre las medias, y la hipótesis
alternativa en el sentido de que la media de 2007 es menor que la media de 2005.
1 de 6 06/04/2012 12:01
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/2007junio1semanab.htm
Donde:
2 de 6 06/04/2012 12:01
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/2007junio1semanab.htm
Para un nivel de confianza del 95% y siendo la prueba unidireccional, el valor tipificado de referencia
será Zc = 1,65 y como Ze>Zc, se rechaza Ho
Para un nivel de confianza del 99%, el valor tipificado de control será Zc = 2,33 y como Ze<Zc, se
acepta Ho
Ejercicio 2.
De forma análoga al ejercicio anterior, aunque con el sentido contrario en la desigualdad, enunciaremos
las hipótesis de la siguiente manera:
Y procederemos con los cálculos de la misma manera, teniendo en cuenta que esta vez se nos
proporcionan las varianzas y no las desviaciones típicas:
Como Ze>Zc, se rechaza la hipótesis nula, por tanto podemos establecer que la campaña publicitaria tuvo
el efecto deseado.
Ejercicio 3.
Revalidar la victoria debe interpretarse como ser el partido más votado. Por tanto la comparación debe
hacerse entre los porcentajes obtenidos por los dos primeros partidos en la encuesta de 2007.
Llamando p1 a la proporción de intención de voto al “partido comarcal”, 0,36 y p2 a la proporción de
intención de voto a la “federación democrática” 0,34, comprobaremos mediante una prueba de hipótesis
3 de 6 06/04/2012 12:01
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/2007junio1semanab.htm
si la desigualdad en los valores p1 y p2, obtenidos a partir de la muestra, pueden extenderse a la población,
para un nivel de confianza dado.
Emplearemos el estadístico:
A continuación obtenemos el valor del error típico de la distribución muestral de las proporciones para dos
muestras
Si elegimos un nivel de confianza del 95%, y al estar enunciada la hipótesis alternativa en forma de
desigualdad, la prueba será unidireccional y por tanto el valor Z de contraste será Zc = 1,65
Como el valor Ze<Zc, podemos concluir que aunque en la muestra parece que el partido comarcal supera
al siguiente partido en intención de voto, esa diferencia no es significativa, por tanto se acepta la hipótesis
nula y consideramos que con los datos obtenidos no podemos establecer que haya diferencias en la
población; es decir, no podemos afirmar que el partido comarcal vuelva a ganar las elecciones
Ejercicio 4.
Para conocer la relación entre las ventas y los gastos en publicidad emplearemos el coeficiente de
correlación, mediante la fórmula:
4 de 6 06/04/2012 12:01
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/2007junio1semanab.htm
Para lo cual construiremos las tablas que nos faciliten los cálculos, llamando “X” a las ventas e “Y” a los
gastos en publicidad:
X Y
20 0,2
25 0,2
24 0,2
30 0,3
32 0,3
40 0,4
28 0,3
199 1,9
La correlación entre los gastos en publicidad y las vengas es muy alta, pero para contestar a la pregunta de
“en qué grado los gastos en publicidad determinan las ventas” utilizaremos el coeficiente de
determinación:
Podemos decir que el gasto en publicidad explica el 89,92% de la variación de los datos.
5 de 6 06/04/2012 12:01
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/2007junio1semanab.htm
6 de 6 06/04/2012 12:01
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/soluciones jun 2007 ...
Ejercicio 1.
Un investigador desea comprobar la incidencia de una determinada campaña publicitaria sobre hábitos de
conducción. Para ello elabora un test con 25 items sobre percepción de riesgos en carretera que puntúa
entre 0 y 100. (100 puntos significa alta percepción del riesgo). El investigador selecciona aleatoriamente
una muestra de 10 individuos y realiza el test antes y después de la campaña publicitaria. Obtiene los
siguientes resultados:
Para un nivel de confianza del 95%, señale si considera que la campaña ha sido efectiva.
Ejercicio 2.
Un investigador desea comprobar la incidencia de una determinada campaña publicitaria para aumentar la
práctica de determinadas tareas domésticas en los hombres. Para ello elabora una encuesta que mide la
participación en dichas tareas y clasifica a los entrevistados en activos e inactivos en tareas domésticas.
La encuesta se realiza antes y después de la campaña a una muestra aleatoria de 1000 hombres. Obtiene
los siguientes resultados:
Señale si observa alguna incidencia de dicha campaña. ¿puede cuantificar el impacto de la campaña?
Ejercicio 3.
Un investigador obtiene los siguientes datos absolutos en una encuesta de opinión sobre la ampliación de
una carretera en un parque natural:
De 18 a 34 años De 36 a 54 De 55 años y más
A favor 20 60 50
Indiferentes 34 100 40
En contra 46 80 20
1 de 5 06/04/2012 12:02
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/soluciones jun 2007 ...
Ejercicio 4.
Sobre una muestra aleatoria hemos estudiado la tolerancia hacia las prácticas de fraude fiscal, obteniendo
los siguientes resultados:
SOLUCIONES
Ejercicio 1.
Como tenemos la puntuación para cada individuo, podemos comparar la media de las diferencias
observadas con el supuesto de la inexistencia de diferencias. Si entendemos la efectividad de la campaña
como un aumento de la percepción de riesgo, podemos enunciar las siguientes hipótesis:
La prueba a realizar es unilateral con un nivel de significación de 0,05 y al tratarse de una muestra
pequeña usaremos la distribución t de Student.
2 de 5 06/04/2012 12:02
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/soluciones jun 2007 ...
-15,4 237,16
16,6 275,56
24,6 605,16
-21,4 457,96
14,6 213,16
-13,4 179,56
-5,4 29,16
-9,4 88,36
28,6 817,96
-19,4 376,36
3280,4
Para un nivel de significación de 0,05 y nueve grados de libertad, siendo la prueba unilateral el valor de tc
en las tablas es 1,833. Como el valor empírico te es mayor que el de contraste tc, está en la zona de rezazo
de la hipótesis nula.
Ejercicio 2.
Al ser una tabla de variables nominales de 2x2, podemos determinar la asociación mediante el estadístico
de la Q de Yule.
A B
C D
3 de 5 06/04/2012 12:02
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/soluciones jun 2007 ...
Como el coeficiente varía entre –1 y +1 el valor obtenido indica una relación fuerte entre las variables. En
este caso, el valor +1 significaría que no ha habido cambios, esto es, que los que participaban antes son
exactamente los mismos que los que participan después. Es decir, la campaña no ha producido ningún
cambio.
Observando estos resultados (1-0,9355) podemos señalar que el impacto de la campaña ha sido relativo,
en la medida en que hay poca variación en la participación de los varones en las tareas domésticas antes
y después de la campaña.
Ejercicio 3.
a) la proporción de entrevistados de menos de 55 años se obtiene de la tabla original: sumando las
columnas de las categorías de edades, la suma de las columnas “de 18 a 34” y “de 36 a 54”
18 a 35 36 a 54 55 y más
A favor 20% 25% 45%
indif 34% 42% 36%
En contra 46% 33% 18%
100% 100% 100%
En la fila de los indiferentes, la proporción mayor corresponde a la categoría “36 a 54” con un
porcentaje del 42%
Ejercicio 4.
La Ji-cuadrado compara las frecuencias observadas con las frecuencias que tendríamos si no hubiera
asociación. Para ello calculamos una tabla en las que, a partir de los subtotales las frecuencias de las
casillas, hallamos las frecuencias esperadas en el caso de ausencia de asociación.
Una vez obtenida la tabla de las frecuencias esperadas podemos proceder al cálculo de la Ji-cuadrada:
4 de 5 06/04/2012 12:02
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/soluciones jun 2007 ...
2 2
fo fe fo-fe (fo-fe) (fo-fe) /fe
260 250 10 100 0,4
240 250 -10 100 0,4
240 250 -10 100 0,4
260 250 10 100 0,4
1,6
Como el valor obtenido es distinto de 0 podemos decir que existe asociación. Para cuantificar esa
asociación, utilizaremos la V de Cramer.
El resultado de la Ji-Cuadrado hubiese sido menor, debido a los menores valores de las frecuencias
absolutas, pero la cuantificación mediante la V de Cramer hubiera sido idéntica:
5 de 5 06/04/2012 12:02
Examen Estadística Aplicada a las Ciencias Sociales
Junio 2008 Primera semana
Soluciones al examen de Estadística Aplicada a las Ciencias Sociales
Junio 2008 Primera semana
Ejercicio 1.
Hemos asignado a cada casilla de la tabla el número de casos que correspondería según
el número de casos en la columna y la fila respecto a los 3.100 casos.
A primera vista puede comprobarse que para la casilla “Estudios Primarios/Clase Baja”,
el número de los que poseen ambas características es 600 casos, mientras que si las
características estuvieran distribuidas en proporción a sus totales marginales serían sólo
319.
Para conocer las diferencias entre las frecuencias esperadas y las observadas en el
conjunto de la tabla, calculamos el valor de χ 2
Para cada celda de la tabla calculamos las diferencias entre las frecuencias observadas y
las esperadas, elevadas al cuadrado para que tengan signo positivo y expresadas en
unidades de frecuencias esperadas:
( fo − fe )
2
fe
Primarios Secundarios Universitarios Total
Baja 246,63 8,14 150,67 405,44
Media 28,10 77,82 28,10 134,02
Alta 124,77 33,97 330,32 489,06
Total 399,49 119,93 509,09 1028,52
( fo −
fe )
2
χ 2
∑ =
fe
= 1.028,52
El hecho de que el valor de χ 2 sea diferente de cero indica que existen diferencias entre
las frecuencias esperadas y observadas y por tanto hay algún tipo de asociación. Para
cuantificar esa asociación utilizaremos un coeficiente estandarizado que varía entre 0 y
1: la V de Cramer
χ2 1.028,52
V = = = 0,4073
N ( K − 1) 3.100( 3 − 1)
gl = ( f − 1)(c − 1) = (3 − 1)(3 − 1) = 4
Ejercicio 2.
P S U
B 600 400 100
M 200 600 200
A 100 300 600
Para realizar los cálculos localizaremos en primer lugar la “diagonal positiva” o línea
que une las celdas que contienen los valores “Alto-Alto” y “Bajo Bajo”. La diagonal
dependerá de cómo hayamos situado las categorías de las variables en la tabla y en este
caso será:
P S U
B X
M X
A X
P S U
B X
M X
A X
P S U
B S
M
A D
600*(600+200+300+600)=1.020.000
400*(200+600)=320.000
200*(300+600)=180.000
600*600=360.000
100*(600+200+400+100)=130.000
300*(200+100)=90.000
200*(400+100)=100.000
600*100=60.000
Los pares discordantes Nd suman 130.000+90.000+100.000+60.000=380.000
El valor del coeficiente nos indica que conociendo el orden de la clase social, podemos
predecir el orden del nivel de estudios reduciendo el error de la predicción un 66%. La
asociación entre las dos variables es notable y el signo positivo nos indica que el orden
de una variable ayuda a predecir el orden de la otra.
Ejercicio 3.
H 0 p = P = 0,78
H 1 p ≤ 0,78
Utilizaremos como referencia la curva normal con un nivel de confianza del 95%
(ns: 0,05) lo que en una prueba unilateral se corresponde con un valor Zc de -1,65.
p− P
Ze =
σ p
Calculamos primero el error muestral considerando que el factor de corrección para
N− n
poblaciones finitas es 0,994 , aproximadamente la unidad ≈1
N−1
P⋅ Q 0,78 ⋅ (1 − 0,78)
σ p = = = 0,0378
n 120
y comparamos ahora las proporciones:
p − P 0,68 − 0,78
Ze = = = − 2,66
σ p 0,0378
Como Ze < Zc rechazamos la hipótesis nula y con una probabilidad de un 5% de
equivocarnos y que sea verdadera
Ejercicio 4.
a)
Conocida la recta de regresión de los sueldos de las mujeres en función de los de sus
maridos podemos estimar la media de ingresos de las mujeres, sustituyendo los ingresos
de los maridos x, por su valor medio:
y = − 2.200 + 0,65 ⋅ x
y = − 2.200 + 0,65 ⋅ 32.300 = 18.795
b)
y = − 2.200 + 0,65 ⋅ x
Necesitamos hallar los parámetros de la recta que representa los sueldos de los maridos
a partir de los de sus mujeres:
x = a '+ b' y
x = a '+ b' y
de manera que sustituyendo los valores que conocemos obtendremos la ecuación que
nos permite determinar a’:
x = 18.613 + 0,728 ⋅ y
Examen Estadística Aplicada a las Ciencias Sociales
Junio 2008 segunda semana
Soluciones al examen de Estadística Aplicada a las Ciencias Sociales
Junio 2008 Segunda semana
Ejercicio 1.
Para determinar si ha aumentado la intención de voto realizaremos una prueba de
hipótesis de la siguiente manera:
H0 p=P
H1 p>P
PQ 0,377 ⋅ 0,623
σp = = = 0,0199
n 600
Para una prueba unidireccional y un nivel de confianza del 95,5%, el Zc crítico será:
Zc = 1,7
Ejercicio 2.
Como se trata de pacientes diferentes cada año, tomamos las dos series como muestras
independientes. Para determinar si ha variado el tiempo medio de espera enunciamos la
prueba de hipótesis analizando la diferencia entre las medias de ambas series:
H 0 : µ1 = µ 2
H 1 : µ1 ≠ µ 2
Calculamos la media y la desviación típica de cada distribución, que reflejamos en la
siguiente tabla:
x1 − x 2
te =
σ x −x
1 2
Siendo:
σ x − x = σ x2 + σ x2
1 2 1 2
x1 − x 2 9,33 − 9,22
te = = = 0,0299
σ x −x
1 2
3,72
El valor crítico de t para ns:0,05 y gl = n1+n2-2 =16 en una prueba bilateral es:
tc = 2,120
Al ser el valor empírico menor que el crítico decidimos aceptar la hipótesis nula. La
media de meses en lista de espera no ha variado en la población
Ejercicio 3.
Para calcular la asociación entre las variables “sexo” y “uso de internet”, comenzaremos
por expresar los datos de la tabla en frecuencias absolutas en lugar de en porcentajes, y
agrupando en la categoría “no” a los que no hayan contestado “si”, por ser un número
de casos insignificantes, evitando así las casillas con valor 0 o con un número de casos
muy pequeño:
Hombres Mujeres Total
Si 569 536 1105
No 640 725 1365
1209 1261 2470
A continuación calculamos las frecuencias esperadas para cada celda de la tabla según
la expresión:
( fo − fe )2
fe
χ2 5,3
φ= = = 0,0462
N 2.470
En la tabla en la que se clasifican a las 2.700 personas de la muestra aparecen sólo 500
personas de renta baja con estudios primarios, lo que supone un 18,52% de los casos.
Como se trata de una estimación mediante una muestra, el valor para la población
vendrá dado en forma de intervalo y con una probabilidad asignada o nivel de confianza
dado. Para obtener los extremos de ese intervalo utilizaremos la expresión:
P = p ± Zσ p
Siendo
Sustituyendo los valores en la fórmula del intervalo obtendremos los límites inferior y
superior donde se encontrará la proporción en la población con una probabilidad del
95% (Z=1,96)
Ejercicio 1.
Una agente de igualdad está interesada en conocer las diferencias salariales en España entre
hombres y mujeres (brecha salarial) en las empresas de un sector. Realiza una encuesta a 400
trabajadores y otra a un número igual de trabajadoras que ocupan un puesto de trabajo similar al de
los hombres y obtiene los siguientes resultados:
salario medio Desviación típica
Hombres 58000 15200
Mujeres 49400 12300
A partir de estos datos ¿puede afirmarse que las mujeres españolas que trabajan en ese sector cobran
menos que los hombres cuando realizan el mismo trabajo?
Ejercicio 2.
Un investigador encuentra que en un determinado sector el “salario bruto anual” (Y) mantiene la
siguiente relación con los “años de antigüedad en la empresa” (X)
Para los hombres: Y = 35.000+1.500·X
Para las mujeres: Y = 32.000+1.200·X
Represente en el mismo eje cartesiano ambas rectas.
Si un trabajador y una trabajadora son contratados a la vez ¿cuál será la diferencia de salario entre
ambos diez años más tarde?
Ejercicio 3.
Entre los pacientes de una determinada consulta de un centro de salud hemos seleccionado
aleatoriamente a 8 y les hemos preguntado en junio por su grado de satisfacción (de 1 a 10). En
diciembre, tras un cambio en la consulta, hemos vuelto a interrogar a los mismos pacientes y hemos
obtenido resultados distintos, como observamos en la tabla siguiente:
Pacientes 1 2 3 4 5 6 7 8
Junio 6 8 5 4 6 5 4 3
Diciembre 5 9 5 7 6 6 4 2
¿Puede decirse, con un nivel de confianza del 95%, que ha aumentado la satisfacción de los
pacientes?
Ejercicio 4.
Una muestra de 100 personas (de una población de 200.000) nos da unos ingresos medios de
42.000€ con una desviación típica de 10.000€. Halle el intervalo en el que se encontrarán, con un
90% de probabilidad, los ingresos medios de todas las muestras de 100 individuos que podemos
extraer de la misma población.
RESPUESTAS
Ejercicio 1.
Para saber si en la población se da la misma desigualdad entre las medias de hombres y mujeres que
en la muestra realizaremos un contraste de hipótesis unilateral de diferencia entre medias.
La hipótesis nula de partida establece la igualdad de las medias en la población y la alternativa que
la media salarial de hombres es superior a la de mujeres:
H 0 : h m
H1 : h m
A continuación establecemos el criterio de aceptación o rechazo de la hipótesis nula para un nivel
de confianza que establecemos en el 95% de una distribución normal.
Consultando las tablas de área bajo la curva normal, y siendo la prueba unilateral, buscamos el valor
crítico de Z, que para un 95% es Zc = 1,645
Calculamos a continuación la prueba estadística a partir de los datos de las dos muestras:
x1 x 2
Ze
x x
1 2
Obtenemos primero las desviaciones típicas de las distribuciones muestrales para ambas muestras:
S x1 15.200
x 760,95
1
n1 1 399
S x2 12.300
x 615,77
2
n2 1 399
x x x2 x2 (760,95) 2 ·(615,77) 2 978,89
1 2 1 2
x1 x 2 58.000 49400
Ze 8,78
x x
1 2
978,89
El valor obtenido permite rechazar la hipótesis nula de igualdad entre medias de hombres y mujeres
incluso para un nivel de significación menor que 0,01 (Zc=2,33).
Ejercicio 2.
Para representar las rectas en un gráfico debemos dar valores a la variable independiente X (tiempo)
y obtener así los valores de la variable dependiente Y (salario). Bastará con obtener dos valores para
cada recta. El primer valor X=0 nos proporciona el punto de corte del eje de ordenadas y la recta, y
el valor X=10 nos proporciona el salario tras diez años de antigüedad.
Una vez obtenidos los valores de Y para cada valor de X en las dos rectas, tomaremos cada par de
valores (xi,yi) como las coordenadas de los puntos que llevaremos a la representación gráfica:
Ejercicio 3.
La hipótesis nula se enuncia en el sentido de que no hay diferencias en la población, y por tanto la
media de las diferencias es cero. Y la hipótesis alternativa en el sentido de que la media de las
diferencias es mayor que cero.
H 0 : d 0
H1 : d 0
Utilizaremos la distribución t de Student por haber un número pequeño de casos en la muestra
x d d
t
d
Xd xd (X d X d ) ( X d X d )2
Pacientes Junio Diciembre
1 6 5 -1 0,375 -1,375 1,890625
2 8 9 1 0,375 0,625 0,390625
3 5 5 0 0,375 -0,375 0,140625
4 4 7 3 0,375 2,625 6,890625
5 6 6 0 0,375 -0,375 0,140625
6 5 6 1 0,375 0,625 0,390625
7 4 4 0 0,375 -0,375 0,140625
8 3 2 -1 0,375 -1,375 1,890625
Totales 3 11,875
X d 3
3
Xd 0,375
8
S xd
(x i x) 2
11,875
1,2183
n 8
S xd 1,218
d 0,46
n 1 7
Calculamos a continuación el valor empírico de te que compararemos con el valor crítico dado por
el nivel de significación del 0,05 y 7 grados de libertad: tc = 1,895
xd d 0,375 0
te 0,8143
d 0,46
Por tanto al ser te < tc no podemos rechazar la hipótesis nula y concluimos que no ha habido
cambios significativos en la satisfacción de los pacientes de la población.
Ejercicio 4.
Los límites definen el intervalo dentro del cual se encontrarán el 90% de las medias que podríamos
obtener de todas las muestras posibles de esa población.
Examen de Estadística Aplicada a las Ciencias Sociales
Junio 2009 2ª Semana
Ejercicio 1.
A partir de una encuesta de 1.200 personas (obtenidas por muestreo aleatorio simple)
sabemos que la edad media de la población de un determinado país se encuentra, con
una probabilidad del 95%, entre los 34,6 y los 36,2 años ¿Cuál es el máximo error que
podemos cometer al hacer esta afirmación?
Ejercicio 2.
La siguiente tabla nos muestra las ventas de un producto de una empresa multinacional
y los gastos de publicidad de ésta en 9 países distintos (en millones de euros).
País A B C D E F G H I
Ventas 20 25 24 30 32 40 28 50 40
Publicidad 0,2 0,2 0,2 0,3 0,3 0,4 0,3 0,5 0,4
Ejercicio 3.
El estudio 2475 del CIS, sobre discriminación, ofrece los siguientes resultados a la
pregunta “¿En alguna ocasión se ha sentido discriminado por razón de...?”
Nunca o
Muchas Alguna casi
veces vez nunca N.S N.C. (n)
Sexo 1,6 9,1 88,9 0,2 0,1 (2487)
Edad 1,4 9,0 89,3 0,2 0,2 (2487)
Religión 0,1 2,0 97,5 0,3 0,2 (2487)
Ideas Políticas 1,2 7,7 90,5 0,2 0,4 (2487)
No tener dinero 2,0 8,0 89,6 0,2 0,2 (2487)
Orientación sexual 0,3 0,8 98,2 0,2 0,4 (2487)
¿Cuántos entrevistados se han sentido discriminados muchas o alguna vez por sus
“ideas políticas”?
¿Podemos afirmar (con un nivel de significación del 0,05) que los españoles se sienten
más discriminados por “no tener dinero” que por sus “ideas políticas”?
Ejercicio 4.
El estudio del CIS 2753 preguntó por el grado de satisfacción de los jóvenes españoles
en sus relaciones de pareja, obteniéndose los siguientes resultados:
Ejercicio 1.
Así la edad media obtenida en la muestra ha sido 35,4 años. El error será:
e Ls x 36,2 35,4 0,8
El error máximo es 0,8 años.
(El mismo resultado se obtiene restando al estadístico el límite inferior del intervalo).
Ejercicio 2
La asociación entre dos variables de intervalo se denomina correlación y se mide
mediante el coeficiente “r” de Pearson.
r
S xy
( x x)( y y)
SxSy ( x x) ( y y )
2 2
En la tabla siguiente se detallan los cálculos, que comenzamos con el cómputo de las
medias:
y
y i
289
32,11
n 9
x
x i
2,8
0,31
n 9
Y X
A 20 0,2 -12,11 -0,11 1,3321 146,6521 0,0121
B 25 0,2 -7,11 -0,11 0,7821 50,5521 0,0121
C 24 0,2 -8,11 -0,11 0,8921 65,7721 0,0121
D 30 0,3 -2,11 -0,01 0,0211 4,4521 0,0001
E 32 0,3 -0,11 -0,01 0,0011 0,0121 0,0001
F 40 0,4 7,89 0,09 0,7101 62,2521 0,0081
G 28 0,3 -4,11 -0,01 0,0411 16,8921 0,0001
H 50 0,5 17,89 0,19 3,3991 320,0521 0,0361
I 40 0,4 7,89 0,09 0,7101 62,2521 0,0081
Total 289 2,8 7,8889 728,8889 0,0889
Entonces,
r
( x x)( y y)
7,8889
0,98
( x x) ( y y )
2 2 0,0889 728,8889
Ejercicio 3.
Tomaremos de la tabla del CIS los casos que van a ser objeto de comparación, es decir
los porcentajes de personas que han contestado “muchas veces” o “alguna vez” a las
preguntas sobre la discriminación por las “ideas políticas” y por “no tener dinero”.
p1 0,089
p 2 0,10
Considerando que tenemos dos muestras independientes del mismo tamaño (2.487)
contrataremos la diferencia entre ambas proporciones mediante una prueba de hipótesis:
H o : p1 p2
H 1 : p1 p 2
p1 p 2 0,089 0,10
Ze 1,326
p 0,0083
El valor absoluto del Z empírico |-1,326| es menor que el valor crítico de Z (1,645) por
lo que aceptamos la hipótesis nula: la diferencia entre ambas proporciones no es
significativa en la población de la que provienen las muestras.
Ejercicio 4.
debemos eliminar las repuestas “No procede”, “No Sabe” y “No Contesta”,
descontándolas del total de casos y reelaborando los porcentajes.
Eliminamos los datos de las categorías que queremos excluir y recalculamos los totales:
En cuanto a las diferencias entre hombres y mujeres que manifiestan estar “nada
satisfechos” observamos ahora una pequeña diferencia entre hombres y mujeres (3,26%
frente al 3%) respecto a la tabla original, en la que ambos valores eran iguales, pero
dada la magnitud de las diferencias no es necesaria la prueba de hipótesis.
EJERCICIOS RESUELTOS http://www.uned.es/111044/examenes/EJERESUS01.htm
EJERCICIOS RESUELTOS
EJERCICIO 1
Los miembros de una cooperativa de viviendas tienen las siguientes edades:
42 60 60 38 60 63 21 66 56 57 51 57 44 45 35
30 35 47 53 49 50 49 38 45 28 41 47 42 53 32
54 38 40 63 48 33 35 61 47 41 55 53 27 20 21
42 21 39 39 34 45 39 28 54 33 35 43 48 48 27
53 30 29 53 38 52 54 27 27 43 28 63 41 23 58
56 59 60 40 24
SOLUCIÓN:
Para elaborar una tabla de frecuencias es condición imprescindible establecer una serie de clases o
categorías (intervalos) a las que vamos a adjudicar a cada uno de los ochenta miembros de la cooperativa.
El investigador puede seguir diferentes criterios en función del objetivo del estudio. Una tabla de
frecuencias elaborada a partir de estos datos podría ser la siguiente:
Edad n
20-29 14
30-39 17
40-49 22
50-59 18
60-69 9
Total 80
Cálculo de la media:
Puede calcularse directamente sumando las edades de todos los miembros de la cooperativa y dividiendo
por el total que en este caso es ochenta, el resultado es una media de 43,29. También:
Edad xi ni xini
20-29 25 14 350
30-39 35 17 595
40-49 45 22 990
50-59 55 18 990
60-69 65 9 585
Total 80 3510
1 de 6 06/04/2012 11:51
EJERCICIOS RESUELTOS http://www.uned.es/111044/examenes/EJERESUS01.htm
Edad xi ni
20-29 25 14 -18,875 356,2656 4987,71875
30-39 35 17 -8,875 78,7656 1339,01563
40-49 45 22 1,125 1,2656 27,84375
50-59 55 18 11,125 123,7656 2227,78125
60-69 65 9 21,125 446,2656 4016,39063
Total 80 12598,75
Sx =
La desviación típica es de 12,5 años
EJERCICIO 2
Explique las similitudes y diferencias de estas distribuciones:
SOLUCIÓN:
La media y la desviación típica de la primera distribución, ha sido calculada en el primer ejercicio.
Calculamos a continuación los mismos estadísticos para la segunda distribución.
Cálculo de la media:
Edad xi ni xini
20-29 25 43 1075
30-39 35 -
40-49 45 -
50-59 55 -
60-69 65 37 2405
Total 80 3480
2 de 6 06/04/2012 11:51
EJERCICIOS RESUELTOS http://www.uned.es/111044/examenes/EJERESUS01.htm
Edad xi ni
20-29 25 43 -18,875 356,2656 15319,4219
30-39 35 - -8,875 78,7656 -
40-49 45 - 1,125 1,2656 -
50-59 55 - 11,125 123,7656 -
60-69 65 37 21,125 446.2656 16511,8281
Total 80 31831,25
La similitud de ambas distribuciones radica fundamentalmente en que tienen la misma amplitud y casi el
mismo valor medio. La diferencia es que las frecuencias de la segunda se distribuyen en los intervalos
extremos dejando vacíos los del medio. Ello aparece perfectamente reflejado en la desviación típica de
19,9, aproximadamente 20 años. 43 + 20 hacen 63, aproximadamente la mitad del último intervalo, 43 –
20 hacen 23, aproximadamente la mitad del primer intervalo. Recuérdese que la desviación típica es la
raíz de la media de las distancias al cuadrado, de cada uno de los elementos de la distribución respecto de
la media aritmética.
EJERCICIO 3
En una pregunta del CIS sobre la edad hasta la que consideran convenientes los padres controlar los
programas y el tiempo de televisión de los hijos, la media fue de 15,4 años y la desviación típica de 2,11.
Teniendo en cuenta que las respuestas se distribuyen aproximadamente como la curva normal y que van
de los 7 a los 24 años, calcular:
a)-Cuantos respondieron que la edad debe ser hasta los 13 años
b)-Cuantos dijeron que debe estar entre 14 y 17 años.
c)-Cuantos respondieron que debe estar por encima de los 19 años
SOLUCIÓN:
a)
Sx = 2,1
3 de 6 06/04/2012 11:51
EJERCICIOS RESUELTOS http://www.uned.es/111044/examenes/EJERESUS01.htm
Consultando las tablas de la curva normal comprobamos que entre la media y un desviación típica de 1,13
encontramos un área de 0,3708 que si situaría a la izquierda de la curva por tener signo negativo. Si el
área que queremos calcular es el que queda a la izquierda del valor -1,13, es decir, los de menos de 13
años, restamos a 0,5 (que es la superficie de la mitad de la curva) 0,3708 y obtenemos el resultado de
12,92%
0,5-0,3708= 0,1292
b)
4 de 6 06/04/2012 11:51
EJERCICIOS RESUELTOS http://www.uned.es/111044/examenes/EJERESUS01.htm
c)
El área correspondiente es de 0.4554 y los que están por encima de 1,7 unidades z se obtienen restando de
0,5, el 0,4554 de las tablas.
0,5-0,4554 = 0,0446, es decir el 4,46%.
Ejercicio 4
Calcule el tamaño muestral de una encuesta realizada por CIS sobre la Unión Europea que incluía todas
las provincias excepto Ceuta y Melilla. El error teórico era de + 2, con un intervalo de confianza de
95,5% y P=Q en el supuesto de un muestreo aleatorio simple.
SOLUCIÓN
Utilizamos la fórmula para muestras infinitas en la que intervienen los tres factores determinantes del
tamaño muestral: la probabilidad con la que queremos trabajar (z), el grado de concentración, dispersión
de la población (pq) y el error que estamos dispuestos a asumir.
5 de 6 06/04/2012 11:51
EJERCICIOS RESUELTOS http://www.uned.es/111044/examenes/EJERESUS01.htm
6 de 6 06/04/2012 11:51
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/2psep01.htm
Ejercicio 1.
Según el barómetro realizado por el CIS en abril de 2001, el 16,5% de los 2.494 entrevistados manifestó
creer que dentro de un año la situación económica del país sería mejor.
a) Estimar el intervalo en el que se encontrará la proporción real de los que piensan que la situación
mejorará, utilizando un nivel de confianza del 95%
b) Realice el mismo cálculo para un nivel de significación del 0,02.
c) Compare los dos intervalos obtenidos y comente los resultados.
a) siendo p= 0,165 la proporción de los que piensan que la situación económica mejorará, se
trata de estimar el intervalo en el que se encontrará el valor P en la población. El intervalo se
construye sumando y restando al valor en la muestra el error absoluto, con lo que obtendremos
el extremo superior e inferior del intervalo.
Siendo necesitamos calcular Z y
El valor de Z lo obtenemos a partir del nivel de confianza establecido: consultando las tablas del
áreas bajo la curva normal, y considerando que las tablas solo presentan la mitad de la curva por ser
simétrica, buscaremos en ellas el valor de Z correspondiente a la mitad de 0,95 es decir, el valor Z
correspondiente a 0,475 es 1,96.
Para el cálculo del error típico de la distribución muestral de las proporciones , utilizaremos la
fórmula:
sabiendo que q = 1- p , sustituimos en la fórmula anterior los valores :
b) El nivel de significación del 0,02 se corresponde con un nivel de confianza del 98% por lo que
el cálculo es análogo al del apartado anterior, modificando el valor de Z que en este caso es Z =
2,33
Ejercicio 2. En una encuesta sobre perfiles actitudinales se pregunto a 2.500 personas (una muestra de 1.260
mujeres y otra de 1.240 hombres): ¿cómo prefiere pasar Vd. Su tiempo libre?
Los resultados de esta pregunta se reflejan en la siguiente tabla de porcentajes:
% MUJERES % HOMBRES
Con su familia 64 59
1 de 4 06/04/2012 11:51
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/2psep01.htm
¿Se puede asegurar, con un nivel de confianza del 95%, que la diferencia entre las proporciones de mujeres y
hombres que prefieren pasar su tiempo libre solos, es válida para la población de la que se extrajeron las muestras?
Llamando p1 a la proporción de mujeres que prefieren pasar su tiempo libre solas y p2 a la misma
proporción en los hombres, podemos establecer las hipótesis de trabajo.
La hipótesis nula se enunciaría en el sentido de que no existen diferencias entre las proporciones de
mujeres y hombres, y la hipótesis alternativa sostendría que sí existen diferencias:
siendo p1 la proporción de mujeres y p2 la de hombres;
Al trartarse de determinar si existen diferencias significativas sin especificar la dirección del sesgo
(una relación de “mayor o menor que” entre las proporciones), utilizaremos una prueba bilateral con
un nivel de confianza del 95%.
Comenzaremos los cálculos hallando el valor de la proporción conjunta o proporción ponderada de las
dos muestras:
podemos entonces proceder al contraste entre el valor empírico obtenido de Ze y el valor teórico Zc
obtenido de las tablas para el nivel de confianza dado:
para un nivel de confianza del 95% Zc= 1,96 y habiendo obtenido para Ze un valor muy superior,
podemos si duda rechazar la hipótesis nula y afirmar que las diferencias entre las muestras son
significativas.
Ejercicio 3. En un estudio sobre calidad de la enseñanza se obtuvieron tres muestras de estudiantes pertenecientes
a tres CCAA, entre los presentados a los exámenes de selectividad. Establezca mediante un contraste de hipótesis,
si existen diferencias en las calificaciones obtenidas según la Comunidad Autónoma de pertenencia, para el total de
los presentados en las tres CCAA, con un nivel de significación del 0,05.
2 de 4 06/04/2012 11:51
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/2psep01.htm
Se trata de un análisis simple de la varianza con tres muestras y una variable independiente. Se enuncia
una hipótesis nula que afirma que no existen diferencias significativas en las calificaciones obtenidas,
según la Comunidad Autónoma y las diferencias observadas son debidas al azar. Y una hipótesis
alternativa que niega la anterior:
; ;
; ;
Grados de libertad:
-del total glt=N-1=15-1=14 (siendo N el número de casos)
-entre grupos glent=k-1=3-1=2 (siendo k el número de grupos)
-dentro de los grupos gld=N-k=15-3=12
3 de 4 06/04/2012 11:51
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/2psep01.htm
-entre grupos
Podemos comparar la F calculada con la F teórica de las tablas para 12 y 2 grados de libertad:
El valor de F calculado es 0,35 y el obtenido en las tablas es 3,88
Al ser menor el valor calculado que el teórico hemos de aceptar la hipótesis nula y concluir que no hay
diferencias significativas en las calificaciones según la cumunidad autónoma.
Ejercicio 4. En un estudio sobre la situación económica de los hogares de una determinada región, se observó la
relación entre los ingresos mensuales de una muestra de 350 jóvenes trabajadores y los ingresos mensuales de sus
padres. Habiéndose calculado el coeficiente de correlación de Pearson, r = 0,75 , calcule el error típico del
coeficiente Z de Fischer y, construya un intervalo para el coeficiente de correlación en la población “ρ”, con un
nivel de confianza del 95%.
a partir del coeficiente de correlación y mediante las tablas de valores de Z para valores dados de R
Al valor r = 0,75 le corresponde un Zr = 0,9730
los valores de los extremos del intervalo pueden volver a ser transformados mediante las tablas para
obtener los valores del coeficiente de correlación en la población:
4 de 4 06/04/2012 11:51
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/soluciones sep...
EJERCICIO 1
Los recientes resultados pertenecen a una encuesta del CIS sobre el voto declarado en las elecciones
autonómicas de 31 de mayo de 2001.
Calcule la media de edad de los votantes del PNV/EA, del PP/UA de IU/EB y de EH. Comente los
resultados.
Calcule la desviación típica de los votantes del PNV/EA
EJERCICIO 2
Con los datos del ejercicio anterior, calcule el coeficiente de variación de los votantes del PNV/EA y de
los votantes de EH. Comente los resultados.
EJERCICIO 3
Un bombo de lotería contiene 6 bolas rojas, 4 bolas blancas y 5 azules. Determine la probabilidad de
extraer aleatoriamente:
-una bola roja
-una bola blanca
-una bola azul
-una bola No roja
-una bola roja o blanca
EJERCICIO 4
El barómetro del CIS de diciembre del 2000 fue una encuesta a la población española de ambos sexos de
18 años y más excluyendo Ceuta y Melilla.
-Calcule el tamaño muestral teniendo en cuenta que el nivel de confianza fue del 95,5%, P=Q y el error
teórico + 2
-Si se desea incluir la población de Ceuta y Melilla, ¿el tamaño de la muestra sería el mismo?
Respuestas
Ejercicio 1.
Para calcular la media, calculamos las marcas de clase Xc de cada intervalo. Y cerramos el último
intervalo en 90 años, en el supuesto de que habrá muy pocos casos por encima de esa edad y no se
alterará sustancialmente el valor de los estadísticos. Obviamente sería preferible disponer de los datos
1 de 4 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/soluciones sep...
originales. También se puede utilizar un criterio en función de la esperanza de vida de la población. Los
cálculos de la media para el caso del PNV/EA, serían,
Edad Xc ni Xc ni
18 a 24 21,5 74 1591
25 a 34 30 139 4170
35 a 44 40 164 6560
45 a 54 50 139 6950
55 a 64 60 106 6360
65 y más 77,5 197 15267,5
819 40898,5
Por lo tanto la edad media de los que han declarado haber votado al PNV es:
Puede observarse una diferencia sustancial en las edades medias de los votantes a los distintos partidos,
mucho menor en el caso de IU/EB, y en menor medida en el de EH, que en el resto de los partidos. No
obstante se hace necesario calcular las dispersiones respecto a los valores medios, para poder establecer el
significado de las medias.
2 de 4 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/soluciones sep...
Ejercicio 2.
El coeficiente de variación nos permite comparar las dispersiones de dos distribuciones con diferentes
medias.
Calculando la desviación típica para EH de la misma manera que hemos hecho para PNV/EA, obtenemos
el valor : 14,8
Calculamos según la fórmula anterior los coeficientes de variación y obtenemos los siguientes valores:
Los datos absolutos mostraban una mayor dispersión respecto a la media en el caso del PNV/EA. Sin
embargo al poner la desviación en términos relativos, en función de la media de cada grupo, podemos
observar que al contrario, existe una dispersión ligeramente superior en el caso de EH.
Ejercicio 3.
El bombo contiene 15 bolas en total, de las cuales 6 son rojas, 4 blancas y 5 azules.
Utilizando la definición clásica de probabilidad dada por Laplace, la probabilidad de obtener una bola de
un color determinado vendrá dada por el cociente entre el número de casos favorables y el de los casos
posibles:
La probabilidad de extraer una bola que no sea roja, dado que se trata de sucesos excluyentes (cada bola
es de un solo color) será la suma de las probabilidades de extraer una bola blanca y de extraer una bola
azul:
3 de 4 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/soluciones sep...
De la misma manera, la probabilidad de extraer una bola que sea roja o blanca:
Ejercicio 4.
La inclusión de Ceuta y Melilla no haría variar el tamaño muestral, dado que el tamaño de la población no
interviene en el cálculo.
4 de 4 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/sept2002-2pp.htm
TIEMPO: 2 Horas.
MATERIAL: Todo tipo de material. (Calculadoras, libros, apuntes…)
Ejercicio 1. En el barómetro del CIS de Abril de 2002, se estima que la intención de voto al Partido Popular es del
42,4% mientras que en el barómetro del mismo mes para el año 2001, la intención del voto al PP fue del 43,5%. En
ambas encuestas se utilizó el mismo tamaño muestral: 2.500 unidades. Realice una prueba de hipótesis con un nivel
de confianza del 95,5%, para determinar si la diferencia observada en la intención de voto entre ambas muestras es
significativa.
Ejercicio 2. Se ha realizado una encuesta entre madres que han establecido una nueva relación de pareja. Se ha
preguntado a las mujeres acerca de la relación entre sus hijos y sus nuevas parejas y se han obtenido los siguientes
datos:
Calcule la asociación entre las dos variables y realice una prueba de hipótesis para conocer si la asociación
obtenida en la muestra es significativa, con un nivel de confianza del 95%.
Ejercicio 3. En una encuesta sobre movilidad social se han cruzado los datos del nivel de estudios de los
encuestados con los de sus padres, obteniéndose la siguiente tabla:
Padres
Hijos Primarios Medios Superiores Total
Superiores 30 50 69 149
Medios 60 55 49 164
Primarios 75 39 31 145
Total 165 144 149 458
Ejercicio 4. En la siguiente tabla se tiene el Gasto en consumo nacional, para diferentes años (en miles de millones
de euros):
No disponiendo de los datos para el año 1999, se propone el cálculo de la recta de regresión para poder estimar
el gasto de ese año. (para simplificar los cálculos asigne el valor x=0 para el año 1997; x=1 para 1998;
x=2 para 1999 y así sucesivamente para cada año)
Ejercicio 1
1 de 5 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/sept2002-2pp.htm
0,4295
Como Z es menor que 2, las diferencias no son significativas para el nivel de significación prefijado. A la
vista de los datos no es posible afirmar que entre Abril de 2001 y 2002 se haya modificado la intención de
voto al Partido Popular.
Ejercicio 2
En primer lugar calculamos el valor del estadístico Ji-cuadrado. Para ello calculamos las frecuencias
esperadas:
Frecuencias observadas fo
Un verdadero Un segundo
Padre padre Un amigo TOTAL
Matrimonio 60 60 55 175
Unión de Hecho 55 56 87 198
TOTAL 115 116 142 373
Frecuencias esperadas
Un verdadero Un segundo
Padre padre Un amigo TOTAL
Matrimonio 53,9544236 54,4235925 66,6219839 175
Unión de Hecho 61,0455764 61,5764075 75,3780161 198
TOTAL 115 116 142 373
(fo-fe)
Un verdadero Un segundo
Padre padre Un amigo TOTAL
Matrimonio 6,04557641 5,57640751 -11,6219839 0
Unión de Hecho -6,04557641 -5,57640751 11,6219839 0
TOTAL 0 0 0 0
(fo-fe)2
2 de 5 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/sept2002-2pp.htm
Un verdadero Un segundo
Padre padre Un amigo
Matrimonio 36,5489941 31,0963207 135,07051
Unión de Hecho 36,5489941 31,0963207 135,07051
Un verdadero Un segundo
Padre padre Un amigo TOTAL
Matrimonio 0,67740496 0,57137574 2,02741651 3,27619721
Unión de Hecho 0,5987165 0,50500381 1,79190853 2,89562885
TOTAL 1,27612146 1,07637956 3,81932504 6,17182606
Así
Para 2 grados de libertad y un nivel de significación de 0,05 el valor del estadístico obtenido, es mayor
que el que cabría esperar en el caso de independencia estadística, por lo tanto las diferencias encontradas
en los datos pueden extrapolarse a la población.
El valor obtenido, tanto en V como en C, indica una asociación despreciable entre ambas variables. Así,
aunque las relaciones encontradas en la tabla puedan inferirse respecto a la población, la asociación es tan
débil que realmente puede considerarse que no hay en la práctica diferencias en la percepción que tienen
las madres sobre las relaciones entre sus hijos y sus nuevas parejas según el tipo de unión.
Ejercicio 3
Para que la interpretación del coeficiente Gamma resulte más clara, conviene reordenar la tabla de forma
que ambas variables se oriente en el mismo sentido, en este caso en sentido creciente:
Tal y como están ordenadas ambas variables la diagonal que señala asociación positiva entre ambas
variables es:
3 de 5 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/sept2002-2pp.htm
30 50 69
60 55 49
75 39 31
30 50 69
60 55 49
75 39 31
30 50 69
60 55 49
75 39 31
30 50 69
60 55 49
75 39 31
55 (69) = 3795
30 50 69
60 55 49
75 39 31
4 de 5 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/sept2002-2pp.htm
30 50 69
60 55 49
75 39 31
50 (49+31) = 50 x 80 = 4000
30 50 69
60 55 49
75 39 31
30 50 69
60 55 49
75 39 31
55 (31) = 1705
La asociación entre ambas variables es moderada, y por el signo positivo muestra una relación directa
entre estudios paternos y nivel de estudios alcanzado por los hijos, todo ello en consonancia con la teoría
del “capital cultural” de Bourdieu.
Ejercicio 4.
Este ejercicio se realiza de forma sencilla teniendo en cuenta que se solicita el valor de la variable “y” en
el caso en el que la variable x alcanza su valor medio. Teniendo en cuenta que la recta de regresión pasa
por el punto de ambas medias, la solución será la media de la variable “y”.
Así:
[1] Dado que el tamaño muestral de ambas encuestas es idéntico el cálculo anterior puede simplificarse:
5 de 5 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep1ppsolu.htm
1. En la siguiente tabla, se tienen los datos acerca de la edad de los profesores de enseñanza pública no universitaria
en la Comunidad Murciana para el curso 2002/2003.
2. Con los datos del problema anterior, calcule la edad media del profesorado y la desviación típica, comente los
resultados.
3. Sabemos que el porcentaje de viviendas con teléfono en un municipio es del 95% ¿Qué probabilidades tendríamos,
al seleccionar 10 viviendas del municipio al azar, de que dos de ellas carezcan de teléfono?
4. Calcule el tamaño muestral deberíamos emplear para realizar una encuesta en la ciudad de Guadalajara, (68.248
habitantes) con el fin de conocer la proporción de ciudadanos favorables a la implantación de un nuevo sistema de
recogida selectiva de basura. Considere un nivel de confianza del 95,5% , un error máximo admisible del 5%? y
P=Q.
SOLUCIONES
Ejercicio 1
a) Las frecuencias relativas son la proporción en tanto por uno de las frecuencias absolutas de cada categoría sobre el
total de casos. En notación matemática:
1 de 7 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep1ppsolu.htm
b) Para el cálculo de la mediana y de otras medidas de tendencia central o de dispersión es necesario, en el caso de
intervalos, obtener las marcas de clase. Para ello deben tenerse en cuenta dos hechos acerca de la naturaleza y
codificación de los datos, el primero sobre los límites reales, y el segundo sobre el intervalo de cierre en las
categorías abiertas.
Como la variable es la edad de un colectivo profesional debe tenerse en cuenta que la codificación de los datos se realiza
en función de la edad cumplida. Es decir, en este caso el valor inferior de la categoría es el límite real inferior. Sin
embargo esto no sucede con el superior. Por ejemplo una persona que tenga de edad exacta 25 años y 11 meses y 25
días, se habrá codificado en edad cumplida como una persona de 25 años y por tanto estará en el primer intervalo. Es
decir en este caso el primer intervalo tiene como límite inferior 21, mientras que el límite superior es 25,99999999 26
El caso del último intervalo, su límite real inferior será 66, obsérvese que quienes están entre 65 y 66 años, estarán en el
intervalo 61 y 65. El límite superior será 70 años. (Si bien en este colectivo profesional la edad de jubilación es de 65
años, cuando estos profesionales ocupan ciertos cargos de gestión pueden retrasar la misma hasta el momento de
cumplir 70 años.
A partir de los límites reales, la marca de clase será el punto medio de ambos, es decir:
La mediana es aquel valor de la variable que deja por encima de él al 50% de los casos, y por debajo del mismo a la otra
2 de 7 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep1ppsolu.htm
mitad. Para su cálculo se parte de la distribución de frecuencias acumuladas y observando en que intervalo se acumulan
ya la mitad de los casos. En este caso, la mitad de los casos son: 14867/2=7433,5
Como puede observarse, la mediana estará entre 41 y 45 años que son los valores en los que se acumulan los primeros
7433,5 casos. (Hasta 40 años hay 6627 casos y hasta 45 hay 9133, por lo tanto los 7433,5 estarán entre ambos límites)
fi fa
21 a 25 475 475
26 a 30 1652 2127
31 a 35 2046 4173
36 a 40 2454 6627
41 a 45 2506 9133
46 a 50 2390 11523
51 a 55 1945 13468
56 a 60 1149 14617
61 a 65 212 14829
Más de 65 38 14867
TOTAL 14867
3 de 7 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep1ppsolu.htm
c) La representación gráfica correcta es mediante un histograma. Todos los intervalos tienen la misma amplitud 5, a
excepción del último que sólo tiene 4 (70-66=4).
El histograma es una representación de áreas proporcional a las frecuencias. Es decir el área=f. Como él área de un
rectángulo es base por altura (bxh), tendremos que h=f/b, en nuestro caso las alturas de los rectángulos serán h=f/5, la
quinta parte de las frecuencias, excepto en el último caso en que serán la cuarta parte. La siguiente tabla nos proporciona
las alturas para la representación gráfica.
4 de 7 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep1ppsolu.htm
Ejercicio 2.
En el caso de distribuciones agrupadas en intervalos el cálculo de la media se realiza mediante el sumatorio del producto
de las frecuencias por las macas de clase, como estas ya fueron calculadas en el ejercicio anterior, tenemos que:
Grupo de Marca de fi
Edad Clase
Xi
21 a 25 23,5 475 552,25 262318,75
26 a 30 28,5 1652 812,25 1341837
31 a 35 33,5 2046 1122,25 2296123,5
36 a 40 38,5 2454 1482,25 3637441,5
41 a 45 43,5 2506 1892,25 4741978,5
46 a 50 48,5 2390 2352,25 5621877,5
51 a 55 53,5 1945 2862,25 5567076,25
56 a 60 58,5 1149 3422,25 3932165,25
61 a 65 63,5 212 4032,25 854837
Más de 65 68 38 4624 175712
TOTAL 14867 28431367,3
5 de 7 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep1ppsolu.htm
Se trata de una distribución claramente simétrica en la que media, mediana y moda coinciden. Los datos obtenidos hasta
ahora señalan una composición del profesorado murciano que puede resumirse como una población que ni está
envejecida ni está juvenilizada. Es decir se observa que los profesores murcianos están concentrados en edades
intermedias. Para algunos sería una población de docentes óptima en la medida en que concentran experiencia y
dinamismo, es decir son lo suficientemente mayores sin dejar de ser jóvenes.
De cara al futuro, en un contexto de bajo crecimiento de este colectivo, puede señalarse en un intervalo a medio plazo una
clara tendencia al envejecimiento de este colectivo. Los pocos activos en edades prejubilares no permitirán, en la medida
en que vayan jubilándose una incorporación significativa de jóvenes, y por tanto la forma simétrica irá progresivamente
conviertiéndose en una distribución asimétrica, por el desplazamiento del “centro de gravedad” de la distribución, del
grueso del colectivo de profesores, hacia la derecha.
Ejercicio 3.
Se trata de una distribución binomial. El enunciado indica que dos viviendas se encuentren sin teléfono en una selección de
10 viviendas, es decir se solicita la proababilidad de que al menos 2 estén sin teléfono, o lo que es lo mismo que sean 2,
3, 4... 9 o 10. (Si hay cuatro sin teléfono hay también dos).
Como el cálculo de la suma de probabilidades desde p=2 hasta p=10 resulta engorroso, haremos lo siguiente
calcularemos la probabilidad inversa es decir la probabilidad de obtener menos de dos viviendas sin teléfono, pues la
probabilidad que buscamos será el complemento a la unidad de dicha cantidad.
La fórmula binomial:
En este caso p=0,05 es decir la probabilidad de que una casa no tenga teléfono.
Así obtenemos que la probabilidad de que entre 10 una casa no tenga teléfono es:
Así la probabilidad de que en una selección de 10, menos de dos no tengan teléfono es:
P(x<2)=0,59873694+0,3151247=0,91386164
1-0,91386164=0,08613836
Es decir un 8,6%
Ejercicio 4.
Se trata de calcular un tamaño para el estadístico de la proporción en el caso de una población finita.
6 de 7 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep1ppsolu.htm
7 de 7 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep2ppsolu.htm
1. Una muestra aleatoria de n = 50 estudiantes, de los 2.100 que componen la población objeto de
estudio, ha sido entrevistada para conocer la opinión acerca del cambio del sistema de evaluaciones.
Veintisiete estudiantes respondieron a favor del cambio. Estime el número de estudiantes que estaría
a favor del cambio, en el conjunto de la población, con un nivel de confianza del 95,5%
2. Según los datos obtenidos en una encuesta del CIS sobre política internacional, realizada en febrero
de 2002, el 52% de los 1.202 hombres entrevistados, manifestaba prestar “bastante” atención a las
noticias sobre cuestiones y acontecimientos sucedidos en otros países, mientras que entre las 1.285
mujeres entrevistadas, ese porcentaje era del 50% . ¿Puede decirse, con un nivel de confianza del
95% , que existen diferencias significativas entre las proporciones de hombres y mujeres “bastante”
atentos a ese tipo de noticias? ¿Y si contrastamos la hipótesis aplicando un nivel de significación de
0,01?
3. En un estudio del CIS, sobre política internacional, realizado en febrero de 2002, se preguntó a una
muestra de 2.471 personas acerca de la atención que prestaban a las noticias, cuestiones o
acontecimientos que suceden en otros países. Las respuestas a la pregunta aparecen resumidas en la
tabla siguiente:
Nivel de estudios
Bajo Medio Alto
Mucha 52 99 86
Bastante 368 664 233
Poca 332 382 40
Ninguna 138 66 11
890 1211 370
Calcule para esta muestra la asociación entre el nivel de estudios y el grado de atención prestada a las
cuestiones internacionales.
4. En un estudio sobre la movilidad social en una determinada comarca, se observó la relación entre
los ingresos mensuales de una muestra de 500 jóvenes trabajadores y los ingresos mensuales de sus
padres. Habiéndose obtenido un coeficiente de correlación de Pearson, r = 0,85 para los datos de la
muestra, construya un intervalo para el coeficiente de correlación en la población “ρ”, con un nivel
de confianza del 98%.
SOLUCIONES
Ejercicio 1.
Se trata de estimar el parámetro poblacional a partir de los resultados obtenidos en una muestra. El
parámetro a estimar en este caso es la proporción de los que estám a favor del cambio en el sistema de
1 de 6 06/04/2012 11:56
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep2ppsolu.htm
evaluaciones.
El valor buscado se encontrará en el intervalo:
Volviendo con estos valores a la fórmula inicial obtenemos los límites del intervalo en el que se encontrará
la proporción de estudiantea a favor del cambio tenemos:
(0,40 : 0,68)
Ejercicio 2.
Compararemos los valores obtenidos en las dos muestras, de hombres y de mujeres, realizando una prueba
de hipótesis que compruebe si las diferencias entre las proporciones según el género son suficientemente
grandes como para considerar que no son debidas al azar, sino a una diferencia en la población de la que
se extrajeron las muestras.
Siendo p1la proporción de hombres bastante interesados en las noticias internacionales y p2 la de las
mujeres.
Como no se establece el sentido de la posible diferencia, hacemos una prueba bilateral para un nivel de
confianza del 95%
Dado que las muestras son suficientemente grandes (N>20n) utilizaremos como referencia la distribución
normal.
2 de 6 06/04/2012 11:56
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep2ppsolu.htm
Zc para una prueba bilateral y un nivel de confianza del 95% será igual a +/- 1,96
Se acepta la hipotesis nula de que no existen diferencias entre hombres y mujeres, ya que el valor
empírico no sobrepasa el límite de la zona de rechazo de la hipótesis H0 al ser Ze< Zc
Con un nivel de significación menor, se acepta también la hipótesis nula, al ser los límites de la zona de
aceptación mayores.
Ejercicio 3.
Se pide calcular la asociación entre dos variables ordinales, por lo que utilizaremos el coeficiente de
asociacióm gamma.
Dado que las categorias en las tablas están dispuestas de modo que la diagonal que va desde la parte
inferior izquierda a la parte superior derecha de la tabla, señala la asociación positiva, procedemos al
cálculo de los pares concordantes y discordantes.
52 99 86
368 664 233
332 382 40
138 66 11
52 99 86
368 664 233
332 382 40
138 66 11
66 (86+233+40) = 23.694
52 99 86
368 664 233
332 382 40
138 66 11
3 de 6 06/04/2012 11:56
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep2ppsolu.htm
52 99 86
368 664 233
332 382 40
138 66 11
52 99 86
368 664 233
332 382 40
138 66 11
52 99 86
368 664 233
332 382 40
138 66 11
52 99 86
368 664 233
332 382 40
138 66 11
52 (664+233+382+40+66+11) = 72.592
52 99 86
368 664 233
332 382 40
138 66 11
99 (233+40+11) = 28.116
52 99 86
368 664 233
332 382 40
138 66 11
52 99 86
368 664 233
332 382 40
138 66 11
4 de 6 06/04/2012 11:56
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep2ppsolu.htm
52 99 86
368 664 233
332 382 40
138 66 11
52 99 86
368 664 233
332 382 40
138 66 11
El coeficiente nos indica que existe una asociación moderada entre la ordenación de las categorías de
ambas variables. En términos de “reducción proporcional del error” podemos decir que, conociendo el
orden de la variable “nivel de estudios”, es posible reducir el error en el ordenamiento de la variable
“grado de atención a las noticias internacionales” en un 41,29%.
Ejercicio 4.
Conocido el valor del estadístico r en la muestra, podemos acotar los extremos del intervalo en el que se
encontrará el valor poblacional con una probabilidad dada.
Zr lo obtenemos de las tablas de “valores Z para valores dados de R”. La tabla convierte los valores de r
en valores tipificados Zr.
En nuestro caso, r = 0,85 se corresponde en las tablas con el valor Zr= 1,2561
El nivel de confianza del 98% nos refiere al valor Z de la curva normal igual a 2,33
Convirtiendo de nuevo los valores tipificados Z en valores R mediante la tabla, obtenemos el intervalo en
el que se encuentra el estadístico poblacional
Z r
1,3606 0,877
1,1516 0,818
5 de 6 06/04/2012 11:56
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep2ppsolu.htm
6 de 6 06/04/2012 11:56
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/Septiembre 2004/Sep 2004 1pp...
Edades %
18-24 12.5
25-34 21.0
35-44 18.2
45-54 15.2
55-64 12.5
65 y + 20.6
(N) (2499)
SOLUCIONES
1
El cuartil y la mediana se pueden calcular a partir de las tablas de frecuencias relativas expresadas en
porcentajes. Los datos agrupados en intervalos de ingresos están ordenados y podemos calcular las
frecuencias relativas acumuladas Na.
Ingresos € % % acumulado
1 de 4 06/04/2012 11:58
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/Septiembre 2004/Sep 2004 1pp...
Se obtendría el mismo resultado si calculamos la frecuencia acumulada en número de casos para N = 1690
:
Un 25% de las familias entrevistadas dicen no superar los 739,89 € de ingresos al mes.
Procediendo de manera análoga calculamos el segundo cuartil o Mediana:
2
La representación gráfica tiene que servir como resumen visual que permita conocer la mayor cantidad de
información de forma clara y concisa. Un histograma nos dará la idea de cuantos casos quedan en cada
intervalo y además una visualización de la amplitud de los intervalos. Como estos intervalos no son
iguales, es preciso asignar a cada intervalo de edad el área proporcional a los casos que lo componen.
Edades Nº casos S b h
18-24 312 12,5 7 1,79
25-34 525 21 10 2,1
35-44 455 18,2 10 1,82
45-54 380 15,2 10 1,52
55-64 312 12,5 10 1,25
65y + 515 20,6 20 1,03
Siendo b, la amplitud del intervalo o base del polígono de cada intervalo de edad, S la superficie de cada
polígono y h la altura calculada mediante la fórmula:
2 de 4 06/04/2012 11:58
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/Septiembre 2004/Sep 2004 1pp...
3
Primero calculamos la proporción de personas de más de 90 años en la población:
Sabiendo que sólo una de cada 100 de las personas de esa población supera los 90 años, la probabilidad
de que al seleccionar 20 personas dos de ellas superen los 90 puede calcularse mediante la distribución
binomial.
Si queremos conocer la probabilidad de seleccionar a dos o más personas de más de 90, calculamos la
probabilidad de no encontrar ninguna persona mayor de 90
4
A partir de las tablas de áreas bajo la curva normal, podemos conocer el porcentaje de casos en los que la
variable medida se aleja de la media una cantidad dada.
Al ser una curva simétrica, las tablas nos proporcionan sólo la media curva con valores positivos, para una
media igual a 0 y una desviación típica de 1 (Normal (0,1)).
Las probabilidades asociadas a cada valor Z nos representa la probabilidad de encontrar un valor que se
aleje de la media una distancia dada.
Normalizando los datos de nuestra distribución normal, podemos calcular la distancia en unidades
tipificadas Z entre 18 y la media 45:
Z1 = 18 – 45 / 24 = -1,150
y la distancia entre la media y 65:
Z2 = 65 – 45 / 24 = 0,806
El porcentaje de casos buscado sería la suma de las áreas correspondientes a esos valores Z en valor
absoluto:
En la tabla para Z = 1,15 el área es 0, 3749, el 37,49% de los casos se encuentran entre el valor 18 y la
3 de 4 06/04/2012 11:58
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/Septiembre 2004/Sep 2004 1pp...
media.
Para Z = 0,81 el área es 0,2910, el 29,1 % de los casos se encuentran entre la media y el valor 65.
Por tanto entre 18 y 65 se encuentran el 66,59% de los casos de nuestra distribución.
4 de 4 06/04/2012 11:58
Una conocida fábrica de automóviles fabrica una pieza que debe tener u... http://www.uned.es/111044/examenes/Septiembre 2004/exasep042ppc.htm
E Ejercicio 1.-
Una conocida fábrica de automóviles fabrica una pieza que debe tener una altura entre 83,5
cmts. y 82,3 cmts. El departamento de control de calidad realizó mediciones a 100 piezas
escogidas al azar con el siguiente resultado = 83,02 y S=0,11. Varias horas más tarde se
realizó una segunda medición con el siguiente resultado = 83,2 y S=0,25.
En cual de las dos mediciones la producción está bajo control, es decir, las desviaciones se
encuentran dentro de lo esperado.
Solución
En los procedimientos de inducción estadística se emplean datos de tres distribuciones : la
distribución de la población, la de los datos de la muestra y la distribución teórica de
referencia. Obtendremos una muestra aleatoria de objetos de la población, consideraremos la
distribución teórica de todas las muestras posibles, y estableceremos un intervalo calculado a
partir de la media muestral y de la desviación típica de la distribución teórica de todas las
muestras. La desviación típica de esa distribución muestral es igual a la poblacional dividida
por la raíz del tamaño de la muestra. Pero si se desconoce ese valor poblacional puede ser
aproximado partir de la muestra
Muestra nº 1.-
Puesto que la fábrica trabaja con un nivel de confianza del 99,7, tomaremos un intervalo de +
3 unidades de desviación típica :
= 83,02 + 3 x 0,011 = 83,05 y 82,99 El intervalo viene fijado por el valor más bajo 82,99
cmts y el valor más alto 83,05 cmts. Como la fábrica acepta valores entre 82,3cmts. y 83, 5
ctms. podemos decir que la producción está bajo control.
Muestra nº 2.-
Hacemos lo mismo que con la anterior.
Ambos valores están dentro del margen de variación aceptado por la empresa, por lo que
1 de 5 06/04/2012 11:59
Una conocida fábrica de automóviles fabrica una pieza que debe tener u... http://www.uned.es/111044/examenes/Septiembre 2004/exasep042ppc.htm
Ejercicio2.-
Un laboratorio farmacéutico experimenta la eficacia de dos fármacos A y B para combatir el
SIDA. Los resultados con 200 pacientes fueron los siguientes:
a) Tabla de contingencia.
Se calcula a partir de los absolutos, por ejemplo, la primera posición a la izquierda de la tabla :
Para saber si las diferencias estre las frecuencias esperadas (tabla de contingencia) y las
observadas son significativas, utilizaremos el test
= = 2,38
2 de 5 06/04/2012 11:59
Una conocida fábrica de automóviles fabrica una pieza que debe tener u... http://www.uned.es/111044/examenes/Septiembre 2004/exasep042ppc.htm
Ejercicio 3.
En 1993 la edad media de 6 grupos de enfermos y la estancia media en el hospital fue la
siguiente:
Cálculo :
x y xy
47 9 2209 81 423
43 9 1849 81 387
64 12 4096 144 768
61 15 3721 225 915
51 11 2601 121 561
42 12 1764 144 504
TOT. 308 68 16240 796 3558
= 51,3
= 11,3
Calculamos el coeficiente de la recta b que es la razon de la covarianza de x y por la varianza
de x.
= = 74,98
3 de 5 06/04/2012 11:59
Una conocida fábrica de automóviles fabrica una pieza que debe tener u... http://www.uned.es/111044/examenes/Septiembre 2004/exasep042ppc.htm
= = 4,98
= = 0,69
El coeficiente de correlación de Pearson (0,69) indica una correlación entre la edad del
enfermo y el tiempo de recuperación (o de estancia) importante.
La recta de regresión es
Ejercicio 4.
Un estudiante de sociología de la medicina realiza un estudio sobre el tiempo de recuperación
de 15 enfermos y los clasifica según tres tipos de enfermedades. Trabaja con un nivel de
significación del 0,05 y construye la siguiente tabla :
a)Determine si existen diferencias significativas entre los tres grupos de enfermos. b)Comente
los resultados y explique la diferencia entre pruebas de hipótesis y análisis de varianza.
Solución :
Para saber si las diferencias que aprecen en la tabla son o no significativas, utilizaremos la
prueba diseñada por Roland Fisher que lleva su nombre.
El valor F es una razón entre la varianza entre grupos y la varianza dentro de los grupos :
= = 0,21
4 de 5 06/04/2012 11:59
Una conocida fábrica de automóviles fabrica una pieza que debe tener u... http://www.uned.es/111044/examenes/Septiembre 2004/exasep042ppc.htm
b)Aunque los datos originales a partir de los que se ha elaborado la tabla indican la mayor
rapidez de recuperacíon de uno de los grupos, no podemos afirmar que dicha diferencia sea
estadísticamente relevante.
Entre las pruebas de hipótesis y el análisis de varianza no existe más diferencia que el
procedimiento de cálculo, mas sencillo en caso de las pruebas de hipótesis porque se refieren
a una o dos muestras. No obstante, el objetivo de ambos análisis es el mismo.
5 de 5 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...
Ejercicio 1.
En la siguiente tabla figura la población del municipio de Getafe en el último censo, por grupos de edad. Calcule la
edad media y la edad mediana de la población.
Edad Personas
0-9 13.108
10-19 15.989
20-29 32.030
30-39 24.786
40-49 18.850
50-59 23.794
60-69 12.792
70-79 6.882
80 y más 3.248
Total 151.479
Ejercicio 2.
En un municipio se sabe que el 6% de los 600 hogares, tiene conexión a internet. Con objeto de realizar un estudio
se seleccionan al azar 10 hogares y se desea conocer:
a) Número medio de hogares que se espera posean la conexión entre los 10 seleccionados.
b) Probabilidad de que 3 de los 10 hogares seleccionados tengan conexión.
c) Probabilidad de que ninguno de los 10 tenga conexión a internet.
Ejercicio 3.
Una empresa que tiene en nómina a 1.650 empleados, la media de años de antigüedad es de 12,6 y la desviación
típica de 4,1 Suponiendo que se distribuyan normalmente:
a) ¿A cuantas unidades de desviación típica se encuentra un trabajador que lleva 5 años en la empresa, respecto a
la media del colectivo?
b) ¿Qué número de trabajadores lleva menos de seis años en la empresa?
c) ¿Cuál será el límite inferior de antigüedad para los 800 trabajadores que llevan más años en la empresa?
Ejercicio 4.
Calcule el tamaño muestral necesario para realizar una encuesta de opinión de ámbito nacional. El error teórico que
hemos decidido asumir es del + 2%, con un intervalo de confianza de 95,5% y consideramos P = Q
SOLUCIONES
Ejercicio 1
1 de 5 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...
Como se trata de la variable edad no existe redondeo al intervalo superior, es decir una
persona de 9 años y 11 meses no se computa dentro de la categoría de 10 años, sino de 9
años, al igual que otra que tuviera 9 años y un día, por ejemplo. En el primer intervalo el
extremo superior será 9,9999 10. El mismo razonamiento aplicaremos al resto de los
intervalos.
Como el último intervalo es abierto habrá que cerrarlo o tomar alguna decisión sobre su punto
medio. Una solución aceptable en este caso es tomar como límite superior la edad de 99 años,
ya que la proporción de población centenaria resulta muy reducida. (Otra solución alternativa
podría ser utilizar como marca de clase la esperanza de vida, si bien para ello deberíamos
recurrir a información externa).
Edad Li Ls n xn
El valor de la mediana es aquel valor de la variable que divide a la población en dos grupos
iguales. Para nuestra población:
Edad Li Ls n
Na
0-9 0 10 5 13108 13108
10-19 10 20 15 15989 29097
20-29 20 30 25 32030 61127
2 de 5 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...
Ejercicio 2.
a) la media
La probabilidad de obtener tres hogares con conexión es muy pequeña, tan sólo 1,68%
Ejercicio 3
Se trata de una distribución normal, con y Sx = 4,1 en la que hay que calcular:
a) La distancia en unidades Z de x = 5.
3 de 5 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...
El área bajo la curva normal entre 6 y la media será consultando las tablas:
Área 6-media = 0,4463. Como queremos el área entre 6 y el extremo inferior el área será:
0,5-0,4463 = 0,0537
Es decir el 5,37% de la plantilla tendrá menos de 6 años de antigüedad, por tanto: 1650 x
0,0537 = 88,6 89 trabajadores tendrán menos de 6 años de antigüedad.
C) La antigüedad de los 800 trabajadores más veteranos de la empresa. En este caso habrá
que proceder de forma inversa al apartado anterior. Primero pasar de unidades a proporciones
para obtener el área y así obtener la distancia.
Por tanto los 800 más veteranos tendrán más de 12,75 años de antigüedad.
Ejercicio 4.
4 de 5 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...
5 de 5 06/04/2012 12:00
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...
Ejercicio 1.
En la siguiente tabla se recogen los datos del alumnado español que terminó los estudios universitarios durante 2002 por Sexo y
Tipo de estudios.
Ejercicio 2.
Una encuesta sobre intención de voto de abril de 2005 administrada a 2.350 entrevistados atribuye al PP un 20,4 % de los votos.
Un estudio similar en el mismo mes, con una muestra de 2.477 entrevistados, asigna al PP el 21,8 % de los votos. ¿Existe una
diferencia significativa entre ambas muestras, para un nivel de significación del 0,05?
Ejercicio 3.
En un estudio comparativo se aplicaron 3 métodos diferentes para enseñar las matemáticas. Se obtuvieron tres
muestras de 6 estudiantes pertenecientes a cada uno de los tres institutos donde se habían impartido estos nuevos
métodos y se registraron las calificaciones obtenidas con el mismo tipo de examen, como figuran en la siguiente
tabla.
Establezca mediante un contraste de hipótesis, si existen diferencias en las calificaciones obtenidas según el
método seguido, para el total de los presentados en los tres Institutos, con un nivel de significación del 0,05.
Ejercicio 4.
La edad media de los trabajadores de un sector industrial es de 36 años, con una desviación típica de 6 años. Y el salario medio
de dichos trabajadores es de 1.350€ con una desviación típica de 400€. El coeficiente de correlación entre la edad de los
trabajadores del sector y el importe de los salarios es r = 0,6
a) Calcule la recta de regresión que permitiría hacer predicciones sobre los salarios conociendo la edad.
b) Según esa recta, ¿cuál sería el salario de un trabajador de 45 años?
SOLUCIONES
Ejercicio 1.
Para dos variables nominales y números de categorías diferente en cada variable, usaremos el coeficiente
de asociación V de Cramer.
Calculamos en primer lugar el valor de Ji-cuadrado para los datos:
1 de 5 06/04/2012 12:00
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...
En primer lugar calculamos las frecuencias esperadas para cada casilla de la tabla, que para la primera
casilla sería:
de forma análoga obtendríamos las frecuencias esperadas para cada casilla con lo que tendríamos la
siguiente tabla de frecuencias:
foij feij 2 2
(fo-fe) (fo-fe) /fe
5904 12160,6810 39146056,6 3219,0678
34138 27371,2414 45789022 1672,8880
55089 50681,0766 19429788,6 383,3736
5109 10027,0010 24186734,2 2412,1603
14762 8505,3190 39146056,6 4602,5383
12377 19143,7586 45789022 2391,8512
31039 35446,9234 19429788,6 548,1375
11931 7012,9990 24186734,2 3448,8433
Ji-cuadrado= 18678,8601
Al ser el valor del estadístico distinto de cero podemos considerar que existe alguna asociación, pero para
cuantificarla de forma estandarizada es necesario usar otro estadístico.
La V de Cramer nos proporciona un coeficiente cuyo valor está comprendido entre 0 y la unidad.
Siendo K el valor inferior de filas o columnas. En este caso el menor valor son las columnas=2, por tanto
(K-1)=2-1=1
El valor de V nos indica que existe una asociación moderada entre la variable género y la variable de
estudios universitarios.
Ejercicio 2.
Para comparar ambas muestras enunciaremos las hipótesis para el contraste de modo que:
n.s.=0,05
n.c.=95%
2 de 5 06/04/2012 12:00
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...
siendo
Como el valor calculado es menor al de la distribución normal de referencia para n.c.=95% (Z=1,96)
podemos concluir que las diferencias observadas entre las proporciones de las muestras no son
significativas
Ejercicio 3.
El análisis de la varianza, que nos permite conocer qué parte de la varianza total corresponde a las
diferencias de los valores de la variable dentro de cada grupo y qué parte corresponde a las variaciones
entre grupos.
Para comprobar si existen diferencias en las calificaciones entre los grupos comenzamos por enunciar las
hipótesis acerca de las medias de los grupos:
Comenzamos confeccionando las tablas para obtener las sumas de los cuadrados
GRUPOS x1 x2 x3 TOTALES
6,2 5,8 4,7 16,7
5,5 5,6 8,2 19,3
4,6 4,6 6,1 15,3
6,8 7,3 5,3 19,4
4,2 6,7 4,6 15,5
7,5 5,8 6,8 20,1
TOTALES 34,8 35,8 35,7 106,3
Cuadrados 1.211,04 1.281,64 1.274,49
3 de 5 06/04/2012 12:00
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...
Una vez obtenidos los cuadrados de los sumatorios de los valores en cada columna, elevamos al
cuadrado cada valor de la variable obtenemos los sumatorios de los valores al cuadrado.
glt = 18 –1 = 17
glent = 3 –1 = 2
gld = 18 – 3 = 15
Dividiendo las sumas de cuadrado entre los grados de libertad obtenemos las varianzas
Como Fe < Fc se acepta la hipótesis nula y se admite que las diferencias entre los grupos que han
utilizado los distintos métodos de enseñanza no son significativas.
4 de 5 06/04/2012 12:00
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...
Ejercicio 4.
Sabemos que el coeficiente de correlación se puede calcular mediante la expresión:
Por construcción de la recta de regresión sabemos que los valores medios de las variables pertenecen a
dicha recta, por lo que podemos utilizar los valores de la media para obtener el coeficiente a, una vez
conocido b:
Y despejando a,
Para conocer el salario que correspondería a una edad de 45 años sustituimos en la fórmula:
5 de 5 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2007/Estadistica 200...
Ejercicio 1.
En una encuesta realizada por el CIS sobre Opinión Pública y Política Fiscal, el 23% contestó que es el
Gobierno central quien administra mejor el dinero que se recauda de los impuestos. El 21% contestó que
son los gobiernos autonómicos, y el 15% los Ayuntamientos. Estime entre que valores estarán en la
población real esos porcentajes. (Población entrevistada: 2.483, nivel de confianza 95,45%)
Solución:
Intervalo de confianza para la proporción:
Con ayuda de la siguiente tabla calculamos el error típico de la proporción para las diferentes
proporciones. Como Nc=95,45% Z=2, por tanto:
p N
0,23 2483 0,01689083 0,21310917 0,24689083
0,21 2483 0,01634801 0,19365199 0,22634801
0,15 2483 0,01433167 0,13566833 0,16433167
Ejercicio 2.
Un sondeo realizado en Francia sostiene que para el 47% de los electores socialistas Ségolène Royal es la
persona que mejor representa los valores de la izquierda, mientras que uno de sus rivales afirma que puede
no pasar del 45%. ¿Es creíble tal afirmación a la vista de los datos de la encuesta? (n= 1450, n.s. = 0.05)
Solución:
Se trata de un contraste de hipótesis de proporción. Prueba unilateral:
Ho: p=0,45
H1: p>0,45
Mirando el valor de Z en la tabla obtenemos que el área correspondiente es: 0,4357, como la
prueba es unilateral la probabilidad de que “p” sea igual o menor que 0,45 es 93,57%, valor
1 de 4 06/04/2012 12:02
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2007/Estadistica 200...
que es menor de 95%, por lo tanto no podemos rechazar la hipótesis nula. Es posible, aunque
la probabilidad es baja, (p=6,43%) que Segolen no supere el 45% de los votos.
(El Z crítico para Nivel de Confianza del 95% es 1,645)
2 de 4 06/04/2012 12:02
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2007/Estadistica 200...
Ejercicio 3.
Una encuesta realizada en Francia el 21 de mayo de 2007 por la empresa TNS Sofres daba una intención
de voto para la UMP, el partido de Nicolás Sarkozy, del 40%, en tanto que al partido Socialista le daba el
28%. Un instituto de estudios vinculado al socialismo francés sostenía por el contrario, que la intención
de voto de la UMP es del 38% y la del partido socialista del 32%. ¿Son significativas esas diferencias?
(Realice dos pruebas de hipótesis, una para la UMP y otra para el PS) El tamaño de la muestra de
TNS-Sofres fue de 1.500 y la del Instituto socialista fue de 2.500.
Solución:
Son dos pruebas de hipótesis, en este caso ambas bilaterales:
El valor de Z:
El valor de Z:
Mientras que los resultados son coincidentes para el partido UMP, para el partido Socialista las
diferencias son significativas en ambos sondeos.
3 de 4 06/04/2012 12:02
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2007/Estadistica 200...
Ejercicio 4. Un jugador desconfiado lanza un dado 60 veces, y anota los siguientes resultados:
Compruebe si los resultados están dentro de lo que cabe esperar de un dado perfecto. Utilice la prueba del
Ji-cuadrado (χ2)con un nivel de significación de 0,05 y 6-1 grados de libertad.
Solución:
En este caso la hipótesis nula es
Ho: fe-fo=0
H1: fe-fo>0
1 10 6 -4 16 1,6
2 10 9 -1 1 0,1
3 10 11 1 1 0,1
4 10 5 -5 25 2,5
5 10 16 6 36 3,6
6 10 13 3 9 0,9
Total 8,8
4 de 4 06/04/2012 12:02