Examenes Resueltos Estadística Social PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 241

Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .

htm

Estadística aplicada a las Ciencias Sociales


Febrero 2001 (1ª Semana)

Ejercicio1.
La distribución que figura a continuación muestra el número de años de experiencia docente que presenta
una muestra de profesores titulares de una universidad determinada.

Años de experiencia Frecuencia


Menos de 1 año 350
1-2 años 1300
3-4 años 1500
5-6 años 1500
7-8 años 1500

a) Represente gráficamente la distribución.


b) Calcule la moda, la media y la mediana.
c) Calcule la medida de dispersión más adecuada.
d) Comente los resultados.

Ejercicio 2.
Un jugador de baloncesto tiene la probabilidad de encestar una canasta de 0,75. Si realiza una serie de 20
lanzamientos, ¿cuál es la probabilidad de que acierte exactamente 15 canastas? ¿y 16 ó más canastas en
esa misma serie?

Ejercicio 3.
En una encuesta del CIS sobre uso de los teléfonos móviles realizada en septiembre de 2000 y aplicada a
una muestra de 2500 españoles, 910 declararon que utilizaban el teléfono móvil todos los días. La media
de edad de este grupo de usuarios es de 31,7 años y la desviación típica de 6,3 años. La edad se distribuye
normalmente.
Calcular:
a) El número de usuarios de teléfono móvil con 38 o más años.
b) El número de usuarios entre 25 y 35 años.
c) El porcentaje de usuarios menores de 35 años.
d) ¿Entre qué edades alrededor de la media se moverá el 90% de los casos?

Ejercicio 4.
En un municipio de 1.500.000 habitantes, se conoce que el 60% suelen realizar sus compras en grandes
almacenes. Se ha realizado una encuesta sobre la posibilidad de mantener abiertos dichosa
establecimientos todos los domingos del año, con una muestra de 900 personas y un nivel de confianza del
95,5%.
a) ¿qué error máximo se ha admitido?
b) ¿Qué tamaño debería tener la muestra para que con el mismo nivel de confianza el error admitido
fuera del 2%?
c) ¿Qué ocurriría con el tamaño de la muestra si deseáramos aplicar un 99,7% de nivel de confianza?
Explique las ventajas e inconvenientes de la ampliación y reducción del nivel de confianza.

Soluciones

1 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .htm

Ejercicio 1.
a) Para representar gráficamente los datos hay que tener en cuenta que los intervalos no son
iguales. En este caso no es correcto utilizar las frecuencias relativas como alturas de los
polígonos, sino que se deben calcular las alturas de modo que las áreas de cada polígono
sean proporcionales a las frecuencias relativas.
Si el área de un rectángulo es igual al producto de la base y la altura, dado que queremos que
el área S sea igual al porcentaje de casos en cada intervalo y conocida la base b (amplitud de

cada intervalo), la altura h se obtiene de

Años experiencia Base b Área S (%) Altura h


menos de 1 año 1 5,69 5,69
1-2 2 21,14 10,57
3-4 2 24,39 12,2
5-6 2 24,39 12,2
7-8 2 24,39 15,2

El gráfico
muestra una distribución asimétrica (negativa), al estar más concentrados los casos en los
valores altos de la variable. Es decir, en los intervalos de mayor valor en años de experiencia
se reúnen más casos que en los de menor experiencia. El número de casos en cada categoría
aumenta al incrementarse los años de experiencia hasta el intervalo 3-5, para permanecer
luego constante.

b) Cálculo de la media, moda y mediana

2 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .htm

Media: es necesario calcular las marcas de clase xi , o puntos medios de cada intervalo.

Años experiencia xi n xi n
menos de 1 año 0,5 350 175
1-2 2 1300 2600
3-4 4 1500 6000
5-6 6 1500 9000
7-8 8 1500 12000
Total 6150 29775

La media será:

Para calcular la mediana hay que obtener las frecuencias acumuladas:

Años n Na
experiencia
menos de 1 año 350 350
1-2 1300 1650
3-4 1500 3150
5-6 1500 4650
7-8 1500 6150
6150

La mediana:

La moda: puede ser definida como el valor de la variable tal que su frecuencia es superior a la
del valor anterior y a la del valor posterior. Esto quiere decir que puede haber varias modas
relativas, siendo la moda absoluta la mayor de ellas. En este caso, tres de las categorías
presentan un valor máximo idéntico, ninguno de los tres valores de la variable cumple la
condición antes enunciada. Ante las dificultades para calcular la moda a partir de
distribuciones con datos agrupados conviene aplicar el criterio propuesto por García Ferrando
(p.89) para obtener el valor de la moda calculando el punto medio de la clase que contiene la
mayor frecuencia. Al haber tres categorías contiguas con la máxima frecuencia, puede
estimarse la moda considerando que el intervalo modal es la suma de los tres intervalos. El
intervalo modal sería por tanto el que contiene los valores de la variable entre 3 y 9, siendo su
punto medio 6.

c) La medida de dispersión más adecuada es la desviación típica, al estar medida la variable


años de experiencia en escala de intervalo.

3 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .htm

xi xi2 ni xi2 ni
0.5 0.25 350 87.5
2 4 1300 5200
4 16 1500 24000
6 36 1500 54000
8 64 1500 96000
Total 179287.5

d) No se da una agrupación de los casos alrededor de la media demasiado alta. Los casos
están repartidos de forma muy homogénea. Llama la atención el corto recorrido de la variable
no habiéndose recogido en la muestra ningún caso con más de 9 años de experiencia. Para
obtener un análisis más detallado sería necesario conocer la antigüedad de la universidad y la
política de contratación en los últimos años.

Ejercicio 2.

Se trata de una distribución binomial

a) Siendo la probabilidad de encestar p= 0,75 y la de no encestar q= 0,25


Siendo las combinaciones posibles de fallos y aciertos para 15 aciertos sobre 20 intentos:

La probabilidad de obtener exactamente 15 canastas de 20 intentos es:

P(X=15) = 15.504 (0,75)15 (0,25)20-15 = 0,2023

b) la probabilidad de acertar 16 o más canastas será la suma de las probabilidades de obtener


16, 17, 18, 19 y 20. Operando de forma análoga al caso anterior, se obtiene: P(X=16)=
0,189685
P(X=17)= 0,133896
P(X=18)= 0,066948
P(X=19)= 0,021141
P(X=20)= 0,003171
Por tanto,
P(X≥16)= 0,189685+0,133896+0,066948+0,021141+0,003171= 0,41484

4 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .htm

Ejercicio 3.

De los 2500 usuarios sólo 910 utilizan el teléfono a diario. Centrándose en este colectivo y
sabiendo que tienen una edad media de 31,7 años y una desviación típica de 6,3 podemos
utilizar las tablas de la curva normal para calcular el porcentaje de casos que quedan entre la
media y un valor dado.

a) Primero es necesario calcular el número de unidades de desviación típica que separa al


valor 38 de la media:

Consultando la tabla “áreas bajo la curva normal” obtenemos que el valor Z=1 se corresponde
con el valor 0,3413; es decir, el 34,13% de los casos se encuentran entre la media y una
unidad de desviación típica, es decir, entre 31,7 y 38 años. Pero como queremos conocer el
porcentaje de casos que exceden de 38 es necesario restar ese valor de 0,5 ya que el área
bajo la curva normal es igual a la unidad y en la tabla sólo se presentan la mitad de los valores
(los valores positivos de Z).
0,5-0,3413=0,1587

Como se pide el número de usuarios, es necesario calcular el 15,87% de los 910 usuarios, lo
que arroja un valor de 144 usuarios de 38 o más años.

b) Es necesario calcular la proporción de casos que quedan entre el valor 25 y la media.


Después debe calcularse la proporción de casos que quedan entre la media y el valor 35. La
proporción de casos entre 25 y 35 será la suma de los dos cálculos anteriores.

que en las tablas se corresponde a 0,3554

5 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .htm

que en las tablas se corresponde a 0,1985

La proporción de casos comprendidos entre los 25 y los 35 años será entonces la suma:
0,1985 + 0,3554 = 0,5539. Es decir, que el 55,39% de los casos estarán comprendidos en el
intervalo de edad señalado. Expresado en número de usuarios será el 55,39% de 910 = 504

c) Basándonos en el cálculo del apartado b), sabemos que la proporción de casos entre la
media y el valor 35 es 0,1985. Si añadimos 0,5 correspondiente a todos los valores menores a
la media: 0,1985 + 0,5 = 0,6985. Expresado en porcentaje, el 69,85% de los usuarios que
utilizan el teléfono móvil todos los días tiene menos de 35 años.

d) Como el 90% de los casos está repartido por igual a ambos lados de la media, y las tablas
nos dan solamente los valores positivos de Z, hallaremos el valor correspondiente a la mitad
de 0,9; es decir, de 0,4500 que en la tabla es Z=1,65.

; despejando el valor de x se obtienen los dos valores de la variable edad

6 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .htm

correspondientes al Z obtenido, con signo positivo y negativo.

El extremo superior del intervalo sería:

de forma análoga se obtiene el valor a la izquierda de la media. En este caso el valor de Z es


negativo.

Por tanto podemos afirmar que el 90% de los usuarios habituales de teléfono móvil alrededor
de la media se encuentra entre los 21 y los 43 años.

Ejercicio 4.

a) Utilizando la fórmula del tamaño muestral para poblaciones “infinitas”, puede despejarse el
valor del error.

El valor de Z correspondiente al nivel de confianza del 95,5 se obtiene dividiendo 0,9550 entre
2 con lo que se obtiene 0,4775 que en las tablas “área bajo la curva normal” coincide con el
valor Z = 2.
Los valores de p = 0,6 y q = 0,4 se obtienen del enunciado: 60% de personas que hacen sus
compras en grandes almacenes y consecuentemente 40% de personas que no las hacen.

despejando e tenemos:
el error admitido sería del 3,27%

b) Directamente de la formula utilizada en el apartado a)

El número de unidades muestrales necesarias con un nivel de confianza del 95,5% y un error
admitido del 2% es de 2.400

7 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .htm

c) El Z correspondiente al nivel de confianza del 99,7% se obtendría:


dividiendo 0,9970 entre 2 y buscando en las tablas de la curva normal el valor de Z para el
valor obtenido:

que en la tabla se corresponde con Z = 2,96

volviendo a la fórmula del tamaño muestral:

Como puede verse el tamaño de la muestra aumenta de forma sensible al incrementar el nivel
de confianza. Un nivel de confianza del 99,7% significa que ese porcentaje de las muestras
posibles arrojaría un valor de p que estaría comprendido entre + 2,96 y – 2,96 unidades de
desviación típica, y sólo un 0,03% de las muestras nos darían un valor más extremo. Al
aumentar el nivel de confianza aumenta la proporción de muestras posibles que arrojarían
valores comprendidos en el intervalo, pero también crecería la magnitud del intervalo. También
aumentaría el tamaño de la muestra necesaria, si quisiéramos mantener el error máximo
admitido en el mismo nivel.

8 de 8 06/04/2012 11:47
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm

Estadística aplicada a las Ciencias Sociales


Febrero 2001 (2ª Semana)

Ejercicio1.
En un estudio sobre defensa y política exterior realizado en noviembre de 1977, se trabajó con una
muestra de 1211 personas. De ellas, 546 consideraban que la razón por la que seguía existiendo la OTAN
radicaba en que “los Estados Unidos quieren controlar el sistema de defensa europeo”. Esta respuesta se
distribuía por edad del siguiente modo:
Edad %
18-29 31,3
30-49 38,5
50-64 17,2
65 y más 13,0
(N=546)

a) Calcula la distribución de frecuencias acumuladas y relativas acumuladas.


b) Halla la mediana y la media de la distribución.
c) Calcula la medida de dispersión más adecuada.
d) Representa gráficamente la distribución de frecuencia relativas. De acuerdo a la misma, describe
su forma. Da una interpretación de la misma.

Ejercicio 2.
En tres aulas distintas se da la composición de alumnos en función de su clase social, según la siguiente
tabla.
Aula Baja Media Alta Total
A 10 5 5 20
B 20 20 20 60
C 10 20 10 40

a) ¿Cuál es la probabilidad de que al extraer al azar un sujeto de cada aula, al menos uno de ellos sea
de clase social alta?
b) ¿Cuál es la probabilidad de que al extraer un sujeto de cada aula, al menos uno de ellos sea de
clase social baja o media?

Ejercicio 3.
En una universidad española que tiene en nómina a 725 profesores, la media de años de trabajo es de 7,3
y la desviación típica de 4,2 Suponiendo que se distribuyan normalmente:
a) ¿A cuantas unidades de desviación típica se encuentra un profesor que lleva 10 años en la
universidad respecto a la media del colectivo?
b) ¿Qué número de profesores lleva menos de tres años en la universidad?
c) ¿Cuál será el menor número de años trabajados por los 100 profesores que llevan el máximo
número de años en la universidad?

Ejercicio 4.
En un estudio sobre el maltrato a mujeres queremos realizar una encuesta dirigida al colectivo femenino.
¿Qué tamaño deberá tener la muestra sabiendo que el total de habitantes de más de 16 años es de 32.000
y que el 53,8% son mujeres?
Nivel de confianza = 95,5%. Error máximo = 3%.
Soluciones

Ejercicio 1.
a) Antes de calcular las frecuencias acumuladas necesitamos conocer las frecuencias absolutas. Lo
haremos a partir de los porcentajes que es el único dato que tenemos. Lo haremos mediante la relación:

1 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm

La frecuencia relativa es el porcentaje dividido entre cien, y N el número total de casos. En


este caso N=546.

% n fra
18-29 31,3 171 0,313
30-49 38,5 210 0,698
50-64 17,2 94 0,870
65 y más 13,0 71 1

En la tabla anterior se han calculado también las frecuencias relativas acumuladas. Para ellos
se ha utilizado:

b) La mediana la calculamos mediante la fórmula:

n Na
18-29 171 171
30-49 210 381
50-64 94 475
65 y más 71 546

Como N/2=271, el intervalo de la mediana será el de 30 a 49 años.

Para el cálculo de la media debemos calcular las marcas de clase. Por ejemplo para el primer
intervalo, Li el límite inferior es 18 y Ls el límite superior es 29,9999 30. (Por ejemplo una
persona con 29 años 9 meses y siete días, se dice que tiene 29 años).
En este caso:

El último intervalo que es abierto se cerró en 89 años (Ls=90).

2 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm

Así obtenemos la tabla:

Xi n NXi
18-29 24 171 4104
30-49 40 210 8400
50-64 57,5 94 5405
65 y más 77 71 5467
Total 546 23376

La media será:

c) En este caso como se trata de una variable continua “edad”, una buena solución es la
varianza o la desviación típica. El cálculo de la varianza lo haremos con ayuda de la siguiente
tabla:

Xi n n(Xi)2
18-29 24 171 98496,0
30-49 40 210 336000,0
50-64 57,5 94 310787,5
65 y más 77 71 420959,0
Total 546 1166242,5

Utilizaremos por comodidad de cálculo, la fórmula:

3 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm

4 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm

d) Para la representación gráfica en un histograma hay que tener en cuenta que los intervalos,
tienen distinta amplitud, por ello habrán de calcularse las alturas “h”. La base “b” de la figura
es Base=Ls-Li. El área “a” en este caso serán las frecuencias relativas.

Base Área h
18-29 12 31,3 2,6
30-49 20 38,5 1,9
50-64 15 17,2 1,1
65 y más 25 13,0 0,5

Pulsar aquí para ver gráfico

Sobre el histograma se ha superpuesto un polígono de frecuencias para mostrar de forma más


clara el tipo de distribución.
El gráfico muestra que se trata de una distribución fuertemente asimétrica (positiva), y
unimodal. Se corresponde con el tipo de curva “J”. Es decir los casos de la variable están muy
concentrados en el extremo inferior descendiendo el número de casos a medida que aumenta
la edad.

5 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm

¿Quiere esto decir que los jóvenes suponen en mayor medida que los mayores que los
“Estados Unidos quieren controlar el sistema de defensa europeo”? Con los datos que
tenemos no podemos afirmarlo así, puesto que en la población general también hay más
jóvenes que mayores.

Ejercicio 2.
a) En este ejercicio se obtiene una muestra de tres elementos en la que cada elemento
pertenece a un estrato (aula). Si denotamos con “1” cuando el elemento seleccionado es
de clase alta y con un “0” en el caso contrario, existen 23=8 muestras posibles:

Aula
A B C
Muestra 1 1 1 1
Muestra 2 1 1 0
Muestra 3 1 0 0
Muestra 4 0 1 0
Muestra 5 0 1 1
Muestra 6 1 0 1
Muestra 7 0 0 1
Muestra 8 0 0 0

La suma de la probabilidad que tiene cada muestra de ser seleccionada es la unidad. De las
ocho muestras en 7 hay un individuo de clase alta. Resulta más cómodo calcular la
probabilidad de obtener la muestra en la que no hay nadie de clase alta y obtener el
complemento a la unidad de dicha probabilidad. Este resultado sería idéntico que la suma de
la probabilidad de las siete primeras muestras.

P(A,B,C)=(0,0,0) se calcula mediante el producto de la probabilidad de obtener un individuo


que no sea de clase alta en cada aula, ya que se trata de selecciones independientes.

Las probabilidades son:

PA(1)=5/20=0,25 PA(0)=0,75
PB(1)=20/60=0,333 PB(0)=0,667
PC(1)=10/40=0,25 PC(0)=0,75

Por tanto la probabilidad pedida será:

P=1-(PA(0)x PB(0)x PC(0))=1-(0,75x0,667x0,75)=1- 0,375=0,625=62,5%

b) El razonamiento es idéntico al anterior. Si denotamos con “1” cuando el elemento


pertenece a la clase baja o media y con “0” cuando pertenece a la clase alta tenemos:

PA(0)=5/20=0,25 PA(1)=0,75
PB(0)=20/60=0,333 PB(1)=0,667
PC(0)=10/40=0,25 PC(1)=0,75

P=1-(PA(0)x PB(0)x PC(0))=1-(0,25x0,333x0,25)=1- 0,021= 0,979=97,9%

(En este caso hemos calculado la probabilidad de que la muestra esté compuesta por tres
elementos de clase alta y hemos hallado su complemento respecto a la unidad.)

Ejercicio 3.

6 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm

a)

b)

7 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm

Área(0-1)=0,3413

P(x<3)=0,5-0,3413=0,1587

Luego 715x0,1587=115 profesores

c)

El área pintada corresponde con los cien profesores más antiguos. Dicho área vale:

El valor pedido es el límite inferior del área sombreada “x”. En primer lugar vamos a hallar el
valor Z correspondiente. Como desde la media hasta el extremo superior el área es ½, el área
no sombreada valdrá:

0,5-0,1379=0,3621

Dicho área se corresponde con un Z=1,09

Despejando x obtenemos que:

8 de 9 06/04/2012 11:49
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm

Así obtenemos que los cien profesores más antiguos llevan como mínimo 11,9 años.

4. Ejercicio

En primer lugar calculamos cual es la población femenina, o universo de nuestra encuesta.

N=32300x0,538=17377,4

Tomamos un valor entero como N=17377.

Como no tenemos ninguna información sobre la característica de estudio, supondremos el


caso más desfavorable p=q= ½.

A continuación aplicamos la fórmula de poblaciones finitas:

Con n=1044 obtendremos un error inferior al 3% para un nivel de confianza del 95,45%

9 de 9 06/04/2012 11:49
Examen de Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 1sem...

Examen de Estadística Aplicada a las Ciencias Sociales


Enero 2002 1ª Semana
Ejercicio 1.
El total anual de fallecidos menores de 40 años en accidentes de tráfico en los años 1980 y 1998 figura en
la tabla siguiente que recoge la distribución por edades:

Grupos de edad 1980 1998


0-4 190 69
5-9 195 68
10-14 167 83
15-19 632 581
20-24 705 827
25-29 450 697
30-34 445 533
35-39 338 437

A) Represente gráficamente los datos.


B) Calcule las medidas de tendencia central y dispersión más adecuadas.
C) Comente los resultados comparando los datos de 1980 y 1998.

Ejercicio 2.
En una carrera ciclista de 50 Kilómetros participan 10.300 corredores. A los 10 Km. El número de
corredores es de 9.000; a los 20 Km., el número de corredores es de 7.500; a los 30 Km., llegan 5.000
corredores y concluyen la carrera 3.200 corredores.
A) ¿Qué probabilidad tiene un corredor que inicia la prueba de llegar a los 30 Km.?
B) ¿Qué probabilidad tiene un corredor que ha alcanzado los 20 Km. De llegar a los 30 Km.?
C) ¿Qué probabilidad tiene un corredor que inicia la prueba de completarla?

Ejercicio 3.
En una facultad de Ciencias Políticas y Sociología, la media de edad de los matriculados es de 26 años,
con una desviación típica de 4,7 años. Sabiendo que existen 7.800 alumnos matriculados y suponiendo
que dicha población se ajusta al patrón de la distribución normal,
a) ¿Cuál es la probabilidad de extraer al azar de entre los matriculados un alumno mayor de 35 años?
b) ¿Cuántos alumnos tendrán entre 24 y 28 años?
c) ¿Cuántos tendrán menos de 24 años?
d) ¿Cuál es la edad mínima del 20% de los matriculados de mayor edad?

Ejercicio 4.
La UNED quiere realizar un estudio sobre el porcentaje de egresados que se han incorporado al mercado
de trabajo a partir de los 20.000 licenciados que han obtenido su título entre el año 1990 y 2000. Para ello
piensa dedicar 3.500.000 pesetas en realizar la encuesta. El coste de cada entrevista se sitúa en 5.000
pesetas ¿Cuál será el margen de error si se establece un nivel de confianza de Z=2 (95,5%)

EJERCICIO 1.
A) La representación gráfica mediante líneas permite comparar ambas series de datos de la forma
sencilla y clara. Al ser diferente el número de casos de ambos períodos, se representan las
frecuencias relativas.

1 de 6 06/04/2012 11:52
Examen de Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 1sem...

B) Dado que la variable de las series está medida con nivel de intervalo, conviene utilizar la media y la
desviación típica como medidas de tendencia central y dispersión. Para calcular las medias, definiremos
las marcas de clase para cada categoría, y construiremos una tabla con el producto de cada marca de clase
por la frecuencia correspondiente. Utilizando los subíndices 1 y 2 para diferenciar las series de 1980 y
1998,

Marca de clase Frec. 1980 xini 1980 Frec. 1998 xini 1998
2,5 190 475 69 172,5
7,5 195 1462,5 68 510
12,5 167 2087,5 83 1037,5
17,5 632 11060 581 10167,5
22,5 705 15862,5 827 18607,5
27,5 450 12375 697 19167,5
32,5 445 14462,5 533 17322,5
37,5 338 12675 437 16387,5
Totales 3122 70460 3295 83372,5

En cuanto a las marcas de clase utilizadas para el cálculo, es necesario hacer notar que los intervalos de la
tabla están representados de forma que el límite superior de un intervalo parece no coincidir con el límite
inferior del siguiente. Cuando se presentan los datos resumidos, se han redondeado los valores; cuando
leemos que un intervalo comprende, por ejemplo, de 5 a 9 años, hemos incluido desde 5 hasta 9,999 es
decir hemos tomado años cumplidos, con lo que la marca de clase será 7,5.

años ; años.

Para calcular la desviación típica a partir de los datos agrupados, construimos columnas con la diferencia

2 de 6 06/04/2012 11:52
Examen de Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 1sem...

de cada uno de los valores de la variable respecto a la media, elevadas al cuadrado y multiplicadas por la
frecuencia en cada categoría. Para el año 1980,

Marca de clase Frecuencia=n (x-media) (x-media)2 (x-media)2ni


2,5 190 -20,0688661 402,759387 76524,2835
7,5 195 -15,0688661 227,070726 44278,7915
12,5 167 -10,0688661 101,382065 16930,8048
17,5 632 -5,06886611 25,6934037 16238,2311
22,5 705 -0,06886611 0,00474254 3,34349162
27,5 450 4,93113389 24,3160814 10942,2366
32,5 445 9,93113389 98,6274203 43889,202
37,5 338 14,9311339 222,938759 75353,3006
Totales 3122 284160,194

años

De forma análoga se calcula para el año 1998,

Marca de clase Frecuencia=n (x-media) (x-media)2 (x-media)2ni


2,5 69 -22,8027314 519,96456 35877,5546
7,5 68 -17,8027314 316,937246 21551,7327
12,5 83 -12,8027314 163,909932 13604,5243
17,5 581 -7,80273141 60,8826175 35372,8008
22,5 827 -2,80273141 7,85530336 6496,33588
27,5 697 2,19726859 4,82798925 3365,10851
32,5 533 7,19726859 51,8006751 27609,7598
37,5 437 12,1972686 148,773361 65013,9588
Totales 3295 208891,775

años.
Si hemos de comparar la dispersión en ambas distribuciones, al tener medias diferentes, utilizaremos el
coeficiente de variación como medida de dispersión relativa:

para cada uno de los períodos.

Año 1980 Año 1998


Coeficiente variación 42,27 31,46

D) A la vista de la representación gráfica y las medidas de tendencia central y dispersión, cabe


destacar la elevación de las edades de las personas fallecidas en accidente, y el incremento de las
muertes, desde 1980 hasta 1998. Dado que no disponemos de más información que la edad de los
fallecidos y su número, debemos dirigir la atención a otros aspectos del fenómeno. Cabe suponer
que la diferencia se debe a la menor proporción de niños en el año 1998 respecto del 1980.
Asimismo el incremento de muertos en accidente, puede estar relacionado con el mayor número
de conductores y vehículos. Aunque no debemos despreciar otras causas y deberíamos dirigir

3 de 6 06/04/2012 11:52
Examen de Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 1sem...

también la mirada hacia los hábitos en la conducción, las medidas de seguridad dirigidas a los
niños, la edad a la que se obtiene el carnet de conducir etc, para un análisis más detallado.

EJERCICIO 2.
A) La probabilidad de que al elegir un corredor al azar, éste haya llegado a los 30 Km, será el
cociente del numero de corredores que alcanza esa distancia dividido por el número total de
corredores:

B) De forma análoga, la probabilidad de que un corredor que ha alcanzado los 20 Km llegue a los 30,
considera el número de casos posibles los 7.500 que llegan a los 20 Km y el de casos favorables los
5.000 que llegan a los 30 Km:

B) Teniendo en cuenta que sólo acaban la carrera 3.200, y que la inician 10.300.:

EJERCICIO 3.

A) Dado que la población se ajusta al patrón de la curva normal, hallaremos la proporción de casos
que superen el valor 35. Para ello calculamos el valor Z para x=35, y obtendremos mediante las
tablas de la curva normal, la proporción de casos que se encuentran entre la media y el valor 35.
Como lo que queremos es saber la proporción de casos por encima de 35, debemos restar el valor
de la tabla para el Z dado de 0,5.

que en las tablas se corresponde con el valor 0,4719. Es decir, que el


47,19% de los casos se encuentran entre la media y el valor 35. Si restamos 0,4719 de 0,5 obtenemos
0,0281, que es la probabilidad de encontrar al azar a un alumno de más de 35 años.

B) Calculamos primero el área entre la media y el valor 28

en las tablas se corresponde con el valor 0,1664

4 de 6 06/04/2012 11:52
Examen de Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 1sem...

como la curva es simétrica y 24 está a la misma distancia de la media que 28, el cálculo de Z para 24
produce un resultado idéntico, por lo que el área entre 24 y 28 será la suma de ambos valores
0,1664+0,1664=0,3328.

El 33,28% de los casos queda comprendido en dicho intervalo: el número de alumnos pedido es el
33,28% de 7.800, es decir: 2.596 alumnos.

C) Utilizando el cálculo del apartado anterior, el número de los que tienen menos de 24 años será
0,5-0,1664=0,3336. El 33,36% de 7.800, resulta 2.602 alumnos.

D) La edad mínima la obtenemos utilizando la fórmula de los números Z , pero despejando el valor de
la variable. En las tablas buscaremos el valor Z que se corresponde con el valor 0,3000 pues la
tabla nos ofrece el área entre la media y un valor de la variable y necesitamos el área entre ese
valor y el extremo de la curva (50%-20%=30%).

si despejamos x, queda:

5 de 6 06/04/2012 11:52
Examen de Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 1sem...

años. Será el valor a partir del cual se encuentra el 20% de los alumnos de
más edad.

EJERCICIO 4.

Si tenemos un presupuesto y se gasta entero en las encuestas, sabiendo que cada entrevista cuesta 5.000
Ptas., se podrán hacer 700. Utilizaremos la fórmula del tamaño muestral y despejaremos el margen de
error:

Considerando que se trata de una población finita (N<100.000), utilizaremos la fórmula

aunque se podría utilizar la fórmula para poblaciones infinitas al ser n muy pequeño
en relación a N y resultar el factor de corrección muy próximo a la unidad.
Teniendo en cuenta que no conocemos los valores de p y q para la población, calculamos suponiendo el

caso menos favorable de p = q = 0,5 sustituyendo los valores:

despejándole valor de e, obtenemos el margen de error solicitado:


e = 0,0371.

6 de 6 06/04/2012 11:52
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...

Examen de Estadística Aplicada a las Ciencias Sociales


Enero 2002 2ª Semana
Ejercicio 1. Después de extraer una muestra aleatoria de 450 estudiantes que aprobaron las últimas pruebas
de Selectividad de Madrid, se obtuvo la siguiente distribución de frecuencias de sus calificaciones:

Calificación Número de casos


5,0-5,9 170
6,0-6,9 130
7,0-7,9 70
8,0-8,9 60
9,0-9,9 20

a) Calcule la distribución de frecuencias relativas y relativas acumuladas.


b) ¿Cuál es la nota media de los aprobados en selectividad de esta muestra?
c) Calcule la dispersión relativa de esta distribución.
d) ¿Podría describir, sin hacer cálculo alguno, la forma de esta distribución?

Ejercicio 2. El partido X de un país consigue el 20% de los votos en unas elecciones. Se lleva a cabo un
sondeo a 15 electores:
a) ¿Qué probabilidad existe de que entre los encuestados no haya ningún votante de ese partido?
b) Probabilidad de que no haya más de cuatro votantes al partido X.
c) Probabilidad de que al menos 3 voten a ese partido.
d) Calcular la media y la desviación típica del número de votantes a dicho partido entre los 15
ciudadanos entrevistados.

Ejercicio 3. Las notas de una asignatura en un curso siguen una distribución normal, con media 6,4 y
desviación típica 2,5. Calcule:
a) La probabilidad de que un alumno obtenga menos de 5 puntos.
b) ¿Cuántos alumnos de un grupo de 200 obtendrá sobresaliente con un 8,5 o más?
c) ¿Cuál será la nota a partir de la cual se aprueba, si suspende el 30% de los alumnos de ese curso?

Ejercicio 4. Un Centro de Investigación de Temas de Paz y Seguridad decide realizar una encuesta a los
españoles mayores de 18 años acerca de su opinión sobre la intervención militar en Afganistán. ¿Cuántos
elementos deberá tener la muestra sabiendo que se tolera un error máximo de un 3,5% y se ha de contar con
un nivel de confianza del 95%?

***************

Ejercicio 1

a) La frecuencia relativa de cada categoría será el resultado de dividir la frecuencia absoluta “n” de cada

categoría entre el total de casos. Así,


La frecuencia relativa acumulada en la categoría “j” será la suma de las frecuencias relativas de la
propia categoría y de las categorías anteriores.

1 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...

Los cálculos se realizan en la tabla siguiente:

Calificación n fr fra
5,0-5,9 170 0,378 0,378
6,0-6,9 130 0,289 0,667
7,0-7,9 70 0,156 0,822
8,0-8,9 60 0,133 0,956
9,0-9,9 20 0,044 1,000
Total 450 1

b) El cálculo de la media cuando los datos están agrupados será el producto de la frecuencia por el valor
medio de la categoría o marca de clase dividido por el total de casos:

La tabla siguiente nos ayuda en los cálculos parciales:

Xc n n Xc
5,5 170 935
6,5 130 845
7,5 70 525
8,5 60 510
9,5 20 190
Total 450 3005

c) La dispersión relativa vendrá dada por el Coeficiente de Variación o cociente de la desviación típica
entre la media, medido en porcentaje:

La desviación típica la calculamos con ayuda de la tabla:

Xc n (Xc)2 n(Xc)2
5,5 170 30,25 5142,5
6,5 130 42,25 5492,5
7,5 70 56,25 3937,5
8,5 60 72,25 4335,0
9,5 20 90,25 1805,0
Total 450 20712,5

2 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...

Entonces:

d) Se trata de una distribución claramente asimétrica, los casos se concentran en los valores más bajos. Es
por ello una distribución unimodal asimétrica positiva. Su representación gráfica sería una línea
descendente de izquierda a derecha.

3 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...

Ejercicio 2

Se trata de una distribución binomial con p=0,2 y n=15


Dado que nq=12 >5 utilizaremos la aproximación normal para el cálculo.
Para comenzar calculamos la media y la desviación típica de la distribución:
Media: np=12x0,2=3
Desviación Típica:

a) Se pide p(x=0)

Por tanto la probabilidad pedida será la diferencia entre las áreas de valores: Z(x-0,5)-Z(x+0,5)

Consultando los valores en tablas


P(x=0)= F(-2,26)- F (-1,61)=0,4881-0,4463=0,0418
P(x=0)=4,18%

4 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...

b) Se pide p(x<5)

Por tanto
El valor de su área correspondiente es: F(0,97)=0,3340
Por lo tanto p(x<5) será 0,5+0,3340=0,8340
P(x<5)=83,4%

c) Se pide p(x>2)

Por tanto
El valor de su área correspondiente es: F(-0,32)=0,1255
Por lo tanto p(x>2) será 0,5+0,1255=0,6255
P(x>2)=62,55%

5 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...

d) Cálculo ya realizado:
Media:3
Desviación Típica: 1,55

6 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...

Ejercicio 3

Se trata de una distribución normal con =6,4 y Sx=2,5


a) Se pide p(x<5)

Por tanto
El valor de su área correspondiente es: F(-0,56)=0,2123
Por lo tanto p(x<5) será 0,5-0,2123=0,2877
P(x<5)=28,77%

7 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...

b) Se pide p(x>8,5)

Por tanto
El valor de su área correspondiente es: F(0,84)=0,2995
Por lo tanto p(x>8,5) será 0,5-0,2995=0,2005
P(x>8,5)=20,05%
Para N=200, el número de alumnos con calificación mayor de 8,5 será: 200x0,2005=40

8 de 9 06/04/2012 11:53
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 2sem...

c) Se pide conocer “y” dada la siguiente relación p(x<y)=0,3

El valor de p es el resultado de Fy=0,5-0,3. Por lo tanto, el área es 0,2 y el valor de su correspondiente Z es:
-0,525

Si despejamos:

Tenemos que -0,525x2,5+6,4=y


Entonces y=5,0875

Ejercicio 4

Considerando el caso más desfavorable cuando p=q=0,5. El tamaño “n” de la muestra vendrá dado por la
fórmula:

9 de 9 06/04/2012 11:53
Soluciones Examen Febrero 2003 1ª Semana http://www.uned.es/111044/examenes/febrero 2003/Soluciones Exame...

FACULTAD DE CIENCIAS POLÍTICAS Y SOCIOLOGÍA

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES


Febrero 2003 (1ª Semana)

MATERIAL PERMITIDO: Todo tipo de material (Libros, apuntes, calculadoras...)


DURACIÓN: 2 Horas.
PUNTUACIÓN: Ejercicios 1 y 3= máximo 3 puntos; ejercicios 2 y 4: máximo 2 puntos.

EJERCICIO 1.- A continuación tiene las dos distribuciones por sexo y edad de los parados españoles (sin
empleo anterior) {abril 2002}

Hombres Mujeres
Grupos de edad Frecuencia Frecuencia

< 20 años 17.654 20.902


20 – 24 años 10.943 34.448
25 – 29 años 9.322 26.834
30 – 44 años 11.106 52.854
> 44 años 14.216 41.274

a) ¿Qué población (la de hombres o la de mujeres) presenta una edad media mayor?¿Cuál está más envejecida en
términos medios?
b) ¿Qué media representa con más fidelidad a su población? ¿Por qué?
c) Realice las representaciones gráficas de las frecuencias ordinarias
d) ¿Cómo ha resuelto el problema de los intervalos abiertos (1º y último) para el cálculo de la media? Explíquelo.

EJERCICIO 2.-

Un jugador de baloncesto tiene una estadística de 64/120 en tiros libres. Si realiza una serie de veinte lanzamientos, ¿cuál es la
probabilidad de que acierte exactamente en 15? ¿y 16 ó más veces en esa misma serie?

EJERCICIO 3.-

En una muestra de 1800 niños de 12 años se observó una altura media de 150 cm con una desviación típica de 7,0. Suponiendo
que las alturas se distribuyen de acuerdo con la curva normal, queremos saber:
a) El número de niños que tienen una altura inferior a 150 cm
b) El porcentaje de niños cuya altura se encuentra entre 140cm y 160 cm.
c) La probabilidad de encontrar a un niño cuya altura sea superior a 160cm.

EJERCICIO 4.-

Un Instituto de Investigación ha de encargarse de realizar un encuesta para acercarse al problema de la violencia doméstica.
Para ello toman como universo poblacional al conjunto de las mujeres españolas de 18 ó más años. ¿Qué tamaño muestral les
sería necesario utilizar si el máximo error muestral permitido es del 0,8%, para un nivel de confianza del 95,5% y una varianza
de p=q=50%?

Soluciones Examen Febrero 2003 1ª Semana

Ejercicio 1

Cálculo de las medias:


Para realizar el cálculo de las medias es necesario cerrar los intervalos abiertos. Un criterio razonable es

1 de 7 06/04/2012 11:54
Soluciones Examen Febrero 2003 1ª Semana http://www.uned.es/111044/examenes/febrero 2003/Soluciones Exame...

considerar la edad mínima legal para trabajar, que en España es de 16 años, como límite inferior del
primer intervalo, y considerar los 65 años como el límite superior del último intervalo, ya que
prácticamente no hay parados, sin empleo anterior que superen esa edad.

Al tener los datos agrupados en categorías, para hacer los cálculos hallamos las marcas de clase Xc, o
puntos medios, de cada intervalo.

Las medias para hombres y mujeres serán entonces:

Edad Xc Hombres Xc ni
ni
16-19 18,00 17654 317772,00
20-24 22,50 10943 246217,50
25-29 27,50 9322 256355,00
30-44 37,50 11106 416475,00
45-64 55,00 14216 781880,00

Total 63241 2018699,50

Edad Xc Mujeres Xc ni
ni
16-19 18,00 20902 376236
20-24 22,50 34448 775080
25-29 27,50 26834 737935
30-44 37,50 52854 1982025
45-64 55,00 41274 2270070

Total 176312 6141346

La población femenina en paro presenta una media de edad más alta que la de hombres. No obstante, los
valores medios deben considerarse a la luz de la dispersión de los valores y comprobar hasta qué punto la
media representa bien los datos del colectivo.

Calculamos a continuación las desviaciones típicas de ambas distribuciones:

Hombres
Xc Xc-Media (Xc-Media)2 (Xc-Media)2 ni
18 -13,92 193,79 3421115,59
22,5 -9,42 88,75 971194,93
27,5 -4,42 19,54 182179,28
37,5 5,58 31,13 345709,18
55 23,08 532,65 7572184,46
Suma = 12492383,46

2 de 7 06/04/2012 11:54
Soluciones Examen Febrero 2003 1ª Semana http://www.uned.es/111044/examenes/febrero 2003/Soluciones Exame...

Mujeres
Xc Xc-Media (Xc-Media)2 (Xc-Media)2 ni
18 -16,83 283,33 5922060,96
22,5 -12,33 152,08 5239014,34
27,5 -7,33 53,76 1442651,78
37,5 2,67 7,12 376152,37
55 20,17 406,74 16787687,92
Suma = 29767567,35

La distribución de mujeres paradas presenta una dispersión menor que la de hombres, pero como las
distribuciones que queremos comparar tienen medias diferentes, es necesario que la comparación tenga en
cuenta esta diferencia, por lo que utilizaremos el Coeficiente de Variación:

Obtenemos a continuación los coeficientes:

Coeficientes
de Variación
Hombres 44,03
Mujeres 37,30

Puede observarse que existe mayor variación entre los datos de los hombres que entre los de las mujeres,
por lo que la media de las mujeres representa con más fidelidad a su población.

Ejercicio 2.

Se puede calcular mediante la distribución binomial, ya que se trata de una variable dicotómica en una
sucesión de eventos con una probabilidad de 64/120 para cada suceso aislado (es decir, p=0,53 y q=0,47)

La probabilidad de que se consigan 15 canastas exactamente es:

siendo

La probabilidad de conseguir 16 o más canastas, es la suma de las probabilidades de conseguir 16, 17, 18,
19 y 20 canastas respectivamente.

3 de 7 06/04/2012 11:54
Soluciones Examen Febrero 2003 1ª Semana http://www.uned.es/111044/examenes/febrero 2003/Soluciones Exame...

La probabilidad de obtener 16 o más canastas será la suma de los cálculos anteriores:

El cálculo se puede hacer de otra manera, con una aproximación mediante la distribución normal, con
media y desviación típica

Para aproximar una distribución binomial mediante una distribución normal, hay que utilizar la corrección
de continuidad, ya que la binomial es discreta mientras que la normal es continua.

Para calcular la probabilidad de que se encesten exactamente 15 canastas, el uso de la corrección equivale
a suponer, que 15 es la marca de clase del intervalo 14,5- 15,5 Por tanto buscamos el área bajo la curva
normal entre los valores Z correspondientes a 14,5 y 15,5

El área entre la media y el valor Z14,5 es 0,4599


El área entre la media y el valor Z15,5 es 0,4861
Por tanto la probabilidad buscada será la diferencia:

0,4861-0,4599= 0,0262

es decir, la probabilidad de que el jugador enceste exactamente 15 veces es del 2,62%

En el caso de la probabilidad de encestar 16 o más veces en 20 intentos sería:

Obsérvese que para tener en cuenta la continuidad de la curva normal, se resta 0,5 al ser 16 superior a la
media (en caso contrario se restaría 0,5)

4 de 7 06/04/2012 11:54
Soluciones Examen Febrero 2003 1ª Semana http://www.uned.es/111044/examenes/febrero 2003/Soluciones Exame...

Si miramos en las tablas de la curva normal 0,1 para un Z = 2,2 obtenemos un área de 0,4861. Como las
tablas nos ofrecen el área acumulada desde la media hasta ese punto, si queremos conocer el área entre
ese punto y el infinito, debemos restar el valor de 0,5
(ya que el área bajo la curva normal es 1 y la media divide la curva en dos partes simétricas)

0,5-0,4861=0,0139

(valor aproximado al que hemos calculado con la distribución binomial)

Ejercicio 3

Ya que las alturas de los alumnos de la muestra se distribuyen según la curva normal, utilizamos la tabla
de “áreas bajo la curva normal”.

Calculamos la distancia entre el valor que queremos considerar y la media de la distribución. Dividimos
ese valor entre la desviación típica y así obtenemos esa distancia medida en unidades de desviación, es
decir en puntuaciones “Z” o “normalizadas”. Posteriormente obtenemos las áreas correspondientes en las
tablas de la curva normal.

El número de niños por debajo de los 150 cm de estatura, es la mitad de todos los niños, ya que el valor
150 es el valor medio, y en una curva normal ese valor, divide la distribución en dos partes iguales.

Por lo tanto, el número de niños por debajo de 150 cm de estatura, será 900 niños.

El porcentaje de niños que tienen entre 140 y 160 cm, se obtendrá sumando las áreas correspondientes a
los valores Z obtenidos para 140 y 160.

el área entre la media y el valor 140 es 0,4251

5 de 7 06/04/2012 11:54
Soluciones Examen Febrero 2003 1ª Semana http://www.uned.es/111044/examenes/febrero 2003/Soluciones Exame...

el área entre la media y el valor 160 es 0,4251

Por lo tanto, el porcentaje de niños cuya altura está comprendida entre 140 y 160 cm, será la suma de los
porcentajes representados por las áreas halladas,

0,4251+0,4251=0,8502

es decir, el 85,2% de los niños de la muestra tienen una estatura comprendida entre 140 y 160 cm.

La probabilidad de encontrar un niño cuya altura sea superior a 160 cm, se obtiene restando el porcentaje
de niños que se encuentran entre la media y 160 (que ya hemos calculado anteriormente, 42,51%) del
porcentaje de niños por encima de la media, que es el 50%
50 - 42,51 = 7,49%

Ejercicio 4

Utilizaremos la fórmula de “poblaciones infinitas” para hallar el tamaño muestral requerido para no
superar el error del 0,8 %

6 de 7 06/04/2012 11:54
Soluciones Examen Febrero 2003 1ª Semana http://www.uned.es/111044/examenes/febrero 2003/Soluciones Exame...

Siendo 2 el valor de Z para un Nc del 95,5%

Obsérvese que al haber elegido un margen de error muy pequeño, la muestra resulta de un tamaño muy
grande. Si se pudiera renunciar a ese grado de precisión en las estimaciones, se reduciría sustancialmente
el tamaño de la muestra:

Supongamos que admitimos un error del doble del valor propuesto, es decir e = 1,6 %, comprobaremos
que el tamaño muestral se reduce a 3.907 unidades.

7 de 7 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm

Nótese que las frecuencias relativas suman más de la unidad, exactamente 1,019. Esto se debe a que la
FACULTAD
cuestión es de respuesta múltiple, DE CIENCIAS
es decir POLÍTICAS
un entrevistado podíaYseñalar
SOCIOLOGÍA
más de un país como amenaza.
Las frecuencias absolutas suman más del valor de n=757, concretamente 771. Estos 771 no son
ESTADÍSTICA
entrevistados, que sólo APLICADA
hay 757, sino el A LAS CIENCIAS
número de respuestas, SOCIALES
en este caso países mencionados.
Febrero 2003 (2ª Semana)

MATERIAL PERMITIDO: Todo tipo de material (Libros, apuntes, calculadoras...)


DURACIÓN: 2 Horas.
PUNTUACIÓN: Ejercicios 1 y 3= máximo 3 puntos; ejercicios 2 y 4: máximo 2 puntos.

EJERCICIO 1.-
En el Barómetro de septiembre de 2002 del Centro de Investigaciones Sociológicas, ante la pregunta relativa a la existencia de
algún país que amenace la paz en España, se obtuvo la siguiente distribución de frecuencias:

Países Porcentaje

Marruecos 67%
Estados Unidos 19%
Irak 8,2%
Países árabes e
Islámicos 7,7%

Teniendo en cuenta que de una muestra total de 2484 españoles, sólo 757 afirmaron creer en la existencia de una amenaza a la
seguridad española por parte de algún otro país., y que de estos últimos se obtuvo la distribución de frecuencias anterior:

a) Calcule la distribución de frecuencias ordinaria y relativa.


b) Represente gráficamente la distribución de frecuencias relativas
c) Observe las categorías de respuesta utilizadas por los investigadores y piense si es posible mejorarlas. ¿Propondría
alguna alternativa?
d) Calcule la razón entre los que piensan que la amenaza procede de Marruecos frente a los que piensan que viene de
Estados Unidos.

EJERCICIO 2.-

¿Cuál será la probabilidad de obtener cinco o menos aciertos en una prueba de examen tipo test compuesta por 20 preguntas y
cuatro opciones de respuesta por pregunta?

EJERCICIO 3.-

Los resultados del examen de septiembre de 2002 de una asignatura dieron una puntuación media de 5,3 y una desviación típica de
1,9 sobre un total de 425 alumnos presentados a examen. Suponiendo una distribución normal en los resultados:
a) ¿Cuál es la probabilidad de seleccionar a un alumno con una puntuación de 7 o más?
b) ¿Cuántos alumnos habrán tenido una puntuación de 5 o menos?
c) ¿A partir de qué puntuación se encuentra el 25% de los alumnos peor puntuados?

EJERCICIO 4.-
Un investigador pretende llevar a cabo una encuesta sobre el uso del tiempo por parte de los habitantes de un determinado
municipio de 75.438 habitantes. El Ayuntamiento de dicho municipio le ha concedido para llevar a cabo dicha encuesta una
subvención de 12.000 €. Si cada entrevista tiene un precio de 18 euros, ¿Cuál será el error muestral que tendrá que asumir en
este estudio, para un nivel de confianza del 95,5% y una varianza p=q= 0,5?

Soluciones Examen Febrero 2003 2ª Semana


Ejercicio 1

1 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm

a) Las frecuencias relativas son los propios porcentajes expresado en tantos por uno. Las frecuencias
absolutas se obtienen a partir de las relativas mediante el producto de estas por el número de casos “n”.
En este ejercicio n=757, que son quienes han respondido a esta pregunta.

Así,

fri ni
Marruecos 0,670 507
Estados Unidos 0,190 144
Irak 0,082 62
Países árabes e islámicos 0,077 58

b) Para la distribución gráfica puede utilizarse los gráficos de barras, áreas, sectores e incluso en este caso
el mapa.

PAÍSES CITADOS COMO AMENAZA

Fuente: Estudio CIS, Septiembre 2002

PAÍSES CITADOS COMO AMENAZA

2 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm

Fuente: Estudio CIS, Septiembre 2002.

PAÍSES CITADOS COMO AMENAZA

Fuente: Estudio CIS, Septiembre 2002.

c) La codificación de las respuestas dadas por los investigadores resulta confusa por la ambigüedad de la
última categoría. La equivalencia entre países islámicos y árabes es sesgada ideológicamente, porque un
término se refiere a situación geográfica –árabes- y otro a prácticas religiosas –islam-. (Nótese, por
ejemplo que no se dice: países americano católicos).

d)

La razón viene dada por el cociente entre la frecuencia de ambas casillas. En este caso:
Es decir por cada entrevistado que señala que EEUU es una amenaza para España hay más de tres que
piensan lo mismo respecto de Marruecos.

3 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm

Ejercicio 2

Se trata de calcular la probabilidad para x £5 en una distribución binomial, de n=20 y p=0,25. En este caso,
como la media es 5, puede utilizarse la aproximación normal. Mediante la aproximación normal calculamos
los parámetros:

Para x=5 el valor en unidades Z vendrá determinado por:

Aplicando la corrección de continuidad

Las tablas señalan que el área para Z=0,26 es p=0,1026, y como x=5,5 se encuentra a la derecha de la
media, la probabilidad será: 0,5+0,1026=0,6026=60,26%.

4 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm

La solución mediante la distribución binomial, aunque mucho más compleja, es más exacta:

X=0 1 1 0,00317121 0,00317121


X=1 20 0,25 0,00422828 0,02114141
X=2 190 0,0625 0,00563771 0,06694781
X=3 1140 0,015625 0,00751695 0,13389562
X=4 4845 0,00390625 0,01002260 0,18968545
X=5 15504 0,00097656 0,01336346 0,20233115

0,61717265

En este caso la probabilidad es 61,7% ligeramente superior a la obtenida mediante la aproximación normal.

5 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm

Ejercicio 3

a) El área señalada será, el complemento del área Z al valor 0,5.

Para este Z el área es: 0,3133 así la probabilidad pedida es: 0,5-0,3133=0,1867
Es decir, el 18,67%

6 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm

b) En primer lugar hay que calcular la probabilidad señalada. Esta será el complemento a un medio del
área Z.

Para este Z el área es: 0,0636 así la probabilidad pedida es: 0,5-0,0636=0,4364
Es decir, el 43,64% que equivale a 425x0,4364=185 alumnos.

7 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm

c) En este caso conocemos el valor del área y hay que calcular x.


En primer lugar de las tablas deducimos que un área de 25% tiene un valor “z” correspondiente Z=-0,675.
(Nótese que tiene valor negativo porque está a la izquierda de la media).

Por lo tanto:

La nota que se corresponde con el primer cuartil es por tanto un “4”.

8 de 9 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm

Ejercicio 4

Con dicho presupuesto el número máximo de encuestas será:

Es decir, 666 encuestas.

El error para poblaciones finitas viene dado por:

Sin embargo en este caso como supera con creces la relación, N>20n podemos prescindir del factor
corrector de poblaciones finitas. (Tendrá un valor casi idéntico a la unidad). Así:

Por tanto, el máximo error será del 3,87%

9 de 9 06/04/2012 11:55
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/Febrero 2004/febrero2004-1.htm

Estadística Aplicada a las Ciencias Sociales


Febrero 2004 (1ª Semana)

Ejercicio 1.
A continuación tiene dos distribuciones por sexo y salario declarado en el primer empleo tras obtener la
licenciatura de un grupo de titulados por la UNED.

Salario en € Hombres en % Mujeres en %


< de 600 10,1 17,8
De 601 a 900 16,7 23,8
De 901 a 1200 9,3 26
De 1201 a 3000 57,2 31,2
> de 3000 6,7 1,2
(N=96) (N=96)

a) ¿Qué población (la de hombres o la de mujeres) presenta un salario medio mayor?


b) ¿Qué porcentaje de varones gana más de 900 €?
c) Realice la representación gráfica de las frecuencias ordinarias de las mujeres.
d) ¿Cómo ha resuelto el problema de los intervalos abiertos (1º y último) para el cálculo de la media?
Explíquelo.

Ejercicio 2.
En un municipio se encontró que el 30% de 1.605 personas tomadas como muestra, tenían sólo estudios
primarios. Con objeto de realizar una prueba en la zona se seleccionan 6 personas y se desea conocer.
a) Número medio de personas que espera tengan estudios primarios de las seis elegidas.
b) Probabilidad de que tres de las seis tengan estudios más altos que primarios.
c) Probabilidad de que ninguno tengan estudios primarios.

Ejercicio 3.
En una muestra de 700 contratados de distintas ONG’S asturianas se observó un salario medio de 930 €,
con una desviación típica de 126 €. Suponiendo que los salarios se distribuyen de acuerdo al patrón de la
curva normal, calcula:
a) El número de contratados que tienen un salario inferior a 600 €.
b) El porcentaje de contratados con salarios entre 750 y 850 €.
c) La probabilidad de encontrar a un contratado con salario superior a 1200 €.

Ejercicio 4.
Un investigador pretende realizar un estudio mediante encuesta para conocer algo mejor las actitudes de
los españoles hacia el control de los contenidos de los programas de las televisiones públicas. Para ello
toman como universo poblacional al conjunto de españoles de 18 o más años. ¿Qué tamaño muestral les
sería necesario utilizar si el máximo error muestral permitido es del 2%, para un nivel de confianza del
95,5% y una varianza máxima de p=p=50%?

SOLUCIONES:

Ejercicio 1.
a)

Para conocer las medias de ambas distribuciones a partir de las tablas, necesitamos cerrar los intervalos
abiertos. Un criterio razonable, entre los posibles, para cerrar los intervalos sería es considerar el salario
mínimo, 450 € al mes establecer el límite del intervalo superior, en 4.500 €, en el supuesto de que en muy

1 de 6 06/04/2012 11:56
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/Febrero 2004/febrero2004-1.htm

pocos casos la primera retribución será superior a esa cantidad y elevar la cuantía distorsionaría el valor
de la media que pretendemos calcular.
Con estos límites calculamos los puntos medios de los intervalos la distribución:

Salario en € Marcas de clase Xi


(450+600)/2 525
(600+900)/2 750
(900+1200)/2 1050
(1200+3000)/2 2100
(3000+4500)/2 3750

Convirtiendo los porcentajes en frecuencias absolutas podemos calcular la media para los hombres:

Xi Ni Ni*Xi
525 10 5250
750 16 12000
1050 9 9450
2100 55 115500
3750 6 22500
96 164700

De manera análoga calculamos la media para las mujeres:

Xi Ni Ni*Xi
525 17 8925
750 23 17250
1050 25 26250
2100 30 63000
3750 1 3750
96 119175

Puede verse la gran diferencia entre los salarios medios de ambas poblaciones, el salario medio de los
hombres es aproximadamente 1,4 veces el de las mujeres.

b)
El porcentaje de varones que gana más de 900 € podemos obtenerlo directamente de la tabla sumando los
porcentajes de las tres categorías superiores:

% de hombres que % de mujeres que


ganan más de 900 ganan más de 900
73,2 58,4

c)
La representación gráfica en un histograma, Al tratarse de intervalos desiguales la mejor forma de ofrecer
una representación gráfica sería haciendo que las áreas correspondientes a cada polígono sean

2 de 6 06/04/2012 11:56
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/Febrero 2004/febrero2004-1.htm

proporcionales al número de licenciadas en cada intervalo, dividiendo los porcentajes (s) por la amplitud
de cada intervalo (b), para obtener así la altura de los polígonos:

h=s/b

Ejercicio 2.
a) Los cálculos se pueden hacer mediante la distribución binomial suponiendo que todas las personas
de la muestra tienen bien estudios primarios o superiores a estos, clasificando a las personas de la
muestra en esas categorías con unas probabilidades respectivamente de 0,3 y 0,7

Si p = 0,3 y n =6
la media pedida = pn aproximadamente 2 (1,8)

b) Si consideramos que la probabilidad de tener más de estudios primarios es


p = 0,7 puede calcularse mediante la fórmula:

c) La probabilidad de que ninguno tenga estudios primarios será:

3 de 6 06/04/2012 11:56
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/Febrero 2004/febrero2004-1.htm

Siendo p la probabilidad de tener sólo estudios primarios = 0,3

Los cálculos podrían haberse sustituido por la consulta de las tablas de la distribución de
probabilidad binomial.

Ejercicio 3.

a) Utilizando las tablas de áreas bajo la curva normal, podemos obtener la proporción de
contratados que se encuentra entre el valor medio y otro valor dado.
Teniendo en cuenta que
n=700

podemos saber a cuántas unidades de desviación estándar se encuentra el valor 600

En las tablas, la proporción de casos entre la media y 2,62 unidades de desviación es 0,4956

como queremos saber la proporción de casos más allá de ese valor, y sabiendo que el área bajo la
curva es la unidad, restamos de 0,5

0,5-0,4956=0,0044

a continuación, calculamos el número de casos 0,0044*700 = 3,08 aproximadamente 3.

b) Tenemos que hallar la diferencia de los valores en las tablas correspondientes a los valores Z de
las coordenadas para 850 y 750.

que en las tablas se corresponde con un área de 0,2357

de manera análoga

que en las tablas se corresponde con 0, 4236


por tanto el restando obtenemos

0,4236-0,2357=0,1879 es decir el 18,79% de los contratados tiene un salario comprendido entre los 750 y
los 850 €

4 de 6 06/04/2012 11:56
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/Febrero 2004/febrero2004-1.htm

c)
hallaremos el área que se encuentra entre el valor Z y el final de la curva

el valor de la tabla es 0, 4838


restando de 0,5 obtenemos esa probabilidad

p = 0,5 - 0,4838 = 0,0162

Ejercicio 4.

5 de 6 06/04/2012 11:56
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/Febrero 2004/febrero2004-1.htm

Se trata de calcular el tamaño muestral para Z = 2 y e= 0,02 con P=Q

Necesitaremos una muestra de 2500 unidades para no superar el 2% de error, con una probabilidad del
95,5%.

6 de 6 06/04/2012 11:56
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...

Ejercicio 1.

a) Los datos de la distribución vienen en porcentajes. En primer lugar convertimos los porcentajes
en frecuencias relativas dividiendo por cien:

Porcentaje fr
Menos de 1 hora 19,8 0,198
Entre 1 y 2 horas 45% 0,386
38,6 45%
Entre 2 y 3 horas 22,9 0,229
Entre 3 y 4 horas 8,9 0,089
Más de 4 horas 9,8 0,098
100,0 1,000

La relación entre frecuencias absolutas y relativas es:

Por tanto:

Como N=2411 tenemos que:

Porcentaje fri fi
Menos de 1 hora 19,8 0,198 477
Entre 1 y 2 horas 38,6 0,386 931
Entre 2 y 3 horas 22,9 0,229 552
Entre 3 y 4 horas 8,9 0,089 215
Más de 4 horas 9,8 0,098 236
100,0 1,000 2411

El cálculo las frecuencias relativas acumuladas:

fr fra
Menos de 1 hora 0,198 0,198
Entre 1 y 2 horas 0,386 0,584
Entre 2 y 3 horas 0,229 0,813
Entre 3 y 4 horas 0,089 0,902
Más de 4 horas 0,098 1
1,000

1 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...

b) Para la distribución gráfica tenemos que explicitar los límites de clase. Ello lo haremos en este
caso convirtiendo las horas a minutos. Así menos de una hora será entre 0 y menos de 60 minutos
(59,9999... minutos) , entre una y 2 horas será entre 60 y menos de 120 minutos (119,9999...
minutos) etc.

Para el último intervalo –“más de cuatro horas”- hay que tomar una decisión sobre su límite
superior. Una solución posible es el límite absoluto, en este caso 24 horas. Dicho límite parece
excesivo, nadie puede con regularidad estar 24 horas viendo la televisión. Una solución razonable
puede ser tomar 12 horas, la proporción de personas que pasan más de 12 horas frente a un
televisor parece que tiene ser insignificante. Sin embargo, esta solución no es del todo correcta
porque supone una distribución muy uniforme de la población en el tramo entre 4 y 12 horas. A la
vista de los datos parece lógico pensar que habrá más personas entre cuatro y cinco horas, que
entre 5 y 6, y éstas a su vez serán más que las que estén entre 6 y 7 y así sucesivamente. Es decir
parece lógico pensar que es una distribución que en el último intervalo tiene una distribución
monótona descendente. Para tener en cuenta este hecho, pensando que el intervalo es entre 4 y 12
horas, y teniendo que la marca de clase en el caso de distribución uniforme estaría en 8 horas[1],
podemos rebajar el intervalo superior, hasta 8 horas de forma que la marca de clase estaría
alrededor de 6 horas, algo que parece bastante más razonable en la medida en que se ajusta más al
comportamiento observado de la distribución.

(La reflexión anterior se realiza sin tener en cuenta ninguna otra información.)

Procediendo así, la distribución quedará:

Linf Lsup Xc fr h
Menos de 1 hora 0 60 30 0,198 0,198
Entre 1 y 2 horas 60 120 90 0,386 0,386
Entre 2 y 3 horas 120 180 150 0,229 0,229
Entre 3 y 4 horas 180 240 210 0,089 0,089
Más de 4 horas 240 480 360 0,098 0,025
1,000

Como los intervalos son todos iguales excepto el último que tiene una amplitud cuatro veces mayor,
calcularemos la altura del histograma para la representación de forma que h=fr para los primeros
intervalos y para el último será h=fr/4.

Y la gráfica de la distribución:

Consumo medio de televisión. España 2003

2 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...

Fuente: Barómetro Octubre 2003. CIS.


Elaboración propia

c) El cálculo de la media viene determinado por:

Xci fi Xci fi
Menos de 1 hora 30 477 14321,34
Entre 1 y 2 horas 90 931 83758,14
Entre 2 y 3 horas 150 552 82817,85
Entre 3 y 4 horas 210 215 45061,59
Más de 4 horas 360 236 113413,44
TOTAL 2411 339372,36

Luego:
El consumo medio en día laborable son 140 minutos. Este tiempo son aproximadamente 2 horas y 20
minutos.

d) Esta cuestión se ha comentado en el apartado b).

3 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...

Ejercicio 2

Se trata de una distribución binomial, que dadas las magnitudes empleadas sólo puede resolverse mediante
una aproximación a la distribución normal.

Calculamos en primer lugar la media:

La desviación típica:

Nos preguntan por la probabilidad de que suspendan 2500 candidatos. Por lo tanto, como la distribución
normal es una distribución continua, deberemos buscar la probabilidad o área comprendida entre los
valores 2499,5 y 2500,5. (Vid. figura)

El valor Z para x=2499,5 será:

y para 2500,5

El área entre Z(103,509) y Z(103,496) resulta despreciable y la probabilidad de que suspendan exactamente
2500 ridícula.
(Menor de uno por cada 1.000.000.000.000.000=10-15).
Nótese que el gráfico se ha exagerado, y realmente el área que se busca sería una línea inapreciable, casi
un punto, en el extremo de la cola asintótica.

4 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...

Para x=10000 procederemos de la misma forma:

El valor Z para x=9999,5

Y para x=10000,5

Los datos muestran, al igual que en el caso anterior, que resulta casi seguro que no suspenderán
exactamente 10000 opositores.

5 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...

Ejercicio 3.

a) La representación gráfica nos ayuda a plantear la cuestión:

La probabilidad pedida es el área de color rojo, a la derecha de 35. P(x>35). Como la edad está registrada
en edad cumplida, mayor de 35 significa con 36 y más. P(x ³ 36).
El valor Z para x=36 nos señalará el área de color morado. Por tanto el área pedida será el complemento a
0,5.

La tabla nos señala que el área para Z=1,25 es: 0,3944 (área de color morado)
Por lo tanto la probabilidad buscada, área de color rojo, será:
P(x ³ 36)=0,5-0,3944=0,1056.
El 10,56% de los usuarios, que en total de efectivos supone:
Np=820x0,1056=86,59 Es decir 87 elementos de la muestra tendrán más de 35 años.

6 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...

b) Representamos gráficamente el enunciado:

Se trata de calcular y sumar las dos áreas representadas en color naranja.


El valor Z asociado a x=22:

La tabla nos indica que el área desde x=22 hasta la media es: 0,1664

El valor Z asociado a x=32

La tabla nos indica que el área desde x=32 hasta la media es: 0,2794

Por lo tanto la probabilidad de que P(22 £ x ³ 32)=0,1664+0,2794=0,4458


Por lo tanto Np=820x0,4458=365,56 Es decir, 366 entrevistados se encuentran entre las edades de 22 y
32 años.

7 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...

C) Como en los anteriores apartados la representación gráfica aclara el planteamiento.

El 90% central de los casos ha sido representado mediante el área de color naranja. Es decir a cada
lado de la media dejará el 45% de los casos. Las áreas representadas en negro suponen el 5% de los
casos en cada lado. Se trata ahora de encontrar el valor x, que corresponda a un z, cuya área sea igual
a 0,450.

Las tablas nos indican que el área 0,450 se encuentra entre los valores Z=1,64 y 1,65. El valor medio
entre ambos Z=1,645 será el que utilizaremos. Dados los valores de la distribución tenemos que:

Es decir entre 11,9 y 29,3 años se encontrarán el 90% de los casos.

8 de 9 06/04/2012 11:57
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...

Ejercicio 4

El ejercicio no señala ningún dato para la varianza. Suponiendo que lo que interesa al investigador es
conocer una proporción, puede suponerse el caso de máxima varianza, es decir, p=q=0,5. Por tanto
pq=0,25

a) Se trata de una muestra aleatoria en una población finita. La fórmula que liga el tamaño muestral,
error y nivel de confianza es:

El error será en este caso e=3,7%

b) En este caso z=3 y z2=9


Procediendo como en el caso anterior:

En este caso el error es mayor e=5,5%. Para un tamaño muestral fijo (n) la exigencia de un nivel de
confianza mayor aumenta el intervalo de error admitido.

[1] Xc=(4+12)/2=8

9 de 9 06/04/2012 11:57
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 1 se...

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES


Sociología: 111044
Ciencias Políticas:121046
Febrero de 2005. 1ª PP. 1ª Semana.

Ejercicio 1. En la siguiente tabla aparecen los datos de la población de personas con más de 65 años en la
Comunidad Autónoma de Andalucía, según el censo de población y viviendas de 2001.

Edad Número de
personas
65-69 341.214
70-74 292.027
75-79 213.166
80-84 121.822
85-89 59.827
90 ó más 25.925
Total 1.053.981

Calcule la Mediana de la distribución de edades y el rango intercuartílico.

Ejercicio 2. Calcule la probabilidad de superar un examen tipo “test” contestando al azar: el examen se
compone de 10 preguntas, con tres respuestas alternativas, de las cuales sólo una de ellas es la correcta.
Para superar el ejercicio el alumno debe responder correctamente al menos cinco de las preguntas del test.

Ejercicio 3. Dado el conjunto de números {1,2,3,4,5} forme todas las combinaciones posibles de tres
elementos.
Calcule la media de cada combinación.
Calcule la media y la desviación típica de la distribución de las medias obtenidas..

Ejercicio 4. Realice los siguientes cálculos del diseño de una muestra aleatoria para hacer una encuesta
de opinión a los estudiantes de una Facultad de Derecho que cuenta con 19.060 matriculados:
El presupuesto para la realización de las entrevistas es de 6.000 € , el coste de cada entrevista es de 20 €.
Suponiendo que P = Q y estableciendo el nivel de confianza en el 95% ¿Qué margen de error deberemos
asumir con el tamaño muestral que permite el presupuesto?
Si decidiéramos reducir el margen de error a la mitad ¿qué presupuesto necesitaríamos?

********************************
Soluciones
Ejercicio 1.

Para calcular la mediana es necesario elaborar la distribución de las frecuencias acumuladas, para saber
en qué intervalo se encuentra el valor mediano.

Edad ni Na
65-69 341214 341214

1 de 5 06/04/2012 11:59
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 1 se...

70-74 292027 633241


75-79 213166 846407
80-84 121822 968229
85-89 59827 1028056
90 o más 25925 1053981
Total 1053981

La mitad de los casos son 1.053.981 / 2 = 526.992,5 valor que se encuentra comprendido en el segundo
intervalo, entre las edades 70 y 74 años.
Conocido el intervalo aplicaremos la fórmula para el cálculo de la mediana:

años

El recorrido intercuartílico será la diferencia entre Q3 y Q1

años

años

Por tanto el recorrido buscado es Q3-Q1

78,68 - 68,86 = 9,83 años

Ejercicio 2.

Se debe calcular la probabilidad mediante una distribución binomial.


La probabilidad de acertar la respuesta correcta a cada pregunta es de 1/3
El número de preguntas es 10 y se supera el examen con 5 o más respuestas correctas.
Por lo tanto la probabilidad es:

Cada probabilidad se obtiene según la fórmula:

Pero al ser n = 10 podemos evitar los engorrosos cálculos consultando las tablas de distribución de
probabilidad binomial y la probabilidad buscada puede obtenerse de forma abreviada sumando las seis
cantidades:

Si se prefiere hacer cada cálculo:

2 de 5 06/04/2012 11:59
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 1 se...

Sumando los valores obtenidos tenemos

Es necesario señalar que las diferencias en los resultados utilizando bien las tablas o bien el cálculo, son
debidas a que en las tablas se obtienen los valores para p = 0,33 mientras en los cálculos manuales hemos
podido introducir más decimales
p = 0,3333333 ya que la probabilidad de acertar cada pregunta es 1/3.

Ejercicio 3.

Enumeramos en primer lugar las combinaciones de los cinco elementos tomados de tres en tres:

a 1 2 3
b 1 2 4
c 1 2 5
d 1 3 4
e 1 3 5
f 1 4 5
g 2 3 4
h 2 3 5
i 2 4 5
j 3 4 5

Sumando los tres números de cada línea y dividiendo por tres obtenemos la media de cada combinación,
cuya suma dividida por el número de casos combinaciones será la media de las medias.

Suma Medias
1 2 3 6 2,00
1 2 4 7 2,33
1 2 5 8 2,67
1 3 4 8 2,67
1 3 5 9 3,00
1 4 5 10 3,33
2 3 4 9 3,00
2 3 5 10 3,33
2 4 5 11 3,67

3 de 5 06/04/2012 11:59
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 1 se...

3 4 5 12 4,00
Total 30,00

La media de las diez medias será 30 / 10 = 3

La desviación típica es la suma del cuadrado de las diferencias entre los valores de la variable, en este
caso las medias de cada combinación, y la media de todas las medias:

Procedemos a calcular la desviación típica de la distribución de las medias. Para ello construimos una
tabla con las diferencias entre cada media y la media de las medias al cuadrado:

Media de las Diferencia


Suma Medias medias Diferencia al cuadrado
1 2 3 6 2,00 3,00 -1,00 1,00
1 2 4 7 2,33 3,00 -0,67 0,44
1 2 5 8 2,67 3,00 -0,33 0,11
1 3 4 8 2,67 3,00 -0,33 0,11
1 3 5 9 3,00 3,00 0,00 0,00
1 4 5 10 3,33 3,00 0,33 0,11
2 3 4 9 3,00 3,00 0,00 0,00
2 3 5 10 3,33 3,00 0,33 0,11
2 4 5 11 3,67 3,00 0,67 0,44
3 4 5 12 4,00 3,00 1,00 1,00
Totales 30,00 3,33

Ejercicio 4.

La limitación del presupuesto dedicado a realizar las entrevistas 6.000€ con un coste por entrevista de 20€
determina una muestra de 6000/20=300 unidades muestrales.
Partiendo de la fórmula del tamano muestral para poblaciones finitas podemos despejar el valor del error
e.

Siendo Z=1,96 para un nivel de confianza del 95%

4 de 5 06/04/2012 11:59
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 1 se...

Si queremos reducir ese error a la mitad 0,05613/2=0,02807

Regresamos a la primera fórmula e introducimos los valores:

Para reducir el error a la mitad necesitamos una muestra casi cuatro veces mayor, con lo que el
presupuesto necesario sería de 1146 x 20 = 22920 €.

5 de 5 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 2 se...

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES


Sociología: 111044
Ciencias Políticas:121046
Febrero de 2005. 1ª PP. 2ª Semana.
TIEMPO: 2 Horas.
MATERIAL: Todo tipo de material. (Calculadoras, libros, apuntes…)

Ejercicio 1. En la siguiente tabla se presentan los datos de personas que han sufrido envenenamientos
accidentales por ingestión de drogas y medicamentos en España durante 1999. (Fuente: Instituto Nacional
de Estadística).

Edad N.º Mujeres N.º Varones


0-15 4391 4917
16-34 3699 3421
35-54 3663 1269
55-74 3221 906
75 y más 2271 830
Total 17245 11343

Calcule las medias de ambas distribuciones y comente los resultados.

Ejercicio 2. Represente gráficamente los datos del ejercicio anterior, teniendo en cuenta que los
intervalos de edad no son iguales.

Ejercicio 3. El PSOE obtuvo en las últimas elecciones generales el 42,64% de los votos. Si
seleccionáramos al azar a 20 electores:
a) ¿Qué probabilidad existe de que ninguno de los 20 hubiera votado a ese partido?
b) ¿Cuál sería la probabilidad de que al menos 3 hubieran votado a ese partido?.
c) ¿Y la probabilidad de que todos fueran votantes del PSOE?

Ejercicio 4. En una gran empresa (6.500 trabajadores), la media de edad de los empleados es de 32 años,
con una desviación típica de 5,7 años. Suponiendo que las edades de dicha población se ajustan al patrón
de la distribución normal,
a) ¿Cuál es la probabilidad de extraer al azar entre los trabajadores uno que tenga más de 45 años?
b) ¿Cuántos trabajadores tendrán entre 40 y 50 años?
c) ¿Cuál es la edad mínima del 20% de los trabajadores de mayor edad?

SOLUCIONES

Ejercicio 1.

Como no disponemos de los datos originales, para calcular las medias a partir de los datos agrupados en
intervalos necesitamos cerrar el último intervalo. Podemos utilizar diferentes criterios, bien referidos a la

1 de 6 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 2 se...

estructura de los datos o a las características y hábitos de la población. Por ejemplo, podemos considerar
que habrá personas de edad muy avanzada que superen los 105 años, pero serán pocas. Si escogiéramos el
valor 105 como límite del intervalo superior, el valor medio que nos serviría como marca de clase para
calcular la media, superaría la esperanza de vida. Sería preferible fijarlo en los 95 años que nos
proporciona una marca de clase más próxima a la esperanza de vida de hombres y mujeres. Conviene no
dejar fuera del límite demasiados casos, y no tratar de incluir casos extremos que desvirtuarían el sentido
de la media. Pero también podríamos tener en cuenta que el colectivo de las personas de más edad
consume más fármacos, aunque no conocemos el origen concreto de las intoxicaciones, que tanto pueden
producirse en el ámbito de tratamiento médico como en situaciones de toxicomanía.
Para simplificar, podemos cerrar ambos intervalos superiores en los 95 años ya que aunque según la tabla
en ese colectivo el número de intoxicaciones es especialmente alto, llegando en el caso de las mujeres al
13% del total de intoxicaciones, no dejaríamos fuera demasiados casos ( si lo cerramos en los 100 años no
obtendríamos una media muy diferente).

Procedamos considerando el límite de 95 años. Construimos la tabla con las marcas de clase y el producto
de las mismas por la frecuencia de cada intervalo:

Edad Nº Mujeres Xc xni


0-15 4391 8 35128
16-34 3699 25,5 94324,5
35-54 3663 45 164835
55-74 3221 65 209365
75-95 2271 85 193035
Totales 17245 696687,5

La edad media de las mujeres será:

Procdemos del mismo modo para calcular la edad media de los hombres:

Edad Nº Varones Xc xni


0-15 4917 8 39336
16-34 3421 25,5 87235,5
35-54 1269 45 57105
55-74 906 65 58890
75-95 830 85 70550
Totales 11343 313116,5

Como podemos ver existe una diferencia importante entre las edades medias de los de las personas que
han sufrido intoxicaciones y que ya era evidente en la lectura directa de la tabla con los datos agrupados.
A la vista de este primer dato de las medias surge una primera explicación para esta gran diferencia podría
consistir en atribuirla a la conocida mayor longevidad de la población femenina y a la mayor dependencia
de los fármacos de las personas de más edad. Por otra parte, los hombres presentan una distribución en la
que las intoxicaciones son mucho más frecuentes que las de las mujeres en las edades menores, lo que nos
remite a los hábitos y la relación social con las sustancias tóxicas. Pero no obstante un análisis más fino
exigiría conocer los tipos de intoxicación de forma pormenorizada.

2 de 6 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 2 se...

Ejercicio 2.

Para realizar la representación gráfica de ambas distribuciones podemos dibujar polígonos de frecuencias,
pero como los intervalos de edad no son iguales deberemos construirlos de forma que las áreas de los
polígonos que representan a cada grupo de edad sean proporcionales al número de casos. Esto se consigue
estableciendo las alturas de los rectángulos mediante la distribución en porcentajes y la fórmula del área
de un rectángulo:
Area (“S”, equivalente al porcentaje de casos en el intervalo) = Base (“b”amplitud del intervalo de
edades) x altura polígonos (“h”).

Conocida el área y la base de los rectángulos la altura vendrá dada por :

h = S/b

Gráfico Mujeres
Edad Nº Mujeres S b h=S/b
0-15 4391 25,46 15 1,697
16-34 3699 21,45 15 1,430
35-54 3663 21,24 20 1,062
55-74 3221 18,68 20 0,934
75-95 2271 13,17 20 0,659
Total 17245 100

Gráfico Varones
Edad Nº Varones S b h=S/b
0-15 4917 43,35 15 2,89
16-34 3421 30,16 15 2,01066667
35-54 1269 11,19 20 0,5595

3 de 6 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 2 se...

55-74 906 7,99 20 0,3995


75 y más 830 7,32 20 0,366
Total 11343 100,01

La representación gráfica de ambas distribuciones nos muestra que las intoxicaciones son mucho más
frecuentes en los tramos de edad inferiores a los 35 años, siendo más frecuentes en el caso de los varones.

Ejercicio 3.

Se trata de calcular las probabilidades mediante el modelo de la distribución binomial en la que p = 0,4264
y q = 1-p = 0,5736
Siendo el número de pruebas 20.

a) Se trata de calcular la probabilidad de que entre veinte electores seleccionados al azar ninguno de
ellos sea votante del PSOE:

Es muy improbable que al seleccionar al azar veinte electores, resulte que ninguno de ellos sea
votante del PSOE

b) La probabilidad de que al menos 3 de los seleccionados sea votante del PSOE, sería la suma de
las probabilidades para x = 3, 4, 5, 6,......20 pero es más corto el cálculo si sumamos las
probabilidades de que x = 0, 1 y 2 y restarlo de la unidad:

4 de 6 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 2 se...

La probabilidad buscada es:

Casi con certeza encontraremos tres votantes del PSOE.

c) La probabilidad de que los veinte seleccionados sean votantes del PSOE sería:

Es muy improbable que entre veinte electores elegidos al azar todos ellos sean votante del PSOE.

También podrían hacerse los cálculos de las probabilidades haciendo una aproximación a la
distribución binomial mediante la distribución normal, pues tanto el producto de np como el de nq
son superiores a 5.

Ejercicio 4.

a) En el supuesto de que las edades de la población se distribuyen normalmente, podemos calcular la


probabilidad mediante las tablas de áreas bajo la curva normal, que nos proporciona las
probabilidades asociadas a cada valor de la variable. Como la edad está registrada como edad
cumplida, una persona que haya cumplido más de 45 años, tendrá al menos 46. Utilizando la
fórmula de las puntuaciones Z normalizadas:

Consultando las tablas, para ese valor de Z obtenemos 0,4931 que es la probabilidad de obtener un valor
situado entre la media 32 y el valor 46. Como lo que queremos es la probabilidad de obtener valores
superiores a los contenidos en ese intervalo, deberemos restar 0,4931 del total de la tabla 0,5
Por lo tanto la probabilidad buscada será: 0,5 - 0,4931 = 0,0069

En el siguiente gráfico podemos tener una imagen aproximada de esa área

5 de 6 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 2 se...

b) De manera análoga podemos obtener la diferencia entre la media y los valores 40 y 50 medida en
unidades de desviación típica Z.

Valor que se corresponde en las tablas con una probabilidad de 0,4192

Valor que se corresponde en las tablas con una probabilidad de 0,4992

La probabilidad de encontrar valores comprendidos entre 40 y 50 será:

0,4992-0,4192=0,08
Como el tamaño de la población es de 6.500 el 8% de esa cantidad será
0,08 x 6500 = 520 trabajadores

c) Consultando las tablas es sencillo identificar el valor Z que deja un 30% de los casos entre dicho
valor y la media. Siendo probabilidad total representada en las tablas 0,5 buscaremos el valor Z
correspondiente a 0,3 que dejará por debajo el 30% de los casos y por encima el 20%

El valor más próximo a 0,3 en las tablas es 0,2996 que se corresponde con un Z de 0,84

Despejando x en la fórmula
años

6 de 6 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...

Estadística Aplicada a las Ciencias Sociales


Febrero 2006
1ª Semana

Ejercicio 1.
En la siguiente tabla figura la población de la provincia de Huesca en el último censo, clasificada por
grupos de edad. Calcule media y la mediana de la distribución de edades.

Población de Huesca
Edad n.º personas
0-9 16593
10-19 19323
20-29 28480
30-39 31084
40-49 28597
50-59 23160
60-69 22272
70-79 23921
80 ó más 13072
Total 206502

Ejercicio 2.
Los responsables de los servicios sociales de un municipio conocen que sólo el 16% de las personas
mayores se inscriben en las actividades programadas por el ayuntamiento. Para realizar una encuesta se
selecciona previamente una pequeña muestra de 20 unidades.
a) ¿Cuántas personas inscritas en las actividades cabe esperar que encontremos entre las 20 personas
seleccionadas.
b) Calcular la probabilidad de que ninguna de las 20 personas seleccionadas esté inscrita.
c) Calcular la probabilidad de que al menos 2 de las 20 seleccionadas estén inscritas.

Ejercicio 3.
Dada una distribución normal de media 25 y desviación típica 6, calcular:
- El porcentaje de casos que se encuentren entre los valores 20 y 26
- El porcentaje de casos que se encuentran por debajo del valor 16.
- El valor de la variable que delimita el 10% de las puntuaciones más altas.

Ejercicio 4.
Un investigador dispone de 20.000 € para realizar las entrevistas de una encuesta en una gran ciudad y
decide gastarlos en su totalidad. El cuestionario se administrará mediante entrevistas telefónicas, siendo el
coste de cada entrevista de 20 €. ¿Qué margen de error deberá asumir considerando un nivel de confianza
del 95% y p = q = 0,5?

SOLUCIONES
Ejercicio 1.

Para calcular la media hallamos las marcas de clase o puntos medios de cada intervalo Xc. Posteriormente
multiplicamos cada marca de clase por la frecuencia correspondiente al intervalo (Para cerrar el intervalo
“80 y más” establecemos el límite superior en 100 años para no dejar fuera muchos casos al tratarse de

1 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...

una población envejecida). Hallamos el sumatorio de todos estos productos y dividimos el sumatorio por
el número de casos en la población

Edad n.º personas xc ni xc


0-9 16593 5 82965
10-19 19323 15 289845
20-29 28480 25 712000
30-39 31084 35 1087940
40-49 28597 45 1286865
50-59 23160 55 1273800
60-69 22272 65 1447680
70-79 23921 75 1794075
80-100 13072 90 1176480
Total 206502 9151650

Para calcular la mediana construimos una tabla con las frecuencias acumuladas Na:

Edad nº personas Na
0-9 16593 16593
10-19 19323 35916
20-29 28480 64396
30-39 31084 95480
40-49 28597 124077
50-59 23160 147237
60-69 22272 169509
70-79 23921 193430
80 o más 13072 206502
Total 206502

Dividimos el total de casos entre dos para buscar el intervalo en el que se encuentra el valor mediano de la
distribución: 206.502 / 2 = 103.251
El intervalo que se corresponde con ese valor de Na es el que incluye las edades comprendidas entre los
40 y los 50 años.

Ejercicio 2.

El ejercicio puede resolverse mediante la distribución binomial


P = 0,16
Q = 1-0,16=0,84
N.º Pruebas = 20

a) Las personas que cabe esperar que estén inscritas de las veinte seleccionadas se calculará
multiplicando la probabilidad de estar inscrito por 20, es decir, que por término medio, las personas
inscritas serán :

2 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...

0,16 * 20 = 3,2

b) La probabilidad de que no encontremos a ningún inscrito entre los veinte seleccionados sería:

c) La probabilidad de que al menos dos estén inscritos se puede calcular como:

Como ya conocemos la probabilidad de que x sea igual a 0, calculamos la probabilidad de que alcance el
valor 1

Por tanto la probabilidad de que x alcance “al menos” el valor 2 será:

Ejercicio 3.

a) Primero necesitamos conocer la distancia entre cada valor de la variable y la media expresada en
términos de desviación típica, es decir los valores de la variable expresados en unidades Z

El valor 20 se encuentra a 0,8333 unidades de desviación típica de la media 25 y el signo nos indica que
se encuentra a la izquierda de la media.

El valor 26 se encuentra a 0,1667 unidades de desviación típica del valor 25 de la media.

Si representamos los valores gráficamente observamos cómo la zona sombreada en color rojo representa
la distancia entre la media 25 y el valor 25, mientras que la zona sombreada en naranja representa la
distancia entre la media y el valor 20.

3 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...

En las tablas de áreas bajo la curva normal obtendremos las proporciones o porcentajes de la curva que se
corresponden con esos valores Z

Un valor Z de 0,8333 se corresponde aproximadamente con el 29,67% de los casos


Un valor Z de 0,1667 se corresponde aproximadamente con el 6,75% de los casos
Por tanto el porcentaje de casos que quedan comprendidos entre los valores 20 y 26 será la suma de
ambos valores: el 36,42% de los casos

b) Para hallar el porcentaje de casos que se encuentran por debajo del valor 16, calculamos el valor Z
correspondiente a ese valor:

En las tablas de la curva normal ese valor de Z =1,5 se corresponde aproximadamente con el valor 0,4332
Como las tablas nos proporcionan la distancia en unidades Z entre la media y un valor de la variable, los
valores por debajo de ese valor, se calculará restando el área obtenida de 0,5
El área buscada será 0,5-0,4332=0,0668 es decir el 6,68% de los casos.

c) Para hallar el valor de la variable que delimita el 10% de los valores más altos buscaremos
directamente en las tablas el valor que resulta de restar 0,10 del total de la tabla 0,5

Buscando el valor de Z correspondiente a 0,40 en las tablas obtenemos Z = 1,29


A la inversa que en los casos anteriores, hallaremos el valor X para ese Z:

Por encima de ese valor se encuentran el 10% de los valores más altos.

Ejercicio 4.

Dado que disponemos de 20.000 € y que cada entrevista cuesta 20 €, podemos hacer 1.000 entrevistas.
Utilizando la fórmula del tamaño muestral para poblaciones “infinitas” despejamos e.

el error con ese presupuesto será aproximadamente del 3,1%

4 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...

Estadística Aplicada a las Ciencias Sociales


Febrero 2006. 2ª Semana
Preguntas
Ejercicio 1.
En la siguiente tabla figura la población de la provincia de Palencia en el último censo, clasificada por
grupos de edad. Calcule moda y la mediana de la distribución de edades.

Población Palencia
Edad Nº personas
0-9 12635
10-19 18361
20-29 24426
30-39 25990
40-49 26229
50-59 19618
60-69 17701
70-79 19158
80 ó más 10025
Total 174143

Ejercicio 2.
¿Cuál será la probabilidad de obtener cinco o menos aciertos en una prueba de examen tipo test
compuesta por 20 preguntas y cinco opciones de respuesta alternativa a cada pregunta?

Ejercicio 3.
Los resultados del examen de Matemáticas en un instituto arrojaron una puntuación media de 5,3
(puntuando sobre 10) y una desviación típica de 1,9 sobre un total de 355 alumnos presentados.
Suponiendo una distribución normal en los resultados:
a) ¿Cuál es la probabilidad de seleccionar a un alumno con una puntuación de 8 o más?
b) ¿Cuántos alumnos habrán tenido una puntuación de 5 o menos?
c) ¿A partir de qué puntuación se encontrará la cuarta parte de los alumnos con menores
calificaciones?

Ejercicio 4.
Una fundación decide realizar una encuesta para conocer la sensibilidad de la población femenina
respecto a la violencia doméstica. Para ello se toma como universo poblacional el conjunto de las mujeres
españolas de 18 ó más años. ¿Qué tamaño muestral sería necesario utilizar si el máximo error que se
pretende asumir es del 3%, para un nivel de confianza del 95,5%, siendo p = q =0,5?

SOLUCIONES
Ejercicio 1.

La moda es el valor más frecuente. De la tabla se deduce que estará en el intervalo 40-49 años, que es el
que concentra más casos. Cuando los datos están agrupados se utiliza la siguiente fórmula para señalar el

1 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...

valor modal (con intervalos de igual amplitud):

El valor modal serán 44,3 años.

La mediana es el valor que divide la población estudiada en dos grupos de igual tamaño. En nuestro caso

será el número de casos que se encuentran por encima y por debajo del valor
mediano. Para su cálculo es necesario en primer lugar calcular la distribución de frecuencias acumulada:

fi fia
0-9 12635 12635
10-19 18361 30996
20-29 24426 55422
30-39 25990 81412
40-49 26229 107641
50-59 19618 127259
60-69 17701 144960
70-79 19158 164118
80 y + 10025 174143
Total 174143

El valor mediano se encontrará en el intervalo 40-49 años. Para su cálculo utilizamos la fórmula:

el valor mediano será 42,2 años.

Ejercicio 2

Se trata de una distribución binomial en la que p=1/5=0,2

Por tanto:

2 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...

Por lo tanto

Así la probabilidad de obtener 5 o menos aciertos será de un 80,4%

**********************************************************************************************
De forma más sencilla puede calcularse mediante la aproximación a la distribución normal. La media será:
y la desviación típica:

Entonces, el valor z con corrección de continuidad, será:

El área correspondiente a este z, según tablas es:


Por lo tanto la probabilidad solicitada será 0,5+0,2967=0,7967=79,67%

3 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...

Ejercicio 3

a) La probabilidad de seleccionar a un alumno con x mayor o igual a 8.

El área de este z será, según tablas, Área = 0,4222


El área o probabilidad pedida es la que se encuentra entre Z = 1,42 y el extremo superior. Por tanto p =
0,5-0,4222=0,0778
Es decir la probabilidad de seleccionar a un alumno con nota 8 o superior es 7,78%

b) Número de alumnos con x menor o igual a 5.

El área de este z será, según tablas, Área = 0,0636


El área o probabilidad pedida es la que se encuentra entre Z = -0,16 y el extremo inferior. Por tanto
p=0,5-0,0636=0,4364
Así el número con puntuación igual o inferior a 5 será: 355x0,4364=154,9. Es decir 155 alumnos.

c) Valor del primer cuartil.


El valor z del primer cuartil – área = 0,25- es: Z = -0,675

Como:

Entonces:

El 25% de los alumnos con nota más baja han obtenido 4 puntos o menos.

Ejercicio 4
El tamaño muestral para una población infinita viene determinado por la siguiente fórmula:

Con n = 1112 podemos estimar la proporción solicitada con un nivel de confianza del 95,5% y un error
inferior al 3%.

4 de 4 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 1 s...

Febrero 2007 1ª Semana


Ejercicio 1.
Las medidas que se representan a continuación corresponden a las alturas en centímetros de 40 niños.

157 159 155 166


162 159 156 145
152 148 157 151
160 156 154 158
154 159 162 163
148 155 158 159
149 164 163 157
169 153 155 151
163 154 168 162
157 162 161 156

a) Construya una distribución de frecuencias agrupadas en al menos cuatro categorías.


b) Represente gráficamente la distribución.
c) Calcule la media de la distribución.

Ejercicio 2.
Dado un conjunto de números {0,1,2,3,4,5}, calcule:
a) ¿De cuántas maneras diferentes pueden ordenarse los seis números del conjunto?
b) Cuál es el número de combinaciones posibles de los elementos tomados de dos en dos.
c) Realice el mismo cálculo del apartado anterior, tomando los elementos de tres en tres.

Ejercicio 3.
Se sabe que el 35% de los alumnos de sociología de la UNED visitan alguna vez la web de su facultad. Si elegimos
al azar 4 alumnos de entre los matriculados en sociología, calcule las probabilidades de obtener respectivamente
0,1,2,3,4 alumnos que hayan visitado la web, y represente gráficamente la distribución.

Ejercicio 4.
Un investigador se dispone a realizar una encuesta entre los 1500 miembros de una cooperativa agraria, para
conocer la proporción de cooperativistas dispuestos a modificar los estatutos. Dispone de una partida
presupuestaria de 5.000 € para realizar las entrevistas, cuyo coste individual es de 25 €, calcule, para un nivel de
confianza del 95,5%:
a) ¿Qué tamaño muestral se necesitaría para estimar la proporción con un error del 5%, si se desconocen los
valores de p y de q?
b) ¿Qué pasaría con el tamaño muestral si se supiera que la proporción de cooperativistas favorables al cambio de
estatutos fuera de 0,75 ?

_____________________________________________________________________________

Soluciones
Ejercicio 1.
La distribución de frecuencias permite resumir y ordenar una colección de datos para poder tener una visión del

1 de 4 06/04/2012 12:01
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 1 s...

conjunto. Una distribución posible podría ser esta:

Altura ni
145-149 4
150-154 7
155-159 16
160-164 10
165-169 3
TOTAL 40

Para ver de forma intuitiva la distribución y poder comparar las categorías visualmente, se podría representar la
distribución mediante un histograma:

Como tenemos un listado de las medidas, para calcular la media bastará con sumar, directamente de la tabla
original, todas las alturas y dividirlas por el número de casos.

= 6297 Y la media será:

Aunque en este caso tenemos el listado de datos originales y sólo son 40 datos, también podría calcularse la media
a partir de la tabla de las frecuencias agrupadas, calculando el punto medio de cada intervalo y multiplicándolo por
el número de casos del intervalo.

Altura Xc ni Xcni
145-149 147 4 588
150-154 152 7 1064
155-159 157 16 2512
160-164 162 10 1620
165-169 167 3 501
TOTAL 40 6285

2 de 4 06/04/2012 12:01
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 1 s...

La media obtenida así sería como sigue:

La diferencia entre los resultados obtenidos por este segundo método es debida al agrupamiento de los datos. El
hecho de tomar la marca de clase como valor que representa a todos los elementos del intervalo, produce ese error.
(Para calcular las marcas de clase, al tratarse de una variable continua, hemos de suponer que los datos de las
alturas de la tabla original se han redondeado, de forma que el límite inferior nominal de, por ejemplo el primer
intervalo 145-149 se corresponde con 144,5 pues cualquier valor inferior como 144,49999 se habría redondeado al
entero inferior 144.)

Ejercicio 2.

a) Dado el conjunto de seis elementos {0,1,2,3,4,5}, el cálculo del número de formas diferentes en que pueden
ordenarse es igual a las permutaciones de 6 elementos:

P6 = 6! = 6·5·4·3·2·1 = 720

b) Las combinaciones posibles de los elementos tomados de dos en dos:

c)Las combinaciones, tomando los elementos de tres en tres:

Ejercicio 3.

El supuesto se presta al cálculo mediante la distribución binomial, puesto que se trata de sucesos discretos
dicotómicos.
Para P = 0,35 las probabilidad de obtener respectivamente 0,1,2,3,4 alumnos que hayan visitado la web se calcula
mediante la fórmula:

3 de 4 06/04/2012 12:01
Ejercicio 1 http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 1 s...

Las cinco probabilidades podrían representarse mediante un histograma como sigue:

Ejercicio 4.

Como la población es pequeña utilizaremos la fórmula del tamaño muestral para poblaciones “finitas”, y como no
se conoce p, se utilizará p = q = 0,5

es decir 316 unidades muestrales.

En el caso de p = 0,75 el cálculo sería:

Como puede verse, el tamaño muestral se reduce sustancialmente al añadir la información sobre P, respecto al caso
de la mayor incertidumbre que supone el tomar p = q = 0,5

4 de 4 06/04/2012 12:01
Febrero 2007 2ª semana http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 2 s...

Febrero 2007 2ª semana


Ejercicio 1.
En la siguiente tabla se representan las alturas, en centímetros, de 40 niños

Altura Nº niños
145-149 4
150-154 7
155-159 16
160-164 10
165-169 3
Total 40

a) Calcule la media y la mediana de la distribución de las alturas del grupo de 40 niños.


b) Calcule la Desviación típica de la distribución

Ejercicio 2.
Dado un conjunto de números {0,1,2,3,4,}, calcule:
a) ¿De cuántas maneras diferentes pueden ordenarse los cinco números del conjunto?
b) ¿Cuál es el número de combinaciones posibles de los elementos tomados de dos en dos?
c) Realice el mismo cálculo del apartado anterior, tomando los elementos de tres en tres.

Ejercicio 3.

Dada una población de 8.000 personas se han extraído todas las muestras posibles de tamaño 800 mediante un
cálculo informático, y se ha hallado la media de ingresos para cada muestra. Las medias de todas las muestras se
distribuye normalmente con una media de 15.000 € y una desviación típica de 4.800 €, calcule:
a) ¿Que proporción de las muestras estarán por encima de los 16.000 €?
b) Entre qué valores de la variable alrededor de la media se encuentra el 50% central de las muestras?
c) ¿Qué porcentaje de muestras tendrían una media inferior a los 10.000 €?

Ejercicio 4.
En un municipio con 20.000 hogares desea conocer la proporción actual de hogares que poseen servicio de banda
ancha de internet. Un estudio anterior sobre el uso de internet sitúa esa proporción en el 12%. El investigador
encargado dispone de una partida presupuestaria de 18000 € para realizar las entrevistas y piensa gastarlo en su
totalidad, siendo el coste de cada entrevista de 25 €. Teniendo en cuenta que se va a emplear un nivel de confianza
del 95,5% :
a) Calcule el error muestral admitido, dada la limitación del presupuesto.
b) ¿Cuál sería el error muestral si el presupuesto para ese fin se amplía un 20%?

Soluciones
Ejercicio 1.
Para calcular la media de la distribución estableceremos primero las marcas de clase o puntos medios de cada
intervalo sumando el límite superior y el inferior de cada intervalo y dividiendo por 2.

Altura Xc
145-149 147
150-154 152
155-159 157
160-164 162

1 de 4 06/04/2012 12:01
Febrero 2007 2ª semana http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 2 s...

165-169 167
Después multiplicamos cada marca de clase por la frecuencia absoluta del intervalo

Altura Xc ni Xcni
145-149 147 4 588
150-154 152 7 1064
155-159 157 16 2512
160-164 162 10 1620
165-169 167 3 501
40 6285

La media será entonces:

Una vez obtenida la media, hallamos la desviación típica, hallando las diferencias al cuadrado de cada marca de
clase respecto a la media, para multiplicar cada diferencia al cuadrado por la frecuencia de cada intervalo:
2 2
(xi-media) (xi-media) ni
102,515625 410,0625
26,265625 183,859375
0,015625 0,25
23,765625 237,65625
97,515625 292,546875
1124,375

La desviación típica será la raíz de la varianza:

La Desviación típica será entonces:

El cálculo de la mediana requiere de la distribución de frecuencias acumuladas para saber en qué intervalo se
encuentra el estadístico:
Altura ni Na
145-149 4 4
150-154 7 11
155-159 16 27
160-164 10 37
165-169 3 40
40

El valor de la variable que divide la distribución en dos partes iguales (20 casos) se encuentra en el intervalo
155-159, por tanto ya podemos calcular:

En el caso del cálculo de la media y la mediana, al tratarse de una variable continua hemos de suponer que los
datos de las alturas de la tabla original se han redondeado, de forma que el límite inferior nominal del intervalo que
contiene la mediana (155) se corresponde con 154,5 pues cualquier valor inferior como 154,49999 se habría
redondeado al entero inferior 154. Para conocer mejor el problema de los límites reales en la creación de categorías

2 de 4 06/04/2012 12:01
Febrero 2007 2ª semana http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 2 s...

para variables de intervalo, véase:


http://www.uned.es/111044/examenes/cuestiones%20resueltas
/El%20problema%20de%20los%20limites%20de%20categorias.htm

Ejercicio 2.

Las diferentes formas de ordenar un conjunto de elementos puede calcularse mediante las permutaciones de los 5
elementos del conjunto:

Las combinaciones de los cinco elementos tomados de dos en dos se calcularía mediante la fórmula:

Realizando el mismo cálculo del apartado anterior, tomando los elementos de tres en tres obtenemos:

Ejercicio 3.

Al ser una distribución normal, con media 15.000 y desviación típica 4.800, podemos utilizar las tablas de las áreas
bajo la curva normal para hacer los cálculos.
Comenzaremos por convertir los valores de la variable a unidades de desviación típica o números “Z”

a) La proporción de muestras que estarán por encima de los 16.000€ será:

El valor 16.000 se encuentra a poco más de dos décimas de la unidad de desviación típica. Ese valor Z puede ser
consultado en la tabla de áreas bajo la curva normal y tomando el valor más próximo de la tabla obtenemos un área
de 0,0832.
Como la tabla nos proporciona la proporción de casos que queda entre un valor de la variable y la media, debemos
restar ese valor de 0,5 que es la mitad del área de la curva normal que, completa es igual a la unidad.
Por tanto la proporción de casos por encima de 16.000 será :

Aplicando el mismo razonamiento calcularemos los valores de la variable que encierran el 50% central de los
casos:
Como las tablas que utilizamos sólo contienen media distribución (porque es simétrica y una mitad es igual que la
otra cambiada de signo), buscaremos en la tabla el valor de Z que se corresponde con el 25% de los casos sobre la
media:

Buscando entre los valores de las áreas en la tabla encontramos que el valor más próximo a 0,2500 es 0,2486
correspondiente al valor Z 0,67.
Interpolando llegamos al valor Z=0,674
De forma que despejando en la fórmula de los valores Z tenemos que

sustituyendo los valores obtenemos el límite superior e inferior del intervalo:


(11.760;18.240)
límite superior e inferior del intervalo

3 de 4 06/04/2012 12:01
Febrero 2007 2ª semana http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 2 s...

Por último, para conocer el porcentaje de casos que quedan por debajo del valor 10.0000€, volvemos a utilizar la
fórmula de los valores Z

El valor negativo nos indica que el valor 10.000 se encuentra a 1,04 unidades de desviación típica de la media por
la izquierda.

Buscando en las tablas la proporción de casos que quedan entre ese valor Z y la media es 0,3508, es decir
aproximadamente el 35% de los casos, pero como se pregunta por el porcentaje de casos POR DEBAJO de 10.000,
habrá que restar ese porcentaje de 0,5:

Aproximadamente el 15% de los casos quedarán por debajo de los 10.000€

Ejercicio 4.

Si se gasta en su totalidad el presupuesto podremos hacer 18.000/25 = 720 entrevistas con ese dinero

Dado ese tamaño muestral podemos calcular el error asumido despejando e de la fórmula del tamaño muestral para
poblaciones finitas:

un error del 2,38%

Si se ampliara el presupuesto un 20%, los 18.000 € pasarían a ser de 21.600€

En ese caso la muestra posible con ese presupuesto sería 21.600/25 = 864
Aplicando el mismo procedimiento tendríamos:

es decir, el 2,16%
El error asumido se reduce ligeramente, apenas unas décimas, al aumentar el tamaño muestral .

4 de 4 06/04/2012 12:01
Estadística aplicada a las ciencias sociales.
Examen Febrero de 2008 primera semana

Ejercicio 1. - En la siguiente tabla, se representan los datos de las edades de los


trabajadores de una gran empresa.

Grupos de edad Nº trabajadores


21 a 25 320
26 a 30 1.652
31 a 35 2.046
36 a 40 2.454
41 a 45 1.950
46 a 50 1.102
51 a 55 945
56 a 60 341
61 a 65 31
TOTAL 10.841

a) Calcule las frecuencias relativas, para cada grupo de edad.


b) Calcule la mediana de la distribución.
c) Calcule los cuartiles 1º y 3º

Ejercicio 2.- Los usuarios de una instalación deportiva presenta la siguiente


distribución según la edad:

Edad Usuarios
Menos de 20 31
Entre 20 y 25 15
Más de 25 10

a) ¿qué probabilidad hay de que, al extraer al azar sucesivamente y sin reposición 3


usuarios, el primero tenga menos de 20 años, el segundo entre 20 y 25 y el tercero más
de 25
b) ¿qué probabilidad hay de que, al extraer al azar sucesivamente y sin reposición 5
usuarios, todos sean menores de 20 años?

Ejercicio 3. De un conjunto de 20 asalariados cuyos salarios son conocidos, se ha


obtenido mediante el cálculo combinatorio que se pueden formar 15.504 grupos
distintos de 5 asalariados. Mediante un ordenador se ha calculado el salario medio de
cada uno de los grupos de 5 asalariados. Sabiendo que los 15.504 salarios medios
obtenidos de todos grupos posibles se distribuyen normalmente con un valor medio de
1.100 € y desviación típica de 130 €, calcule:

a) Qué porcentaje de grupos de 5 tendrán una media comprendida entre 1.000 y 1.500
€.
b) Entre que valores alrededor de la media de la distribución muestral se encuentra el
50% central de los grupos.

Ejercicio 4.- En una determinada ciudad Deseamos conocer la proporción actual de


hogares con más de un coche. Por los datos de un estudio anterior sabemos que del total
de 30.521 hogares, 12.530 tenían más de un coche. Estableciendo un Nivel de
Confianza del 95,5% y un error absoluto e = 4%, calcular:

a) El tamaño de la muestra requerido para realizar la estimación.


b) El tamaño de la muestra, si desconociéramos los datos anteriores sobre el número coches
por hogar.

SOLUCIONES:

Ejercicio 1.

a) para calcular las frecuencias relativas de cada grupo de edad bastará con dividir
el número de trabajadores en una categoría por el total de trabajadores.

Grupos de Nº fr
edad trabajadores

21 a 25 320 0,0295
26 a 30 1.652 0,1524
31 a 35 2.046 0,1887
36 a 40 2.454 0,2264
41 a 45 1.950 0,1799
46 a 50 1.102 0,1017
51 a 55 945 0,0872
56 a 60 341 0,0315
61 a 65 31 0,0029
TOTAL 10.841 1,0000

b) Para calcular la mediana necesitamos calcular las frecuencias acumuladas

Grupos de Nº Na
edad trabajadores
21 a 25 320 320
26 a 30 1.652 1.972
31 a 35 2.046 4.018
36 a 40 2.454 6.472
41 a 45 1.950 8.422
46 a 50 1.102 9.524
51 a 55 945 10.469
56 a 60 341 10.810
61 a 65 31 10.841
TOTAL 10.841

La mediana de una distribución es el valor de la variable que divide la distribución


ordenada de las edades en dos partes iguales, de forma que habrá tantos valores por
encima como por debajo de este valor. Por tanto si dividimos los 10.841 casos por 2
obtenemos que la mitad de los trabajadores será 5.420,5. La categoría de edad que
incluye el caso 5.420 es la que va desde los 35 a los 40 y contendrá la edad mediana.
Como los datos están agrupados en categorías será necesario calcular la edad concreta
de ese intervalo que deja la mitad de los casos por encima y la mitad por debajo,
mediante la forumla:

N  C  10.841  5
Me = Li +  − N a −1  ⋅ i = 36 +  − 4.018  ⋅ = 38,86
2  ni  2  2.454

c) Los cuartiles se calculan siguiendo la misma lógica, de forma que el primer


cuartil Q1 será la edad que deje por debajo el 25% de los casos y por encima el
75%

N  C  10.841  5
Q1 = Li +  − N a −1  ⋅ i = 31 +  − 1.652  ⋅ = 32,80
4  ni  4  2.046
Para el tercer cuartil Q3 tendremos que:

 3N  C  3 ⋅10.841  5
Q3 = Li +  − N a −1  ⋅ i = 41 +  − 6.472  ⋅ = 45,25
 4  ni  4  1.950

Ejercicio 2.

a) para conocer la probabilidad de obtener al azar a un usuario de menos de 20


años calcularemos los casos favorables (hay 31 usuarios de menos de 20 años)
divididos por los casos posibles (todos los usuarios de cualquier edad que son
31+15+10=56)

31
P1 (< 20 años) = = 0,55
56
Como se hacen extracciones sin reposición al hacer la segunda extracción ya no habrá
56 usuarios sino que quedarán sólo 55 y la probabilidad de obtener un usuario de entre
20 y 25 años estará condicionada a que ya se haya extraído antes uno de menos de 20:

15
P2 (entre 20 y 25 años / < 20) = = 0,27
55
de la misma forma la probabilidad de obtener al azar uno de más de 25 estará
condicionada por las dos extracciones anteriores:

10
P3 (> 25 / entre 20 y 25 años / < 20) = = 0,185
54

Conocidas esas tres probabilidades, la probabilidad de que se produzcan los tres eventos
sucesivamente se calculará multiplicando las tres probabilidades anteriores:

P = P1 * P2 * P3 = 0,55 * 0,27 * 0,185 = 0,028

b) Como en el apartado anterior, se trata de probabilidades condicionadas a la


ocurrencia de eventos anteriores.
Casos favorables 31
p1 = = = 0,5536
Casos posibles 56

Casos favorables 31 − 1
p2 = = = 0,5455
Casos posibles 56 − 1

Casos favorables 31 − 2
p3 = = = 0,5370
Casos posibles 56 − 2

Casos favorables 31 − 3
p4 = = = 0,5283
Casos posibles 56 − 3

Casos favorables 31 − 4
p5 = = = 0,5192
Casos posibles 56 − 4

Como en el anterior caso, la probabilidad de que se produzcan los cinco eventos es igual
al producto de las probabilidades:

P = p1 * p2 * p3 * p4 * p5 = 0,5536 * 0,5455 * 0,5370 * 0,5283 * 0,5192 = 0,0445

Ejercicio 3.

Mediante la curva normal tipificada podemos saber la proporción de casos que se


encuentran entre un valor dado y la media. Utilizando la fórmula de las puntuaciones
tipificadas Z :

a) Las tablas de área bajo la curva normal nos dan la proporción de casos entre un
valor dado de la variable y la media, medido en unidades de desviación típica.
Por tanto podemos calcular el porcentaje de casos que quedan entre el valor
1.000 y la media 1.100 y sumarlo al porcentaje de casos que hay entre la media
y el valor 1.500.

xi − x 1.000 − 1.100
Z1.000 = = = −0,7692
S 130

Consultando las tablas ese valor de Z se corresponde con el valor 0,2794, es decir, que
habrá un 27,94% de asalariados que cobren entre 1.000 y 1.100 €. Tomamos el valor sin
tener en cuenta el signo, puesto que las tablas de la curva normal al ser una función
simétrica utiliza sólo el cuadrante positivo.
A continuación calcularemos la proporción de casos que habrá entre la media y el valor
1.500:

xi − x 1500 − 1.100
Z1.500 = = = 3,0769
S 130

Este segundo valor de Z se corresponde con la proporción 0,4999 o bien el 49,9% de los
casos.
Por tanto el porcentaje de asalariados cuyo sueldo varía entre los 1.000 y los 1.500€ será
la suma de los porcentajes anteriores:

27,94%+49,99%=77,93%

b) Para realizar este cálculo emplearemos la mismo fórmula de los valores Z pero
despejando en este caso el valor de la variable:

xi = Z ⋅ S ± x

Al ser la media el valor central de la curva, el 50% central de los casos corresponderá
con la suma de un 25% a la izquierda de la media y un 25% a la derecha. Para conocer
el valor Z correspondiente al 25% de los casos consultamos la tabla y obtenemos un
valor Z=0,68 que sustituido en la fórmula anterior nos permite saber el salario que
corresponde a ese valor Z, de forma que sumando y restando obtendremos los valores
por debajo y por encima de la media que limitan en 50% de los casos alrededor de la
media:

xi = Z ⋅ S − x = 0,68 ⋅ 130 − 1.100 = 1.011,6

xi = Z ⋅ S + x = 0,68 ⋅ 130 + 1.100 = 1.188,4

Ejercicio 4.

a)
A partir de los datos del enunciado podemos conocer la proporción de hogares con más
de un coche:
casos favorables 12.530
p= = = 0,41
casos posibles 30.521
por tanto q =1-p = 0,59

Dado que se trata de una población finita, para calcular el tamaño muestral necesario
utilizaremos la fórmula:

Z 2 pqN 2 2 ⋅ 0,41 ⋅ 0,59 ⋅ 30.521


n= 2 = = 593,25
e ( N − 1) + Z 2 pq 0,04 ⋅ (30.520) + 2 2 ⋅ 0,41 ⋅ 0,59

b)
Si desconociéramos la proporción de hogares con más de un coche, consideraríamos el
caso más desfavorable, es decir p = q = 0,5 por tanto el tamaño muestral se calcularía de
forma análoga al caso anterior, como sigue:

Z 2 pqN 2 2 ⋅ 0,5 ⋅ 0,5 ⋅ 30.521


n= = = 612,48
e 2 ( N − 1) + Z 2 pq 0,04 ⋅ (30.520) + 2 2 ⋅ 0,5 ⋅ 0,5

Como puede observarse, el desconocimiento sobre la proporción de hogares con más de


un coche significaría la necesidad de un tamaño muestral mayor, para un nivel de
confianza y un error determinados.
Estadística Aplicada a las ciencias Sociales
Examen Febrero de 2008 segunda semana
Ejercicio 1.- En la siguiente tabla, se tiene el número de alumnos de educación de adultos
matriculados en el curso graduado escolar en un Municipio para el curso 2005/2006, por grupos
de edad y modalidad de la enseñanza según los horarios escogidos.

Edad Modalidad Modalidad


Intensiva Extensiva
De 18 a 19 175 110
De 20 a 24 200 135
De 25 a 34 180 157
De 35 a 44 116 25
De 45 a 54 49 3
Más de 55 13 1
TOTAL 733 431

Calcule la edad media y la desviación típica de los alumnos de la modalidad intensiva y la


mediana de la distribución de la modalidad extensiva.

Ejercicio 2.- En una empresa la media de años de antigüedad de los 895 empleados, es de 11
años y la desviación típica de 3,1. Suponiendo que la distribución de años de antigüedad fuera
una distribución normal calcule:
a) ¿A cuantas unidades de desviación típica se encuentra un trabajador que lleva 2 años en la
empresa, respecto a la media del colectivo?
b) ¿Qué número de trabajadores lleva menos de diez años en la empresa?
c) ¿Cuál será el límite inferior de antigüedad para los 300 trabajadores que llevan más años en la
empresa?

Ejercicio 3.- Una empresa tiene tres departamentos A, B y C, con 20, 7 y 12 trabajadores
respectivamente. Para organizar los turnos de vacaciones decidimos seleccionar al azar,
sucesivamente y sin reposición, a tres trabajadores entre los 39 de la empresa, calcule:
a) La probabilidad de que el primer seleccionado pertenezca al departamento C
b) La probabilidad de que el segundo pertenezca al departamento B.
c) La probabilidad de que el tercero no pertenezca al departamento A.

Ejercicio 4.- Un Instituto de Investigación debe realizar un encuesta para conocer la opinión de
las mujeres sobre el tratamiento informativo de la violencia de género. Para ello toman como
universo poblacional al conjunto de las mujeres españolas de 18 ó más años. ¿Qué tamaño
muestral sería necesario utilizar si el máximo error muestral permitido es del 5%, para un nivel
de confianza del 95,5% y considerando p=q=50%?
SOLUCIONES

Ejercicio 1.

Dada la tabla de la distribución de las edades de los matriculados en el curso de


graduado escolar en la modalidad intensiva, calcularemos la edad media mediante la
fórmula:
n

∑x n i i
x= i =1

n
Como los datos están agrupados en categorías por grupos de edad, hallaremos en primer
lugar las marcas de clase o puntos medios de cada intervalo que representarán a cada
grupo de edad en los cálculos. Para cada intervalo procedemos tomando el límite
inferior del intervalo, sumando el límite inferior del siguiente y dividiendo por dos:

Grupos de Modalidad
Marca de
Edad clase Xc Intensiva
De 18 a 19 19 175
De 20 a 24 22,5 200
De 25 a 34 30 180
De 35 a 44 40 116
De 45 a 54 50 49
Más de 55 60 13
TOTAL 733

A continuación multiplicamos la marca de clase de cada intervalo por la frecuencia para


obtener después el sumatorio de los productos:

Xc ni xi*ni
19 175 3325
22,5 200 4500
30 180 5400
40 116 4640
50 49 2450
60 13 780
Total 733 21095

∑x n i i
21.095
x= i =1
= = 28,78
n 733

Conocida la media podemos calcular la varianza o suma al cuadrado de las desviaciones


a la media, ayudándonos de la siguiente tabla:
Edad Modalidad
Intensiva Xc media (xi-media) (xi-media)2 (xi-media)2*ni
De 18 a 19 175 19 28,779 -9,7789905 95,6286542 16735,01449
De 20 a 24 200 22,5 28,779 -6,2789905 39,4257211 7885,144215
De 25 a 34 180 30 28,779 1,22100955 1,49086432 268,3555777
De 35 a 44 116 40 28,779 11,2210095 125,911055 14605,68242
De 45 a 54 49 50 28,779 21,2210095 450,331246 22066,23107
Más de 55 13 60 28,779 31,2210095 974,751437 12671,76869
TOTAL 733 74232,19645

∑ (x )
n 2

i − x ni
74232,196
V= i =1
= = 101,272
N 733

La desviación típica será entonces:

S = V = 101,272 = 10,0634

Para obtener la mediana de la distribución de edades de la modalidad extensiva


procedemos a calcular las frecuencias acumuladas:

Edad ni Na
De 18 a 19 110 110
De 20 a 24 135 245
De 25 a 34 157 402
De 35 a 44 25 427
De 45 a 54 3 430
Más de 55 1 431
TOTAL 431
Dividiendo por dos en número de casos (431/2=215,5) vemos que el número acumulado
de la mitad de los casos está en el intervalo “De 20 a 24 años” y procedemos a calcular
mediante la fórmula:

N c  431  5
Me = Li +  − N a −1  i = 20 +  − 110  = 23,91
2  ni  2  135

Ejercicio 2.

Al tratarse de una distribución normal, utilizaremos la fórmula de las puntuaciones


tipificadas Z y las tablas de áreas bajo la curva normal.

a) Las puntuaciones Z normalizadas consisten en expresar la diferencia entre un


valor de la variable y la media de la distribución, medida en unidades de
desviación típica. Podemos obtener el dato pedido directamente de la fórmula:
xi − x 2 − 11
Z= = = −2,90
S 3,1

b) Calcularemos primero el número de unidades Z que existen entre los 10 años y


la media

xi − x 10 − 11
Z= = = −0,32
S 3,1
Consultando las tabla de la curva normal obtenemos la proporción de casos que hay
entre ese valor y la media (obviando el signo, ya que la curva es simétrica y las tablas se
refieren sólo a los valores positivos de Z)
0,1255 o el 12,55%
Pero como se pide hallar la proporción de casos con MENOS de 10 años, sabiendo que
la tabla representa el 50% de los casos restaremos el valor obtenido para hallar la
proporción de casos por debajo de 10:

0,5-0,1255=0,3745

Vemos que el 37,45% de los casos están por debajo de los 10 años de antigüedad, que
expresado en número de trabajadores será el 37,45% de los 895 empleados, es decir
335.

c) Para hallar el límite inferior de años de antigüedad de los 300 trabajadores que
levan más años en la empresa comenzaremos por calcular la proporción que
suponen los 300 trabajadores sobre el conjunto de la empresa:

300
= 0,3352
895
Como el área que proporcionan las tablas se refieren al valor acumulado entre la media
y un punto, debemos restar

0,5-0,3352=0,1648
Consultando las tablas de la curva normal, obtenemos el valor Z correspondiente a esa
proporción: aproximadamente Z=0,425
Conocido Z, podemos despejar xi de la fórmula:

xi − x
Z=
S
xi = Z ⋅ S + x = 0,425 ⋅ 3,1 + 11 = 12,31
podemos asegurar entonces que los 300 trabajadores con mayor antigüedad, superan los
12 años.

Ejercicio 3.

Al tratarse de selecciones al azar sucesivas y sin reposición, calcularemos las


probabilidades de la siguiente manera:
a) La probabilidad de que al extraer un trabajador pertenezca al departamento C
será igual al número de trabajadores de ese departamento dividido por en
conjunto de los trabajadores de la empresa:

Casos en el Dpto. C 12
p= = = 0,31
Total de trabajadores 39

b) Para hallar la probabilidad de que el segundo trabajador pertenezca al


departamento B, al haber seleccionado ya un trabajador sin reposición, se deberá tener
en cuenta que el número de trabajadores se ha minorado en una unidad.

Podemos plantear que hay dos posibilidades: que el primer seleccionado fuera de B y
que no fuera de B (que fuera de A o de C). Calcularíamos entonces la probabilidad de
que en la primera extracción hubiera sido de B y que la segunda también. Al ser sucesos
independientes, se trata de un producto de probabilidades:

7 6
P( B & B' ) = P( B) * P( B' ) = * = 0,1795 * 0,1579 = 0,0283
39 38

La probabilidad de que el segundo fuera de B no habiendo sido en primero B (que fuera


de A o C) sería

7 32
P ( B) * P ( B') = * = 0,1795 * 0,8421 = 0,1511
39 38

Como el suceso se puede verificar de ambas formas, la probabilidad de que ocurra será
la suma de las probabilidades:

P ( B & B' ) + P( B & B') = 0,02834 + 0,15114 = 0,17948

Como podemos ver, al ser sucesos independientes, obtenemos el mismo resultado que si
hubiéramos calculado directamente

Casos en el Dpto. B 7
p= = = 0,17948
Total de trabajadores 39

c) La probabilidad de seleccionar a un tercer trabajador que no pertenezca al Dpto. A,


significa que deberá pertenecer a los departamentos B o C. Como en el caso anterior,
independientemente de lo que hubiera sucedido antes, podemos evitar el cálculo de las
cuatro posibilidades de ocurrencia diferentes del suceso y calcular directamente:

Casos en los Dptos. B y C (7 + 12) 17


p= = = = 0,48718
Total de trabajadores 39 39
Ejercicio 4.

Al tratarse de una población mayor de 100.000 utilizaremos la fórmula del tamaño


muestral para poblaciones infinitas:
Tomando p = q = 0,5, considerando que el nivel de confianza del 95,5% se corresponde
aproximadamente con un Z=2 y que el error permitido en forma de proporción será
e = 0,05

Z 2 pq 2 2 ⋅ 0,5 ⋅ 0,5
n= 2 = = 400
e 0,05 2
FEBRERO 2009 1ª Semana

Ejercicio 1. En la siguiente tabla figuran los datos del I.N.E. sobre los condenados en
España durante 2006, según la edad de comisión del primer delito.

EDAD ni
De 18 a 20 años 9.077
De 21 a 25 años 14.902
De 26 a 30 años 15.097
De 31 a 35 años 14.288
De 36 a 40 años 13.534
De 41 a 50 años 18.839
De 51 a 60 años 7.124
De 61 a 70 años 2.083
Más de 70 años 580
Total 95.524

Calcule la moda y la mediana de la edad de comisión del primer delito de los


condenados y represente los datos de la tabla mediante un histograma, teniendo en
cuenta la diferente amplitud de los intervalos.

Ejercicio 2. En la siguiente tabla figuran los datos del INE sobre los 1.806 expedientes
de suicidios consumados en España durante 2007.

Ambos
Edad sexos Varón Mujer
De 13 a 19 33 22 11
De 20 a 29 180 147 33
De 30 a 39 306 233 73
De 40 a 49 295 228 67
De 50 a 59 273 202 71
60 y más 719 556 163
Total 1.806 1.388 418

Si seleccionamos al azar 10 expedientes entre los 1.806, calcule:


¿Cuál es la probabilidad de que todos sean de varones mayores de 39 años?
¿Cuál es la probabilidad de que al menos la mitad sean de mujeres?
¿Cuál es la probabilidad de que ninguno de los expedientes seleccionados corresponda a
una mujer?

Ejercicio 3. Dada una distribución normal con media 5,6 y desviación típica 1,3 calcule
el porcentaje de casos que quedan por debajo del valor 4. Calcule también el número de
casos que quedan por encima de 7,2.

Ejercicio 4. Un investigador necesita realizar una encuesta en un municipio para


estimar la proporción de vecinos que escuchan determinado programa en la radio local.
Para ello toma como universo poblacional al conjunto de los 16.580 adultos del
municipio. ¿Qué tamaño muestral les sería necesario utilizar si el máximo error que
admite es del 3%, para un nivel de confianza del 95,5%, considerando p = q = 50%?
RESPUESTAS

Ejercicio 1.
Para calcular las medidas de tendencia central debemos, en primer lugar, cerrar el
intervalo superior “más de 70 años”. Podemos suponer que los delitos cometidos por
personas de más de 80 años, serán excepcionales y que si cerramos el intervalo en ese
punto apenas dejaremos fuera algún caso atípico (como se trata de una cuestión práctica
de cálculo de estadísticos y no se plantean cuestiones técnicas referidas al derecho penal
o al delito en las edades avanzadas, cualquier criterio planteado puede ser válido).
Con esa decisión obtendremos la siguiente tabla:

Edad amplitud ni Marca Clase


18 a 20 3 9077 19,5
21 a 25 5 14902 23,5
26 a 30 5 15097 28,5
31 a 35 5 14288 33,5
36 a 40 5 13534 38,5
41 a 50 10 18839 46
51 a 60 10 7124 56
61 a 70 10 2083 66
71 a 80 10 580 76
Total 95524

Calcularemos en primer lugar la edad media del colectivo:

La fórmula de la mediana es

N  C
Me  Li    N a 1   i
2  ni

Construimos una columna para calcular las frecuencias acumuladas e identificar el


intervalo que contiene la mediana, valor que divide la distribución en dos partes iguales

Edad amplitud ni Na
18 a 20 3 9.077 9.077
21 a 25 5 14.902 23.979
26 a 30 5 15.097 39.076
31 a 35 5 14.288 53.364
36 a 40 5 13.534 66.898
41 a 50 10 18.839 85.737
51 a 60 10 7.124 92.861
61 a 70 10 2.083 94.944
71 a 80 10 580 95.524
Total 95524
Si dividimos el total de casos por la mitad obtenemos:
95.524 / 2 = 47.762
Al estar ordenados los casos por la edad, podemos ver que la categoría de edad que
contiene el caso número 47.762 es el grupo “de 31 a 35 años”

Tomando los datos de la tabla obtenemos la mediana de la edad

N  C  95.524  5
Me  Li    N a 1   i  31    39.076   34,04
2  ni  2  14.288

A continuación calcularemos el valor modal de la distribución mediante la fórmula:

ni 1  C i 1
Mo  Li   Ci
ni 1  C i 1  ni 1  C i 1

Tomaremos como clase modal la de mayor frecuencia “de 41 a 50 años”, y por tanto el
límite inferior para nuestro cálculo serán los 41 años:

ni 1  C i 1 7.124  5
Mo  Li   C i  41   10  43,08 años
ni 1  C i 1  ni 1  C i 1 7.124  5  13.534  10

En este punto es necesario recordar las salvedades que se expresan en la página 41 del
libro de problemas resueltos acerca de las dificultades para calcular exactamente el
valor de la Moda partiendo de datos agrupados.

Para la representación gráfica, al tener intervalos de amplitud desigual debemos


construir el histograma de forma que las áreas de cada rectángulo (S) sean
proporcionales a las frecuencias.
Construiremos una tabla para determinar la altura h de los rectángulos:

Edad amplitud (b) ni % (S) h=S/b


18 a 20 3 9077 9,50 3,17
21 a 25 5 14902 15,60 3,12
26 a 30 5 15097 15,80 3,16
31 a 35 5 14288 14,96 2,99
36 a 40 5 13534 14,17 2,83
41 a 50 10 18839 19,72 1,97
51 a 60 10 7124 7,46 0,75
61 a 70 10 2083 2,18 0,22
71 a 80 10 580 0,61 0,06
Total 95524 100,00

Calculadas las alturas procedemos a representar gráficamente los datos:


Ejercicio 2.

El ejercicio se resuelve mediante la distribución binomial


a)
Hallaremos en primer lugar p y q a partir de los datos de la tabla:
Los varones de más de 39 años serán 228+202+556=986
Los 986 casos de varones mayores de 39 años suponen respecto al total de los 1.806
casos una proporción de p = 0,55 y por tanto q = 0,45

10 
p( x  10)     0,5510  0,451010  1  0,5510  1  0,5510  0,00253
10 

b)
Procedemos como en el caso anterior calculando p:
La probabilidad de que al extraer al azar un expediente del conjunto obtengamos el de
una mujer se calcula dividiendo el total de mujeres entre el total de casos:
p = 418/1806 = 0,23 y por tanto q = 0,77
La probabilidad de obtener “al menos” la mitad o “la mitad o más” mujeres será la suma
de obtener 5, 6, 7, 8, 9 o 10 mujeres de cada 10

Podemos obtener esas probabilidades calculando los seis sumandos como en el caso
anterior o bien consultando directamente las tablas de la distribución binomial al final
del libro de problemas resueltos (página 256 para p = 0,23 y n =10):

p( x  5)  0,0439  0,0109  0,0019  0,0002  0  0  0,0569

(Al consultar las tablas observamos que para determinados valores de p no figuran los
algunos casos por ser valores muy próximos a 0, y al utilizar sólo cuatro decimales
serían 0, por ejemplo, para p = 0,23 como es nuestro caso vemos que se omiten los
valores para x = 10 y sólo figuran hasta el valor 9).

c)
Consultando directamente la tabla obtenemos:
p( x  0)  0,0733

Ejercicio3.
Para obtener el porcentaje de casos que quedan por debajo del valor 4 convertiremos la
diferencia del punto a la media en números Z o unidades de desviación típica:

x  x 4  5,6
Z   1,23
S 1,3
Para este valor de Z (prescindiendo del signo), en la tabla obtenemos un área de 0,3907
Como la tabla de áreas bajo la curva normal nos ofrece la distancia entre un valor de la
variable y la media, medido en unidades de desviación típica (en este caso la distancia
entre 4 y 5,6 tomando como unidad de medida 1,3), para hallar el área a la izquierda del
valor 4 debemos restar de 0,5

Por tanto el porcentaje buscado será 0,5-0,3907=0,1093 o el 10,93%

En el segundo caso, el número de casos que quedan por encima del valor 7,2 se
obtendrá de forma análoga:

x  x 7,2  5,6
Z   1,23
S 1,3
y al ser equidistante la probabilidad buscada será como en el caso anterior el 10,93% de
los casos.

(Aunque se pide número de casos, al no conocer el total de casos se expresa también en


forma de porcentaje)

Ejercicio 4.
Aplicando directamente la fórmula del tamaño muestral para poblaciones finitas
tenemos:

N Z2  pq
n
( N  1)  e 2  Z 2  p  q

Siendo:

N = 16.580
e = 0,03
p = q = 0,5
Z=2
(Para un nivel de confianza del 95,5% en las tablas saldría interpolando
Z = 2,005 pero para simplificar usaremos Z = 2)

Sustituyendo los valores:


N Z2  pq 16.580  2 2  0,5  0,5 16.580
n    1.041,4
( N  1)  e  Z  p  q 16.580  1  0,03  2  0,5  0,5 15,92
2 2 2 2

Para no superar el error establecido tomaremos 1.042 unidades.


Febrero 2009 2ª Semana

Ejercicio 1. En la siguiente tabla se muestra la estadística de los suicidios consumados


en España durante 2006 según el sexo y la edad.

Ambos
Edad sexos Varón Mujer
De 13 a 19 33 22 11
De 20 a 29 180 147 33
De 30 a 39 306 233 73
De 40 a 49 295 228 67
De 50 a 59 273 202 71
60 y más 719 556 163
Total 1.806 1.388 418

Calcule las edades medias y las desviaciones típicas de varones y de mujeres.

Ejercicio 2. Con los datos del ejercicio anterior, calcule los coeficientes de variación de
las edades para hombres y mujeres, comparando las dispersiones de ambos grupos en
función de sus valores medios. Comente el resultado obtenido.

Ejercicio 3. Una población de 2500 estudiantes ha realizado un test sobre el uso y


conocimiento de internet. Las puntuaciones obtenidas se distribuyen normalmente, con
una media de 10 puntos y una Varianza de 9 puntos.
a) Calcule el porcentaje de estudiantes que consiguen una puntuación superior a 15
b) Calcule el número de estudiantes que obtienen una puntuación comprendida entre los
8 y los 12 puntos
c) Calcule la probabilidad de que al escoger un alumno al azar, su puntuación sea
inferior a 3 puntos.

Ejercicio 4. Para conocer la satisfacción con los servicios municipales en una población
de 13.200 hogares, queremos realizar una encuesta a una muestra representativa.
¿Cuántos hogares debemos seleccionar para no superar el error del 4% si establecemos
el nivel de confianza en el 95%? Considere p = q

RESPUESTAS

Ejercicio 1.

Para calcular las medias necesitamos en primer lugar cerrar el intervalo abierto “60 años
o más”. Desgraciadamente a tabla, obtenida de la web del INE, no detalla los valores a
partir de los 60 años. Como podemos ver el número de suicidios aumenta con la edad, y
la tasa de suicidios de personas con edades avanzadas será muy superior que para las
edades inferiores, por tanto tiene sentido llevar el límite superior de ese intervalo hasta
un valor alto. Hemos cerrado el intervalo en los 95 años, conscientes de que se trata de
una aproximación.

Construimos una tabla para calcular las medias con la fórmula:


n

x ii  ni
X  i 1

Edad Xc Hombres Mujeres Xc*ni Hombres Xc*ni Mujeres


13 a 19 16,5 22 11 363 181,5
20 a 29 25 147 33 3675 825
30 a 39 35 233 73 8155 2555
40 a 49 45 228 67 10260 3015
50 a 59 55 202 71 11110 3905
60 a 95 77,5 556 163 43090 12632,5
Total 1388 418 76653 23114

x ii  ni
76.653
X Hombres  i 1
  55,23
N 1.388
n

x ii  ni
23.114
X Mujeres  i 1
  55,30
N 418

Como podemos ver, a pesar de las mayores frecuencias de suicidios en los hombres, las
edades medias casi coinciden.

Para calcular las desviaciones típicas de ambos colectivos emplearemos la fórmula:

 x 
n
2
i  x  ni
S i 1

Construiremos las tablas que nos faciliten los cálculos:

Edad Xc ni Hombres Media (xc-media)2*ni


13 a 19 16,5 22 55,23 32992,62
20 a 29 25 147 55,23 134296,42
30 a 39 35 233 55,23 95313,55
40 a 49 45 228 55,23 23839,89
50 a 59 55 202 55,23 10,27
60 a 95 77,5 556 55,23 275861,16
Total 1388 562313,92
 x 
n
2
i  x  ni
562.313,92
S Hombres  i 1
  20,13
N 1.388

Edad Xc ni Mujeres Media (xc-media)2*ni


13 a 19 16,5 11 55,30 16556,98
20 a 29 25 33 55,30 30290,27
30 a 39 35 73 55,30 30072,64
40 a 49 45 67 55,30 7103,41
50 a 59 55 71 55,30 6,25
60 a 90 77,5 163 55,30 80357,16
Total 418 164386,72

 x 
n
2
i  x  ni
164.386,72
S Mujeres  i 1
  19,83
N 418

Como podemos ver la dispersión de las edades también es muy semejante en ambos
casos, con un valor ligeramente superior en el caso de los hombres.

Ejercicio 2.

A partir de los datos del ejercicio anterior podemos comparar los coeficientes de
variación de ambas distribuciones, en forma de porcentajes.

S
CV   100
X

S 20,13
CV Hombres   100   100  36,45%
X 55,23

S 19,83
CVMujeres   100   100  35,86%
X 55,30

Dada la similitud en las medias y las desviaciones típicas, apenas se aprecian diferencias
en los coeficientes de variación

Ejercicio 3.

Mediante la curva normal estándar podemos calcular las proporciones, convirtiendo


nuestros datos particulares en puntuaciones Z

xi  X
Z
S
Como tenemos el valor de la Varianza (9), la desviación típica será: S  V  9  3
a)
xi  X 15  10
Z   1,667
S 3

Para ese valor de Z en la tabla tendremos la proporción 0,4525


Como la tabla de áreas bajo la curva normal ofrece la proporción de casos entre un valor
de x y la media y lo que buscamos es la proporción entre ese valor x y el final de la
curva, restaremos de 0,5 el valor de la tabla: 0,5-0,4525 = 0,0475
En porcentaje es el 4,75% de los casos

b)
Como los valores 8 y 12 están cada uno a un lado de la media, por encima y por abajo,
calcularemos las diferencias para ambos valores y las sumaremos:

xi  X 8  10
Z1    0,667
S 3
que en la curva normal se corresponde con una proporción de 0,2486

xi  X 12  10
Z2    0,667
S 3
que igualmente en la curva normal se corresponde con una proporción de 0,2486

La proporción buscada será 0,2486 * 2 = 0,4972


En número de casos será 0,4972 * 2.500 = 1.243

c)

La probabilidad buscada se puede obtener consultando en la tabla el valor Z para x=3


Y restando de 0,5
x  X 3  10
Z i   2,333 que en la tabla arroja una proporción de 0,4901
S 3
Por lo tanto la probabilidad buscada es 0,5-0,4901 = 0,0099 que expresado en % sería
aproximadamente el 1%

Ejercicio 4

Al tratarse de una población “finita” o inferior a 100.000 utilizaremos la fórmula que


incorpora la corrección para poblaciones finitas

N Z2  pq 13.200  1,96 2  0,5  0,5


n   574,18
N  1  e 2  Z 2  p  q 13.200  1  0,04 2  1,96 2  0,5  0,5
para no superar el error del 4% utilizaremos 575 unidades muestrales.
a) Dada la naturaleza de los datos el análisis de varianza permite respo... http://www.uned.es/111044/examenes/Junio 2001/solucion.htm

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES


Sociología: 111044
Ciencias Políticas:121046
Junio 2001. 2ªPP. 1ª Semana.

TIEMPO: 2 Horas.
MATERIAL: Todo tipo de material. (Calculadoras, libros, apuntes…)

Ejercicio 1.
Una ONG que tiene 64 oficinas repartidas por todo el país. Dicha ONG tiene un servicio de atención telefónica
dedicada a la orientación juvenil en temas sexuales. Un técnico de la organización ha establecido que la relación entre
el número de folletos distribuidos y el total de llamadas recibidas en cada uno de los centros tiene una relación lineal
cuyos datos son: Y=0,01x
Siendo el coeficiente de determinación de 0,64.
El número medio de llamadas efectuadas durante el mes anterior fue de 20 siendo el número medio de folletos
distribuidos de 2000 durante el mismo periodo.
a) Represente gráficamente la función anterior
b) Calcule la expresión que permite conocer el número de folletos necesarios a distribuir para alcanzar un número
determinado de llamadas.

Ejercicio 2.
La tabla siguiente muestra los resultados de una encuesta realizada en un barrio en función del sexo a la pregunta:
¿Cuál es su parecer con el emplazamiento del nuevo ferial?

Varones Mujeres
Muy Bien 25 50
Bien 25 100
Indiferente 100 50
Mal 25 75
Muy Mal 25 25

a) Calcule la proporción de mujeres del conjunto poblacional que les parece bien o muy bien el nuevo emplazamiento
b) ¿Puede afirmarse, para el total poblacional, que a las mujeres les parece mejor que a los varones el nuevo
emplazamiento?
c) Justifique su respuesta teniendo en cuenta que los resultados provienen de una muestra aleatoria.

Ejercicio 3.
Un investigador piensa que existen variaciones en la fecundidad en función de la condición socieconómica de las
familias. Para ello selecciona a seis mujeres de 50 años pertenecientes a tres niveles de condición socioeconómica. El
número total de hijos nacidos por mujer se refleja en la siguiente tabla.

Nivel Socioeconómico
Alto Medio Bajo
2 3 1
1 1 1
3 3 2
2 4 4
1 3 1
1 1 1

a) A partir de estos datos señale si la teoría del investigador se cumple en este caso.
b) Señale si se observa algún sentido en la relación entre fecundidad y nivel socioeconómico. Comente los
resultados

Ejercicio 4
Una semana antes de las elecciones al parlamento de una comunidad autónoma, dos periódicos regionales publican
los resultados de distintas encuestas realizadas de forma independiente. Como puede observar los resultados que
ofrece cada periódico son divergentes.
Periódico “El Día y la Noche”: Votos al partido ZYX= 42%. (n=1800)
Periódico “El Informante”. Votos al partido ZYX=36%. (n=6800)

a) Estos resultados dispares, ¿Son debidos a los distintos tamaños muestrales empleados?

1 de 7 06/04/2012 11:50
a) Dada la naturaleza de los datos el análisis de varianza permite respo... http://www.uned.es/111044/examenes/Junio 2001/solucion.htm

b) Razone su respuesta.

2 de 7 06/04/2012 11:50
a) Dada la naturaleza de los datos el análisis de varianza permite respo... http://www.uned.es/111044/examenes/Junio 2001/solucion.htm

RESPUESTAS

EJERCICIO 1.

a) Si estudiamos la recta obtenida deducimos que cada 100 folletos se produce una llamada. Se trata de
una función lineal, en la que no existe término independiente, por lo tanto la recta pasará por el origen de
coordenadas. Para representar dicha función podemos dar algunos valores, tal y como se hace en la
tabla siguiente:

Folletos Llamadas (y)


(x)
0 0
100 1
200 2
300 3
400 4
500 5
600 6
700 7
800 8
900 9
1000 10

Y el gráfico correspondiente:

b) Lo que se pide es obtener la recta de regresión que coloque a “x” como variable dependiente:

Si tenemos en cuenta que:

3 de 7 06/04/2012 11:50
a) Dada la naturaleza de los datos el análisis de varianza permite respo... http://www.uned.es/111044/examenes/Junio 2001/solucion.htm

Tenemos que:

Y por tanto:
Como dicha recta debe pasar por el punto que determinan las medias:

Luego:

Así la recta buscada será:

EJERCICIO 2.

a) Para realizar dicho ejercicio, en primer lugar calculamos los totales marginales:

Varones Mujeres
Muy Bien 25 50
Bien 25 100
Indiferente 100 50
Mal 25 75
Muy Mal 25 25
Total 200 300

La proporción de mujeres a quienes les parece bien o muy bien el nuevo emplazamiento será:

Es decir un 50%

b) La proporción de hombres será:

Un 25%.

Para estudiar si en el total poblacional se mantienen las diferencias observadas en la muestra, realizaremos
una prueba de hipótesis en la que contrastaremos la igualdad de proporciones.

Comenzaremos calculando la proporción media:

Su error típico será:

Ahora calculamos la diferencia entre ambas proporciones en unidades Z:

4 de 7 06/04/2012 11:50
a) Dada la naturaleza de los datos el análisis de varianza permite respo... http://www.uned.es/111044/examenes/Junio 2001/solucion.htm

El valor de Z señala que en la población existen, con un nivel de confianza mayor del 99%, diferencias
significativas entre la opinión que sobre la ubicación del recinto ferial tienen hombres y mujeres.

c) Los resultados muestran que efectivamente las opiniones de varones y mujeres son distintas. El
importante tamaño muestral utilizado (n=500) nos permite asegurar esto con gran confianza.

EJERCICIO 3.

a) Dada la naturaleza de los datos el análisis de varianza permite responder a esta cuestión. En primer
lugar calculamos los totales marginales, los cuadrados de estos y las medias:

Nivel Socioeconómico
Alto Medio Bajo Total

2 3 1
1 1 1
3 3 2
2 4 4
1 3 1
1 1 1
Total 10 15 10 35
Total2 100 225 100 425
Media 1,67 2,5 1,67

En primer lugar calculamos la suma total de cuadrados:

La tabla siguiente nos ayuda en el cálculo:

Total
4 9 1
1 1 1
9 9 4
4 16 16
1 9 1
1 1 1
20 45 24 89

5 de 7 06/04/2012 11:50
a) Dada la naturaleza de los datos el análisis de varianza permite respo... http://www.uned.es/111044/examenes/Junio 2001/solucion.htm

Luego:

La suma de cuadrados entre grupos será:

=70,83-68,06=2,77

Y la suma de cuadrados dentro de los grupos, será:

SCd=SCt-SCent

SCd=20,94-2,77=18,17

Los grados de libertad serán:

Glent=k-1=3-1=2
Gld=N-k=18-3=15

Así obtenemos que:

Grados de Suma de Varianza


Libertad Cuadrados
Entre 2 2,77 1,385
Dentro 15 18,17 1,211
TOTAL 17 20,94

Por tanto:

Como para un nivel de confianza del 95% el valor teórico de F=3,68 es mayor que el aquí obtenido no puede
afirmarse a la vista de estos datos que exista relación entre el nivel socioeconómico y la fecundidad.

b) Al observar las medias de cada uno de los grupos se aprecia una relación curvilínea entre fecundidad y
nivel socioeconómico, en el sentido de que las familias medias tendrían una fecundidad más elevada que
las situadas en los extremos de la escala. Sin embargo las observaciones efectuadas anteriormente no
permiten extrapolar dicha afirmación al conjunto poblacional. El investigador si desea probar su teoría
deberá aumentar el tamaño muestral.

Ejercicio 4.

a) Para responder a esta cuestión vamos a contrastar la hipótesis de que no existen variaciones entre
ambos resultados, obtenidos de dos muestras independientes.

Para ello calculamos en primer lugar la proporción media:

6 de 7 06/04/2012 11:50
a) Dada la naturaleza de los datos el análisis de varianza permite respo... http://www.uned.es/111044/examenes/Junio 2001/solucion.htm

El error típico de la proporción media será:

Ahora calculamos la diferencia entre ambas proporciones en unidades Z:

El valor obtenido muestra que para niveles de confianza superiores al 99% no podemos considerar que
ambas muestras se refieran a la misma población.

b) A tenor de lo anterior la explicación más probable es que el universo definido para cada encuesta sea
distinto o que se hayan realizado en momentos muy distintos en el tiempo. Lo que esta claro es que la
disparidad de resultados no puede atribuirse al tamaño muestral empleado, sino seguramente a que una o tal
vez las dos encuestas estén mal realizadas. Es decir hayan incluido muestras sesgadas o parciales respecto
al universo de estudio.

7 de 7 06/04/2012 11:50
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/solujunio20012.htm

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES


Sociología: 111044
Ciencias Políticas:121046
Junio 2001. 2ªPP. 2ª Semana.

TIEMPO: 2 Horas.
MATERIAL: Todo tipo de material. (Calculadoras, libros, apuntes…)

EJERCICIO 1.
En la encuesta-barómetro del CIS de octubre de 2000, 1225 entrevistados (de un total de 2500)
manifestaron que el Presidente del Gobierno D. José María Aznar no les inspira confianza. En enero
de 2001 fueron 1313 entrevistados (también de 2500) los que afirmaron lo mismo. ¿Podemos decir
con una probabilidad de acertar de 0,95 que entre octubre y enero ha aumentado en el seno de la
población española la desconfianza en el Presidente del Gobierno?

Llamemos a la probabilidad de encontrar un individuo que ‘desconfía’ del Presidente del Gobierno en
la muestra de octubre de 2000 (o a la proporción de estos individuos en dicha muestra) «p1». Y a la
probabilidad de encontrarlo en la muestra de enero de 2001 «p2». Y al tamaño de la primera muestra
«n1» y siendo el de la segunda «n2»

p1 = = 0,49

p2 = = 0,53

Como vemos p1 < p2 .


Lo que queremos saber es si esta desigualdad se mantiene en el total de la Población española, es decir
si P1 < P2.
Estamos, como es obvio, ante una prueba de hipótesis o un contraste con dos muestras.

Como lo que queremos saber es si el sentido de la desigualdad se mantiene en la Población, la prueba


será unilateral. Considerando como hipótesis nula (H0) que P1 = P2 y como hipótesis alternativa que
P1 < P2 .

Jugar con una probabilidad de acertar del 0,95 quiere decir que fijamos un nivel de confianza del 95 %
.

Como las muestras son suficientemente grandes la distribución muestral considerada será «normal».

El valor de la distribución muestral a considerar será

Como n1 = n2 , entonces

Por lo tanto: q = 1 – 0,51 = 0,49 [q = p - 1]

1 de 6 06/04/2012 11:50
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/solujunio20012.htm

Siendo el error típico:

El «z» empírico (ze) que necesitamos para el contraste será:

El «z» crítico (zc) para una prueba unilateral con un nivel de confianza del 95% es:

zc= -1,645

Como ze está en la zona de rechazo al ser su valor absoluto superior al de zc, aceptamos la hipótesis
alternativa.
Podemos, por lo tanto, decir (con una probabilidad de acertar del 0,95) que, entre los meses
considerados, ha aumentado la desconfianza de la Población española hacia el Presidente del
Gobierno.

EJERCICIO 2.
En Marzo de este año el Gabinete de Prospección Sociológica del Gobierno Vasco hizo públicos los
resultados de una encuesta preelectoral. En la provincia de Vizcaya (que cuenta con unos 980 mil
habitantes), un 23,5% de los 1330 individuos entrevistados pensaban votar al PP.

El PP obtuvo en Vizcaya en las anteriores elecciones vascas de octubre de 1998 un 20,2% de los
votos. Con los resultados de la encuesta de marzo de este año ¿podemos decir con un error de ± 2%
que la población vasca ha cambiado (en lo que al voto al PP se refiere)?

La proporción de votantes del PP en la muestra (de marzo de 2001) es p = 0,235. La proporción de éstos
en la Población vizcaína (según los resultados de las elecciones del 98) es P = 0,202.

Este ejercicio lo podemos resolver de dos maneras:

A. ESTIMACIÓN

Sabemos que p = P ± error. Y de igual modo: P = p ± error.

Para un error de ± 2%, es decir, en términos de proporción, de ± 0,02, el intervalo de confianza que nos
permite decir que no existe diferencia (significativa) entre el estadístico (muestral) y el parámetro(
poblacional) es el siguiente:

2 de 6 06/04/2012 11:50
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/solujunio20012.htm

0,235 ± 0,02 à [0,215 ; 0,255]

Como se ve, el valor 0,202 queda fuera de este intervalo.


Por lo tanto podemos decir (admitiendo un error máximo del 2%) que la población a la que corresponde
la muestra es distinta a la población que votó en 1998: el número de votantes al PP ha cambiado (de
1998 a 2001) en la población vizcaína.

B. CONTRASTE DE HIPOTESIS

Calcularemos el error típico para obtener el «z» empírico a contrastar

Necesitamos ahora calcular el «z» crítico para un error de ± 0,02.

Sabemos que error = z · σp.

En este caso:
0,02 = zc · 0,011

Como /zc/ < /ze/ , es decir, como el valor «z» empírico está en la zona de rechazo de la hipótesis nula,
que sostiene que no hay diferencias entre la población de la muestra y la que ya conocemos, tenemos
que admitir (con un error máximo de ± 2%) que la población de la muestra es distinta en lo que a la
proporción de votantes del PP se refiere.

EJERCICIO 3.
En un estudio sobre religiosidad en España encontramos los siguientes datos:

Sexo edad
varón Mujer 18-29 30-45 46-65 > 65
católico/a
practicante 560 920 140 230 530 770
católico/a
no 840 710 470 460 350 170
practicante

Averigüe con qué presenta más asociación la religiosidad, si con el sexo o con la edad.

Tenemos que medir la asociación, por un lado, entre las variables sexo y religiosidad y, por otro, entre
edad y religiosidad.

Para ello tendremos que utilizar el mismo coeficiente en los dos casos (para permitir la
comparabilidad).

Hay que tener en cuenta que la edad se puede utilizar como variable nominal: toda variable cuyo nivel

3 de 6 06/04/2012 11:50
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/solujunio20012.htm

máximo de medición sea intervalar puede contemplarse también en niveles de medición más básicos:
ordinal y nominal.

Veamos con una distribución teórica χ2 la posible asociación.

1. ASOCIACIÓN RELIGIOSIDAD/SEXO

Calcularemos la tabla de frecuencias esperadas en cada casilla (que nos define la no asociación entre
las variables).

varón Mujer total


católico/a
practicante 684 796 1480
católico/a
no 716 834 1550
practicante

total 1400 1630 3030

Calcularemos la chi-cuadrado (χ2), basándonos en las diferencias entre la tabla de frecuencias


observadas y la tabla de frecuencias esperadas.

χrs2= 22,48 + 19,32 + 21,47 + 18,44 = 81,71

Para poder decir más acerca de la asociación entre sexo y religiosidad utilizamos un coeficiente
estandarizado que nos permita la comparación del grado de asociación entre otras variables.
Utilizamos, por ejemplo, el V de Cramer (que en este caso tendría el mismo valor que el coeficiente Ф).

La asociación es muy baja.

2. ASOCIACIÓN RELIGIOSIDAD/EDAD

De igual modo, calcularemos en este caso la tabla de frecuencias esperadas en cada casilla.

18-29 30-45 46-65 > 65 total


católico/a
practicante 327 369 471 503 1670
Católico/a
no 283 321 409 437 1450
practicante

total 610 690 880 940 3120

Calcularemos la chi-cuadrado (χ2) para ver si existe asociación.

4 de 6 06/04/2012 11:50
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/solujunio20012.htm

χre2 = 106,94 + 52,36 + 7,39 + 141,73 + 123,57 + 60,19 + 8,51 + 163,13

χre2 = 663,82

Usamos como en el caso anterior la V de Cramer para estandarizar el grado de asociación.

CONCLUSIÓN

Como podemos ver, la religiosidad está mucho más asociada con la edad que con el sexo.

EJERCICIO 4.
En una determinada e imaginaria provincia la edad media de las mujeres es de 47 años (con una
desviación típica de 10 años) y el número medio de hijos de éstas es de 3,2 (con una desviación típica
de 1 hijo). El coeficiente de correlación ‘r’ entre la edad de las mujeres y el número de hijos es de
0,4. Halle la recta que permite predecir el número de hijos conociendo la edad de la mujer.

Llamemos a la «edad» de las mujeres variable «x» y al «nº de hijos» de éstas variable «y»

La recta que se nos pide es:

y = a + bx

Tendremos que calcular los parámetros «a» y «b» que la definen.

Sabemos que

y que

Entonces

; sxy= 4

Como el punto pertenece a la recta y = a + bx :

3,2 = a + 0,04 · 47

5 de 6 06/04/2012 11:50
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/solujunio20012.htm

a = 3,2 – 1,88 = 1,32.

Por lo tanto, la ecuación de la recta que se nos pide será:

y = 1,32 + 0,04 x

6 de 6 06/04/2012 11:50
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/junio 2002/junio2002IIs.htm

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES

JUNIO 2002. PRIMERA SEMANA.

SOLUCIONES.

Ejercicio 1.
En un artículo referido a una región mediterránea leemos lo siguiente: “A partir de los datos de una
encuesta probabilística, para un nivel de confianza del 99% la edad media de las madres cuando
tienen el primer hijo se encuentra en el intervalo (27,2 años y 29,3 años)”
a) a) ¿Podría señalar cuál es el intervalo para esa muestra con un nivel de confianza del
95,45%?
b) b) ¿Sería capaz de decir cuántas entrevistas se han realizado?
***

En este ejercicio partimos del intervalo de confianza. Dicho intervalo se construye mediante la suma y la
resta al valor del estadístico, en este caso de una media, del error muestral.
En primer lugar calculamos el valor central del intervalo, que será el valor de dicho estadístico:

El punto medio del intervalo:

Es decir, en la muestra la edad media de las madres al primer hijo es 28,25 años.

El error muestral será la diferencia entre los extremos del intervalo respecto al valor del estadístico:
29,3-28,25=1,05 (También puede calcularse como la diferencia respecto al extremo inferior
28,25-27,2=1,05).

Por lo tanto B, el error muestral, es 1,05.

El error muestral es el producto del error típico por el nivel de confianza:


Expresado en notación algebraica:

En nuestro caso, como el nivel de confianza es del 99%, Z=2,58, y por tanto:

El error típico será:

El intervalo para un nivel de confianza del 95,45% vendrá dado por el producto del error típico por Z=2

Y por lo tanto el intervalo será:

b) No, a partir de los datos disponibles, media y error típico no puede obtenerse “n”. Para ello habría
hecho falta conocer la desviación típica o la varianza de la edad al primer nacimiento.

Ejercicio 2.

1 de 4 06/04/2012 11:53
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/junio 2002/junio2002IIs.htm

Un periodista está investigando un presunto fraude en un concurso de gimnasia rítmica. A partir de


las actas de las votaciones ha conseguido la siguiente información, de las votaciones realizadas por
los tres jueces a los cuatro candidatos finalistas:

Juez 1 Juez 2 Juez 3


A 1 4 2
B 3 2 4
C 2 1 3
D 4 3 1
En dicha fase de concurso cada juez puntuaba con un uno al mejor participante y con un cuatro al
peor. Dicho periodista le pide a usted un informe sobre la posibilidad de que haya algún juez que
haya mantenido criterios discrepantes respecto a los otros en las valoraciones de los finalistas.
¿Podría ayudarle?

***

Podemos comparar los criterios de evaluación de los jueces de dos en dos, analizando la asociación entre
ellos, utilizando para ello el coeficiente “rho” (r) de Spearman.

Juez 1 Juez 2 D D2
1 4 -3 9
3 2 1 1
2 1 1 1
4 3 1 1

Juez 1 Juez 3 D D2
1 2 -1 1
3 4 -1 1
2 3 -1 1
4 1 3 9

Juez 2 Juez 3 D D2
4 2 2 4
2 4 -2 4
1 3 -2 4
3 1 -2 4

2 de 4 06/04/2012 11:53
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/junio 2002/junio2002IIs.htm

Está claro que el juez 1 es el que más discrepa frente a los criterios de los otros dos.

Ejercicio3.
Un investigador selecciona aleatoriamente trescientas viviendas en alquiler en un determinado
barrio, y a partir de estos datos encuentra una clara relación inversa entre el precio del alquiler y
la distancia a la estación de ferrocarril. Según sus cálculos el coeficiente de determinación es 0,49.
Calcule para un nivel de significación del 0, 5 un intervalo para el coeficiente r de Pearson.
***
2
El coeficiente de determinación (r ) sabemos que es 0,49.
R por lo tanto será 0,7 o bien –0,7
Como nos dicen que la relación entre las variables es inversa ( es decir, a más distancia a la estación
menor será el precio del alquiler), r =-0,7

Para un nc = 95% [z = 1,96], el intervalo será:

Conocido r, obtenemos Zr a partir de las tablas de valores de Z para valores dados de r


El valor r = 0,7 se corresponde con un Zr = 0,8673

Convirtiendo de nuevo los valores de Z a valores R mediante la tabla, tenemos que el intervalo pedido
para el coeficiente de correlación en la población sería (-0,639;-0,760)

Ejercicio 4.
Una socióloga está investigando la discriminación laboral de las mujeres. Ha realizado una encuesta
a 400 familias en las que trabajan los dos cónyuges. Cuando ha preguntado el tiempo de
desplazamiento desde el hogar hasta el lugar de trabajo, ha encontrado los siguientes resultados:

Varones Mujeres
Tiempo medio de 35 minutos 56 minutos
desplazamiento diario
Desviación típica 8 minutos 14 minutos

¿Puede decirnos si a partir de estos datos puede señalarse que las mujeres ocupan los puestos de
trabajo en localizaciones más remotas que los varones?
***
Se trata de una prueba de hipótesis de diferencias de medias. En primer lugar calculamos los errores
típicos al cuadrado para varones y para mujeres:

Varones:

Mujeres: 0,49

3 de 4 06/04/2012 11:53
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/junio 2002/junio2002IIs.htm

El error típico de la diferencia:

Por tanto la diferencia de medias en unidades Z será:

El elevado valor de Z señala claramente que existen diferencias en los tiempos de desplazamiento laboral
y que las mujeres ocupan puestos de trabajo más lejanos a sus domicilios respecto a sus parejas.

4 de 4 06/04/2012 11:53
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2002/junio 2002 2 semana.htm

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES

JUNIO 2002. SEGUNDA SEMANA.

SOLUCIONES.

Ejercicio 1.
En los `barómetros´ del CIS se pide a los ciudadanos españoles que se sitúen políticamente en una
escala que va de 1 (posición más a la izquierda) al 10 (posición más a la derecha). El valor central de
la escala es el 5,5.
En febrero de 1998, en una muestra de 1905 entrevistados se obtuvo un valor medio de 4,75 y una
desviación de 1,86.
Un año más tarde, en febrero de 1999, con una muestra de 1751 entrevistados, el valor medio fue de
4,88 y la desviación típica de 1,79.
¿Podemos decir (con un 95% de probabilidades de acertar) que la población española se ha
desplazado a la derecha entre 1998 y 1999?
***

Se trata, claro está, de una prueba de hipótesis. Se trata de comparar los valores medios de lo que
podemos llamar 'autoposicionamiento político' de dos muestras extraidas de dos poblaciones
supuestamente distintas (la p. española de 1998 y la de 1999) y ver si existen o no diferencias
significativas entre ellos.

Como nos dan el sentido de la diferencia (la media de 1999 es mayor que la de 1998; y esto es lo que nos
permite hablar de derechización de la población española), la prueba será unilateral.

La 'significatividad' de la diferencia vendrá dada por el nivel de confianza. Y en este caso, el nivel de
confianza con el que hemos de trabajar es del 95 %. Por lo tanto, el valor "z" asociado a este nc (el 'z
teórico') será "1,645".

En este contraste o prueba de hipótesis, trabajamos con la distribución muestral configurada por la
diferencia entre las medias.

Ahí el error típico será:

; donde e igualmente
Por lo tanto,

Calculamos el 'z empírico' para contrastar.

Como , ze está en la zona de rechazo de la hipótesis nula, hipótesis que sostiene que no hay
diferencias significativas. Por lo tanto, hemos de aceptar la hipótesis alternativa (sí hay diferencias:
). Podemos decir, con un nivel de confianza del 95%, que la población española se ha derechizado

1 de 4 06/04/2012 11:53
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2002/junio 2002 2 semana.htm

entre 1998 y 1999.

Ejercicio 2.
Tenemos los siguientes datos de cuatro individuos de un grupo:

Edad Estatura
(en años) (en metros)
Individuo 1 13,1 1,40
Individuo 2 11,2 1,20
Individuo 3 12,0 1,20
Individuo 4 13,2 1,45

a) ¿Cuál será el coeficiente de correlación entre la edad y la estatura? (utilice al menos 3


decimales)
b) ¿Cuál sería el coeficiente de correlación si tuviésemos sólo 2 individuos?
***

a) En primer lugar calculamos las medias, varianzas y covarianza de ambas variables:

Edad Altura X2 Y2 XY
Individuo 1 13,1 1,40 171,61 1,96 18,34
Individuo 2 11,2 1,20 125,44 1,44 13,44
Individuo 3 12,0 1,20 144,00 1,44 14,40
Individuo 4 13,2 1,45 174,24 2,10 19,14
49,5 5,25 615,29 6,94 65,32

La media será:

La varianza será:

La covarianza:

Entonces:

2 de 4 06/04/2012 11:53
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2002/junio 2002 2 semana.htm

b) Con sólo 2 individuos “r” sería igual a 1.

Ejercicio 3.
Según el censo de población de 1991, en la Comunidad de Madrid encontramos un total de 289.804
parados, de los cuales 128.186 son hombres y 161.618 son mujeres. Según la encuesta de Población
Activa en el primer trimestre de 1991, en la Comunidad de Madrid encontramos entre los
entrevistados a 620 hombres parados y 730 mujeres paradas.

a) Estime para la población la proporción de hombres parados sobre el total de parados a


partir de los datos obtenidos en la encuesta.
b) Estime también la proporción de mujeres paradas.

***

a)
Para estos datos, la proporción de hombres parados (sobre el total de parados) en la población de la
Comunidad de Madrid estará comprendida entre unos parámetros que dependerán del nivel de confianza
que consideremos. Como aquí no se nos da ninguno, fijamos uno, que bien puede ser, por la generalidad
con la que se usa, del 95 % (pero cualquier otro nos valdría: eso sí, obtendríamos resultados diferentes con
cada uno de ellos).

La muestra de 'población parada' estaría formada por 620 + 730 individuos (n = 1350).

La proporción de hombres parados en la muestra sería de 620 / 1350 (p = 0,46).

La proporción de hombres parados en la población madrileña (P) estaría comprendida en el intervalo


definido de la siguiente manera:

P = p ± z · σp

Siendo el error típico σp = .

Para los datos que tenemos σp = = 0,013565.

Por lo tanto, P = 0,46 ± 1,96 · 0,013565 = 0,46 ± 0,0266 = [


Estimamos, por lo tanto, que el parámetro poblacional, en este caso, la proporción de hombres parados
sobre el total de parados en la Comunidad de Madrid estará comprendida entre estos valores, o en
términos porcentuales, la población masculina parada supondrá entre el 43,34 % y el 48,66 % del total de
parados.

Como el total de parados de la población en valores absolutos es de 289.804, según nuestra estimación, el
número de varones parados en la Comunidad de Madrid estaría entre 125.601 y 141.019. Podemos ver
que nuestra estimación ha sido acertada, ya que este número es de 128.186.

b)
Si la población masculina parada estimábamos que estaría entre el 43,34% y el 48,66%, se supone que la
femenina estará entre el 56,66% y el 51,34%. Comprobémoslo. Aunque no hubiese hecho falta hacer
nada más.

3 de 4 06/04/2012 11:53
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2002/junio 2002 2 semana.htm

La proporción de mujeres paradas en la muestra sería p = 0,54.

σp sería la misma que para los varones: σp = = 0,013565

Y el intervalo de estimación sería:

P = 0,54 ± 1,96 · 0,013565 = 0,54 ± 0,0266 = [

Ejercicio 4.

a) ¿Sería estadísticamente posible encontrar una correlación r = 0,9 en una población de


asalariados y asalariadas entre las variables “sexo” y “salario”?
b)¿Y una correlación r = -0,3?
c)Argumente sus respuestas sólo desde el punto de vista de la estadística teórica.
***
a)
El coeficiente de correlación está definido para variables medidas a nivel de intervalo y como la variable
“sexo” es del tipo nominal, no tiene sentido hablar de correlación estadística, independientemente de cual
sea la relación entre ambas variables.
b)
Por las mismas razones que en el punto anterior, r carece de sentido para explicar la relación entre sexo y
salario.

4 de 4 06/04/2012 11:53
junio 2003 1 s http://www.uned.es/111044/examenes/Junio 2003/junio2003.htm

Facultad de Ciencias Políticas y Sociología


Estadística Aplicada a las Ciencias Sociales
Examen de Junio 2003.
2ª Prueba Presencial. 1ª Semana.

Material permitido: Todo tipo de material. (Libros, apuntes, máquinas electrónicas de cálculo.)
Duración: 2 Horas.

Ejercicio 1
Una organización ecologista establece un sistema de 400 puntos de control repartidos aleatoriamente a lo
largo de la costa afectada por los vertidos de un petrolero hundido. En la semana anterior encontraron que
el 20% de los puntos de muestreo estaba afectado por el vertido. En la semana actual es el 42%.
¿Puede señalarse para un nivel de significación del 5% que el vertido llegado hasta la costa ha crecido
durante la última semana?

Ejercicio 2
A partir de los datos siguientes:
a) Calcule una recta de regresión que permita estimar ‘la tasa de delincuencia’ de una ciudad cuando
se conoce ‘la tasa de paro’.
b) Comente los resultados sobre la relación que se observa entre paro y delincuencia.
Tasa de paro Tasa de delincuencia
Ciudad A 12 6
Ciudad B 10 5
Ciudad C 16 4
Ciudad D 20 4
Ciudad E 10 6

Ejercicio 3
El servicio de atención de calidad de un hospital ha realizado una encuesta de satisfacción con el servicio a
120 varones y a 90 mujeres. El 45% de los varones han expresado distintos motivos de queja por la atención
recibida mientras que sólo lo han hecho el 38% de las mujeres entrevistadas. A la vista de los datos, ¿Puede
sostenerse que existen diferencias en la percepción del servicio entre varones y mujeres? Explique su
respuesta.

Ejercicio 4
La siguiente tabla muestra el número de minutos de televisión consumidos para una muestra de 8 familias
de tres barrios residenciales de distintos niveles de estatus socioeconómico.

Estatus Bajo 120 245 480 355 240 625 440 240
Socioeconómico Medio 240 300 125 100 300 250 90 220
Alto 60 125 340 210 300 400 90 200

A la vista de los resultados anteriores podría señalar si existe relación entre el estatus socioeconómico y el
consumo de televisión.
Ejercicio 1

Se trata de una prueba de hipótesis unilateral del estadístico de la proporción para dos muestras. Para
calcular el error típico se utiliza la proporción media:

1 de 6 06/04/2012 11:55
junio 2003 1 s http://www.uned.es/111044/examenes/Junio 2003/junio2003.htm

Dado que n1=n2 la fórmula se simplifica a una media aritmética:

Así:

Y el error típico será, teniendo en cuenta que n1=n2:

El estadístico Z tomará el valor:

El valor de Z es tan elevado que, sin necesidad de observar la tabla, puede rechazarse la hipótesis nula. Con
un nivel de confianza superior incluso al 99%, puede asegurarse que el vertido ha crecido durante la última
semana.

2 de 6 06/04/2012 11:55
junio 2003 1 s http://www.uned.es/111044/examenes/Junio 2003/junio2003.htm

Ejercicio 2.

Para obtener la recta de regresión calculamos las columnas de cuadrados y productos cruzados y la fila de
los sumatorios.

X Y X2 Y2 XY
144 36 72
12 6

100 25 50
10 5

256 16 64
16 4

400 16 80
20 4

100 36 60
10 6

68 25 1000 129 326

A partir de estos datos calculamos las medias, las varianzas y la covarianza:

Por tanto,

La recta será: y=7,53-0,186x

b) Los datos muestran una relación inversa o negativa entre paro y delincuencia. Obsérvese que la
covarianza es negativa.
Ejercicio 3

3 de 6 06/04/2012 11:55
junio 2003 1 s http://www.uned.es/111044/examenes/Junio 2003/junio2003.htm

Se trata de una prueba bilateral de diferencia de proporciones Para calcular el error típico se utiliza la
proporción media:

Y el error típico será

El estadístico Z tomará el valor:

Para un nivel de significación del 95% en una prueba bilateral el valor crítico del estadístico es 1,96. El valor
de la prueba en este caso es claramente inferior, por lo tanto no puede rechazarse la hipótesis nula. Ello
quiere decir que estadísticamente en función del tamaño muestral utilizado no puede sostenerse que existen
diferencias en la valoración de la atención sanitaria que realizan varones y mujeres.

4 de 6 06/04/2012 11:55
junio 2003 1 s http://www.uned.es/111044/examenes/Junio 2003/junio2003.htm

Ejercicio 4
El análisis de varianza permitirá contestar a la pregunta. En primer lugar calculamos las sumas de cuadrados:

X1 X2 X3

120 240 60
245 300 125
480 125 340
355 100 210
240 300 300
625 250 400
440 90 90
240 220 200
2745 1625 1725 6095

7535025 2640625 2975625

941878,125 330078,125 371953,125 1643909,38

14400 57600 3600


60025 90000 15625
230400 15625 115600
126025 10000 44100
57600 90000 90000
390625 62500 160000
193600 8100 8100
57600 48400 40000
1130275 382225 477025 1989525

Las medias serán:

5 de 6 06/04/2012 11:55
junio 2003 1 s http://www.uned.es/111044/examenes/Junio 2003/junio2003.htm

La Suma Cuadrados Total:

La suma de cuadrados entre grupos:

La suma de cuadrados dentro de los grupos= 441648,958-96033,333=345615,625

Origen de la variación Grados de libertad Suma de cuadrados Estimación de


varianza
Entre Grupos 2 96033,333 48016,667
Dentro de grupos 21 345615,625 16457,887
TOTAL 23 441648,958

El valor otenido de F es menor que el teórico para un nivel de confianza del 95%, por tanto la conclusión es
que no pueden señalarse a partir de esta muestra diferencias entre el consumo televisivo y el estatus
socioeconómico.

Valores de F2,21 para:


p=5% 3,47
P=1% 5,78
p=0,1% 9,77

6 de 6 06/04/2012 11:55
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/junio 2004/primera junio.htm

Facultad de Ciencias Políticas y Sociología


Estadística Aplicada a las Ciencias Sociales
[Políticas: 111044 / Sociología: 121046]
JUNIO 2004 1ª SEMANA. Original.

Material permitido: Todo tipo de material. (Libros, apuntes, máquinas electrónicas de cálculo.)
Duración: 2 Horas. Cada ejercicio se evaluará sobre 2,5 puntos.
_________________________________________________________________________

Ejercicio 1
Una muestra aleatoria de 225 madrileños reveló que sólo 18 de ellos poseían DVD. ¿Podemos decir
con estos datos que menos del 10 % de los madrileños poseen DVD?
(Considere un nivel de significación del 95%)

En primer lugar tenemos que calcular es el porcentaje de los entrevistados que poseen DVD.

P = 18/225 = 0,08

Para a continuación ver si el 10 % está dentro del intervalo de confianza considerado en la estimación.

Aquí, se nos señala un nivel de significación del 95 %, o lo que es lo mismo un nivel de confianza del 5 %.

El dato no es erróneo, puesto que el nivel de ‘significación’ puede oscilar entre 0 y 100.
Aunque mucha gente puede haber creído que se hablaba de nivel de ‘confianza’.
Consideraremos, por lo tanto, ambos casos.

a) Con un nivel de significación del 95 %.

Calculamos el error típico.

A un nivel de significación del 95 % le corresponde un valor Z aproximado a 0,06.


Por lo tanto el intervalo de confianza oscilará entre los siguientes valores:

0,08 ± 0,06 · 0,018.

Es decir, entre 7,89 % y 8,11 %. Entre estos valores estará el valor de la población para el nivel de
significación considerado. Siempre por debajo del 10 %. Podemos afirmar que menos del 10 % de la
población no tienen DVD.

b) Con un nivel de significación del 5 %, esto es, con un nivel de confianza del 95 %.

Z sería aquí igual a 1,96.

El intervalo de confianza oscilará entre:

0,08 ± 1,96 · 0,018.

Esto es entre 4,46 % y 11,55 %. Lo que quiere decir que no podemos asegurar que el parámetro
poblacional se encuentre por debajo del 10 %.

1 de 5 06/04/2012 11:58
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/junio 2004/primera junio.htm

Ejercicio 2

En una encuesta hemos obtenido los siguientes resultados al cruzar el estado de la población activa
con su estado civil:

Soltero Casado
Ocupado 102 638
Parado 6 27

¿Puede explicarse la distinta incidencia del paro entre solteros y casados como resultado de una
variación puramente aleatoria?

Esto se puede ver por la diferencia de proporciones.


Suponemos que las extracciones de solteros y casados son independientes.
Así tendremos una muestra de solteros (1) y otra de casados (2), en donde las proporciones de parados
son las siguientes.

p1 = 6/108 = 0,0556

p2 = 27/665 = 0,0406

Buscamos saber si la diferencia en la proporción de parados entre solteros y casados es debida a factores
aleatorios, es decir, si dicha diferencia no es significativa estadísticamente, si podemos decir para la
población que no hay diferencias en las proporciones de parados solteros y parados casados. Para ello
definiremos un nivel de confianza. Por ejemplo, el 95 %. Hubiésemos podido coger cualquier otro, entre 0
y 100.

En este caso los valores críticos de Z son ± 1,96.

La distribución muestral de la diferencia entre dos proporciones muestrales (p1 - p2) es normal, siendo n1
y n2 suficientemente grandes, y tiene una media igual a "p1 - p2" y una desviación típica σp

σp=

siendo p una media ponderada de las dos proporciones muestrales, esto es,

y q = 1- p

El estadístico de prueba es

Z=

_______________

2 de 5 06/04/2012 11:58
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/junio 2004/primera junio.htm

q = 1 - 0,0427 = 0,9573

σp=

Por lo tanto,

Z=

Como el Z empírico obtenido está dentro de la región crítica, podemos decir que las proporciones de
parados son iguales para los solteros y para los casados, esto es, que las diferencias obtenidas en las
muestras son puramente aleatorias.

3 de 5 06/04/2012 11:58
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/junio 2004/primera junio.htm

Ejercicio 3

La siguiente tabla muestra la evolución conjunta de los valores medios de la renta y del consumo
privado ‘per cápita’ en los Estados Unidos de América (en dólares).
Año Renta Consumo
1980 9722 8783
1981 9769 8794
1982 9725 8818
1983 9930 9193

a) Calcula el coeficiente de correlación entre ‘renta’ y ‘consumo’ y dé una interpretación de éste.


b) En el caso de que hubiésemos contado con los datos (no agrupados por año) de los individuos,
¿cómo hubiese sido dicho coeficiente?: ¿mayor o menor que el obtenido? ¿Por qué razón?

Llamemos a la Renta "X" y al Consumo "Y".

= 9786,5 $

= 8885,75 $

X Y X- Y- (X - )2 (Y - )2 (X - ) (Y -
)
9722 8738 -64,5 -147,75 4160,25 21830,06 9529,875
9769 8794 -17,5 -91,75 306,25 8418,06 1605,625
9725 8818 61,5 -67,75 3782,25 4590,06 4166,625
9930 9193 143,5 307,25 20595,25 94402,56 44090,375

X- )2 = 28.844

Y- )2 = 129.240,74

X- )(Y - ) = 59.392,5

El coeficiente de correlación será

El coeficiente que correlaciona renta y consumo es altísimo, lo que quiere decir que una y otro están muy
relacionados o se encuentran muy 'asociados': a cada incremento de renta le corresponderá un incremento
lineal del consumo.

¿A qué se debe esta altísima correlación? Aparte de la relación funcional entre ambas variables tenemos
que tener en cuenta lo que se ha llamado "falacia ecológica" o "correlación ecológica" [en el Manual de
Sánchez Carrión, páginas 44-47 y 536-537]. Al considerar 'unidades agregadas' la correlación siempre será
más alta que si tenemos en cuenta 'unidades individuales'. Nunca se deben mezclar unidades de nivel

4 de 5 06/04/2012 11:58
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/junio 2004/primera junio.htm

individual y agregado en un mismo análisis. Y no podemos establecer conclusiones individuales partiendo


de unidades agregadas.

Ejercicio 4
Un encuesta del CIS (estudio 2315) realizada en 1999 entrevistó a 938 mujeres residentes en
municipios rurales de 18 a 49 años y a 2733 mujeres residentes en municipios urbanos del mismo
grupo de edad. De las entrevistadas rurales 148 dijeron estar en paro mientras que 503 mujeres
urbanas se consideraron paradas.
Estime para un nivel de significación del 5% la proporción de paradas rurales en el conjunto de la
población española.

Las mujeres rurales en paro supone el 15,78 % del total de mujeres rurales.

A un nivel de significación del 5 % le corresponde una Z igual a 1,96.

El error típico que tendríamos que considerar sería

La proporción de paradas en la población estaría entre

0,1578 ± 1,96 · 0,0119

Es decir entre 0,1345 y 0,1811.

5 de 5 06/04/2012 11:58
Ejercicio 1 http://www.uned.es/111044/examenes/junio 2004/soluciones junio2004.htm

Facultad de Ciencias Políticas y Sociología


Estadística Aplicada a las Ciencias Sociales
JUNIO 2004 2ª SEMANA.

Ejercicio 1
En una muestra de 100 individuos hemos obtenido unos ingresos medios de 1400 € al mes
(con una varianza de 160.000).
Con esta muestra, ¿podría afirmarse que los ingresos medios en la población son 1.500 €?
¿Con qué nivel de significación podría afirmarse esto?

Ejercicio 2
Un test nos mide el aprendizaje del castellano (entre 0 y 100) de unas muestras de
estudiantes extranjeros en España procedentes de 3 países distintos. Los resultados
obtenidos en los 13 estudiantes seleccionados son los siguientes:

PAÍSES
A B C
29 90 45
64 66 59
33 73 51
40 55 44
55

¿Son las tres poblaciones representadas en las muestras diferentes en cuanto al grado medio
de aprendizaje del castellano?

Ejercicio 3
Un encuesta del CIS (estudio 2315) realizada en 1999 entrevistó a 938 mujeres residentes en
municipios rurales de 18 a 49 años y a 2733 mujeres residentes en municipios urbanos del
mismo grupo de edad. De las entrevistadas rurales 148 dijeron estar en paro mientras que 503
mujeres urbanas se consideraron paradas.
Señale, con un nivel de confianza del 95%, si la incidencia del paro era más elevado en las
mujeres urbanas respecto a las rurales.

Ejercicio 4
La siguiente tabla elaborada a partir de la Encuesta de Calidad de Vida en el trabajo (MTASS,
trienio 1999-01) clasifica a los asalariados en el sector privado por el tipo de contrato y sexo.

Varones Mujeres
No Fijos 2320 1459
Fijos 3545 1787

a) Señale la variable independiente y calcule los porcentajes de la tabla en función de


esta
b) Haga un comentario conciso de estos datos.

RESPUESTAS

Ejercicio 1

Se trata de calcular la distancia, en unidades Z, entre el valor muestral y el valor de referencia.


Dicho de otra forma, para qué nivel de confianza el intervalo comprenderá al valor de
referencia.

1 de 4 06/04/2012 11:58
Ejercicio 1 http://www.uned.es/111044/examenes/junio 2004/soluciones junio2004.htm

En primer lugar calculamos el error típico del estadístico de la media:

El valor del estadístico Z será:

Es decir el valor de referencia estará a 2,5 unidades de desviación estándar.


Para Z=2,5 el valor del área, desde la media, es: 0,4938
Por lo tanto la probabilidad de rechazo de la hipótesis nula, considerando una prueba bilateral,
es 1-(0,4938*2)=1-0,9876=0,0124.
Podemos afirmar con un 98,76% de nivel de confianza que la media de ingresos es distinta de
1500 euros.

Ejercicio 2
Se trata de un análisis de varianza con tres grupos.
Calculamos los datos necesarios:

A B C

X1 X2 X3
29 90 45 841 8100 2025
64 66 59 4096 4356 3481
33 73 51 1089 5329 2601
40 55 44 1600 3025 1936
55 3025

166 284 254 704 7626 20810 13068 41504


Media 41,5 71 50,8

Total grados de libertad: N-1=13-1=12


Grados de libertad entre grupos k-1=3-1=2
Grados de libertad dentro de grupos: N-k=13-3=10

2 de 4 06/04/2012 11:58
Ejercicio 1 http://www.uned.es/111044/examenes/junio 2004/soluciones junio2004.htm

Tabla de varianza:
Suma de Grados de
Cuadrados libertad Varianza
Entre Grupos 1831,89231 2 915,946154
Dentro de Grupos 1547,8 10 154,78
TOTAL 3379,69231 12

Cálculo estadístico F:

El valor crítico para el estadístico es:


Con 5% de significación F=4,10

Por lo tanto, como el valor empírico es mayor que el crítico concluimos que existen diferencias
en el aprendizaje de los alumnos según nacionalidad con un nivel de confianza del 95%.

Ejercicio 3
Se trata de una prueba unilateral de diferencia de proporciones.

Calculamos las proporciones de cada submuestra:

ni ai pi
Rurales 938 148 0,158
Urbanas 2733 503 0,184
Total 3671 651 0,177

H0 :
H1 :

Para el cálculo del error típico de la diferencia de proporciones, calculamos primero la media
de las proporciones. Ya lo tenemos calculado en la última fila de la tabla anterior. La media de
las proporciones es la proporción del total de la muestra.

Obsérvese que:

El error típico de la diferencia de proporciones es:

El valor del estadístico Z será:

3 de 4 06/04/2012 11:58
Ejercicio 1 http://www.uned.es/111044/examenes/junio 2004/soluciones junio2004.htm

Como el valor crítico es 1,645 puede rechazarse la hipótesis nula para un nivel de significación
del 95%. Puede afirmarse, con un nivel de confianza del 95% que el paro de las mujeres
urbanas es mayor que el de sus homólogas rurales.

Ejercicio 4

La variable independiente es el sexo. Por lo tanto los porcentajes habrá que calcularlos sobre
el total de cada columna.

Varones Mujeres
No Fijos 39,6 44,9
Fijos 60,4 55,1
Total 100% 100%

La tabla muestra diferencias entre el tipo de contrato y el sexo del trabajador en el sentido de
una inserción laboral menos estable y por tanto más precaria para las mujeres que para los
hombres.

4 de 4 06/04/2012 11:58
FACULTAD DE CIENCIAS POLÍTICAS SOCIOLOGÍA http://www.uned.es/111044/examenes/Junio 2006/2semanajun2006.htm

Estadística Aplicada a las Ciencias Sociales


Exámenes 2ª semana junio 2006

Ejercicio 1. Los ingresos medios anuales de los asalariados españoles en 2002 según el nivel de estudios se
refleja en la siguiente tabla:

Ingresos (€/año)
1. Sin estudios 12.903
2. Educación primaria 15.640
3. Educación secundaria 21.634
4. Diplomados universitarios 25.760
5. Estudios universitarios superiores 32.997

Si considera el nivel de estudios como variable de rango, numerado del 1 al 5 tal como aparece en la tabla, calcule
el coeficiente de correlación entre las ‘ganancias’ y los ‘estudios’.

Ejercicio 2. La tabla siguiente muestra las tasas de paro de 12 municipios españoles en función del tamaño
poblacional de los mismos.

Municipios <10.000 hab. Municipios entre 10.001 y Municipios >50.000 hab.


50.000 hab.
6,4% 12,9% 18,2%
12,1% 11,0% 17,1%
8,2% 9,2% 6,3%
13,0% 15,3% 22,3%

Estudie si existe alguna relación entre el paro y el tamaño demográfico y calcule el estadístico más pertinente para
ello.

Ejercicio 3. La tabla siguiente señala el número de parados en un municipio clasificados por edad:

>de 25 años De 25 a 34 De 35 a 44 De 45 a 54 De 55 a 64
años años años años
En paro 800 800 400 400 600
Trabajando 400 600 1800 2000 1800

a) Señale cuál se la variable independiente en esta relación


b) Calcule la distribución de porcentajes en dirección de la variable independiente
c) Haga un comentario de los resultados

Ejercicio 4. Un investigador obtiene datos sobre una pequeña muestra de pacientes que han sufrido un transplante
de corazón durante los últimos cinco años. Los tiempos de espera desde el diagnóstico hasta la operación son los
señalados en la tabla siguiente:

Paciente A B C D E F G H I J
Meses en lista de espera 22 13 36 16 41 18 21 3 12 15

Calcule mediante un intervalo de confianza cuál será el tiempo medio de espera para un transplante en el conjunto
de la población. Utilice un nivel de significación del 5%.

Soluciones de los ejercicios del examen

1 de 5 06/04/2012 12:01
FACULTAD DE CIENCIAS POLÍTICAS SOCIOLOGÍA http://www.uned.es/111044/examenes/Junio 2006/2semanajun2006.htm

Ejercicio 1.

Se trata de calcular el coeficiente de correlación entre nivel de estudios y salarios. Como


el nivel de estudios es una variable ordinal conviene considerar la variable de ingresos
también como ordinal y utilizar el coeficiente no paramétrico “Rho de Spearman”. En
primer lugar convertimos la variable ingresos a nivel ordinal:

Nivel de Estudios Ingresos Nivel de estudios Ingresos


(Rango) (Rango)
Sin Estudios 12903 1 1
Educación Primaria 15640 2 2
Educación Secundaria 21634 3 3
Diplomados Universitarios 25760 4 4
Estudios Universitarios Superiores 32997 5 5

Vista la información, de las variables a nivel ordinal, no hace falta hacer cálculo alguno para determinar que
el valor del coeficiente “Rho de Spearman” Rho=+1. Es decir existe una relación positiva entre nivel de
estudios e ingresos.
(Si se hubiera calculado el coeficiente “r de Pearson” con estudios como rango e ingresos como variable
de rango, el valor obtenido hubiera sido r=+0,99. Nótese no obstante que la relación obtenida es una
relación de grupos y no de individuos, es decir, si conociéramos el nivel de estudios de un individuo no
podríamos pronosticar sus ingresos, simplemente podríamos obtener la media de su grupo. Véase al
respecto los comentarios sobre “falacia ecológica”).

Ejercicio 2.
El ejercicio presenta la información de 12 casos de la variable “tasa de paro” en tres
grupos. Para determinar si la pertenencia a los grupos tiene influencia en el valor de la
variable dependiente (tasa de paro) utilizaremos un análisis de varianza con un solo
factor (ANOVA).

H 0:
H 1:

Disponemos la tabla para los cálculos.

Municipios
entre 10.001
Municipios < y 50.000 Municipios
10.000 hab. hab. >50.000 hab.
X1 X2 X3
6,4 12,9 18,2
12,1 11 17,1
8,2 9,2 6,3
13 15,3 22,3
Suma 39,7 48,4 63,9
Media 9,925 12,1 15,975

Calculamos en primer lugar la Suma de Cuadrados entre Grupos:

2 de 5 06/04/2012 12:01
FACULTAD DE CIENCIAS POLÍTICAS SOCIOLOGÍA http://www.uned.es/111044/examenes/Junio 2006/2semanajun2006.htm

SCent=

La tabla nos ayuda:


X1 X2 X3 Suma
6,4 12,9 18,2
12,1 11 17,1
8,2 9,2 6,3
13 15,3 22,3
Suma 39,7 48,4 63,9 152

SCent=

Glent=K-1=3-1=2

La Suma Total de Cuadrados:

SCtot=

En la tabla siguiente calculamos el valor al cuadrado de los valores:

Suma
40,96 166,41 331,24
146,41 121 292,41
67,24 84,64 39,69
169 234,09 497,29
Suma 423,61 606,14 1160,63 2190,38

SCtot=
GLtot=N-1=12-1=11

La suma de Cuadrados dentro de los grupos será:

SCdent=SCtot-SCent=265,046667-75,1316667=189,915
GLdent=GLtot-GLent=11-2=9

La tabla siguiente resume los cálculos realizados y nos permite obtener la varianza entre
y dentro de los grupos:

3 de 5 06/04/2012 12:01
FACULTAD DE CIENCIAS POLÍTICAS SOCIOLOGÍA http://www.uned.es/111044/examenes/Junio 2006/2semanajun2006.htm

Suma de Grados de Varianza:


Cuadrados Libertad SC/GL
Entre grupos 75,1316667 2 37,5658333
Dentro de grupos 189,915 9 21,1016667
TOTAL 265,046667 11

El valor de F será:

El valor crítico de F2,9 es


Para Ns=5%, F2,9=4,26
Para Ns=1%, F2,9=8,02

Como el valor obtenido es menor que el crítico no podemos rechazar la hipótesis nula, por lo tanto con un
nivel de confianza del 99% podemos señalar que no hay relación entre el paro y el tamaño demográfico
de los municipios.

Ejercicio 3.

Se trata de una tabla bivariable con la distribución de la población activa dividida en


ocupados y parados por grupos de edad.

a) La variable independiente es la edad. La edad puede influir en la ocupación, la inversa no es


posible.
b) Para calcular los porcentajes hacemos cada grupo de edad –variable independiente- 100%. La
tabla muestra los resultados:

Parados 66,7 57,1 18,2 16,7 25,0


Ocupados 33,3 42,9 81,8 83,3 75,0
TOTAL 100% 100% 100% 100% 100%

c) Comentario. Se observa una relación inversa entre paro y edad, o directa entre ocupación y edad.
A mayor edad la ocupación es mayor, a excepción de las edades de prejubilación en las que se
observa un descenso de la ocupación. El acceso al mercado laboral es tardío hasta bien entrada
en la treintena las tasas de paro son muy elevadas. Los datos expresan una integración difícil en el
mercado laboral y un rechazo por parte del mercado de las edades elevadas.

Ejercicio 4.

Se trata de un intervalo del estadístico de la media para una muestra muy pequeña. Como n es claramente
menor de 30, utilizaremos la distribución “t de Student”. En primer lugar calculamos la media de la
distribución.

4 de 5 06/04/2012 12:01
FACULTAD DE CIENCIAS POLÍTICAS SOCIOLOGÍA http://www.uned.es/111044/examenes/Junio 2006/2semanajun2006.htm

Para calcular el error típico de la media necesitamos conocer la varianza de la población, como no la
conocemos utilizamos la varianza de la muestra:

xi
22 5,29
13 44,89
36 265,69
16 13,69
41 453,69
18 2,89
21 1,69
3 278,89
12 59,29
15 22,09
TOTAL 197 1148,1

El error típico de la media será:

El valor de t para 9 grados de libertad y un nivel de confianza del 95% es según tablas:

t9=2,262

Por tanto el intervalo será:

El intervalo será:

11,62 < > 27,78

5 de 5 06/04/2012 12:01
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/2007junio1semanab.htm

Estadística Aplicada a las Ciencias Sociales


Examen Junio 2007 1ª Semana.

Ejercicio 1.
En los barómetros del CIS se pregunta a los encuestados su ubicación política en una escala de 10
posiciones, donde 1 representa la posición más a la izquierda y 10 la posición más a la derecha. Los
resultados de esta pregunta en dos de estos barómetros son los siguientes:

Octubre 2005 S =1,68 n = 1898


Enero 2007 S =1,71 n = 1982

a) ¿Podríamos decir que ha evolucionado la población española hacia la izquierda durante 2006?
(considere un nivel de confianza del 95%
b) ¿Y si consideramos un nivel de confianza del 99%?

Ejercicio 2.
Un investigador desea comprobar la incidencia de una determinada campaña publicitaria sobre los hábitos
de la conducción. Para ello elabora un test con 25 items sobre la percepción de riesgos en la carretera que
se puntúa entre 0 y 100 (100 puntos significa alta percepción de riesgo). El investigador selecciona
aleatoriamente una muestra de 100 individuos y realiza el test antes y después de la campaña publicitaria.
Obtiene los siguientes resultados:
Puntuación antes de la Puntuación después de la
campaña campaña
Media 45 65
Varianza 144 360

Para un nivel de confianza del 95%, señale si considera que la campaña ha sido efectiva.

Ejercicio 3.
La siguiente tabla muestra la información de 420 cuestionarios de una encuesta reciente sobre intención
de voto en un municipio de 48.000 habitantes, así como los resultados electorales de las elecciones
celebradas hace dos años.
A partir de estos datos, señale si el Partido Comarcal revalidará su victoria electoral.
Elecciones 2005 Resultados encuesta 2007
Partido Comarcal 40% 36%
Federación Democrática 35% 34%
Partido independiente 15% 20%
Otras candidaturas 10% 10%

Ejercicio 4.
Una multinacional elige aleatoriamente 7 de los países en los que actúa para estudiar cómo influyen los
gastos en publicidad sobre las ventas. Obtiene los siguientes resultados para cada país (en millones de
dólares)
Ventas 20 25 24 30 32 40 28
Gastos en publicidad 0,2 0,2 0,2 0,3 0,3 0,4 0,3
¿En qué grado los gastos en publicidad determinan las ventas?
Soluciones
Ejercicio 1.
Se trata de realizar una prueba de hipótesis para comparar las dos muestras.
Enunciamos la hipótesis nula en el sentido de que no hay diferencia entre las medias, y la hipótesis
alternativa en el sentido de que la media de 2007 es menor que la media de 2005.

1 de 6 06/04/2012 12:01
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/2007junio1semanab.htm

Para poner a prueba la hipótesis nula utilizaremos el estadístico:

Para lo cual necesitamos antes calcular el error típico de la diferencia de medias :

Donde:

El error típico de la distribución muestral :

El valor Z empírico será entonces:

2 de 6 06/04/2012 12:01
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/2007junio1semanab.htm

Para un nivel de confianza del 95% y siendo la prueba unidireccional, el valor tipificado de referencia
será Zc = 1,65 y como Ze>Zc, se rechaza Ho

Para un nivel de confianza del 99%, el valor tipificado de control será Zc = 2,33 y como Ze<Zc, se
acepta Ho

Ejercicio 2.
De forma análoga al ejercicio anterior, aunque con el sentido contrario en la desigualdad, enunciaremos
las hipótesis de la siguiente manera:

Y procederemos con los cálculos de la misma manera, teniendo en cuenta que esta vez se nos
proporcionan las varianzas y no las desviaciones típicas:

Podemos entonces calcular el Z empírico:

Para un nivel de confianza del 95%, Zc = 1,65

Como Ze>Zc, se rechaza la hipótesis nula, por tanto podemos establecer que la campaña publicitaria tuvo
el efecto deseado.

Ejercicio 3.
Revalidar la victoria debe interpretarse como ser el partido más votado. Por tanto la comparación debe
hacerse entre los porcentajes obtenidos por los dos primeros partidos en la encuesta de 2007.
Llamando p1 a la proporción de intención de voto al “partido comarcal”, 0,36 y p2 a la proporción de
intención de voto a la “federación democrática” 0,34, comprobaremos mediante una prueba de hipótesis

3 de 6 06/04/2012 12:01
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/2007junio1semanab.htm

si la desigualdad en los valores p1 y p2, obtenidos a partir de la muestra, pueden extenderse a la población,
para un nivel de confianza dado.

Enunciamos la hipótesis nula en el sentido de la ausencia de diferencias en intención de voto en la


población, y la hipótesis alternativa en el sentido de que P 1 es mayor que P2.

Emplearemos el estadístico:

Comenzamos por calcular la proporción conjunta ponderada:

A continuación obtenemos el valor del error típico de la distribución muestral de las proporciones para dos
muestras

Y finalmente el valor Ze empírico:

Si elegimos un nivel de confianza del 95%, y al estar enunciada la hipótesis alternativa en forma de
desigualdad, la prueba será unidireccional y por tanto el valor Z de contraste será Zc = 1,65

Como el valor Ze<Zc, podemos concluir que aunque en la muestra parece que el partido comarcal supera
al siguiente partido en intención de voto, esa diferencia no es significativa, por tanto se acepta la hipótesis
nula y consideramos que con los datos obtenidos no podemos establecer que haya diferencias en la
población; es decir, no podemos afirmar que el partido comarcal vuelva a ganar las elecciones

Ejercicio 4.
Para conocer la relación entre las ventas y los gastos en publicidad emplearemos el coeficiente de
correlación, mediante la fórmula:

4 de 6 06/04/2012 12:01
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/2007junio1semanab.htm

Para lo cual construiremos las tablas que nos faciliten los cálculos, llamando “X” a las ventas e “Y” a los
gastos en publicidad:

X Y
20 0,2
25 0,2
24 0,2
30 0,3
32 0,3
40 0,4
28 0,3
199 1,9

Obtenemos así las medias de ambas variables:

-8,428571 -0,07143 71,0408163 0,00510204 0,602040816


-3,428571 -0,07143 11,755102 0,00510204 0,244897959
-4,428571 -0,07143 19,6122449 0,00510204 0,316326531
1,571429 0,028571 2,46938776 0,00081633 0,044897959
3,571429 0,028571 12,755102 0,00081633 0,102040816
11,57143 0,128571 133,897959 0,01653061 1,487755102
-0,428571 0,028571 0,18367347 0,00081633 -0,012244898
251,714286 0,03428571 2,785714286

La correlación entre los gastos en publicidad y las vengas es muy alta, pero para contestar a la pregunta de
“en qué grado los gastos en publicidad determinan las ventas” utilizaremos el coeficiente de
determinación:

Podemos decir que el gasto en publicidad explica el 89,92% de la variación de los datos.

5 de 6 06/04/2012 12:01
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/2007junio1semanab.htm

6 de 6 06/04/2012 12:01
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/soluciones jun 2007 ...

Estadística Aplicada a las Ciencias Sociales


Junio 2007 segunda semana

Ejercicio 1.
Un investigador desea comprobar la incidencia de una determinada campaña publicitaria sobre hábitos de
conducción. Para ello elabora un test con 25 items sobre percepción de riesgos en carretera que puntúa
entre 0 y 100. (100 puntos significa alta percepción del riesgo). El investigador selecciona aleatoriamente
una muestra de 10 individuos y realiza el test antes y después de la campaña publicitaria. Obtiene los
siguientes resultados:

Puntuación antes Puntuación después


de la campaña de la campaña
A 30 28
B 45 75
C 22 60
D 56 48
E 32 60
F 10 10
G 14 22
H 34 38
I 22 64
J 75 69

Para un nivel de confianza del 95%, señale si considera que la campaña ha sido efectiva.

Ejercicio 2.
Un investigador desea comprobar la incidencia de una determinada campaña publicitaria para aumentar la
práctica de determinadas tareas domésticas en los hombres. Para ello elabora una encuesta que mide la
participación en dichas tareas y clasifica a los entrevistados en activos e inactivos en tareas domésticas.
La encuesta se realiza antes y después de la campaña a una muestra aleatoria de 1000 hombres. Obtiene
los siguientes resultados:

Después de la campaña publicitaria


Participan en tareas No participan en
domésticas tareas domésticas
Antes de la campaña Participan en tareas 250 50
publicitaria domésticas
No participan en 100 600
tareas domésticas

Señale si observa alguna incidencia de dicha campaña. ¿puede cuantificar el impacto de la campaña?

Ejercicio 3.
Un investigador obtiene los siguientes datos absolutos en una encuesta de opinión sobre la ampliación de
una carretera en un parque natural:
De 18 a 34 años De 36 a 54 De 55 años y más
A favor 20 60 50
Indiferentes 34 100 40
En contra 46 80 20

Responda a las siguientes preguntas:


a) ¿Qué proporción de entrevistados tienen menos de 55 años?
b) Calcule el intervalo de confianza para el total de la muestra para la proporción de quienes están a

1 de 5 06/04/2012 12:02
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/soluciones jun 2007 ...

favor (utilice un nivel de significación del 1%).


c) ¿Cuál de los tres grupos de edad es el que muestra mayor indiferencia respecto a la ampliación de
la caretera?

Ejercicio 4.
Sobre una muestra aleatoria hemos estudiado la tolerancia hacia las prácticas de fraude fiscal, obteniendo
los siguientes resultados:

Tolerancia Hombres Mujeres


Alta 260 240
Baja 240 260

a) Calcule la X2 Para ver si el sexo y la tolerancia están asociados.


b) Si la muestra hubiese sido de 100 personas (en lugar de 1000) y la distribución porcentual de los
casos fuese idéntica a la anterior ¿obtendríamos la misma asociación entre “tolerancia” y “sexo”?

SOLUCIONES

Ejercicio 1.
Como tenemos la puntuación para cada individuo, podemos comparar la media de las diferencias
observadas con el supuesto de la inexistencia de diferencias. Si entendemos la efectividad de la campaña
como un aumento de la percepción de riesgo, podemos enunciar las siguientes hipótesis:

La prueba a realizar es unilateral con un nivel de significación de 0,05 y al tratarse de una muestra
pequeña usaremos la distribución t de Student.

Calcularemos en primer lugar las diferencias:

Después Antes Diferencia


A 28 30 -2
b 75 45 30
c 60 22 38
d 48 56 -8
e 60 32 28
f 10 10 0
g 22 14 8
h 38 34 4
i 64 22 42
j 69 75 -6
474 340 134

La media de las diferencias es:

2 de 5 06/04/2012 12:02
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/soluciones jun 2007 ...

Necesitamos calcular la desviación típica:

-15,4 237,16
16,6 275,56
24,6 605,16
-21,4 457,96
14,6 213,16
-13,4 179,56
-5,4 29,16
-9,4 88,36
28,6 817,96
-19,4 376,36
3280,4

Calculamos a continuación la desviación estándar de la distribución muestral de las diferencias:

Podemos entonces calcular la prueba:

Podemos ahora hacer el contraste entre el estadístico calculado y el de referencia:

Para un nivel de significación de 0,05 y nueve grados de libertad, siendo la prueba unilateral el valor de tc
en las tablas es 1,833. Como el valor empírico te es mayor que el de contraste tc, está en la zona de rezazo
de la hipótesis nula.

Ejercicio 2.
Al ser una tabla de variables nominales de 2x2, podemos determinar la asociación mediante el estadístico
de la Q de Yule.

Nombrando las casillas de la tabla como sigue:

A B
C D

Podemos calcular el coeficiente:

3 de 5 06/04/2012 12:02
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/soluciones jun 2007 ...

Como el coeficiente varía entre –1 y +1 el valor obtenido indica una relación fuerte entre las variables. En
este caso, el valor +1 significaría que no ha habido cambios, esto es, que los que participaban antes son
exactamente los mismos que los que participan después. Es decir, la campaña no ha producido ningún
cambio.
Observando estos resultados (1-0,9355) podemos señalar que el impacto de la campaña ha sido relativo,
en la medida en que hay poca variación en la participación de los varones en las tareas domésticas antes
y después de la campaña.

Ejercicio 3.
a) la proporción de entrevistados de menos de 55 años se obtiene de la tabla original: sumando las
columnas de las categorías de edades, la suma de las columnas “de 18 a 34” y “de 36 a 54”

(100+240) dividido entre el total de casos, que son 450:


b) De forma análoga obtenemos la probabilidad de los que están a favor, sumando la fila de “a
favor” (20+60+50) y dividiendo entre el total de casos (450), es decir p = 0,2889. Pero como
estamos trabajando con una muestra y se nos pide el valor de esa proporción en la población,
debemos expresarlo en forma de intervalo: ; debemos entonces calcular la
desviación de la distribución muestral de las proporciones: por tanto
podemos establecer el intervalo para Z = 2,57 como sigue: y el
intervalo será: (0,2340: 0,3438)
c) Para saber cuál de los tres grupos de edad muestra una mayor indiferencia, debemos calcular los
porcentajes de la tabla por columnas

18 a 35 36 a 54 55 y más
A favor 20% 25% 45%
indif 34% 42% 36%
En contra 46% 33% 18%
100% 100% 100%

En la fila de los indiferentes, la proporción mayor corresponde a la categoría “36 a 54” con un
porcentaje del 42%

Ejercicio 4.

La Ji-cuadrado compara las frecuencias observadas con las frecuencias que tendríamos si no hubiera
asociación. Para ello calculamos una tabla en las que, a partir de los subtotales las frecuencias de las
casillas, hallamos las frecuencias esperadas en el caso de ausencia de asociación.

La tabla de las frecuencias esperadas será:

Hombres Mujeres Total


Alta 250 250 500
Baja 250 250 500
Total 500 500 1000

Una vez obtenida la tabla de las frecuencias esperadas podemos proceder al cálculo de la Ji-cuadrada:

4 de 5 06/04/2012 12:02
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/junio 2007/soluciones jun 2007 ...

Ayudándonos de una tabla obtenemos los términos del sumatorio:

2 2
fo fe fo-fe (fo-fe) (fo-fe) /fe
260 250 10 100 0,4
240 250 -10 100 0,4
240 250 -10 100 0,4
260 250 10 100 0,4
1,6

Como el valor obtenido es distinto de 0 podemos decir que existe asociación. Para cuantificar esa
asociación, utilizaremos la V de Cramer.

Si la muestra hubiese sido de 100 personas y se hubiese conservado la distribución porcentual


obtendríamos el mismo resultado:

El resultado de la Ji-Cuadrado hubiese sido menor, debido a los menores valores de las frecuencias
absolutas, pero la cuantificación mediante la V de Cramer hubiera sido idéntica:

5 de 5 06/04/2012 12:02
Examen Estadística Aplicada a las Ciencias Sociales
Junio 2008 Primera semana
Soluciones al examen de Estadística Aplicada a las Ciencias Sociales
Junio 2008 Primera semana

Ejercicio 1.

Para analizar la asociación entre el nivel de estudios y la renta calcularemos el


estadístico Ji-cuadrado. Compararemos la frecuencia observada en cada celda de la
tabla, con la frecuencia que cabría esperar para esas celdas en el supuesto de que no
existiera asociación.

Obtenemos los totales marginales de la tabla de frecuencias observadas:

Primarios Secundarios Universitarios Total


Baja 600 400 100 1100
Media 200 600 200 1000
Alta 100 300 600 1000
Total 900 1300 900 3100

Para obtener las frecuencias esperadas en ausencia de asociación asignamos a cada


celda el valor:

Subtotal fila × Subtotal columna


fe =
N Total

Primarios Secundarios Universitarios Total


Baja 319,35 461,29 319,35 1100
Media 290,32 419,35 290,32 1000
Alta 290,32 419,35 290,32 1000
Total 900 1300 900 3100

Hemos asignado a cada casilla de la tabla el número de casos que correspondería según
el número de casos en la columna y la fila respecto a los 3.100 casos.
A primera vista puede comprobarse que para la casilla “Estudios Primarios/Clase Baja”,
el número de los que poseen ambas características es 600 casos, mientras que si las
características estuvieran distribuidas en proporción a sus totales marginales serían sólo
319.

Para conocer las diferencias entre las frecuencias esperadas y las observadas en el
conjunto de la tabla, calculamos el valor de χ 2

Para cada celda de la tabla calculamos las diferencias entre las frecuencias observadas y
las esperadas, elevadas al cuadrado para que tengan signo positivo y expresadas en
unidades de frecuencias esperadas:

( fo − fe )
2

fe
Primarios Secundarios Universitarios Total
Baja 246,63 8,14 150,67 405,44
Media 28,10 77,82 28,10 134,02
Alta 124,77 33,97 330,32 489,06
Total 399,49 119,93 509,09 1028,52

Seguidamente sumamos los valores obtenidos para cada celda:

( fo −
fe )
2
χ 2
∑ =
fe
= 1.028,52

El hecho de que el valor de χ 2 sea diferente de cero indica que existen diferencias entre
las frecuencias esperadas y observadas y por tanto hay algún tipo de asociación. Para
cuantificar esa asociación utilizaremos un coeficiente estandarizado que varía entre 0 y
1: la V de Cramer

χ2 1.028,52
V = = = 0,4073
N ( K − 1) 3.100( 3 − 1)

Podemos contrastar a continuación si esta asociación puede ser generalizada a la


población de la que proviene la muestra:
Para ello comparamos el valor empírico obtenido para χ 2 = 1.028,52 con el valor de la
crítico de la distribución de χ 2 en las tablas.

Calculamos los grados de libertad de la tabla:

gl = ( f − 1)(c − 1) = (3 − 1)(3 − 1) = 4

En las tablas de la distribución para un nivel de significación de 0,05 y 4 grados de


libertad obtenemos un valor crítico de 9,488 ampliamente superado por nuestro valor
empírico. Podemos concluir que la asociación observada entre el tipo de estudios y la
clase social puede ser generalizada a la población de origen de donde se extrajeron los
3.100 casos observados.

Ejercicio 2.

Si consideramos las variables de la tabla anterior a nivel ordinal, podemos emplear el


coeficiente gamma para estimar el grado de asociación entre las dos variables. Este
coeficiente nos permite reducir el error al predecir el orden de los casos de una variable
conociendo el de la otra.

P S U
B 600 400 100
M 200 600 200
A 100 300 600

Para realizar los cálculos localizaremos en primer lugar la “diagonal positiva” o línea
que une las celdas que contienen los valores “Alto-Alto” y “Bajo Bajo”. La diagonal
dependerá de cómo hayamos situado las categorías de las variables en la tabla y en este
caso será:

P S U
B X
M X
A X

La diagonal contraria o negativa será:

P S U
B X
M X
A X

Denominamos “s” el final de la diagonal positiva y “d” el final de la diagonal contraria


o negativa:

P S U
B S
M
A D

Partiendo de la tabla original calcularemos el número de pares concordantes:

600*(600+200+300+600)=1.020.000

400*(200+600)=320.000

200*(300+600)=180.000

600*600=360.000

Los pares concordantes Ns suman 1.020.000+320.000+180.000+360.000=1.880.000


Calculamos a continuación el número de pares discordantes:

100*(600+200+400+100)=130.000

300*(200+100)=90.000

200*(400+100)=100.000

600*100=60.000
Los pares discordantes Nd suman 130.000+90.000+100.000+60.000=380.000

El coeficiente gamma será entonces:

N s − N d 1.880.000 − 380.000 1.500.000


γ = = = = 0,6637
N s + N d 1.880.000 + 380.000 2.260.000

El valor del coeficiente nos indica que conociendo el orden de la clase social, podemos
predecir el orden del nivel de estudios reduciendo el error de la predicción un 66%. La
asociación entre las dos variables es notable y el signo positivo nos indica que el orden
de una variable ayuda a predecir el orden de la otra.

Ejercicio 3.

La proporción poblacional de participación es el cociente entre las 16.403 personas que


votaron y el censo en aquel año 2004.
16.403
P= = 0,78
21.012
La encuesta a una muestra de 120 electores estima una participación de p= 0,68.
La proporción obtenida en la encuesta es menor que la proporción efectiva de voto en
2004, pero para saber si la proporción de votantes ha disminuido realmente y esta
diferencia observada no es debida al azar, realizaremos una prueba de hipótesis:

H 0 p = P = 0,78
H 1 p ≤ 0,78

Al preguntarnos si la proporción ha disminuido, la prueba de hipótesis se enuncia en


términos de desigualdad y la hipótesis alternativa afirma que (menor que).

Utilizaremos como referencia la curva normal con un nivel de confianza del 95%
(ns: 0,05) lo que en una prueba unilateral se corresponde con un valor Zc de -1,65.

Podemos calcular el Valor Z empírico que compara las proporciones poblacional y


muestral en unidades de dispersión de la distribución muestral de las proporciones:

p− P
Ze =
σ p
Calculamos primero el error muestral considerando que el factor de corrección para
N− n
poblaciones finitas es 0,994 , aproximadamente la unidad ≈1
N−1

P⋅ Q 0,78 ⋅ (1 − 0,78)
σ p = = = 0,0378
n 120
y comparamos ahora las proporciones:
p − P 0,68 − 0,78
Ze = = = − 2,66
σ p 0,0378
Como Ze < Zc rechazamos la hipótesis nula y con una probabilidad de un 5% de
equivocarnos y que sea verdadera

Ejercicio 4.

a)

Conocida la recta de regresión de los sueldos de las mujeres en función de los de sus
maridos podemos estimar la media de ingresos de las mujeres, sustituyendo los ingresos
de los maridos x, por su valor medio:

y = − 2.200 + 0,65 ⋅ x
y = − 2.200 + 0,65 ⋅ 32.300 = 18.795
b)

Conociendo el coeficiente de correlación y la recta que representa los ingresos de las


mujeres en función de los ingresos de sus maridos podemos conocer la recta que
expresa los ingresos de los maridos, conocidos los de sus mujeres:

El coeficiente de correlación es r = 0,688 y la recta que representa los ingresos de las


mujeres a partir de los de sus maridos:

y = − 2.200 + 0,65 ⋅ x

Necesitamos hallar los parámetros de la recta que representa los sueldos de los maridos
a partir de los de sus mujeres:
x = a '+ b' y

en primer lugar calcularemos el valor de b’. Conocido r y b podemos obtener b’:

r= b ⋅ b' Sustituyendo los valores conocidos: 0,688 = 0,65 ⋅ b' y despejando b’


0,688 2
tenemos que b' = = 0,728
0,65
Sabemos también que la recta de regresión buscada contendrá los puntos medios de X y
de Y:

x = a '+ b' y

de manera que sustituyendo los valores que conocemos obtendremos la ecuación que
nos permite determinar a’:

32.300 = a '+ 0,728 ⋅ 18.795


despejando a’:

a ' = 32.300 − (0,728 ⋅ 18.795) = 18.613


La recta buscada será entonces:

x = 18.613 + 0,728 ⋅ y
Examen Estadística Aplicada a las Ciencias Sociales
Junio 2008 segunda semana
Soluciones al examen de Estadística Aplicada a las Ciencias Sociales
Junio 2008 Segunda semana

Ejercicio 1.
Para determinar si ha aumentado la intención de voto realizaremos una prueba de
hipótesis de la siguiente manera:

Siendo P = 0,377 la proporción de votantes en 2004 (un dato poblacional) y p la


proporción de votantes en la encuesta (dato muestral), enunciamos la hipótesis nula en
el sentido de que la proporción permanece igual, enunciando la hipótesis alternativa en
términos de desigualdad, considerando que la proporción ha crecido. Por tanto
utilizaremos una prueba unilateral.

H0 p=P
H1 p>P

Se trata de comparar las proporciones hallando la diferencia entre P y p en unidades de


la desviación típica de la distribución muestral de las proporciones para nuestros datos.

Hallamos primero esa desviación típica de la distribución muestral:

PQ 0,377 ⋅ 0,623
σp = = = 0,0199
n 600

A continuación hallamos el valor Ze empírico

p−P 0,389 − 0,377


Ze = = = 0,60
σp 0,0199

Para una prueba unidireccional y un nivel de confianza del 95,5%, el Zc crítico será:

Zc = 1,7

Como el valor empírico de Ze es menor que el de Zc crítico, aceptamos la hipótesis nula


y determinamos que no ha aumentado la intención de voto al PP en la población de la
que se extrajo la muestra.

Ejercicio 2.

Como se trata de pacientes diferentes cada año, tomamos las dos series como muestras
independientes. Para determinar si ha variado el tiempo medio de espera enunciamos la
prueba de hipótesis analizando la diferencia entre las medias de ambas series:

H 0 : µ1 = µ 2
H 1 : µ1 ≠ µ 2
Calculamos la media y la desviación típica de cada distribución, que reflejamos en la
siguiente tabla:

Muestra 2006 Muestra 2007


n1 =9 n2 =9
Media1 =9,33 Media2 =9,22
S1=6,41 S2=8,34

Al tratarse de muestras pequeñas, para el cálculo de la prueba utilizaremos la


distribución t de Student sobre la diferencia entre las medias:

x1 − x 2
te =
σ x −x
1 2

Siendo:
σ x − x = σ x2 + σ x2
1 2 1 2

Calculamos entonces las dispersiones muestrales:


S1 6,41
σ x1 = = = 2,27
n1 − 1 9 −1
S2 8,33
σx = = = 2,95
2
n2 − 1 9 −1

Sustituyendo los valores:


σ x − x = σ x2 + σ x2 = 2,27 2 + 2,95 2 = 3,72
1 2 1 2

x1 − x 2 9,33 − 9,22
te = = = 0,0299
σ x −x
1 2
3,72

El valor crítico de t para ns:0,05 y gl = n1+n2-2 =16 en una prueba bilateral es:
tc = 2,120

Al ser el valor empírico menor que el crítico decidimos aceptar la hipótesis nula. La
media de meses en lista de espera no ha variado en la población

Ejercicio 3.

Para calcular la asociación entre las variables “sexo” y “uso de internet”, comenzaremos
por expresar los datos de la tabla en frecuencias absolutas en lugar de en porcentajes, y
agrupando en la categoría “no” a los que no hayan contestado “si”, por ser un número
de casos insignificantes, evitando así las casillas con valor 0 o con un número de casos
muy pequeño:
Hombres Mujeres Total
Si 569 536 1105
No 640 725 1365
1209 1261 2470

A continuación calculamos las frecuencias esperadas para cada celda de la tabla según
la expresión:

Total fila ⋅ Total columna


feij =
N total

Obteniendo la siguiente tabla de frecuencias esperadas en el caso de ausencia de


asociación:

Hombres Mujeres Total


Si 541 564 1105
No 668 697 1365
1209 1261 2470

A continuación calcularemos el valor de χ2

Construiremos una nueva tabla en la que figure en cada celda el valor:

( fo − fe )2
fe

Hombres Mujeres Total


Si 1,5 1,4 2,9
No 1,2 1,2 2,4
Total 2,7 2,6 5,3

Sumando los valores de la tabla obtenemos un valor de χ 2 = 5,3

Un valor distinto de 0 nos indica la existencia de algún tipo de asociación, y para


cuantificarla emplearemos el coeficiente φ

χ2 5,3
φ= = = 0,0462
N 2.470

La asociación es muy pequeña si consideramos que el coeficiente empleado varía entre


0 y 1.

El valor de χ 2 = 5,3 es significativo para ns: 0,05 y gl = (2-1)(2-1)=1


Ejercicio 4.

En la tabla en la que se clasifican a las 2.700 personas de la muestra aparecen sólo 500
personas de renta baja con estudios primarios, lo que supone un 18,52% de los casos.

Como se trata de una estimación mediante una muestra, el valor para la población
vendrá dado en forma de intervalo y con una probabilidad asignada o nivel de confianza
dado. Para obtener los extremos de ese intervalo utilizaremos la expresión:

P = p ± Zσ p
Siendo

p⋅q 0,1852 ⋅ 0,8148


σp = = = 0,0074
n 2.700

Sustituyendo los valores en la fórmula del intervalo obtendremos los límites inferior y
superior donde se encontrará la proporción en la población con una probabilidad del
95% (Z=1,96)

P = p ± Zσ p = 0,1852 ± 1,96 ⋅ 0,0074


El intervalo buscado será entonces (17% : 20%)
Soluciones al examen de Estadística Aplicada a las Ciencias Sociales
Junio 2009 1ª Semana

Ejercicio 1.
Una agente de igualdad está interesada en conocer las diferencias salariales en España entre
hombres y mujeres (brecha salarial) en las empresas de un sector. Realiza una encuesta a 400
trabajadores y otra a un número igual de trabajadoras que ocupan un puesto de trabajo similar al de
los hombres y obtiene los siguientes resultados:
salario medio Desviación típica
Hombres 58000 15200
Mujeres 49400 12300

A partir de estos datos ¿puede afirmarse que las mujeres españolas que trabajan en ese sector cobran
menos que los hombres cuando realizan el mismo trabajo?

Ejercicio 2.
Un investigador encuentra que en un determinado sector el “salario bruto anual” (Y) mantiene la
siguiente relación con los “años de antigüedad en la empresa” (X)
Para los hombres: Y = 35.000+1.500·X
Para las mujeres: Y = 32.000+1.200·X
Represente en el mismo eje cartesiano ambas rectas.
Si un trabajador y una trabajadora son contratados a la vez ¿cuál será la diferencia de salario entre
ambos diez años más tarde?

Ejercicio 3.
Entre los pacientes de una determinada consulta de un centro de salud hemos seleccionado
aleatoriamente a 8 y les hemos preguntado en junio por su grado de satisfacción (de 1 a 10). En
diciembre, tras un cambio en la consulta, hemos vuelto a interrogar a los mismos pacientes y hemos
obtenido resultados distintos, como observamos en la tabla siguiente:

Pacientes 1 2 3 4 5 6 7 8
Junio 6 8 5 4 6 5 4 3
Diciembre 5 9 5 7 6 6 4 2

¿Puede decirse, con un nivel de confianza del 95%, que ha aumentado la satisfacción de los
pacientes?

Ejercicio 4.
Una muestra de 100 personas (de una población de 200.000) nos da unos ingresos medios de
42.000€ con una desviación típica de 10.000€. Halle el intervalo en el que se encontrarán, con un
90% de probabilidad, los ingresos medios de todas las muestras de 100 individuos que podemos
extraer de la misma población.
RESPUESTAS

Ejercicio 1.

Para saber si en la población se da la misma desigualdad entre las medias de hombres y mujeres que
en la muestra realizaremos un contraste de hipótesis unilateral de diferencia entre medias.
La hipótesis nula de partida establece la igualdad de las medias en la población y la alternativa que
la media salarial de hombres es superior a la de mujeres:
H 0 : h  m
H1 : h   m
A continuación establecemos el criterio de aceptación o rechazo de la hipótesis nula para un nivel
de confianza que establecemos en el 95% de una distribución normal.
Consultando las tablas de área bajo la curva normal, y siendo la prueba unilateral, buscamos el valor
crítico de Z, que para un 95% es Zc = 1,645

Calculamos a continuación la prueba estadística a partir de los datos de las dos muestras:
x1  x 2
Ze 
 x x
1 2

Obtenemos primero las desviaciones típicas de las distribuciones muestrales para ambas muestras:
S x1 15.200
x    760,95
1
n1  1 399
S x2 12.300
x    615,77
2
n2  1 399
 x  x   x2   x2  (760,95) 2 ·(615,77) 2  978,89
1 2 1 2

Por tanto el valor Z empírico será:

x1  x 2 58.000  49400
Ze    8,78
 x x
1 2
978,89

El valor obtenido permite rechazar la hipótesis nula de igualdad entre medias de hombres y mujeres
incluso para un nivel de significación menor que 0,01 (Zc=2,33).

Ejercicio 2.

Para representar las rectas en un gráfico debemos dar valores a la variable independiente X (tiempo)
y obtener así los valores de la variable dependiente Y (salario). Bastará con obtener dos valores para
cada recta. El primer valor X=0 nos proporciona el punto de corte del eje de ordenadas y la recta, y
el valor X=10 nos proporciona el salario tras diez años de antigüedad.

Para los hombres Y=35.000+1.500·X Para las mujeres Y=32.000+1.200·X


X=0 ; Y= 35.000 X=0 ; Y=32.000
X=10 ; Y=35.000+(1.500)·(10)=50.000 X=10 ; Y=32.000+(1.200)·(10)=44.000

Resumiendo en una tabla:


Hombres Mujeres
X Y X Y
0 35.000 0 32.000
10 50.000 10 44.000

Una vez obtenidos los valores de Y para cada valor de X en las dos rectas, tomaremos cada par de
valores (xi,yi) como las coordenadas de los puntos que llevaremos a la representación gráfica:

Cada pareja de puntos determina la recta correspondiente:


Recta hombres (0, 35000) ; (10, 50000)
Recta de mujeres (0, 32000) ; (10, 44000)
La diferencia entre los salarios brutos anuales al cabo de 10 años sería de 6.000 €. Obsérvese que al
ser el coeficiente b (la pendiente) superior en la recta de hombres (1500) que en la de mujeres
(1200), la diferencia no puede sino aumentar con los años según el modelo lineal.

Ejercicio 3.

Realizaremos una prueba de hipótesis para comprobar el posible aumento de la satisfacción en la


población de pacientes. Al tratarse de muestras repetidas a las mismas personas utilizaremos para el
cálculo de la prueba la media de la diferencia x d entre los valores antes y después en cada
individuo.

La hipótesis nula se enuncia en el sentido de que no hay diferencias en la población, y por tanto la
media de las diferencias es cero. Y la hipótesis alternativa en el sentido de que la media de las
diferencias es mayor que cero.

H 0 : d  0
H1 : d  0
Utilizaremos la distribución t de Student por haber un número pequeño de casos en la muestra
x d  d
t
d

Xd xd (X d  X d ) ( X d  X d )2
Pacientes Junio Diciembre
1 6 5 -1 0,375 -1,375 1,890625
2 8 9 1 0,375 0,625 0,390625
3 5 5 0 0,375 -0,375 0,140625
4 4 7 3 0,375 2,625 6,890625
5 6 6 0 0,375 -0,375 0,140625
6 5 6 1 0,375 0,625 0,390625
7 4 4 0 0,375 -0,375 0,140625
8 3 2 -1 0,375 -1,375 1,890625
Totales 3 11,875

X d 3

3
Xd   0,375
8

S xd 
 (x i  x) 2

11,875
 1,2183
n 8
S xd 1,218
d    0,46
n 1 7

Calculamos a continuación el valor empírico de te que compararemos con el valor crítico dado por
el nivel de significación del 0,05 y 7 grados de libertad: tc = 1,895

xd  d 0,375  0
te    0,8143
d 0,46

Por tanto al ser te < tc no podemos rechazar la hipótesis nula y concluimos que no ha habido
cambios significativos en la satisfacción de los pacientes de la población.

Ejercicio 4.

Para construir el intervalo debemos convertir el nivel de significación en puntuación tipificada Z.


Para un nivel de confianza del 90%, puesto que las tablas sólo representan la mitad de la curva,
dividimos por dos el nivel de confianza 0,90/2 = 0,45 y buscamos en la tabla el valor de Z más
próximo para ese valor: Z=1,645
Obtenemos a continuación el valor de la desviación típica de la distribución muestral de las medias:
Sx 10.000
x    1.005,04
n 1 100  1
El intervalo será:
  x  Z x  42.000  1,645  1.005,04

Restando y sumando el error de estimación Z x a la media x , obtenemos los límites del


intervalo:
Límite inferior: 40.346,71
Límite superior: 43.653,29

Los límites definen el intervalo dentro del cual se encontrarán el 90% de las medias que podríamos
obtener de todas las muestras posibles de esa población.
Examen de Estadística Aplicada a las Ciencias Sociales
Junio 2009 2ª Semana

Ejercicio 1.
A partir de una encuesta de 1.200 personas (obtenidas por muestreo aleatorio simple)
sabemos que la edad media de la población de un determinado país se encuentra, con
una probabilidad del 95%, entre los 34,6 y los 36,2 años ¿Cuál es el máximo error que
podemos cometer al hacer esta afirmación?

Ejercicio 2.
La siguiente tabla nos muestra las ventas de un producto de una empresa multinacional
y los gastos de publicidad de ésta en 9 países distintos (en millones de euros).

País A B C D E F G H I
Ventas 20 25 24 30 32 40 28 50 40
Publicidad 0,2 0,2 0,2 0,3 0,3 0,4 0,3 0,5 0,4

¿Existe asociación entre los gastos de publicidad y las ventas?

Ejercicio 3.
El estudio 2475 del CIS, sobre discriminación, ofrece los siguientes resultados a la
pregunta “¿En alguna ocasión se ha sentido discriminado por razón de...?”

Nunca o
Muchas Alguna casi
veces vez nunca N.S N.C. (n)
Sexo 1,6 9,1 88,9 0,2 0,1 (2487)
Edad 1,4 9,0 89,3 0,2 0,2 (2487)
Religión 0,1 2,0 97,5 0,3 0,2 (2487)
Ideas Políticas 1,2 7,7 90,5 0,2 0,4 (2487)
No tener dinero 2,0 8,0 89,6 0,2 0,2 (2487)
Orientación sexual 0,3 0,8 98,2 0,2 0,4 (2487)

¿Cuántos entrevistados se han sentido discriminados muchas o alguna vez por sus
“ideas políticas”?
¿Podemos afirmar (con un nivel de significación del 0,05) que los españoles se sienten
más discriminados por “no tener dinero” que por sus “ideas políticas”?

Ejercicio 4.
El estudio del CIS 2753 preguntó por el grado de satisfacción de los jóvenes españoles
en sus relaciones de pareja, obteniéndose los siguientes resultados:

Mucho Bastante Poco Nada No procede N.S N.C. Total (N)


Hombre 28,50 37,00 11,60 2,60 20,00 0,30 0,10 (741)
Mujer 36,80 39,50 7,70 2,60 13,10 0,30 0,10 (701)
Total 32,50 38,20 9,70 2,60 16,60 0,30 0,10 (1442)

La respuesta “no procede” señala a quienes no tienen pareja.


Vuelva a calcular los porcentajes de hombres y mujeres eliminando las categorías “no
procede”, “no sabe” (N.S.) y “no contesta” (N.C.)
¿Observa alguna diferencia en los nada satisfechos entre los hombres y las mujeres de
ambas tablas?
SOLUCIONES

Ejercicio 1.

En este caso conocemos el intervalo de estimación. El límite superior del intervalo es el


valor del estadístico más el error, y el límite inferior el valor del estadístico menos el
error. El valor del estadístico es el centro del intervalo. En este caso:

36,2  34,6 70,8


x   35,4
2 2

Así la edad media obtenida en la muestra ha sido 35,4 años. El error será:
e  Ls  x  36,2  35,4  0,8
El error máximo es 0,8 años.
(El mismo resultado se obtiene restando al estadístico el límite inferior del intervalo).

Ejercicio 2
La asociación entre dos variables de intervalo se denomina correlación y se mide
mediante el coeficiente “r” de Pearson.

r
S xy

 ( x  x)( y  y)
SxSy  ( x  x)  ( y  y )
2 2

En la tabla siguiente se detallan los cálculos, que comenzamos con el cómputo de las
medias:

y
y i

289
 32,11
n 9

x
x i

2,8
 0,31
n 9

Y X
A 20 0,2 -12,11 -0,11 1,3321 146,6521 0,0121
B 25 0,2 -7,11 -0,11 0,7821 50,5521 0,0121
C 24 0,2 -8,11 -0,11 0,8921 65,7721 0,0121
D 30 0,3 -2,11 -0,01 0,0211 4,4521 0,0001
E 32 0,3 -0,11 -0,01 0,0011 0,0121 0,0001
F 40 0,4 7,89 0,09 0,7101 62,2521 0,0081
G 28 0,3 -4,11 -0,01 0,0411 16,8921 0,0001
H 50 0,5 17,89 0,19 3,3991 320,0521 0,0361
I 40 0,4 7,89 0,09 0,7101 62,2521 0,0081
Total 289 2,8 7,8889 728,8889 0,0889
Entonces,

r
 ( x  x)( y  y) 
7,8889
 0,98
 ( x  x)  ( y  y )
2 2 0,0889 728,8889

La correlación es positiva y muy elevada entre la inversión en publicidad y las ventas


obtenidas.

Ejercicio 3.

Tomaremos de la tabla del CIS los casos que van a ser objeto de comparación, es decir
los porcentajes de personas que han contestado “muchas veces” o “alguna vez” a las
preguntas sobre la discriminación por las “ideas políticas” y por “no tener dinero”.

Muchas veces Alguna vez Total (%)


Ideas Políticas 1,2 7,7 8,9
No tener dinero 2,0 8,0 10,0

a) Directamente podemos calcular el número de personas que se han sentido


discriminadas muchas o alguna vez por sus ideas políticas:
El 8,9% de 2.487 son 221 encuestados

b) Expresándolo en forma de proporciones, llamaremos p1 a la proporción de los que


dicen haber sido discriminado por las ideas políticas muchas veces o alguna vez, y p2 la
proporción de los que dicen haber sido discriminados muchas veces o alguna vez por no
tener dinero:

p1  0,089
p 2  0,10

Considerando que tenemos dos muestras independientes del mismo tamaño (2.487)
contrataremos la diferencia entre ambas proporciones mediante una prueba de hipótesis:

H o : p1  p2
H 1 : p1  p 2

Prueba unilateral n.s. = 0,05 por lo que Zc = 1,645

Para calcular el error típico de la distribución muestral de las diferencias entre


proporciones hallaremos la proporción conjunta:

p1  n1  p 2  n2 0,089  2.487  0.1 2.487


P   0,0945
n1  n2 2  2.487
Q  1  P  1  0,0945  0,9055

Calculamos a continuación el error típico de la distribución muestral  p


1 1  2 
 p  P  Q      0,0945  0,9055     0,0083
 n1 n2   2.487 

Calculamos a continuación el valor de Ze que compararemos con el valor crítico dado


por el nivel de significación:

p1  p 2 0,089  0,10
Ze    1,326
p 0,0083
El valor absoluto del Z empírico |-1,326| es menor que el valor crítico de Z (1,645) por
lo que aceptamos la hipótesis nula: la diferencia entre ambas proporciones no es
significativa en la población de la que provienen las muestras.

Ejercicio 4.

Partiendo de la tabla original,

Mucho Bastante Poco Nada No procede N.S N.C. Total


Hombre 28,5 37 11,6 2,6 20 0,3 0,1 (741)
Mujer 36,8 39,5 7,7 2,6 13,1 0,3 0,1 (701)
Total 32,5 38,2 9,7 2,6 16,6 0,3 0,1 (1442)

debemos eliminar las repuestas “No procede”, “No Sabe” y “No Contesta”,
descontándolas del total de casos y reelaborando los porcentajes.

En primer lugar pasaremos los porcentajes a número de casos:

Mucho Bastante Poco Nada No procede N.S N.C. Total


Hombre 211,19 274,17 85,96 19,27 148,20 2,22 0,74 (741)
Mujer 257,97 276,90 53,98 18,23 91,83 2,10 0,70 (701)

Eliminamos los datos de las categorías que queremos excluir y recalculamos los totales:

Mucho Bastante Poco Nada Total


Hombre 211,19 274,17 85,96 19,27 590,58
Mujer 257,97 276,90 53,98 18,23 607,07

Finalmente volvemos a expresar los datos en forma de porcentajes por filas:

Mucho Bastante Poco Nada Total


Hombre 35,76 46,42 14,55 3,26 (591)
Mujer 42,49 45,61 8,89 3,00 (607)
Total 39,17 46,01 11,69 3,13 (1198)

En cuanto a las diferencias entre hombres y mujeres que manifiestan estar “nada
satisfechos” observamos ahora una pequeña diferencia entre hombres y mujeres (3,26%
frente al 3%) respecto a la tabla original, en la que ambos valores eran iguales, pero
dada la magnitud de las diferencias no es necesaria la prueba de hipótesis.
EJERCICIOS RESUELTOS http://www.uned.es/111044/examenes/EJERESUS01.htm

EJERCICIOS RESUELTOS

ESTADISTICA APLICADA A LAS CIENCIAS SOCIALES


1er parcial. Septiembre de 2001-06-19
TIEMPO: 2 horas
MATERIAL: Todo tipo de material (libros, apuntes y máquinas de calcular)

INDIQUE EN SU EXAMEN LA CARRERA EN LA QUE ESTA MATRICULADO CIENCIAS


POLÍTICAS O SOCIOLOGÍA

EJERCICIO 1
Los miembros de una cooperativa de viviendas tienen las siguientes edades:

42 60 60 38 60 63 21 66 56 57 51 57 44 45 35
30 35 47 53 49 50 49 38 45 28 41 47 42 53 32
54 38 40 63 48 33 35 61 47 41 55 53 27 20 21
42 21 39 39 34 45 39 28 54 33 35 43 48 48 27
53 30 29 53 38 52 54 27 27 43 28 63 41 23 58
56 59 60 40 24

Elabore una tabla de frecuencias.


Calcule la media y la desviación típica.

SOLUCIÓN:

Para elaborar una tabla de frecuencias es condición imprescindible establecer una serie de clases o
categorías (intervalos) a las que vamos a adjudicar a cada uno de los ochenta miembros de la cooperativa.
El investigador puede seguir diferentes criterios en función del objetivo del estudio. Una tabla de
frecuencias elaborada a partir de estos datos podría ser la siguiente:

Edad n
20-29 14
30-39 17
40-49 22
50-59 18
60-69 9
Total 80

Cálculo de la media:

Puede calcularse directamente sumando las edades de todos los miembros de la cooperativa y dividiendo
por el total que en este caso es ochenta, el resultado es una media de 43,29. También:

Edad xi ni xini

20-29 25 14 350
30-39 35 17 595
40-49 45 22 990
50-59 55 18 990
60-69 65 9 585
Total 80 3510

1 de 6 06/04/2012 11:51
EJERCICIOS RESUELTOS http://www.uned.es/111044/examenes/EJERESUS01.htm

, por tanto, podemos decir que la media es de casi 44 años.


Cálculo de la desviación típica:

Edad xi ni
20-29 25 14 -18,875 356,2656 4987,71875
30-39 35 17 -8,875 78,7656 1339,01563
40-49 45 22 1,125 1,2656 27,84375
50-59 55 18 11,125 123,7656 2227,78125
60-69 65 9 21,125 446,2656 4016,39063
Total 80 12598,75

Sx =
La desviación típica es de 12,5 años

EJERCICIO 2
Explique las similitudes y diferencias de estas distribuciones:

Edad n_ Edad n__


20-29 14 20-29 43
30-39 17 30-39 --
40-49 22 40-49 --
50-59 18 50-59 --
60-69 9 60-69 37
Total 80 Total 80

SOLUCIÓN:
La media y la desviación típica de la primera distribución, ha sido calculada en el primer ejercicio.
Calculamos a continuación los mismos estadísticos para la segunda distribución.
Cálculo de la media:

Edad xi ni xini

20-29 25 43 1075
30-39 35 -
40-49 45 -
50-59 55 -
60-69 65 37 2405

Total 80 3480

Cálculo de la desviación típica:

2 de 6 06/04/2012 11:51
EJERCICIOS RESUELTOS http://www.uned.es/111044/examenes/EJERESUS01.htm

Edad xi ni
20-29 25 43 -18,875 356,2656 15319,4219
30-39 35 - -8,875 78,7656 -
40-49 45 - 1,125 1,2656 -
50-59 55 - 11,125 123,7656 -
60-69 65 37 21,125 446.2656 16511,8281

Total 80 31831,25

La similitud de ambas distribuciones radica fundamentalmente en que tienen la misma amplitud y casi el
mismo valor medio. La diferencia es que las frecuencias de la segunda se distribuyen en los intervalos
extremos dejando vacíos los del medio. Ello aparece perfectamente reflejado en la desviación típica de
19,9, aproximadamente 20 años. 43 + 20 hacen 63, aproximadamente la mitad del último intervalo, 43 –
20 hacen 23, aproximadamente la mitad del primer intervalo. Recuérdese que la desviación típica es la
raíz de la media de las distancias al cuadrado, de cada uno de los elementos de la distribución respecto de
la media aritmética.

EJERCICIO 3
En una pregunta del CIS sobre la edad hasta la que consideran convenientes los padres controlar los
programas y el tiempo de televisión de los hijos, la media fue de 15,4 años y la desviación típica de 2,11.
Teniendo en cuenta que las respuestas se distribuyen aproximadamente como la curva normal y que van
de los 7 a los 24 años, calcular:
a)-Cuantos respondieron que la edad debe ser hasta los 13 años
b)-Cuantos dijeron que debe estar entre 14 y 17 años.
c)-Cuantos respondieron que debe estar por encima de los 19 años

SOLUCIÓN:

a)

Sx = 2,1

3 de 6 06/04/2012 11:51
EJERCICIOS RESUELTOS http://www.uned.es/111044/examenes/EJERESUS01.htm

Consultando las tablas de la curva normal comprobamos que entre la media y un desviación típica de 1,13
encontramos un área de 0,3708 que si situaría a la izquierda de la curva por tener signo negativo. Si el
área que queremos calcular es el que queda a la izquierda del valor -1,13, es decir, los de menos de 13
años, restamos a 0,5 (que es la superficie de la mitad de la curva) 0,3708 y obtenemos el resultado de
12,92%
0,5-0,3708= 0,1292

b)

4 de 6 06/04/2012 11:51
EJERCICIOS RESUELTOS http://www.uned.es/111044/examenes/EJERESUS01.htm

Las áreas correspondientes a estos valores z son 0,2454 y 0,2734 respectivamente.


Como en este caso nos preguntan por el área comprendida entre las unidades z –0,66 y 0,75 sumaremos
ambas con el resultado de del 51,88%
0,2454+0,2734 = 0,5188

c)

El área correspondiente es de 0.4554 y los que están por encima de 1,7 unidades z se obtienen restando de
0,5, el 0,4554 de las tablas.
0,5-0,4554 = 0,0446, es decir el 4,46%.

Ejercicio 4
Calcule el tamaño muestral de una encuesta realizada por CIS sobre la Unión Europea que incluía todas
las provincias excepto Ceuta y Melilla. El error teórico era de + 2, con un intervalo de confianza de
95,5% y P=Q en el supuesto de un muestreo aleatorio simple.

SOLUCIÓN

Utilizamos la fórmula para muestras infinitas en la que intervienen los tres factores determinantes del
tamaño muestral: la probabilidad con la que queremos trabajar (z), el grado de concentración, dispersión
de la población (pq) y el error que estamos dispuestos a asumir.

5 de 6 06/04/2012 11:51
EJERCICIOS RESUELTOS http://www.uned.es/111044/examenes/EJERESUS01.htm

6 de 6 06/04/2012 11:51
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/2psep01.htm

Estadística Aplicada a las Ciencias Sociales


Septiembre 2001 2ª PP.

Ejercicio 1.
Según el barómetro realizado por el CIS en abril de 2001, el 16,5% de los 2.494 entrevistados manifestó
creer que dentro de un año la situación económica del país sería mejor.

a) Estimar el intervalo en el que se encontrará la proporción real de los que piensan que la situación
mejorará, utilizando un nivel de confianza del 95%
b) Realice el mismo cálculo para un nivel de significación del 0,02.
c) Compare los dos intervalos obtenidos y comente los resultados.

a) siendo p= 0,165 la proporción de los que piensan que la situación económica mejorará, se
trata de estimar el intervalo en el que se encontrará el valor P en la población. El intervalo se
construye sumando y restando al valor en la muestra el error absoluto, con lo que obtendremos
el extremo superior e inferior del intervalo.
Siendo necesitamos calcular Z y
El valor de Z lo obtenemos a partir del nivel de confianza establecido: consultando las tablas del
áreas bajo la curva normal, y considerando que las tablas solo presentan la mitad de la curva por ser
simétrica, buscaremos en ellas el valor de Z correspondiente a la mitad de 0,95 es decir, el valor Z
correspondiente a 0,475 es 1,96.
Para el cálculo del error típico de la distribución muestral de las proporciones , utilizaremos la

fórmula:
sabiendo que q = 1- p , sustituimos en la fórmula anterior los valores :

volviendo a la fórmula del intervalo con los valores calculados:

operando obtenemos los valores inferior y superior del intervalo pedido:


la proporción en la población se encomtrará en el intervalo( 0,150 y 0,180) con una probabilidad del
95%.

b) El nivel de significación del 0,02 se corresponde con un nivel de confianza del 98% por lo que
el cálculo es análogo al del apartado anterior, modificando el valor de Z que en este caso es Z =
2,33

el intervalo pedido será entonces el comprendido entre ( 0,148 y 0,182 )

c) comparando ambos intervalos observamos que al aumentar el nivel de confianza también


aumenta la amplitud del intervalo del valor poblacional. Lo que se gana en certeza
(probabilidad de que al obtener muestras al azar, la proporcion medida en la muestra quede
dentro del intervalo) se pirede en precisión (la amplitud del intervalo es mayor).

Ejercicio 2. En una encuesta sobre perfiles actitudinales se pregunto a 2.500 personas (una muestra de 1.260
mujeres y otra de 1.240 hombres): ¿cómo prefiere pasar Vd. Su tiempo libre?
Los resultados de esta pregunta se reflejan en la siguiente tabla de porcentajes:

% MUJERES % HOMBRES
Con su familia 64 59

1 de 4 06/04/2012 11:51
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/2psep01.htm

Con sus amigos 16 25


Solos 9 6
Con mucha gente 4 4
Depende 7 6
100 100
(1260) (1240)

¿Se puede asegurar, con un nivel de confianza del 95%, que la diferencia entre las proporciones de mujeres y
hombres que prefieren pasar su tiempo libre solos, es válida para la población de la que se extrajeron las muestras?

Llamando p1 a la proporción de mujeres que prefieren pasar su tiempo libre solas y p2 a la misma
proporción en los hombres, podemos establecer las hipótesis de trabajo.
La hipótesis nula se enunciaría en el sentido de que no existen diferencias entre las proporciones de
mujeres y hombres, y la hipótesis alternativa sostendría que sí existen diferencias:
siendo p1 la proporción de mujeres y p2 la de hombres;

Al trartarse de determinar si existen diferencias significativas sin especificar la dirección del sesgo
(una relación de “mayor o menor que” entre las proporciones), utilizaremos una prueba bilateral con
un nivel de confianza del 95%.

Siendo las muestras suficientemente grandes podemos utilizar la distribución normal.

Comenzaremos los cálculos hallando el valor de la proporción conjunta o proporción ponderada de las
dos muestras:

por tanto, q =1 – p = 1- 0,075 = 0,925

a continuación calculamos el error típico de la distribución muestral:

Calculamos a continuación el valor empírico de Ze:

podemos entonces proceder al contraste entre el valor empírico obtenido de Ze y el valor teórico Zc
obtenido de las tablas para el nivel de confianza dado:

para un nivel de confianza del 95% Zc= 1,96 y habiendo obtenido para Ze un valor muy superior,
podemos si duda rechazar la hipótesis nula y afirmar que las diferencias entre las muestras son
significativas.

Ejercicio 3. En un estudio sobre calidad de la enseñanza se obtuvieron tres muestras de estudiantes pertenecientes
a tres CCAA, entre los presentados a los exámenes de selectividad. Establezca mediante un contraste de hipótesis,
si existen diferencias en las calificaciones obtenidas según la Comunidad Autónoma de pertenencia, para el total de
los presentados en las tres CCAA, con un nivel de significación del 0,05.

2 de 4 06/04/2012 11:51
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/2psep01.htm

Cataluña Comunidad de Madrid País Vasco


5 5,4 8,2
4,6 4,6 6,1
6,8 7,3 5,3
3,5 6,7 4,6
7,5 5,8 6,8

Se trata de un análisis simple de la varianza con tres muestras y una variable independiente. Se enuncia
una hipótesis nula que afirma que no existen diferencias significativas en las calificaciones obtenidas,
según la Comunidad Autónoma y las diferencias observadas son debidas al azar. Y una hipótesis
alternativa que niega la anterior:

Llamando x1 a las calificaciones obtenidas en Cataluña, x2 a las obtenidas en Madrid y x3 a las


obtenidas en el País Vasco calculamos:

; ;
; ;

calculando a continuación la Suma total de cuadrados :

La suma de cuadrados entre grupos:

y por último la suma de cuadrados dentro de los grupos:

Grados de libertad:
-del total glt=N-1=15-1=14 (siendo N el número de casos)
-entre grupos glent=k-1=3-1=2 (siendo k el número de grupos)
-dentro de los grupos gld=N-k=15-3=12

Podemos entonces estimar la varianza:

3 de 4 06/04/2012 11:51
Estadística Aplicada a las Ciencias Sociales http://www.uned.es/111044/examenes/2psep01.htm

-entre grupos

-dentro de los grupos

Procedemos al cálculo de la F de Fisher:

Podemos comparar la F calculada con la F teórica de las tablas para 12 y 2 grados de libertad:
El valor de F calculado es 0,35 y el obtenido en las tablas es 3,88
Al ser menor el valor calculado que el teórico hemos de aceptar la hipótesis nula y concluir que no hay
diferencias significativas en las calificaciones según la cumunidad autónoma.

Ejercicio 4. En un estudio sobre la situación económica de los hogares de una determinada región, se observó la
relación entre los ingresos mensuales de una muestra de 350 jóvenes trabajadores y los ingresos mensuales de sus
padres. Habiéndose calculado el coeficiente de correlación de Pearson, r = 0,75 , calcule el error típico del
coeficiente Z de Fischer y, construya un intervalo para el coeficiente de correlación en la población “ρ”, con un
nivel de confianza del 95%.

El intervalo pedido viene dado por la fórmula:

a partir del coeficiente de correlación y mediante las tablas de valores de Z para valores dados de R
Al valor r = 0,75 le corresponde un Zr = 0,9730

Calculando el error típico del coeficiente Z de Fisher según la fórmula:

podemos hallar el intervalo en términos de Zr

obteniendo el siguiente intervalo comprendido entre los valores: (0,8678 y 1,0782)

los valores de los extremos del intervalo pueden volver a ser transformados mediante las tablas para
obtener los valores del coeficiente de correlación en la población:

resultando un intervalo con los valores ( 0,7 y 0,792 ).

4 de 4 06/04/2012 11:51
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/soluciones sep...

ESTADISTICA APLICADA A LAS CIENCIAS SOCIALES


1er parcial. Septiembre de 2002
TIEMPO: 2 horas
MATERIAL: Todo tipo de material (libros, apuntes y máquinas de calcular)
INDIQUE EN SU EXAMEN LA CARRERA EN LA QUE ESTA MATRICULADO

EJERCICIO 1
Los recientes resultados pertenecen a una encuesta del CIS sobre el voto declarado en las elecciones
autonómicas de 31 de mayo de 2001.

Total % PNV/EA% PSE/EE% PP/UA% IU/EB% EH%


18 a 24 años 10 9 5 12 21 16
25 a 34 años 18 17 13 15 29 36
35 a 44 años 19 20 14 18 25 19
45 a 54 años 17 17 24 15 15 15
55 a 64 años 15 13 20 18 7 8
65 años y más 21 24 24 22 3 6
(N) (absolutos) (2127) (819) (182) (137) (122) (120)

Calcule la media de edad de los votantes del PNV/EA, del PP/UA de IU/EB y de EH. Comente los
resultados.
Calcule la desviación típica de los votantes del PNV/EA

EJERCICIO 2
Con los datos del ejercicio anterior, calcule el coeficiente de variación de los votantes del PNV/EA y de
los votantes de EH. Comente los resultados.

EJERCICIO 3
Un bombo de lotería contiene 6 bolas rojas, 4 bolas blancas y 5 azules. Determine la probabilidad de
extraer aleatoriamente:
-una bola roja
-una bola blanca
-una bola azul
-una bola No roja
-una bola roja o blanca

EJERCICIO 4
El barómetro del CIS de diciembre del 2000 fue una encuesta a la población española de ambos sexos de
18 años y más excluyendo Ceuta y Melilla.

-Calcule el tamaño muestral teniendo en cuenta que el nivel de confianza fue del 95,5%, P=Q y el error
teórico + 2
-Si se desea incluir la población de Ceuta y Melilla, ¿el tamaño de la muestra sería el mismo?

Respuestas
Ejercicio 1.

Para calcular la media, calculamos las marcas de clase Xc de cada intervalo. Y cerramos el último
intervalo en 90 años, en el supuesto de que habrá muy pocos casos por encima de esa edad y no se
alterará sustancialmente el valor de los estadísticos. Obviamente sería preferible disponer de los datos

1 de 4 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/soluciones sep...

originales. También se puede utilizar un criterio en función de la esperanza de vida de la población. Los
cálculos de la media para el caso del PNV/EA, serían,

Edad Xc ni Xc ni
18 a 24 21,5 74 1591
25 a 34 30 139 4170
35 a 44 40 164 6560
45 a 54 50 139 6950
55 a 64 60 106 6360
65 y más 77,5 197 15267,5
819 40898,5

Por lo tanto la edad media de los que han declarado haber votado al PNV es:

Procediendo de forma análoga obtenemos el resto de las medias:

Formaciones Edades medias


políticas
PNV/EA 49,94
PP/UA 49,63
IU/EB 37,21
EH 38,84

Puede observarse una diferencia sustancial en las edades medias de los votantes a los distintos partidos,
mucho menor en el caso de IU/EB, y en menor medida en el de EH, que en el resto de los partidos. No
obstante se hace necesario calcular las dispersiones respecto a los valores medios, para poder establecer el
significado de las medias.

Cálculo de las desviaciones típicas para PNV/EA :

Edad ni Xc (Xc-Media) (Xc-Media)2 (Xc-Media)2ni


18 a 24 74 21,5 -28,437 808,662969 59841,0597
25 a 34 139 30 -19,937 397,483969 55250,2717
35 a 44 164 40 -9,937 98,743969 16194,0109
45 a 54 139 50 0,063 0,003969 0,551691
55 a 64 106 60 10,063 101,263969 10733,9807
65 y más 197 77,5 27,563 759,718969 149664,637
819 291684,512

La desviación típica de las edades para el PNV/EA, es por tanto:

2 de 4 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/soluciones sep...

Ejercicio 2.

El coeficiente de variación nos permite comparar las dispersiones de dos distribuciones con diferentes
medias.

Calculando la desviación típica para EH de la misma manera que hemos hecho para PNV/EA, obtenemos
el valor : 14,8

Calculamos según la fórmula anterior los coeficientes de variación y obtenemos los siguientes valores:

Formaciones Media Desviación Coeficiente de


políticas típica variación
PNV/EA 49,94 18,87 37,79
EH 38,84 14,8 38,10

Los datos absolutos mostraban una mayor dispersión respecto a la media en el caso del PNV/EA. Sin
embargo al poner la desviación en términos relativos, en función de la media de cada grupo, podemos
observar que al contrario, existe una dispersión ligeramente superior en el caso de EH.

Ejercicio 3.

El bombo contiene 15 bolas en total, de las cuales 6 son rojas, 4 blancas y 5 azules.
Utilizando la definición clásica de probabilidad dada por Laplace, la probabilidad de obtener una bola de
un color determinado vendrá dada por el cociente entre el número de casos favorables y el de los casos
posibles:

La probabilidad de extraer al azar una bola roja, será

de forma análoga obtenemos la probabilidad de extraer una bola blanca:

y la probabilidad de extraer una bola azul:

La probabilidad de extraer una bola que no sea roja, dado que se trata de sucesos excluyentes (cada bola
es de un solo color) será la suma de las probabilidades de extraer una bola blanca y de extraer una bola
azul:

Tambien se puede calcular:

3 de 4 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/soluciones sep...

De la misma manera, la probabilidad de extraer una bola que sea roja o blanca:

P(roja o blanca) = P(roja)+P(blanca) = 0,4 + 0,2667 = 0,6667

Ejercicio 4.

Utilizando la fórmula para hallar el tamaño muestral en poblaciones “infinitas”

Para un nivel de confianza del 95,5% el valor de Z es igual a 2

Sustituyendo los datos en dicha fórmula se obtiene:

La inclusión de Ceuta y Melilla no haría variar el tamaño muestral, dado que el tamaño de la población no
interviene en el cálculo.

4 de 4 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/sept2002-2pp.htm

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES


Sociología: 111044 Ciencias Políticas:121046
Septiembre de 2002. 2ªPP.

TIEMPO: 2 Horas.
MATERIAL: Todo tipo de material. (Calculadoras, libros, apuntes…)

Ejercicio 1. En el barómetro del CIS de Abril de 2002, se estima que la intención de voto al Partido Popular es del
42,4% mientras que en el barómetro del mismo mes para el año 2001, la intención del voto al PP fue del 43,5%. En
ambas encuestas se utilizó el mismo tamaño muestral: 2.500 unidades. Realice una prueba de hipótesis con un nivel
de confianza del 95,5%, para determinar si la diferencia observada en la intención de voto entre ambas muestras es
significativa.

Ejercicio 2. Se ha realizado una encuesta entre madres que han establecido una nueva relación de pareja. Se ha
preguntado a las mujeres acerca de la relación entre sus hijos y sus nuevas parejas y se han obtenido los siguientes
datos:

La madre considera a su nueva pareja como:

Tipo de pareja Un verdadero padre Un segundo padre Un amigo Total


Matrimonio 60 60 55 175
Unión de hecho 55 56 87 198
Total 115 116 142 373

Calcule la asociación entre las dos variables y realice una prueba de hipótesis para conocer si la asociación
obtenida en la muestra es significativa, con un nivel de confianza del 95%.

Ejercicio 3. En una encuesta sobre movilidad social se han cruzado los datos del nivel de estudios de los
encuestados con los de sus padres, obteniéndose la siguiente tabla:

Padres
Hijos Primarios Medios Superiores Total
Superiores 30 50 69 149
Medios 60 55 49 164
Primarios 75 39 31 145
Total 165 144 149 458

Calcule el coeficiente de asociación Gamma y comente el resultado.

Ejercicio 4. En la siguiente tabla se tiene el Gasto en consumo nacional, para diferentes años (en miles de millones
de euros):

Año 1997 1998 1999 2000 2001


Gasto 272,62 284,89 ? 310,34 318,79

No disponiendo de los datos para el año 1999, se propone el cálculo de la recta de regresión para poder estimar
el gasto de ese año. (para simplificar los cálculos asigne el valor x=0 para el año 1997; x=1 para 1998;
x=2 para 1999 y así sucesivamente para cada año)

Ejercicio 1

Se trata de un contraste de dos muestras para el estadístico de la proporción.

1 de 5 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/sept2002-2pp.htm

La hipótesis nula señala que Ho:p1=p2

En primer lugar se calcula la proporción media[1]:

0,4295

El error típico de la diferencia de proporciones:

El valor del estadístico Z será:

Como Z es menor que 2, las diferencias no son significativas para el nivel de significación prefijado. A la
vista de los datos no es posible afirmar que entre Abril de 2001 y 2002 se haya modificado la intención de
voto al Partido Popular.

Ejercicio 2

En primer lugar calculamos el valor del estadístico Ji-cuadrado. Para ello calculamos las frecuencias
esperadas:

Frecuencias observadas fo
Un verdadero Un segundo
Padre padre Un amigo TOTAL
Matrimonio 60 60 55 175
Unión de Hecho 55 56 87 198
TOTAL 115 116 142 373

Frecuencias esperadas
Un verdadero Un segundo
Padre padre Un amigo TOTAL
Matrimonio 53,9544236 54,4235925 66,6219839 175
Unión de Hecho 61,0455764 61,5764075 75,3780161 198
TOTAL 115 116 142 373

(fo-fe)
Un verdadero Un segundo
Padre padre Un amigo TOTAL
Matrimonio 6,04557641 5,57640751 -11,6219839 0
Unión de Hecho -6,04557641 -5,57640751 11,6219839 0
TOTAL 0 0 0 0

(fo-fe)2

2 de 5 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/sept2002-2pp.htm

Un verdadero Un segundo
Padre padre Un amigo
Matrimonio 36,5489941 31,0963207 135,07051
Unión de Hecho 36,5489941 31,0963207 135,07051

Un verdadero Un segundo
Padre padre Un amigo TOTAL
Matrimonio 0,67740496 0,57137574 2,02741651 3,27619721
Unión de Hecho 0,5987165 0,50500381 1,79190853 2,89562885
TOTAL 1,27612146 1,07637956 3,81932504 6,17182606

Así
Para 2 grados de libertad y un nivel de significación de 0,05 el valor del estadístico obtenido, es mayor
que el que cabría esperar en el caso de independencia estadística, por lo tanto las diferencias encontradas
en los datos pueden extrapolarse a la población.

Como estadístico de asociación se puede calcular la V de Cramer o el coeficiente de Contingencia:

Siendo el valor máximo de este coeficiente:

La relación entre ambos será:

El valor obtenido, tanto en V como en C, indica una asociación despreciable entre ambas variables. Así,
aunque las relaciones encontradas en la tabla puedan inferirse respecto a la población, la asociación es tan
débil que realmente puede considerarse que no hay en la práctica diferencias en la percepción que tienen
las madres sobre las relaciones entre sus hijos y sus nuevas parejas según el tipo de unión.

Ejercicio 3

Para que la interpretación del coeficiente Gamma resulte más clara, conviene reordenar la tabla de forma
que ambas variables se oriente en el mismo sentido, en este caso en sentido creciente:

Primarios Medios Superiores TOTAL


Superiores 30 50 69 149
Medios 60 55 49 164
Primarios 75 39 31 145
TOTAL 165 144 149 458

Tal y como están ordenadas ambas variables la diagonal que señala asociación positiva entre ambas
variables es:

3 de 5 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/sept2002-2pp.htm

Determinada la diagonal, el cálculo de los pares concordantes será:

30 50 69
60 55 49
75 39 31

75 (50+69+55+49)= 75 x 223= 16725

30 50 69
60 55 49
75 39 31

39 (69+49) = 39 x 118 = 4602

30 50 69
60 55 49
75 39 31

60 (50+69)= 60 x 119 = 7140

30 50 69
60 55 49
75 39 31

55 (69) = 3795

Así los pares concordantes Ns =16725+4602+7140+3795=32262

Para los pares discordantes, procediendo de igual forma:

30 50 69
60 55 49
75 39 31

30 (55+49+39+31)= 30 x 174 = 5220

4 de 5 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/septiembre 2002/sept2002-2pp.htm

30 50 69
60 55 49
75 39 31

50 (49+31) = 50 x 80 = 4000

30 50 69
60 55 49
75 39 31

60 (39+31)= 60 x 70= 4200

30 50 69
60 55 49
75 39 31

55 (31) = 1705

Así los pares discordantes Nd = 5220+4000+4200+1705=15125

Por tanto Gamma.

La asociación entre ambas variables es moderada, y por el signo positivo muestra una relación directa
entre estudios paternos y nivel de estudios alcanzado por los hijos, todo ello en consonancia con la teoría
del “capital cultural” de Bourdieu.

Ejercicio 4.
Este ejercicio se realiza de forma sencilla teniendo en cuenta que se solicita el valor de la variable “y” en
el caso en el que la variable x alcanza su valor medio. Teniendo en cuenta que la recta de regresión pasa
por el punto de ambas medias, la solución será la media de la variable “y”.

Así:

[1] Dado que el tamaño muestral de ambas encuestas es idéntico el cálculo anterior puede simplificarse:

5 de 5 06/04/2012 11:54
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep1ppsolu.htm

FACULTAD DE CIENCIAS POLÍTICAS Y SOCIOLOGÍA

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES


Septiembre de 2003 (1ª Prueba Personal)

MATERIAL PERMITIDO: Todo tipo de material (Libros, apuntes, calculadoras...)


DURACIÓN: 2 Horas.

Resuelva los cuatro ejercicios que se proponen a continuación.

1. En la siguiente tabla, se tienen los datos acerca de la edad de los profesores de enseñanza pública no universitaria
en la Comunidad Murciana para el curso 2002/2003.

Grupos de edad Nº Profesores


21 a 25 475
26 a 30 1.652
31 a 35 2.046
36 a 40 2.454
41 a 45 2.506
46 a 50 2.390
51 a 55 1.945
56 a 60 1.149
61 a 65 212
Más de 65 38
TOTAL 14.867

a) Calcule las frecuencias relativas, para cada grupo de edad.


b) Calcule la mediana de la distribución.
c) Represente gráficamente las frecuencias absolutas.

2. Con los datos del problema anterior, calcule la edad media del profesorado y la desviación típica, comente los
resultados.

3. Sabemos que el porcentaje de viviendas con teléfono en un municipio es del 95% ¿Qué probabilidades tendríamos,
al seleccionar 10 viviendas del municipio al azar, de que dos de ellas carezcan de teléfono?

4. Calcule el tamaño muestral deberíamos emplear para realizar una encuesta en la ciudad de Guadalajara, (68.248
habitantes) con el fin de conocer la proporción de ciudadanos favorables a la implantación de un nuevo sistema de
recogida selectiva de basura. Considere un nivel de confianza del 95,5% , un error máximo admisible del 5%? y
P=Q.

SOLUCIONES
Ejercicio 1

a) Las frecuencias relativas son la proporción en tanto por uno de las frecuencias absolutas de cada categoría sobre el
total de casos. En notación matemática:

En el primer caso, grupo de 21 a 25, el resultado será:

Los resultados se detallan a continuación:

Grupo de Frecuencia Frecuencia

1 de 7 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep1ppsolu.htm

Edad Absoluta Relativa


(“i”) (fi) (fri)
21 a 25 475 0,03194996
26 a 30 1652 0,11111858
31 a 35 2046 0,13762023
36 a 40 2454 0,16506356
41 a 45 2506 0,16856124
46 a 50 2390 0,16075873
51 a 55 1945 0,13082666
56 a 60 1149 0,07728526
61 a 65 212 0,01425977
Más de 65 38 0,002556
TOTAL 14867 1

b) Para el cálculo de la mediana y de otras medidas de tendencia central o de dispersión es necesario, en el caso de
intervalos, obtener las marcas de clase. Para ello deben tenerse en cuenta dos hechos acerca de la naturaleza y
codificación de los datos, el primero sobre los límites reales, y el segundo sobre el intervalo de cierre en las
categorías abiertas.

Como la variable es la edad de un colectivo profesional debe tenerse en cuenta que la codificación de los datos se realiza
en función de la edad cumplida. Es decir, en este caso el valor inferior de la categoría es el límite real inferior. Sin
embargo esto no sucede con el superior. Por ejemplo una persona que tenga de edad exacta 25 años y 11 meses y 25
días, se habrá codificado en edad cumplida como una persona de 25 años y por tanto estará en el primer intervalo. Es
decir en este caso el primer intervalo tiene como límite inferior 21, mientras que el límite superior es 25,99999999 26

El caso del último intervalo, su límite real inferior será 66, obsérvese que quienes están entre 65 y 66 años, estarán en el
intervalo 61 y 65. El límite superior será 70 años. (Si bien en este colectivo profesional la edad de jubilación es de 65
años, cuando estos profesionales ocupan ciertos cargos de gestión pueden retrasar la misma hasta el momento de
cumplir 70 años.

A partir de los límites reales, la marca de clase será el punto medio de ambos, es decir:

Para el primer intervalo de 21 a 25 años, obtendremos:

El resto de los límites reales y marcas de clase se detallan a continuación:

Grupo de Límite Real Límite Real Marca de


Edad Inferior Superior Clase fi
Linf Lsup Xi
21 a 25 21 26 23,5 475
26 a 30 26 31 28,5 1652
31 a 35 31 36 33,5 2046
36 a 40 36 41 38,5 2454
41 a 45 41 46 43,5 2506
46 a 50 46 51 48,5 2390
51 a 55 51 56 53,5 1945
56 a 60 56 61 58,5 1149
61 a 65 61 66 63,5 212
Más de 65 66 70 68 38
TOTAL 14867

La mediana es aquel valor de la variable que deja por encima de él al 50% de los casos, y por debajo del mismo a la otra

2 de 7 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep1ppsolu.htm

mitad. Para su cálculo se parte de la distribución de frecuencias acumuladas y observando en que intervalo se acumulan
ya la mitad de los casos. En este caso, la mitad de los casos son: 14867/2=7433,5

Como puede observarse, la mediana estará entre 41 y 45 años que son los valores en los que se acumulan los primeros
7433,5 casos. (Hasta 40 años hay 6627 casos y hasta 45 hay 9133, por lo tanto los 7433,5 estarán entre ambos límites)

fi fa
21 a 25 475 475
26 a 30 1652 2127
31 a 35 2046 4173
36 a 40 2454 6627
41 a 45 2506 9133
46 a 50 2390 11523
51 a 55 1945 13468
56 a 60 1149 14617
61 a 65 212 14829
Más de 65 38 14867
TOTAL 14867

El cálculo preciso lo ofrece la siguiente fórmula:


(C es la amplitud del intervalo: C=LSup-Linf=46-41=5)

Por lo tanto la edad mediana será de alrededor de 42 años y medio.

3 de 7 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep1ppsolu.htm

c) La representación gráfica correcta es mediante un histograma. Todos los intervalos tienen la misma amplitud 5, a
excepción del último que sólo tiene 4 (70-66=4).

El histograma es una representación de áreas proporcional a las frecuencias. Es decir el área=f. Como él área de un
rectángulo es base por altura (bxh), tendremos que h=f/b, en nuestro caso las alturas de los rectángulos serán h=f/5, la
quinta parte de las frecuencias, excepto en el último caso en que serán la cuarta parte. La siguiente tabla nos proporciona
las alturas para la representación gráfica.

Frecuencia Amplitud Altura (h=fi/b)


(fi)=área (Base=b)
21 a 25 475 5 95
26 a 30 1652 5 330,4
31 a 35 2046 5 409,2
36 a 40 2454 5 490,8
41 a 45 2506 5 501,2
46 a 50 2390 5 478
51 a 55 1945 5 389
56 a 60 1149 5 229,8
61 a 65 212 5 42,4
Más de 65 38 4 9,5

Distribución por edad del profesorado de enseñanza pública no universitaria. Comunidad


Murciana. Curso 2002/03

4 de 7 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep1ppsolu.htm

Ejercicio 2.

En el caso de distribuciones agrupadas en intervalos el cálculo de la media se realiza mediante el sumatorio del producto
de las frecuencias por las macas de clase, como estas ya fueron calculadas en el ejercicio anterior, tenemos que:

Grupo de Marca de fi Xifi


Edad Clase
Xi
21 a 25 23,5 475 11162,5
26 a 30 28,5 1652 47082
31 a 35 33,5 2046 68541
36 a 40 38,5 2454 94479
41 a 45 43,5 2506 109011
46 a 50 48,5 2390 115915
51 a 55 53,5 1945 104057,5
56 a 60 58,5 1149 67216,5
61 a 65 63,5 212 13462
Más de 65 68 38 2584
TOTAL 14867 633510,5

Entonces, la edad media será:

La desviación tipica puede ser rápidamente calculada mediante:

La tabla siguiente nos ayuda:

Grupo de Marca de fi
Edad Clase
Xi
21 a 25 23,5 475 552,25 262318,75
26 a 30 28,5 1652 812,25 1341837
31 a 35 33,5 2046 1122,25 2296123,5
36 a 40 38,5 2454 1482,25 3637441,5
41 a 45 43,5 2506 1892,25 4741978,5
46 a 50 48,5 2390 2352,25 5621877,5
51 a 55 53,5 1945 2862,25 5567076,25
56 a 60 58,5 1149 3422,25 3932165,25
61 a 65 63,5 212 4032,25 854837
Más de 65 68 38 4624 175712
TOTAL 14867 28431367,3

Sustituyendo tenemos que:

5 de 7 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep1ppsolu.htm

Se trata de una distribución claramente simétrica en la que media, mediana y moda coinciden. Los datos obtenidos hasta
ahora señalan una composición del profesorado murciano que puede resumirse como una población que ni está
envejecida ni está juvenilizada. Es decir se observa que los profesores murcianos están concentrados en edades
intermedias. Para algunos sería una población de docentes óptima en la medida en que concentran experiencia y
dinamismo, es decir son lo suficientemente mayores sin dejar de ser jóvenes.
De cara al futuro, en un contexto de bajo crecimiento de este colectivo, puede señalarse en un intervalo a medio plazo una
clara tendencia al envejecimiento de este colectivo. Los pocos activos en edades prejubilares no permitirán, en la medida
en que vayan jubilándose una incorporación significativa de jóvenes, y por tanto la forma simétrica irá progresivamente
conviertiéndose en una distribución asimétrica, por el desplazamiento del “centro de gravedad” de la distribución, del
grueso del colectivo de profesores, hacia la derecha.

Ejercicio 3.

Se trata de una distribución binomial. El enunciado indica que dos viviendas se encuentren sin teléfono en una selección de
10 viviendas, es decir se solicita la proababilidad de que al menos 2 estén sin teléfono, o lo que es lo mismo que sean 2,
3, 4... 9 o 10. (Si hay cuatro sin teléfono hay también dos).

Como el cálculo de la suma de probabilidades desde p=2 hasta p=10 resulta engorroso, haremos lo siguiente
calcularemos la probabilidad inversa es decir la probabilidad de obtener menos de dos viviendas sin teléfono, pues la
probabilidad que buscamos será el complemento a la unidad de dicha cantidad.

Por tanto calcularemos 1-((p=0)+(p=1))

La fórmula binomial:

En este caso p=0,05 es decir la probabilidad de que una casa no tenga teléfono.

Así obtenemos que la probabilidad de que entre 10 una casa no tenga teléfono es:

Así la probabilidad de que en una selección de 10, menos de dos no tengan teléfono es:

P(x<2)=0,59873694+0,3151247=0,91386164

Por lo tanto la probabilidad de que al menos 2 no tengan teléfono será:

1-0,91386164=0,08613836

Es decir un 8,6%

Ejercicio 4.

Se trata de calcular un tamaño para el estadístico de la proporción en el caso de una población finita.

6 de 7 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep1ppsolu.htm

Con n=398 se satisfacen suficientemente los requerimientos de la encuesta.

7 de 7 06/04/2012 11:55
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep2ppsolu.htm

FACULTAD DE CIENCIAS POLÍTICAS Y SOCIOLOGÍA

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES


Septiembre de 2003 (2ª Prueba Personal)

MATERIAL PERMITIDO: Todo tipo de material (Libros, apuntes, calculadoras...)


DURACIÓN: 2 Horas.

Resuelva los cuatro ejercicios que se proponen a continuación.

1. Una muestra aleatoria de n = 50 estudiantes, de los 2.100 que componen la población objeto de
estudio, ha sido entrevistada para conocer la opinión acerca del cambio del sistema de evaluaciones.
Veintisiete estudiantes respondieron a favor del cambio. Estime el número de estudiantes que estaría
a favor del cambio, en el conjunto de la población, con un nivel de confianza del 95,5%

2. Según los datos obtenidos en una encuesta del CIS sobre política internacional, realizada en febrero
de 2002, el 52% de los 1.202 hombres entrevistados, manifestaba prestar “bastante” atención a las
noticias sobre cuestiones y acontecimientos sucedidos en otros países, mientras que entre las 1.285
mujeres entrevistadas, ese porcentaje era del 50% . ¿Puede decirse, con un nivel de confianza del
95% , que existen diferencias significativas entre las proporciones de hombres y mujeres “bastante”
atentos a ese tipo de noticias? ¿Y si contrastamos la hipótesis aplicando un nivel de significación de
0,01?

3. En un estudio del CIS, sobre política internacional, realizado en febrero de 2002, se preguntó a una
muestra de 2.471 personas acerca de la atención que prestaban a las noticias, cuestiones o
acontecimientos que suceden en otros países. Las respuestas a la pregunta aparecen resumidas en la
tabla siguiente:

Nivel de estudios
Bajo Medio Alto
Mucha 52 99 86
Bastante 368 664 233
Poca 332 382 40
Ninguna 138 66 11
890 1211 370
Calcule para esta muestra la asociación entre el nivel de estudios y el grado de atención prestada a las
cuestiones internacionales.

4. En un estudio sobre la movilidad social en una determinada comarca, se observó la relación entre
los ingresos mensuales de una muestra de 500 jóvenes trabajadores y los ingresos mensuales de sus
padres. Habiéndose obtenido un coeficiente de correlación de Pearson, r = 0,85 para los datos de la
muestra, construya un intervalo para el coeficiente de correlación en la población “ρ”, con un nivel
de confianza del 98%.
SOLUCIONES

Ejercicio 1.
Se trata de estimar el parámetro poblacional a partir de los resultados obtenidos en una muestra. El
parámetro a estimar en este caso es la proporción de los que estám a favor del cambio en el sistema de

1 de 6 06/04/2012 11:56
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep2ppsolu.htm

evaluaciones.
El valor buscado se encontrará en el intervalo:

La proporción en la muestra será:

siendo q = 1-p = 0,46

Dado el nivel de confianza del 95,5%, el valor de Z será 2.

El error típico de la proporción podemos calcularlo mediante la expresión:

; ya que N>20n (2100>20*50)

Volviendo con estos valores a la fórmula inicial obtenemos los límites del intervalo en el que se encontrará
la proporción de estudiantea a favor del cambio tenemos:

(0,40 : 0,68)

El intervalo expresado en número de alumnos es ( 840 : 1428)

Ejercicio 2.
Compararemos los valores obtenidos en las dos muestras, de hombres y de mujeres, realizando una prueba
de hipótesis que compruebe si las diferencias entre las proporciones según el género son suficientemente
grandes como para considerar que no son debidas al azar, sino a una diferencia en la población de la que
se extrajeron las muestras.

Siendo p1la proporción de hombres bastante interesados en las noticias internacionales y p2 la de las
mujeres.

Como no se establece el sentido de la posible diferencia, hacemos una prueba bilateral para un nivel de
confianza del 95%

Dado que las muestras son suficientemente grandes (N>20n) utilizaremos como referencia la distribución
normal.

Es necesario calcular la proporción conjunta para ambas muestras según la expresión:

2 de 6 06/04/2012 11:56
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep2ppsolu.htm

Calculamos a contibuación el error típico de la distribución:

Pasamos a contrastar la hipótesis mediante la comparación de las unidades normalizadas de la distribución


muestral teórica Zc y el valor empírico de obtenido de los datods muestrales Ze

Zc para una prueba bilateral y un nivel de confianza del 95% será igual a +/- 1,96

Se acepta la hipotesis nula de que no existen diferencias entre hombres y mujeres, ya que el valor
empírico no sobrepasa el límite de la zona de rechazo de la hipótesis H0 al ser Ze< Zc

Con un nivel de significación menor, se acepta también la hipótesis nula, al ser los límites de la zona de
aceptación mayores.

Ejercicio 3.
Se pide calcular la asociación entre dos variables ordinales, por lo que utilizaremos el coeficiente de
asociacióm gamma.

Dado que las categorias en las tablas están dispuestas de modo que la diagonal que va desde la parte
inferior izquierda a la parte superior derecha de la tabla, señala la asociación positiva, procedemos al
cálculo de los pares concordantes y discordantes.

Ns: cálculo de los pares concordantes

52 99 86
368 664 233
332 382 40
138 66 11

138 (99+664+233+382+40) = 207.552

52 99 86
368 664 233
332 382 40
138 66 11

66 (86+233+40) = 23.694

52 99 86
368 664 233
332 382 40
138 66 11

3 de 6 06/04/2012 11:56
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep2ppsolu.htm

332 (99+86+664+233) = 359.224

52 99 86
368 664 233
332 382 40
138 66 11

382 (86+233) = 121.858

52 99 86
368 664 233
332 382 40
138 66 11

368 (99+86) = 68.080

52 99 86
368 664 233
332 382 40
138 66 11

664 (86) = 57.104

La suma de todos los productos de los pares concordantes será: 837.512

Nd: cálculo de los pares discordantes:

52 99 86
368 664 233
332 382 40
138 66 11

52 (664+233+382+40+66+11) = 72.592

52 99 86
368 664 233
332 382 40
138 66 11

99 (233+40+11) = 28.116
52 99 86
368 664 233
332 382 40
138 66 11

368 (382+40+66+11) = 183.632

52 99 86
368 664 233
332 382 40
138 66 11

664 (40+11) = 33.864

4 de 6 06/04/2012 11:56
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep2ppsolu.htm

52 99 86
368 664 233
332 382 40
138 66 11

332 (66+11) = 25.564

52 99 86
368 664 233
332 382 40
138 66 11

382 (11) = 4.202

La suma de los productos de los pares discordantes es 347.970

El coeficiente nos indica que existe una asociación moderada entre la ordenación de las categorías de
ambas variables. En términos de “reducción proporcional del error” podemos decir que, conociendo el
orden de la variable “nivel de estudios”, es posible reducir el error en el ordenamiento de la variable
“grado de atención a las noticias internacionales” en un 41,29%.

Ejercicio 4.

Conocido el valor del estadístico r en la muestra, podemos acotar los extremos del intervalo en el que se
encontrará el valor poblacional con una probabilidad dada.

La fórmula que nos permite hallar ese intervalo es:

Zr lo obtenemos de las tablas de “valores Z para valores dados de R”. La tabla convierte los valores de r
en valores tipificados Zr.

En nuestro caso, r = 0,85 se corresponde en las tablas con el valor Zr= 1,2561

El nivel de confianza del 98% nos refiere al valor Z de la curva normal igual a 2,33

La unidad de desviación del estimador la obtenemos mediante


Por tanto el intervalo en valores normalizados sería:

Sumando y restando, obtenemos el intervalo: (1,3606 : 1,1516)

Convirtiendo de nuevo los valores tipificados Z en valores R mediante la tabla, obtenemos el intervalo en
el que se encuentra el estadístico poblacional

Z r
1,3606 0,877
1,1516 0,818

5 de 6 06/04/2012 11:56
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2003/sep2ppsolu.htm

6 de 6 06/04/2012 11:56
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/Septiembre 2004/Sep 2004 1pp...

Facultad de Ciencias Políticas y Sociología


Estadística Aplicada a las Ciencias Sociales
(111044 y 121046)
Septiembre 2004. 1ª Prueba Presencial.
Ejercicio 1.
En el Barómetro del Centro de Investigaciones Sociológicas, de diciembre de 2003, se preguntó a los
entrevistados:“Actualmente, entre todos los miembros del hogar (incluido el entrevistado) y por todos los
conceptos, ¿de cuántos ingresos netos disponen por término medio en su hogar al mes?”
Las respuestas de los entrevistados que contestaron a la pregunta se presentan en la siguiente tabla:
Ingresos %
Menos o igual a 300 euros 1,9
De 301 a 600 euros 13,9
De 601 a 900 euros 19,8
De 901 a 1200 euros 23,3
De 1201 a 1800 euros 20,5
De 1801 a 2400 euros 10,3
De 2401 a 3000 euros 5,3
De 3001 a 4500 euros 2,8
De 4501 a 6000 euros 1,9
Más de 6000 euros 0,3
(N=1690)
a) Calcule el primer cuartil de la distribución de los ingresos declarados por los hogares de la muestra.
b) Calcule la mediana de la distribución.
c) Comente los resultados
Ejercicio 2.
2
Las edades de los encuestados en el estudio 2.557 del CIS, se distribuyen según la siguiente
tabla:

Edades %
18-24 12.5
25-34 21.0
35-44 18.2
45-54 15.2
55-64 12.5
65 y + 20.6
(N) (2499)

Represente gráficamente los datos y comente la forma de la distribución.


Ejercicio 3.
Según el último censo, de las 163.442 personas censadas en la provincia de Ávila, 1.847 tienen noventa o más
años. Si seleccionásemos a 20 personas al azar entre los censados en Ávila ¿cuál sería la probabilidad de que dos
de ellas tuvieran más de ochenta y nueve años?
Ejercicio 4.
Dada una distribución normal con media 45,64 y desviación típica 24,03 calcule el porcentaje de
casos que se encontrarán entre los valores 18 y 65.

SOLUCIONES
1
El cuartil y la mediana se pueden calcular a partir de las tablas de frecuencias relativas expresadas en
porcentajes. Los datos agrupados en intervalos de ingresos están ordenados y podemos calcular las
frecuencias relativas acumuladas Na.
Ingresos € % % acumulado

1 de 4 06/04/2012 11:58
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/Septiembre 2004/Sep 2004 1pp...

1-300 1,9 1,9


301-600 13,9 15,8
601-900 19,8 35,6
901-1200 23,3 58,9
1201-1800 20,5 79,4
1801-2400 10,3 89,7
2401-3000 5,3 95
3001-4500 2,8 97,8
4501-6000 1,9 99,7
6001 o más 0,3 100
100
En la taba observamos que los tres primeros intervalos están agrupadas el 35,6% de las familias de la
muestra que tienen menores ingresos. Por tanto el primer cuartil estará contenido en el tercer intervalo de
601 a 900 €. Los límites reales del intervalo serán 600,5 y 900,5.
Utilizando la fórmula del cuartil podemos calcular el valor en Euros por debajo del cual se encuentra
exactamente ese 25% de las familias de la muestra, para ello tomaremos como valor de N = 100 y la
frecuencia acumulada en porcentajes:

Se obtendría el mismo resultado si calculamos la frecuencia acumulada en número de casos para N = 1690
:

Un 25% de las familias entrevistadas dicen no superar los 739,89 € de ingresos al mes.
Procediendo de manera análoga calculamos el segundo cuartil o Mediana:

El 50% de las familias entrevistadas dicen no superar los 1.085,91 €.

2
La representación gráfica tiene que servir como resumen visual que permita conocer la mayor cantidad de
información de forma clara y concisa. Un histograma nos dará la idea de cuantos casos quedan en cada
intervalo y además una visualización de la amplitud de los intervalos. Como estos intervalos no son
iguales, es preciso asignar a cada intervalo de edad el área proporcional a los casos que lo componen.
Edades Nº casos S b h
18-24 312 12,5 7 1,79
25-34 525 21 10 2,1
35-44 455 18,2 10 1,82
45-54 380 15,2 10 1,52
55-64 312 12,5 10 1,25
65y + 515 20,6 20 1,03
Siendo b, la amplitud del intervalo o base del polígono de cada intervalo de edad, S la superficie de cada
polígono y h la altura calculada mediante la fórmula:

2 de 4 06/04/2012 11:58
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/Septiembre 2004/Sep 2004 1pp...

3
Primero calculamos la proporción de personas de más de 90 años en la población:

Sabiendo que sólo una de cada 100 de las personas de esa población supera los 90 años, la probabilidad
de que al seleccionar 20 personas dos de ellas superen los 90 puede calcularse mediante la distribución
binomial.
Si queremos conocer la probabilidad de seleccionar a dos o más personas de más de 90, calculamos la
probabilidad de no encontrar ninguna persona mayor de 90

Después la de encontrar a una sola persona

La probabilidad buscada es la suma de todas las demás posibilidades de encontrar 2, 3, 4, 5, o más


personas, y se puede calcular por la diferencia respecto a la totalidad, es decir, la unidad:

4
A partir de las tablas de áreas bajo la curva normal, podemos conocer el porcentaje de casos en los que la
variable medida se aleja de la media una cantidad dada.
Al ser una curva simétrica, las tablas nos proporcionan sólo la media curva con valores positivos, para una
media igual a 0 y una desviación típica de 1 (Normal (0,1)).
Las probabilidades asociadas a cada valor Z nos representa la probabilidad de encontrar un valor que se
aleje de la media una distancia dada.
Normalizando los datos de nuestra distribución normal, podemos calcular la distancia en unidades
tipificadas Z entre 18 y la media 45:
Z1 = 18 – 45 / 24 = -1,150
y la distancia entre la media y 65:
Z2 = 65 – 45 / 24 = 0,806
El porcentaje de casos buscado sería la suma de las áreas correspondientes a esos valores Z en valor
absoluto:
En la tabla para Z = 1,15 el área es 0, 3749, el 37,49% de los casos se encuentran entre el valor 18 y la

3 de 4 06/04/2012 11:58
Facultad de Ciencias Políticas y Sociología http://www.uned.es/111044/examenes/Septiembre 2004/Sep 2004 1pp...

media.
Para Z = 0,81 el área es 0,2910, el 29,1 % de los casos se encuentran entre la media y el valor 65.
Por tanto entre 18 y 65 se encuentran el 66,59% de los casos de nuestra distribución.

4 de 4 06/04/2012 11:58
Una conocida fábrica de automóviles fabrica una pieza que debe tener u... http://www.uned.es/111044/examenes/Septiembre 2004/exasep042ppc.htm

Facultad de Ciencias Políticas y Sociología


Estadística Aplicada a las Ciencias
Sociales
(111044 y 121046)
Septiembre 2004. 2ª Prueba
Presencial.

Material permitido: Todo tipo de material.


(Libros, apuntes, máquinas electrónicas de cálculo.)
Duración: 2 Horas.

E Ejercicio 1.-
Una conocida fábrica de automóviles fabrica una pieza que debe tener una altura entre 83,5
cmts. y 82,3 cmts. El departamento de control de calidad realizó mediciones a 100 piezas
escogidas al azar con el siguiente resultado = 83,02 y S=0,11. Varias horas más tarde se
realizó una segunda medición con el siguiente resultado = 83,2 y S=0,25.
En cual de las dos mediciones la producción está bajo control, es decir, las desviaciones se
encuentran dentro de lo esperado.

b)- Explique qué es una distribución teórica.

Solución
En los procedimientos de inducción estadística se emplean datos de tres distribuciones : la
distribución de la población, la de los datos de la muestra y la distribución teórica de
referencia. Obtendremos una muestra aleatoria de objetos de la población, consideraremos la
distribución teórica de todas las muestras posibles, y estableceremos un intervalo calculado a
partir de la media muestral y de la desviación típica de la distribución teórica de todas las
muestras. La desviación típica de esa distribución muestral es igual a la poblacional dividida
por la raíz del tamaño de la muestra. Pero si se desconoce ese valor poblacional puede ser
aproximado partir de la muestra

Muestra nº 1.-
Puesto que la fábrica trabaja con un nivel de confianza del 99,7, tomaremos un intervalo de +
3 unidades de desviación típica :

= 83,02 + 3 x 0,011 = 83,05 y 82,99 El intervalo viene fijado por el valor más bajo 82,99
cmts y el valor más alto 83,05 cmts. Como la fábrica acepta valores entre 82,3cmts. y 83, 5
ctms. podemos decir que la producción está bajo control.

Muestra nº 2.-
Hacemos lo mismo que con la anterior.

= 83,2 + 3 x 0,025 = 83,125 y 83,275

Ambos valores están dentro del margen de variación aceptado por la empresa, por lo que

1 de 5 06/04/2012 11:59
Una conocida fábrica de automóviles fabrica una pieza que debe tener u... http://www.uned.es/111044/examenes/Septiembre 2004/exasep042ppc.htm

podemos afirmar que la producción está también bajo control.

b) Una distribución teórica es el conjunto de frecuencias posibles de un fenómeno, por


ejemplo la tirada al aire de una moneda o la extracción de bolas de una urna. Sin duda la más
conocida es la curva normal.

Ejercicio2.-
Un laboratorio farmacéutico experimenta la eficacia de dos fármacos A y B para combatir el
SIDA. Los resultados con 200 pacientes fueron los siguientes:

Produjo mejoría No produjo mejoría


Fármaco A 75 25 100
Fármaco B 65 35 100
140 60 200

a) Calcule la tabla de contingencia y explique si las diferencias observadas pueden deberse al


azar o por el contrario son significativas. B) Explique por qué en Estadística unas veces se
habla de nivel de confianza y otras de nivel de significación.

a) Tabla de contingencia.
Se calcula a partir de los absolutos, por ejemplo, la primera posición a la izquierda de la tabla :

Produjo mejoría No produjo mejoría


Fármaco A 70 30 100
Fármaco B 70 30 100
140 60 200

Para saber si las diferencias estre las frecuencias esperadas (tabla de contingencia) y las
observadas son significativas, utilizaremos el test

= = 2,38

En la tabla de distribuciones teóricas para comprobamos que para un nivel de significación


de 0,05 (probabilidad del 95,5%) y un grado de libertad, el valor es de 3,84 como el valor que
hemos calculado del es de 2,38 es decir, inferior al valor teórico, consideramos que las
diferencias NO son significativas y pueden deberse al azar.

b)- Aunque el nivel de confianza y el nivel de significación se complementan (ambos suman


100) normalmente se habla de nivel de confianza cuando trabajamos con muestras en las que
se busca la representatividad. Es decir, que sean un buen reflejo de la población. Se habla de
nivel de significación cuando se hacen experimentos con muestras y lo que deseamos es
saber si las diferencias entre dos o más colectivos son significativas, es decir, queremos tener
alguna garantía de que las diferencias no se deben al puro azar.

2 de 5 06/04/2012 11:59
Una conocida fábrica de automóviles fabrica una pieza que debe tener u... http://www.uned.es/111044/examenes/Septiembre 2004/exasep042ppc.htm

Ejercicio 3.
En 1993 la edad media de 6 grupos de enfermos y la estancia media en el hospital fue la
siguiente:

Edad media del enfermo Estancia media del enfermo (días)


47 9
43 9
64 12
61 15
51 11
42 12

¿Existe correlación? Calcule la recta de regresión.

Cálculo :

x y xy
47 9 2209 81 423
43 9 1849 81 387
64 12 4096 144 768
61 15 3721 225 915
51 11 2601 121 561
42 12 1764 144 504
TOT. 308 68 16240 796 3558

= 51,3

= 11,3
Calculamos el coeficiente de la recta b que es la razon de la covarianza de x y por la varianza
de x.

= = 74,98

3 de 5 06/04/2012 11:59
Una conocida fábrica de automóviles fabrica una pieza que debe tener u... http://www.uned.es/111044/examenes/Septiembre 2004/exasep042ppc.htm

= = 4,98

= = 0,69

El coeficiente de correlación de Pearson (0,69) indica una correlación entre la edad del
enfermo y el tiempo de recuperación (o de estancia) importante.

La recta de regresión es

Puesto que la pendiente de la recta b tiene un valor de 0,18, calcularemos la constante a


(punto en el que la recta corta el eje de la y) a partir de los valores medios de la x y la y, los
únicos valores que pertenecen a la recta.

La recta de regresión será

Ejercicio 4.
Un estudiante de sociología de la medicina realiza un estudio sobre el tiempo de recuperación
de 15 enfermos y los clasifica según tres tipos de enfermedades. Trabaja con un nivel de
significación del 0,05 y construye la siguiente tabla :

Origen de la Grados de libertad Suma de cuadrados Estimación de


variación varianza
Entre grupos 2 0,28 0,14
Dentro de los grup. 12 7,8 0,65
TOTAL 14 8,08

a)Determine si existen diferencias significativas entre los tres grupos de enfermos. b)Comente
los resultados y explique la diferencia entre pruebas de hipótesis y análisis de varianza.

Solución :
Para saber si las diferencias que aprecen en la tabla son o no significativas, utilizaremos la
prueba diseñada por Roland Fisher que lleva su nombre.

El valor F es una razón entre la varianza entre grupos y la varianza dentro de los grupos :

= = 0,21

En la tabla de valores teóricos F, encontramos para 2 grados de libertad entre grupos y 12


grados de libertad dentro de los grupos, un valor de 3,88, superior a nuestro F empírico, por
tanto No podemos afirmar que las diferencias sean significativas. Se acepta la hipótesis Nula.

4 de 5 06/04/2012 11:59
Una conocida fábrica de automóviles fabrica una pieza que debe tener u... http://www.uned.es/111044/examenes/Septiembre 2004/exasep042ppc.htm

b)Aunque los datos originales a partir de los que se ha elaborado la tabla indican la mayor
rapidez de recuperacíon de uno de los grupos, no podemos afirmar que dicha diferencia sea
estadísticamente relevante.
Entre las pruebas de hipótesis y el análisis de varianza no existe más diferencia que el
procedimiento de cálculo, mas sencillo en caso de las pruebas de hipótesis porque se refieren
a una o dos muestras. No obstante, el objetivo de ambos análisis es el mismo.

5 de 5 06/04/2012 11:59
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES


Ciencias Políticas: 111044
Sociología: 121046
Septiembre 2005. 1ª P. P.

Ejercicio 1.
En la siguiente tabla figura la población del municipio de Getafe en el último censo, por grupos de edad. Calcule la
edad media y la edad mediana de la población.

Edad Personas
0-9 13.108
10-19 15.989
20-29 32.030
30-39 24.786
40-49 18.850
50-59 23.794
60-69 12.792
70-79 6.882
80 y más 3.248
Total 151.479

Ejercicio 2.
En un municipio se sabe que el 6% de los 600 hogares, tiene conexión a internet. Con objeto de realizar un estudio
se seleccionan al azar 10 hogares y se desea conocer:
a) Número medio de hogares que se espera posean la conexión entre los 10 seleccionados.
b) Probabilidad de que 3 de los 10 hogares seleccionados tengan conexión.
c) Probabilidad de que ninguno de los 10 tenga conexión a internet.

Ejercicio 3.
Una empresa que tiene en nómina a 1.650 empleados, la media de años de antigüedad es de 12,6 y la desviación
típica de 4,1 Suponiendo que se distribuyan normalmente:
a) ¿A cuantas unidades de desviación típica se encuentra un trabajador que lleva 5 años en la empresa, respecto a
la media del colectivo?
b) ¿Qué número de trabajadores lleva menos de seis años en la empresa?
c) ¿Cuál será el límite inferior de antigüedad para los 800 trabajadores que llevan más años en la empresa?

Ejercicio 4.
Calcule el tamaño muestral necesario para realizar una encuesta de opinión de ámbito nacional. El error teórico que
hemos decidido asumir es del + 2%, con un intervalo de confianza de 95,5% y consideramos P = Q

SOLUCIONES
Ejercicio 1

Para el cálculo de la media aplicaremos:

1 de 5 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...

siendo xi la marca de clase o punto medio de cada categoría.

Como se trata de la variable edad no existe redondeo al intervalo superior, es decir una
persona de 9 años y 11 meses no se computa dentro de la categoría de 10 años, sino de 9
años, al igual que otra que tuviera 9 años y un día, por ejemplo. En el primer intervalo el
extremo superior será 9,9999 10. El mismo razonamiento aplicaremos al resto de los
intervalos.

Como el último intervalo es abierto habrá que cerrarlo o tomar alguna decisión sobre su punto
medio. Una solución aceptable en este caso es tomar como límite superior la edad de 99 años,
ya que la proporción de población centenaria resulta muy reducida. (Otra solución alternativa
podría ser utilizar como marca de clase la esperanza de vida, si bien para ello deberíamos
recurrir a información externa).

Procediendo de esta forma:

Edad Li Ls n xn

0-9 0 10 5 13108 65540


10-19 10 20 15 15989 239835
20-29 20 30 25 32030 800750
30-39 30 40 35 24786 867510
40-49 40 50 45 18850 848250
50-59 50 60 55 23794 1308670
60-69 60 70 65 12792 831480
70-79 70 80 75 6882 516150
80 y más 80 99 89,5 3248 290696
Total 151479 5768881

Así la media será:

El valor de la mediana es aquel valor de la variable que divide a la población en dos grupos
iguales. Para nuestra población:

Calculamos en primer lugar la distribución de frecuencias acumuladas:

Edad Li Ls n
Na
0-9 0 10 5 13108 13108
10-19 10 20 15 15989 29097
20-29 20 30 25 32030 61127

2 de 5 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...

30-39 30 40 35 24786 85913


40-49 40 50 45 18850 104763
50-59 50 60 55 23794 128557
60-69 60 70 65 12792 141349
70-79 70 80 75 6882 148231
80 y más 80 99 89,5 3248 151479
Total 151479 ------

La edad mediana se encontrará dentro del intervalo de 30 a 39 años.

Aplicando la fórmula, obtendremos su valor:

Ejercicio 2.

Se trata de una distribución binomial en la que hay que calcular:

a) la media

Probablemente si seleccionamos 10 hogares ni siquiera obtengamos un hogar con


conexión.

b) La probabilidad de obtener tres hogares con conexión en una selección de 10:

La probabilidad de obtener tres hogares con conexión es muy pequeña, tan sólo 1,68%

c) La probabilidad de que ninguno de los 10 hogares seleccionados tenga conexión:

Por el contrario la probabilidad de que ninguno de los hogares seleccionados tenga


conexión es alta p=53,86%

Ejercicio 3

Se trata de una distribución normal, con y Sx = 4,1 en la que hay que calcular:

a) La distancia en unidades Z de x = 5.

b) El número de trabajadores con menos de 6 años en la empresa.


Para ello deberemos calcular en primer lugar la distancia en unidades Z, posteriormente el
área, y por último convertir el área o proporción obtenida en unidades.

La distancia en unidades Z será:

3 de 5 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...

El área bajo la curva normal entre 6 y la media será consultando las tablas:
Área 6-media = 0,4463. Como queremos el área entre 6 y el extremo inferior el área será:
0,5-0,4463 = 0,0537

Es decir el 5,37% de la plantilla tendrá menos de 6 años de antigüedad, por tanto: 1650 x
0,0537 = 88,6 89 trabajadores tendrán menos de 6 años de antigüedad.

C) La antigüedad de los 800 trabajadores más veteranos de la empresa. En este caso habrá
que proceder de forma inversa al apartado anterior. Primero pasar de unidades a proporciones
para obtener el área y así obtener la distancia.

Los 800 trabajadores más veteranos suponen casi la mitad de la plantilla.


800 / 1650 = 48,5%. El área que queda entre la media y los 800 más veteranos será el
correspondiente a: 50% - 48,5% = 1,5%. Buscamos en la tabla el valor en unidades Zx que
desde la media corresponde con un Áreax de 0,015.
Encontramos que estará entre Za= 0,03 y Zb= 0,04. Haciendo interpolación lineal obtenemos
que:

siendo la diferencia D entre el Zx buscado y Za

El valor de Z que se corresponde con el área 0,015 será:

Como sabemos Z y queremos conocer x, tendremos que:

Por tanto los 800 más veteranos tendrán más de 12,75 años de antigüedad.

Ejercicio 4.

Se trata de un muestreo irrestricto aleatorio de la proporción en población infinita para el caso


de máxima varianza. Así:

4 de 5 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...

5 de 5 06/04/2012 12:00
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES


Ciencias Políticas: 111044
Sociología: 121046
Septiembre 2005. 2ª P. P.
TIEMPO: 2 Horas.
MATERIAL: Todo tipo de material. (Calculadoras, libros, apuntes…)

Ejercicio 1.
En la siguiente tabla se recogen los datos del alumnado español que terminó los estudios universitarios durante 2002 por Sexo y
Tipo de estudios.

Tipo de estudios Mujeres Hombres Total


Arquitectura e ingenierías técnicas 5904 14762 20666
Diplomatura 34138 12377 46515
Licenciatura 55089 31039 86128
Arquitectura e ingeniería 5109 11931 17040
TOTAL 100240 70109 170349

Calcule la asociación entre el sexo y el tipo de estudios.

Ejercicio 2.
Una encuesta sobre intención de voto de abril de 2005 administrada a 2.350 entrevistados atribuye al PP un 20,4 % de los votos.
Un estudio similar en el mismo mes, con una muestra de 2.477 entrevistados, asigna al PP el 21,8 % de los votos. ¿Existe una
diferencia significativa entre ambas muestras, para un nivel de significación del 0,05?

Ejercicio 3.
En un estudio comparativo se aplicaron 3 métodos diferentes para enseñar las matemáticas. Se obtuvieron tres
muestras de 6 estudiantes pertenecientes a cada uno de los tres institutos donde se habían impartido estos nuevos
métodos y se registraron las calificaciones obtenidas con el mismo tipo de examen, como figuran en la siguiente
tabla.

Método 1 Método2 Método 3


6,2 5,8 4,7
5,5 5,6 8,2
4,6 4,6 6,1
6,8 7,3 5,3
4,2 6,7 4,6
7,5 5,8 6,8

Establezca mediante un contraste de hipótesis, si existen diferencias en las calificaciones obtenidas según el
método seguido, para el total de los presentados en los tres Institutos, con un nivel de significación del 0,05.

Ejercicio 4.
La edad media de los trabajadores de un sector industrial es de 36 años, con una desviación típica de 6 años. Y el salario medio
de dichos trabajadores es de 1.350€ con una desviación típica de 400€. El coeficiente de correlación entre la edad de los
trabajadores del sector y el importe de los salarios es r = 0,6
a) Calcule la recta de regresión que permitiría hacer predicciones sobre los salarios conociendo la edad.
b) Según esa recta, ¿cuál sería el salario de un trabajador de 45 años?

SOLUCIONES
Ejercicio 1.
Para dos variables nominales y números de categorías diferente en cada variable, usaremos el coeficiente
de asociación V de Cramer.
Calculamos en primer lugar el valor de Ji-cuadrado para los datos:

1 de 5 06/04/2012 12:00
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...

En primer lugar calculamos las frecuencias esperadas para cada casilla de la tabla, que para la primera
casilla sería:

de forma análoga obtendríamos las frecuencias esperadas para cada casilla con lo que tendríamos la
siguiente tabla de frecuencias:

foij feij 2 2
(fo-fe) (fo-fe) /fe
5904 12160,6810 39146056,6 3219,0678
34138 27371,2414 45789022 1672,8880
55089 50681,0766 19429788,6 383,3736
5109 10027,0010 24186734,2 2412,1603
14762 8505,3190 39146056,6 4602,5383
12377 19143,7586 45789022 2391,8512
31039 35446,9234 19429788,6 548,1375
11931 7012,9990 24186734,2 3448,8433
Ji-cuadrado= 18678,8601

Al ser el valor del estadístico distinto de cero podemos considerar que existe alguna asociación, pero para
cuantificarla de forma estandarizada es necesario usar otro estadístico.
La V de Cramer nos proporciona un coeficiente cuyo valor está comprendido entre 0 y la unidad.

Siendo K el valor inferior de filas o columnas. En este caso el menor valor son las columnas=2, por tanto
(K-1)=2-1=1

El valor de V nos indica que existe una asociación moderada entre la variable género y la variable de
estudios universitarios.

Ejercicio 2.
Para comparar ambas muestras enunciaremos las hipótesis para el contraste de modo que:

n.s.=0,05
n.c.=95%

lo que nos proporciona un valor Z de referencia de 1,96

conocemos de los datos muestrales que p1=0,204 y p2=0,218

Para el contraste utilizaremos el estadístico Z

2 de 5 06/04/2012 12:00
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...

siendo

sustituyendo los valores, tenemos:

Calculamos ahora el valor de Z empírico

Como el valor calculado es menor al de la distribución normal de referencia para n.c.=95% (Z=1,96)
podemos concluir que las diferencias observadas entre las proporciones de las muestras no son
significativas

Ejercicio 3.
El análisis de la varianza, que nos permite conocer qué parte de la varianza total corresponde a las
diferencias de los valores de la variable dentro de cada grupo y qué parte corresponde a las variaciones
entre grupos.
Para comprobar si existen diferencias en las calificaciones entre los grupos comenzamos por enunciar las
hipótesis acerca de las medias de los grupos:

Comenzamos confeccionando las tablas para obtener las sumas de los cuadrados

GRUPOS x1 x2 x3 TOTALES
6,2 5,8 4,7 16,7
5,5 5,6 8,2 19,3
4,6 4,6 6,1 15,3
6,8 7,3 5,3 19,4
4,2 6,7 4,6 15,5
7,5 5,8 6,8 20,1
TOTALES 34,8 35,8 35,7 106,3
Cuadrados 1.211,04 1.281,64 1.274,49

3 de 5 06/04/2012 12:00
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...

Una vez obtenidos los cuadrados de los sumatorios de los valores en cada columna, elevamos al
cuadrado cada valor de la variable obtenemos los sumatorios de los valores al cuadrado.

x12 x22 x32 TOTALES


38,44 33,64 22,09 94,17
30,25 31,36 67,24 128,85
21,16 21,16 37,21 79,53
46,24 53,29 28,09 127,62
17,64 44,89 21,16 83,69
56,25 33,64 46,24 136,13
209,98 217,98 222,03 649,99

Procedemos entonces a calcular la Suma de Cuadrados Total

La suma de cuadrados entre grupos

y la suma de cuadrados dentro de los grupos

Los grados de libertad

glt = 18 –1 = 17
glent = 3 –1 = 2
gld = 18 – 3 = 15

Dividiendo las sumas de cuadrado entre los grados de libertad obtenemos las varianzas

Utilizaremos el estadístico F de Fisher


Para un nivel de significación de 0,05 y los grados de libretad entre grupos y dentro de los grupos las
tablas de la distribución nos proporcionan el valor de referencia Fc =6,36 para el contraste de la hipótesis:
El valor empírico para el estadístico Fe

Como Fe < Fc se acepta la hipótesis nula y se admite que las diferencias entre los grupos que han
utilizado los distintos métodos de enseñanza no son significativas.

4 de 5 06/04/2012 12:00
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...

Ejercicio 4.
Sabemos que el coeficiente de correlación se puede calcular mediante la expresión:

Conocemos r, Sx y Sy de modo que podemos calcular la covarianza

conocida la covarianza podemos calcular el coeficiente b de la recta pedida

Por construcción de la recta de regresión sabemos que los valores medios de las variables pertenecen a
dicha recta, por lo que podemos utilizar los valores de la media para obtener el coeficiente a, una vez
conocido b:

Y despejando a,

Por tanto la recta pedida será:

Para conocer el salario que correspondería a una edad de 45 años sustituimos en la fórmula:

5 de 5 06/04/2012 12:00
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2007/Estadistica 200...

Septiembre 2007 2PP

Ejercicio 1.
En una encuesta realizada por el CIS sobre Opinión Pública y Política Fiscal, el 23% contestó que es el
Gobierno central quien administra mejor el dinero que se recauda de los impuestos. El 21% contestó que
son los gobiernos autonómicos, y el 15% los Ayuntamientos. Estime entre que valores estarán en la
población real esos porcentajes. (Población entrevistada: 2.483, nivel de confianza 95,45%)

Solución:
Intervalo de confianza para la proporción:

Con ayuda de la siguiente tabla calculamos el error típico de la proporción para las diferentes
proporciones. Como Nc=95,45% Z=2, por tanto:

p N
0,23 2483 0,01689083 0,21310917 0,24689083
0,21 2483 0,01634801 0,19365199 0,22634801
0,15 2483 0,01433167 0,13566833 0,16433167

Los intervalos serán:

Gobierno Central: 21,3% : 24,7%


Gobierno Autonómico: 19,3% : 22,6%
Ayuntamientos: 13,6% : 16,4%

Ejercicio 2.
Un sondeo realizado en Francia sostiene que para el 47% de los electores socialistas Ségolène Royal es la
persona que mejor representa los valores de la izquierda, mientras que uno de sus rivales afirma que puede
no pasar del 45%. ¿Es creíble tal afirmación a la vista de los datos de la encuesta? (n= 1450, n.s. = 0.05)

Solución:
Se trata de un contraste de hipótesis de proporción. Prueba unilateral:
Ho: p=0,45
H1: p>0,45

En primer lugar calculamos el error típico de la proporción:

El estadístico Z será igual a:

Mirando el valor de Z en la tabla obtenemos que el área correspondiente es: 0,4357, como la
prueba es unilateral la probabilidad de que “p” sea igual o menor que 0,45 es 93,57%, valor

1 de 4 06/04/2012 12:02
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2007/Estadistica 200...

que es menor de 95%, por lo tanto no podemos rechazar la hipótesis nula. Es posible, aunque
la probabilidad es baja, (p=6,43%) que Segolen no supere el 45% de los votos.
(El Z crítico para Nivel de Confianza del 95% es 1,645)

2 de 4 06/04/2012 12:02
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2007/Estadistica 200...

Ejercicio 3.
Una encuesta realizada en Francia el 21 de mayo de 2007 por la empresa TNS Sofres daba una intención
de voto para la UMP, el partido de Nicolás Sarkozy, del 40%, en tanto que al partido Socialista le daba el
28%. Un instituto de estudios vinculado al socialismo francés sostenía por el contrario, que la intención
de voto de la UMP es del 38% y la del partido socialista del 32%. ¿Son significativas esas diferencias?
(Realice dos pruebas de hipótesis, una para la UMP y otra para el PS) El tamaño de la muestra de
TNS-Sofres fue de 1.500 y la del Instituto socialista fue de 2.500.

Solución:
Son dos pruebas de hipótesis, en este caso ambas bilaterales:

Para el partido UPM

Ho: p1-p 2=0


H1: p1-p 2>0

En primer lugar calculamos la proporción media:

El error típico de la diferencia de proporciones:

El valor de Z:

Procedemos de la misma manera para el partido Socialista:

El error típico de la diferencia de proporciones:

El valor de Z:

Mientras que los resultados son coincidentes para el partido UMP, para el partido Socialista las
diferencias son significativas en ambos sondeos.

3 de 4 06/04/2012 12:02
Ejercicio 1 http://www.uned.es/111044/examenes/Septiembre 2007/Estadistica 200...

Ejercicio 4. Un jugador desconfiado lanza un dado 60 veces, y anota los siguientes resultados:

Numero Frecuencias esperadas Frecuencias Diferencia fo-fe


observadas
1 10 6 -4
2 10 9 -1
3 10 11 1
4 10 5 -5
5 10 16 6
6 10 13 3

Compruebe si los resultados están dentro de lo que cabe esperar de un dado perfecto. Utilice la prueba del
Ji-cuadrado (χ2)con un nivel de significación de 0,05 y 6-1 grados de libertad.

Solución:
En este caso la hipótesis nula es

Ho: fe-fo=0
H1: fe-fo>0

Calculamos el valor del Estadístico Ji-Cuadrado:

La tabla nos ayuda en el cálculo;

1 10 6 -4 16 1,6
2 10 9 -1 1 0,1
3 10 11 1 1 0,1
4 10 5 -5 25 2,5
5 10 16 6 36 3,6
6 10 13 3 9 0,9
Total 8,8

El valor de la distribución para 5 grados de libertad y Ns=5% es:


11,070, por lo tanto no podemos rechazar la hipótesis nula. Las diferencias son debidas al
azar. No podemos concluir que el dado sea defectuoso.

4 de 4 06/04/2012 12:02

También podría gustarte