Problemas Descriptiva
Problemas Descriptiva
Problemas Descriptiva
Problema 1 Señala las deficiencias que observes en los siguientes análisis estadísticos:
El caso 1 (gráfico de la izquierda) se refiere a un estudio de mercado para ver el grado de
aceptación de un artículo nuevo que se quiere lanzar. Se tiene una muestra de 1070 indi-
viduos y la variable estudiada es la OPINIÓN SOBRE EL ARTÍCULO donde MF=Muy
favorable, F=Favorable, I=Indiferente, D=Desfavorable, MD=Muy Desfavorable.
El caso 2 (gráfico de la derecha) es un estudio sobre la calidad de servicio de una enti-
dad bancaria que presta servicios telefónicos. Tamaño de la muestra: 1000 operaciones
realizadas. Variable estudiada: TIEMPO DE SERVICIO (en segundos).
DIAGRAMA DE PARETO HISTOGRAMA
500 285
500 266
247
450 228
209
400
190
350 171
No. de Observaciones
No. de observaciones
152
300 275 133
250 114
250
95
200 76
57
150 38
19
100 0
<= -250
(-250;250]
> 8750
(250;750]
(750;1250]
(1250;1750]
(1750;2250]
(2250;2750]
(2750;3250]
(3250;3750]
(3750;4250]
(4250;4750]
(4750;5250]
(5250;5750]
(5750;6250]
(6250;6750]
(6750;7250]
(7250;7750]
(7750;8250]
(8250;8750]
50 35
10
0
I F D MD MF
OPINIÓN TIEMPO DE SERVICIO
Problema 2 Señala las deficiencias que observes en los siguientes análisis estadísticos.
Caso 1: Estudio microeconómico realizado en cierto establecimiento comercial. Muestra:
Todos los días laborables de los 4 últimos años. Variable estudiada: VOLUMEN DIARIO
DE VENTAS (en miles de euros) (Gráfico de la derecha).
Caso 2: Inspección de envasado de naranjas en bolsas de 5 Kg.Muestra: 50 bolsas escogidas
al azar.Variable estudiada: CONTENIDO ENVASADO (en Kilogramos) (Gráfico de la
Izquierda).
HIST0GRAMA
8
6
No. de observaciones
0
4.7 4.8 4.9 5.0 5.1 5.2 5.3
Problema 4 Los gráficos siguientes muestran los resultados obtenidos por 59 atletas de
ambos sexos en la prueba de 100 metros libres en unos Juegos Olímpicos. Indicar qué
ventajas e inconvenientes presenta cada uno de los dos análisis descriptivos realizados y
explicar los aspectos más reseñables de la distribución de la variable en estudio.
La media y la desviación típica de los datos son 12.3322 y 1.4043 repectivamente. Co-
mentar el valor que tienen estos estadísticos como medidas de posición y dispersión en
este estudio concreto.
PRUEBA DE 100 METROS LIBRES PRUEBA DE 100 METROS LIBRES
40
percentage
30
20
10
0
10 12 14 16 18 10 12 14 16 18
TIEMPO TIEMPO
¿Cuál es la población de estudio en este caso? ¿Cuál es la variable que se estudia? ¿De qué
tipo es la variable? En ese mismo reportaje se dice: “Las edades en las que la incidencia
se dispara son entre los 15 a los 26 años”. Comentar esta afirmación a la vista del gráfico.
¿Tiene algún defecto este gráfico? ¿Cuál o cuáles?
¿Presenta este gráfico algún tipo de defecto? ¿Sería apropiado construir un histograma a
partir de los datos contenidos en el gráfico? Justifica tus respuestas.
Problema 8 En el diario El País del día 6 de Junio de 2003 aparecen los siguientes
gráficos a propósito de la bajada de los tipos de interés y del cambio dólar-euro.
El gráfico relativo a los tipos de interés muestra los datos mensuales para cada una de las
4 zonas económicas que aparecen en el gráfico. ¿Habría sido apropiado construir una tabla
de frecuencias con dichos datos y un diagrama de barras a partir de ella? ¿Se observa
algún tipo de error en este gráfico? ¿Y en el relativo al cambio dólar-euro?
Problema 9 El día 18 de junio de 2008 se publicó en El Norte de Castilla un estudio
sobre costes laborales que incluía el gráfico que se reproduce a continuación.
¿Qué variable se estudia en el gráfico? ¿De qué tipo es esta variable? ¿El gráfico es
apropiado para este tipo de variable? ¿Sería apropiado un diagrama de Pareto para esta
variable? En caso afirmativo, construir un diagrama de Pareto en el que se desglosen todas
las clases de la variable (sin agrupar ninguna de ellas en la clase “Otras”). Justificar todas
las respuestas.
Problema 10 Las distribuciones de las notas obtenidas por un grupo de alumnos en las
asignaturas “Estadística” y “Cálculo” presentan las siguientes características:
Estadística 318 4.05 1.16 -0.10 2.73
Cálculo 280 3.15 0.72 0.16 2.85
Un alumno del grupo ha obtenido una nota de 6.15 en Estadística y de 4.90 en Cálculo.
¿En qué asignatura se puede decir que dicho alumno tiene mejor nota en relación al grupo?
Razona la respuesta.
19
20 19 Rango =189; Varianza = 206116
14
15
11 Desviación típica = 454;
10
6 Coeficiente de asimetría = 01894
5 4
Coeficiente de apuntamiento = −07793
0
0 3 6 9 12 15 18 21
Duración
Completa el informe que debía enviar esta cadena calculando las medidas anteriores para
los datos tipificados. Dibuja también un histograma de los nuevos datos.
Problema 12 Una muestra de n=20 datos de una variable comienza con los siguientes
datos:
175 −006 027 −749 802
Usando la desigualdad de Chebyshev, decir si es posible o no que la muestra esté tipificada
(estandarizada).
Problema 20 Sea 1 31 una muestra de los sueldos mensuales de varios funcionar-
ios en mayo. Sean 1 31 los nuevos sueldos de junio tras aplicárseles el recorte:
= 095 · , = 1 31. Se conocen los siguientes datos de los sueldos en mayo:
(1) = 860 (15) = 1650 (16) = 1700
(30) = 2600 () = 1900 3 () = 1860
2
() = 500 = 1660 = 211600
Elaborar un diagrama de caja para los nuevos sueldos. A la vista del diagrama de caja,
¿qué podrías decir de la simetría de esta distribución? Da una cota inferior de la propor-
ción de los funcionarios que, tras el recorte, ganarán entre 1000 y 2100 euros.
Soluciones a los problemas de Estadística Descriptiva Univariante
7 16
6 14
No. de observaciones
12
5
No of obs
10
4
8
3
6
2
4
1 2
0 0
4.7 4.8 4.9 5.0 5.1 5.2 5.3 <= 4.7 (4.7;4.8] (4.8;4.9] (4.9;5.] (5;5.1] (5.1;5.2] (5.2;5.3] > 5.3
CONTENIDO POR BOLSA CONTENIDO POR BOLSA
Problema 3 En el gráfico se presentan tres series temporales referidas a la evolución
reciente de distintos aspectos del paro registrado (parados apuntados en el INEM).
La primera serie, en la parte superior derecha, refleja mes a mes la variable tasa de paro
en % desde octubre de 1998 hasta abril de 1999, último dato a la fecha del artículo. Esta
serie se presenta a través de la propia tabla de datos, sin realizar con ella ningún análisis
gráfico. En esta primera serie no observamos ninguna deficiencia desde un punto de vista
técnico.
La segunda serie representa la evolución mes a mes de la variable número de desemplea-
dos, de abril de 1998 a abril de 1999, o sea, en el último año. Esta serie está representa
grá ficamente con el formato habitual, es decir, en un diagrama bidimensional que en-
frenta el tiempo frente a la variable en estudio (número de parados) y une los puntos con
una línea poligonal. El gráfico correspondiente a esta serie presenta varios problemas. En
primer lugar, las ordenadas no comienzan en 0, con lo que las fluctuaciones relativas de
la serie parecen más bruscas de lo que son (en este caso se agudiza la importancia de
la disminución interanual del número de desempleados). Esto no necesariamente es un
defecto ya que es una práctica muy común en las representaciones gráficas cuando los val-
ores de las ordenadas que se representan son muy parecidos o están muy lejos del origen.
De este modo es posible observar mejor las diferencias y no ver un gráfico prácticamente
plano. La solución pasa por que el lector se fije en el detalle e interprete correctamente
las fluctuaciones de la variable más allá del mero efecto visual. Además, la rejilla que
representa las marcas en ordenadas (1,7, 1,8, ...) no se corresponde con los puntos repre-
sentados como se puede comprobar fácilmente. El primer valor (abril de 1998) está bien,
pero se ha comprimido la poligonal hacia arriba produciendo (intencionadamente o no) el
efecto de aparentar una menor disminución del número de desempleados. Por último, no
se indica que la variable representada se expresa en millones de parados, si bien se con-
trarresta el fallo con el hecho de que aparecen los valores enteros sobre el gráfico. En el
eje de abscisas hay también una errata en la separación de los años 1998 y 1999.
La tercera serie, titulada “El paro en abril”, refleja año a año, desde 1989 a 1999, los val-
ores de la variable incremento del número de parados ocurrido en el mes de abril (con
respecto al número de parados del mes anterior). Evidentemente, los incrementos nega-
tivos corresponden a disminuciones. Esta serie está también representada gráficamente,
pero no con el formato más habitual (el de la serie anterior), sino mediante barras que re-
flejan el valor de la variable en cada año y que están colocadas sobre un eje de abscisas
que representa el tiempo. Como el mes de abril es un mes habitualmente propicio a las
contrataciones, los valores son generalmente negativos y las barras correspondientes están
orientadas hacia abajo en un eje de ordenadas imaginario. El problema está, de nuevo,
en la ausencia de un origen de ordenadas, si bien en este caso si que parece que es el 0.
Además, el dato correspondiente a 1993 aparece sin signo. De este modo, necesariamente
hay un error: o bien falta el signo −, o bien la barra es hacia arriba.
NOTA: Cualquier parecido de la segunda serie con un polígono de frecuencias sobre un
histograma, o de la tercera con un diagrama de barras para una variable cualitativa es
pura coincidencia.
Problema 4 Los datos del estudio son reales y pertenecen a las pruebas de Decathlon
(hombres) y de Heptathlon (mujeres) correspondientes a los Juegos Olímpicos de 1988.
Participaron 34 hombres y 25 mujeres, respectivamente.
El enunciado de la cuestión ya nos pone sobre aviso del posible problema causado por
no haber tenido en consideración en los análisis el factor SEXO. Afortunadamente, el
histograma es capaz de informar del problema a través de su aspecto claramente bimodal.
Esto es debido a la clara separación entre los resultados que obtienen hombres y mujeres
en la prueba de 100 metros lisos. Como es bien sabido, el box-plot, a pesar de ser
una herramienta ágil y muy informativa sobre diversos aspectos de las distribuciones de
frecuencias, es incapaz de reflejar la bimodalidad o multimodalidad de una distribución.
La mezcla de los dos conjuntos de datos heterogéneos distorsiona completamente los
resultados de cualquier análisis estadístico. Como muestra basta ver que el box-plot
no refleja la presencia de una observación claramente atípica a pesar de estar diseñado
para ello.
Los estadísticos media y desviación típica no tienen ningún valor en el conjunto de datos
mezclados. Basta comprobar que la media cae precisamente en la zona de menor frecuencia
entre las dos modas. Análogamente, el valor elevado de la desviación típica da cuenta del
carácter poco representativo que tiene la media para este conjunto de datos.
En estas circunstancias, lo razonable habría sido tener en cuenta el factor SEXO con lo
que se trataría de un conjunto de datos bivariante para el que el estudio de mayor interés
sería el de la posible dependencia entre el TIEMPO y el SEXO (Comparación de grupos).
A continuación se muestran los análisis gráficos apropiados para este problema. Como
era previsible, el TIEMPO es fuertemente dependiente del SEXO y las distribuciones
de frecuencias de ambos sexos presentan aspectos razonablemente simétricos. Los datos
correspondientes a los hombres están centrados en torno a valores más bajos que los de
las mujeres y además son menos dispersos. Los valores de los estadísticos de posición y
dispersión tienen verdadero sentido trabajando por sexos. Así, en el caso de los hombres,
la media y la desviación típica valen 11.22 s. y 0.29 s. respectivamente, y en el caso de
las mujeres, 13.84 s. y 0.74 s.
Ahora el box- plot correspondiente a los tiempos de las mujeres si que muestra la atipicidad
de la observación situada más allá de 16 s.
PRUEBA DE 100 METROS LISOS PRUEBA DE 100 METROS LISOS
SEXO FEMENINO
75
50 MUJERES
percentage
25
0
25
VARONES
50
75
10 12 14 16 18 seg. 10 11 12 13 14 15 16 17
SEXO MASCULINO TIEMPO
Problema 7 El principal defecto que presenta el gráfico radica en el valor desde el que
se construyen las barras: -2, dando lugar a una impresión errónea de las magnitudes que se
representan. Así por ejemplo, el valor del año 93 podría interpretarse como crecimiento
positivo. Además la longitud de las barras no guarda relación con el valor que se re-
presenta, y esto es especialmente visible en el dato -1.2, con longitud proporcional a 0.8,
minimizando el efecto del decrecimiento.
¿Sería apropiado construir un histograma a partir de los datos contenidos en el gráfico?
No, pues se perdería el carácter de serie de tiempo y toda la información que ello conlleva.
Problema 9 A la vista del gráfico y las clases que en él aparecen es inmediato que
la variable estudiada es = “motivo o causa de las horas laborales no trabajadas”. Y
puesto que los valores que toma son categorías, y estas no tienen un orden natural, es una
variable cualitativa medida en escala nominal.
El diagrama de sectores es un gráfico apropiado por el tipo de variable que se representa
(var. cualitativa). Y el diagrama de Pareto también es apropiado pues la variable es
cualitativa y está medida en escala nominal. Por tanto, tiene sentido ordenar las clases de
mayor a menor frecuencia en un diagrama de barras, en este caso con el fin de identificar
de una forma rápida las causas más frecuentes de pérdida de horas laborales.
A la hora de construir el diagrama de Pareto se ha de tener en cuenta que la categoría
“Otras” del diagrama de sectores, con una frecuencia relativa del 91%, aparece desglosada
en el cuadro de la derecha en “Maternidad”, “Permisos remunerados”, etc ... junto con las
frecuencias relativas respecto a la clase “Otras”. Así por ejemplo, las horas no trabajadas
por “Maternidad” son el 509% del 91%, que respecto del total son 91 × 0509 = 463%.
De esta forma, la tabla de frecuencias relativas (en %) para todas las clases queda,
1 - Fiestas 48.2 7 - Conflictividad laboral 0.63
2 - Incap. Temporal 28.5 8 - H. perd. en el lugar de trab. 0.26
3 - Vacaciones 14.2 9 - H. no trabajadas y no remuneradas 0.15
4 - Maternidad 4.63 10 - Horas no trabajadas y remuneradas 0.11
5 - Permisos Rem. 1.79 11 - H. pérdidas por razones tec. o econom. 0.11
6 - Compen. por horas extra 1.42
y el diagrama de Pareto es
Problema 10 Para poder comparar la posición del alumno en cuestión respecto al grupo
en las dos asignaturas es necesario homogeneizar las unidades de medida. Como sabemos,
la utilización de una escala u otra de medida es una cuestión bastante arbitraria y hay
que pensar que ni el origen en 0 ni la unidad elegida (punto) tiene porqué tener el mismo
significado en ambas asignaturas. Dicho en otras palabras, la distribución de las notas de
ambas asignaturas no necesariamente tienen la misma posición y dispersión.
Un procedimiento para resolver esta dificultad es tipificar las variables (restar la media y
dividir por la desviación típica). Ahora el origen en ambos casos pasa a ser la media y
medimos ambas variables en ”unidades de desviación típica”, es decir, una nota tipificada
representa el número de desviaciones típicas que se aleja de la media en dirección positiva
o negativa.
Este procedimiento se ve avalado por el hecho de que las dos distribuciones parecen tener
(por la información que se da a través de los coeficientes de asimetría y apuntamiento)
una forma muy similar y seguramente de aspecto normal. Así pues, al tener las dos
distribuciones una forma análoga, la tipificación homogeiniza también la posición y la
dispersión y así podemos ver claramente la situación concreta de nuestro individuo en
ambos grupos.
− 615 − 405
́ : = = 181
116
− 490 − 315
́ : = = 243
072
Así pues, observamos que la nota es ciertamente elevada en ambas asignaturas, pero
sensiblemente mejor en Cálculo que en Estadística.
Frecuencia
20 19 19
15 14
11
10
6
5 4
0
-2.18 -1.52 -0.86 -0.2 0.46 1.12 1.78 2.44
Datos Tipificados
Problema 18 Serán preferibles aquellos sensores que con mayor frecuencia duren al
menos las 15000 horas que se necesitan. Así, aplicando la desigualdad de Chebyshev en
la muestra de sensores de A tenemos que
( 15000) = ( − 15000 − 15372) = ( − −372)
µ ¶2
1 30833
≤ (| − | 372) ≤ 2 = = 06872
372
√
donde = 95099 = 30833 Por tanto, pasando al complementario ( 15000) ≥
03128
Para utilizar toda la información del fabricante B tenemos que calcular la media de la
muestra de 10 + 17 = 27 observaciones que tenemos,
10 × 16120 + 17 × 14920
= = 1536444
27
y puesto que = 30643,
( 15000) = ( − 15000 − 1536444)
= ( − −36444) ≤ (| − | 36444)
µ ¶2
1 30643
≤ 2 = = 07070
36444
por lo que, ( 15000) ≥ 02930 La conclusión es entonces que son preferibles los
sensores del fabricante A (aunque por poco).
Problema 19 Tenemos una muestra con = 10 individuos sobre los que medimos la
altura. Por tanto tenemos 10 valores {1 2 10 }.
a) Conocemos que = 165 y = 015. Aplicando la desigualdad de Chebyshev para
variables estadísticas tendremos,
( ≥ 215) = ( − 165 ≥ 05)
µ µ ¶ ¶ µ ¶2
05 015 1
≤ | − 165| ≥ 015 ≤ = 009
015 05 10
Luego no es posible. No puede haber ni un solo individuo de los 10 con un valor de la
altura igual o superior a 215.
b) Sí es posible. No hay ninguna restricción que se derive de 1 = (3) y 3 = (8) con
respecto a lo que podría ser (9) ó (10) . Tampoco tiene nada que ver con el valor del
límite superior que se calcula para hacer el Box-plot.
c) Si es simétrica entonces la mediana coincidirá con la media, luego = 170. De
aquí, dado que = = 01, obtenemos la desviación típica = 017. Aplicando
nuevamente la desigualdad de Chebyshev, pero teniendo en cuenta ahora la simetría,
tendremos
µ ¶2
1 1 017 1
( ≥ 215) = ( − 17 ≥ 045) = (| − 17| ≥ 045) ≤ = 007
2 2 045 10
Luego no es posible. No puede haber ni un individuo con esas características.
Problema 1 Una compañía petrolera fabrica gasolina bajo dos fórmulas, una que con-
tiene tetraetil-plomo ( 1) y otra sin plomo ( 2). Una característica de calidad importante
de la gasolina es el “Índice de octano en carretera” (Variable ). Se toman diez observa-
ciones de cada fórmula y se anotan los valores de la variable obteniendo los siguientes
resultados:
1 8855 8951 9014 9019 9110 8875 9028 9118 9065 9063
2 8965 9121 9412 9170 9168 8945 9059 9124 9113 9210
Hacer una comparación gráfica de las dos fórmulas y sacar conclusiones.
Problema 2 Se quiere comparar el grado de dificultad que tienen los alumnos para su-
perar tres asignaturas 1, 2 y 3. Por la información contenida en las actas de dichas
asignaturas, se sabe que en la asignatura 1 se presentaron al examen 321 alumnos, de
los cuales resultaron 150 Suspensos, 138 Aprobados y 33 Notables o Sobresalientes. Para
la asignatura 2 se presentaron al examen 240 alumnos, de los cuales resultaron 150 Sus-
pensos, 78 Aprobados y 12 Notables o Sobresalientes. Por último, para la asignatura
3 se presentaron al examen 402 alumnos, de los cuales resultaron 190 Suspensos, 172
Aprobados y 40 Notables o Sobresalientes. Tabular estos datos de la manera más apropi-
ada para poder sacar conclusiones sobre la existencia o no de diferencias entre asignaturas
en cuanto a la dificultad para superar los exámenes. ¿Cuáles son esas conclusiones?
80
70
Fr. Relativa (%)
60
FACTORIA 1
50
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10
PORCENTAJE DE DESPERDICIO
Problema 4 En la tabla se muestran las extracciones de órganos realizadas en los hos-
pitales de Castilla y León en los últimos años.
X = Órgano donado
Riñón Hígado Corazón Pulmón
Y = Año 1996 100 16 16 16
1997 102 20 20 20
1998 123 51 18 18
1999 112 50 20 14
2000 130 62 20 15
Calcular la distribución de Y condicionada por el tipo de donación realizada. Dibujar
mediante un diagrama de sectores la información global de la variable X. Realizar una
representación gráfica que muestre la evolución entre los distintos tipos de donaciones.
Problema 5 Al preguntar a los alumnos de Estadística por su altura los resultados han
sido:
n respuestas media S Mediana Q1 Q3 Mínimo Máximo
Chicos 42 175 497 173 168 182 162 191
Chicas 36 169 482 166 160 177 155 183
Representa la información de la tabla utilizando un diagrama adecuado. Elabora, si es
posible, una tabla similar para la altura sin tener en cuenta la variable Sexo.
Problema 6 En El Norte de Castilla del día 6 de junio de 2004 aparecen los siguientes
gráficos relacionados con los accidentes de trabajo en la Comunidad de Castilla y León.
¿Cuáles son las dos variables registradas para cada uno de los accidentes? ¿De qué tipo son
cada una de esas variables? Construir una tabla de contingencia con los datos contenidos
en los gráficos y dar la tabla de distribuciones condicionadas por cada año.
Problema 7 La distribución de empresas según sector económico (en %) en cada una
de las 4 comunidades autónomas de la zona cantábrica es la siguiente:
Industria Construcción Comercio Resto
Galicia 8 13 32 47
Asturias 6 11 31 52
Cantabria 6 13 29 52
Pais Vasco 11 15 28 46
Para conocer la proporción global en toda la zona cantábrica se han formado los promedios
por columna de la tabla anterior, pero en el periódico han aparecido otros valores. ¿Cuál
de las dos opciones crees que es la correcta? ¿Por qué?
Industria Construccion Comercio Resto
Promedios 7.75 13 30 49.25
Periódico 8 14 29 49
En el periódico aparece también el número total de empresas (418000). Indica (sin re-
solverlo) cómo se puede calcular el número de empresas en cada una de las 4 comunidades.
Problema 8 En la edición del día 25 de julio de 2004 del diario El País se trata sobre
la evolución de la distribución de carburante en España. Así se dividen las estaciones de
servicio de carburante en abanderadas (AOP) y situadas en centros comerciales y se con-
sideran los años 2002 y 2003 ofreciendose el siguiente gráfico.
Comentar posibles defectos del gráfico y, en su caso, dar un gráfico correcto para los
mismos. Construir, si es posible, una tabla de contingencia con dichos gráficos indicando
claramente las dos variables de la misma y las clases de cada una. Construir la tabla
apropiada para decidir si la forma de distribución es estable en esos dos años y tomar una
decisión sobre esa estabilidad.
Problema 9 La siguiente tabla muestra los datos de emisiones de gases de efecto inver-
nadero en el año 2001 para los 15 países de la U.E. (en millones de toneladas equivalentes
de CO2).
País País País
Austria 85.9 Germany 993.5 Netherlands 219.7
Belgium 150.2 Greece 132.2 Portugal 83.8
Denmark 69.4 Ireland 70.0 Spain 382.8
Finland 80.9 Italy 545.3 Sweden 70.5
France 560.7 Luxembourg 6.1 United Kingdom 657.2
Construye un diagrama de cajas de esta muestra de datos y, ayudándote del gráfico,
comenta las principales características de la distribución. ¿Es bimodal o unimodal? Da
una medida de posición/localización de España.
Problema 10 En un artículo sobre la regularización de canteras en el País Vasco, apare-
cido en el El País el 20 de marzo de 2006, se incluyen los siguientes gráficos:
¿Qué variables se consideran en el artículo? ¿De qué tipo de variables se trata? ¿Permite
este tipo de diagramas hacer un análisis de la asociación entre variables? ¿Por qué? Con-
struir una tabla que permita decidir si la distribución de las canteras de Caliza entre las
provincias es igual o no a la de las canteras de Mármol y a la de las canteras de Ofita.
Construir un gráfico que permita comparar los resultados de las dos opciones y extraer
conclusiones. ¿Las variables nota y opción son independientes? ¿Cuál es el número
máximo posible de alumnos que eligieron la opción A y obtuvieron una nota inferior a la
media de los resultados de la opción B?
¿Cuáles son las dos variables a partir de las cuales se ha construido este gráfico? ¿De
qué tipo son estas variables? ¿Es este gráfico apropiado para dichas variables? ¿Puedes
decidir a partir del gráfico si las variables son independientes? En caso afirmativo, ¿lo son?
Justificar. Construir, si es posible, la tabla de distribución conjunta de esas variables. En
caso negativo, ¿qué datos adicionales serían necesarios para obtenerla?
Problema 14 Según los datos de la Junta de Castilla y León la distribución provincial
de la población en la región entre los años 2000 y 2007 es la que aparece en la siguiente
tabla.
FECHA 2000 2001 2002 2003 2004 2005 2006 2007
PROVINCIA
AVILA 164.991 163.885 165.138 165.480 166.108 167.032 167.818 168.638
BURGOS 347.240 349.810 352.723 355.205 356.437 361.021 363.874 365.972
LEON 502.155 499.517 496.655 495.998 492.720 495.902 498.223 497.387
PALENCIA 178.316 177.345 176.125 175.047 173.990 173.471 173.153 173.281
SALAMANCA 349.733 350.209 347.120 348.271 350.984 352.414 353.110 351.326
SEGOVIA 146.613 147.028 149.286 150.701 152.640 155.517 156.598 159.322
SORIA 90.911 91.314 91.487 90.954 91.652 92.773 93.503 93.593
VALLADOLID 495.690 497.961 501.157 506.302 510.863 514.674 519.249 521.661
ZAMORA 203.469 202.356 200.678 199.688 198.524 198.045 197.492 197.237
TOTAL 2.479.118 2.479.425 2.480.369 2.487.646 2.493.918 2.510.849 2.523.020 2.528.417
Construir los gráficos apropiados para estudiar la evolución de la población regional total,
estudiar la evolución del peso de la provincia de Valladolid en el total regional y estudiar
la distribución provincial de la población en 2007.
a) ¿Cuáles son las dos variables a partir de las que se construye la tabla? ¿De qué tipo
son las variables?
b) Construir las tablas de frecuencias univariantes para cada una de esas dos variables y
construir un gráfico de diferente tipo a partir de cada una de ellas.
c) Construir un gráfico que permita tomar una decisión sobre la independencia de esas
variables. ¿Son independientes? Justificar.
Soluciones a los problemas de Estadística Descriptiva Bivariante
94
INDICE DE OCTANO EN CARRETERA
93
92
91
90
Non-Outlier Max
Non-Outlier Min
89 75%
25%
Median
88
F1 F2 Outliers
90
80
70
60
PORCENTAJE
NOT O SOB
APROBADO
50
SUSPENSO
40
30
20
10
0
A1 A2 A3 TOTAL
ASIGNATURA
Problema 3 Para dibujar un box-plot múltiple, tenemos que obtener los siguientes es-
tadísticos: Mediana , Cuartiles 1 y 3 , Mínimo (1) y Máximo () . Además,
tenemos que calcular los límites = 1 − 15(3 − 1 ) y = 3 + 15(3 − 1 )
para ambas distribuciones. Con la precisión que nos permite el polígono de frecuencias
acumuladas del que disponemos, podemos obtener los siguientes valores aproximados:
FACTORÍA 1 FACTORÍA 2
= 6 = 4
1 = 532 1 = 332
3 = 668 3 = 468
(1) desconocido (1) desconocido
() desconocido () desconocido
= 328 = 128
= 872 = 672
Con estos valores obtendríamos un box-plot múltiple como el que sigue, donde los puntos
fuera de los límites LI y LS se han dibujado arbitrariamente y, por su abundancia, corre-
sponderían a una muestra de gran tamaño.
BOX-PLOT MÚLTIPLE
FACTORÍA 2
FACTORÍA 1
0 1 2 3 4 5 6 7 8 9 10
PORCENTAJE DE DESPERDICIO
9.97% Riñón
Hígado
Corazón
Pulmón
21.10% 60.13%
La mejor forma de usar la información es una serie temporal, que permite ver la evolu-
ción en cada uno de los distintos tipos de donaciones.
Multiple X-Y Plot
150 Variables
Riñón
120 Hígado
Corazón
90 Pulmón
60
30
0
1996 1997 1998 1999 2000
1998
9 1999
2000
6
0
Riñon Higado Corazón Pulmón
Problema 5 Dado que estamos representando una variable cuantitativa continua (la
altura de los alumnos) en dos poblaciones (chicos y chicas), el diagrama más adecuado
es un diagrama de cajas (o Box-plot) múltiple. El rango intercuartílico en el grupo de
chicos es = 182 − 168 = 14, luego 15 · = 21; y = 1 − 21 = 147;
= 3 + 21 = 203. En el grupo de chicas es = 177 − 160 = 17, con lo que
15 · = 255; y = 1 − 255 = 1345; = 3 + 255 = 2025. Por tanto, los máx-
imos y mínimos están dentro de los límites superior e inferior, respectivamente, las patas
del diagrama llegan hasta ellos y queda así:
No se puede elaborar completamente una tabla con las mismas características, aunque sí
se pueden obtener algunas de ellas: El número de respuestas es 78, la media es
42 · 175 + 36 · 169
= = 172231
42 + 36
y el mínimo es 155 y el máximo 191.
Problema 6 Las dos variables que se han registrado para cada accidente son: ”Grado
de las lesiones observadas en el accidente” y ”Año en el que se produjo el accidente”. La
primera variable es de tipo categórica ordinal puesto que las lesiones se clasifican en leves,
graves y mortales. La segunda variable puede considerarse como numérica discreta. La
tabla de contingencia para esos datos sería la siguiente:
Lesiones\Año 1996 1997 1998 1999 2000 2001 2002 2003 Total
Leves 30128 32842 35247 37860 41072 42848 43958 42015 305790
Graves 709 664 632 694 631 653 654 580 5217
Mortales 68 76 75 77 85 87 78 46 592
Total 30905 33582 35954 38451 41788 43588 44690 42641 311599
Por otra parte la tabla de distribuciones condicionadas por años es:
Lesiones 1996 1997 1998 1999 2000 2001 2002 2003 Total
Leves 09749 09780 09803 09799 09829 09830 09836 09853 09814
Graves 00229 00197 00176 00180 00151 00149 00145 00136 00167
Mortales 00022 00023 00021 00021 00020 00021 00017 00011 00019
Total 1 1 1 1 1 1 1 1 1
Problema 7 La tabla que se presenta en la cuestión corresponde a las distribuciones
condicionadas, no a la distribución conjunta; por tanto no es posible sumar los valores por
columna. La fila de promedios podría ser correcta sólo en el caso de que la proporción de
empresas en las cuatro comunidades fuese la misma.Que ocurra así en este caso parece algo
dificil. Por tanto parecen más verosimiles los datos que proporciona el periódico, aunque
tampoco podremos afirmar que sean correctos; hay un dato que falta, la distribución
marginal de las distintas comunidades. En cualquier caso no se puede afirmar que los
datos que proporciona el periódico sean incorrectos.
Para calcular el número de empresas en cada una de las 4 comunidades, un valor marginal
de la tabla que se proporciona, hay que relacionar las distribuciones condicionadas de las
que disponemos con los valores marginales. La relación viene dada por:
X
· = | ·
siendo · el porcentaje de empresas de cada tipo, | la familia de condicionadas de la que
se dispone y · las proporciones de empresas en cada comunidad. Para hacer los calculos
se pueden usar los valores que proporciona el periódico. De esta forma la respuesta a la
cuestión se obtiene resolviendo el sistema: ⎫
81 + 62 + 63 + 114 = 8 ⎪ ⎪
⎬
131 + 112 + 133 + 154 = 14
321 + 312 + 293 + 284 = 29 ⎪ ⎪
471 + 522 + 523 + 464 = 49 ⎭
donde además se comprueba que los valores del periódico también son incorrectos.
frecuencia
6 6
4 4
2 2
0 0
2002 2003 AOP CC
El primero de ellos facilita la comparación de la distribución de frecuencias de la variable
TIPO por cada clase de la variable AÑO y el segundo permite comparar la distribución
de frecuencias (o evolución) de la variable AÑO por cada clase de la variable TIPO.
Cualquiera de ellos evidencia que la gran diferencia entre los valores de las frecuencias de
las dos clases de la variable tipo hace difícil apreciar las diferencias entre las alturas de las
barras. Quizás de ahí arranca la idea de no guardar las proporciones en el reportaje de
prensa. La consideración de los datos como dos series temporales con valores anuales de
las frecuencias de cada tipo de estación es poco acertada al existir sólo dos valores de la
serie. Este tratamiento podría hacerse si se dispusiese de series de datos más largas (por
ejemplo 8 o 10 años). La tabla de contingencia con frecuencias absolutas sería:
TIPO\AÑO 2002 2003 TOTAL
AOP 7051 6962 14013
CC 121 157 278
TOTAL 7172 7119 14291
Para observar si la distribución de las estaciones por tipos permanece estable del año 2002
al 2003, la tabla apropiada es la tabla de frecuencias condicionadas por años:
TIPO\AÑO 2002 2003 TOTAL
AOP 98,3% 97,8% 98,05%
CC 1,7% 2,2% 1,95%
TOTAL 100% 100% 100%
Esta tabla se puede completar con un gráfico como el siguiente:
AOP
CC
2002 2003
La U.E. emitía en el año 2001, 273.8 mil millones de toneladas equivalentes de CO2 de
gases de efecto invernadero de media por país, siendo la distribución por paises muy
asimétrica a la derecha (como puede verse en la caja -mitad derecha mucho más amplia
que la mitad izquierda, e idem para el bigote-). Es decir, unos pocos paises emitían una
gran cantidad de gases en comparación con el resto. Aún así, no se observa ningún outlier
(ningún punto que se salga del límite ±15).
A partir de un diagrama de cajas no se puede decir si la distribución es unimodal o
multimodal. No se ve esta característica en este gráfico. Si se vería en un histograma.
Ordenados los datos de menor a mayor, la posición que ocupa España es la 11, que
corresponde aproximadamente al percentil 70. En una muestra con impar, el percentil
100 (0 ≤ ≤ 1) es ([]+1) . En nuestro caso = 15, luego [15]+1 = 11, que despejando
da valores de entre 0.67 y 0.73 (en promedio 0.70).
5 o mas; 10%
1; 19%
4; 23%
2; 25%
3; 23%
Valladolid
90
80
70
60
50
40
30
5 o más
20 4
3
2
10 1
Valladolid Ávila Castilla y León
Box-and-Whisker Plot
Opción A
Opción B
0 2 4 6 8 10
Nota
A la vista del gráfico es claro que las variables no son independientes ya que los alumnos
que eligen la opción A tienen, en general, mejores notas.
Nos piden también una cota para ( 43575). Viendo que la mediana de A es 56 y
el primer cuartil de A es 41 podemos deducir que esa frecuencia es inferior al 50%. Con
la desigualdad de Chebyshev obtenemos lo siguiente
( 43575) = ( − 43575 − 564)
≤ (| − | 12825)
µ ¶
12825
= | − |
08831
µ ¶2
08831
≤ = 047414
12825
mejorandose algo la cota anterior.
20,80%
0,25
20,60%
0,2
20,40%
0,15
20,20%
0,1
20,00%
0,05
19,80%
0 19,60%
2000 2001 2002 2003 2004 2005 2006 2007 2000 2001 2002 2003 2004 2005 2006 2007
Soria
Segovia Valladolid
3,7%
Ávila 6,3% 20,6%
6,7%
Palencia
6,9%
Zamora
León
7,8%
19,7%
Salamanca
13,9% Burgos
14,5%
Problema 15 Las variables a partir de las cuales se ha construido la tabla son, lógica-
mente, el sector de actividad del individuo que está en paro y la provincia de residencia.
Ambas variables son cualitativas nominales puesto que no hay un orden natural estable-
cido para las categorías de ninguna de las dos.
El gráfico apropiado para comparar la distribución de parados por sectores debe hacerse
con las frecuencias relativas ya que el número de parados en las provincias es diferente.
Una buena opción es el siguiente gráfico.
Diagrama de Barras
Agricultura Ávila
Valladolid
Industria
Construcción
Servicios
0 10 20 30 40 50
Porcentaje
Para saber cuantos parados debería haber en el sector agrícola de la provincia de Palencia
basta con tener en cuenta que de la independencia se deduce:
432 816
( ∩ ́) = ( ) ( ́) =
10127 10127
Por lo que el número de parados en caso de independencia debería ser
432 816
10127 = 3481
10127 10127
Problema 16 Las dos variables que se manejan, y que se pueden considerar medidas
sobre cada MWh de la muestra, son Provincia en la que se generó el MWh, y Origen del
MWh. Las dos son variables cualitativas medidas en escala nominal, siendo Ávila, Burgos,
León, Palencia, Salamanca, Segovia, Soria, Valladolid, Zamora y Térmica, Hidráulica,
Nuclear, Eólica; sus respectivas categorías.
Las tablas de frecuencias absolutas y relativas para cada una de ellas son:
Ávila Burgos León Palencia Salamanca Segovia Soria Valladolid Zamora
F. Abs. 61792 1548217 3348012 668301 532294 45513 274695 169921 452624
F. Rel. 0.0087 0.2180 0.4715 0.0941 0.0750 0.0064 0.0387 0.0239 0.0637