Tema 1
Tema 1
Tema 1
Estadı́stica descriptiva
unidimensional
OBJETIVOS
Distinguir entre los diferentes tipos de datos que se pueden presentar en un estudio
descriptivo: cualitativo y cuantitativo, discreto y continuo.
Aprender a ordenar los datos creando tablas estadı́sticas de valores agrupados y sin
agrupar, utilizando los distintos tipos de frecuencias.
Definir una serie de medidas que sinteticen la información contenida en una distribución
de frecuencias unidimensional, tanto de valores agrupados como sin agrupar.
Estudiar cómo se ven afectadas estas medidas al transformar los datos de una variable.
1
Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional
La palabra estadı́stica procede del vocablo estado, pues era función principal de los go-
biernos de los estados establecer registros de población, nacimientos, defunciones, cosechas,
impuestos etc.
Hoy en dı́a, la mayorı́a de las personas entienden por estadı́sticas los conjuntos de datos
distribuidos en tablas, gráficos publicados en los diarios, ... En la actualidad se entiende la
estadı́stica como un método de toma de decisiones. De ahı́ que se emplee en multitud de
estudios cientı́ficos de todas las ramas del saber. Por ejemplo:
Cuáles serán las necesidades de puestos médicos para los próximos cinco años?
No quiere decir que gracias a la estadı́stica se pueda contestar a estas preguntas con total
exactitud, pero sı́ que mediante procedimientos de inferencia estadı́stica se puede responder
a las cuestiones planteadas con un margen de error prefijado.
La estadı́stica se puede dividir en dos partes:
• ESTADÍSTICA DESCRIPTIVA.
Trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones.
Se construyen tablas y se representan gráficos que permiten simplificar, en gran medida, la
complejidad de todos los datos que intervienen en la distribución. Asimismo, se calculan
parámetros estadı́sticos que caracterizan la distribución y se limita a realizar deducciones
directamente a partir de los datos y parámetros obtenidos.
• ESTADÍSTICA INFERENCIAL.
Plantea y resuelve el problema de establecer previsiones y conclusiones generales sobre
una población a partir de los resultados obtenidos de una muestra. Utiliza resultados obte-
nidos mediante la estadı́stica descriptiva y se apoya en el cálculo de probabilidades.
1. Definiciones
una muestra formada por 1000 personas de una población en la que el 60 % son mujeres,
deberemos elegir para la muestra 600 mujeres y 400 hombres.
• CARÁCTER ESTADÍSTICO: propiedad que permite clasificar a los individuos de la
población. Por ejemplo, nivel de consumo o ahorro, edad, renta, peso, etc. Hay dos tipos de
caracteres estadı́sticos: cuantitativo y cualitativo.
Una variable estadı́stica se representa con letras mayúsculas X, Y, Z, mientras que sus
valores se suelen representar con letras minúsculas: x1 , x2 , x3 , . . . , xn ; y1 , y2 , y3 , . . . , yn ;
z1 , z2 , z3 , . . . , zn .
Por ejemplo, para el estado civil, las modalidades serán: soltero, casado, separado,
divorciado y viudo, mientras que para la calificación de un alumno: suspenso, aprobado,
notable, sobresaliente y matrı́cula de honor.
Sea X una variable estadı́stica que ha tomado los valores x1 , . . . , xn , que supondremos
ordenados de menor a mayor, en un conjunto de individuos. Definimos:
Ni = n1 + n2 + . . . + ni
La distribución de frecuencias de una variable viene definida por los valores que toma la
variable y sus respectivas frecuencias. Existen distribuciones de frecuencias de valores no
agrupados y agrupados.
Veamos cómo proceder ordenadamente para analizar una muestra.
2. Ordenación de los datos. Una vez recogidos los datos, los colocaremos en orden creciente
o decreciente, según el tipo de estudio que tengamos que hacer.
4. Agrupación de los datos. En caso de que la variable sea continua o bien discreta pero
con un número de datos muy grande, es muy aconsejable agrupar los datos en clases
o intervalos. Pero, ¿cuál es el número idóneo de clases que debemos escoger a la hora
de agrupar? No existe una contestación tajante a esta pregunta; existen incluso varios
criterios para dar respuesta a esta cuestión.
Con carácter muy general, podemos enunciar como uno de los criterios más sencillos
el de Norcliffe, que establece que el número de clases debe ser aproximadamente igual
a la raı́z cuadrada positiva del número de datos.
Una vez decidido el número de clases, es aconsejable escoger los lı́mites de clase inferior
y superior, de modo que se sitúen en números redondos. Los extremos del i-ésimo
intervalo se denotan por Li−1 y Li , donde Li−1 es su extremo inferior y Li su extremo
superior.
Para el mejor tratamiento de la información, es más cómodo que los intervalos sean de
la misma amplitud, que se denota por ci y se define como la diferencia entre el extremo
superior e inferior del intervalo:
ci = Li − Li−1
5. Construcción de la tabla estadı́stica. Las tablas más simples son las que constan de
una primera columna, donde se refleja los distintos valores o modalidades que presenta
el carácter en estudio. Se añaden una o más columnas a su derecha que representan las
respectivas frecuencias. En muchas ocasiones es interesante trabajar con porcentajes,
que se obtienen multiplicando las frecuencias relativas por 100.
xi ni Ni fi Fi Intervalos ni Ni fi Fi
x1 n1 N1 f1 F1 [L0 , L1 ) n1 N1 f1 F1
x2 n2 N2 f2 F2 [L1 , L2 ) n2 N2 f2 F2
.. .. .. .. .. .. .. .. .. ..
. . . . . . . . . .
xi ni Ni fi Fi [Li−1 , Li ) ni Ni fi Fi
.. .. .. .. .. .. .. .. .. ..
. . . . . . . . . .
xn nn N fn 1 [Ln−1 , Ln ] nn N fn 1
N 1 N 1
Obsérvese que en la última fila de cada tabla, se ha llevado a cabo la suma de las
frecuencias (no acumuladas) por columnas, siendo la de las absolutas N y la de las
relativas 1, como es natural.
5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7
Notas (xi ) ni Ni fi Fi
0 2 2 2/30 2/30
1 3 5 3/30 5/30
2 1 6 1/30 6/30
3 1 7 1/30 7/30
4 1 8 1/30 8/30
5 3 11 3/30 11/30
6 2 13 2/30 13/30
7 5 18 5/30 18/30
8 7 25 7/30 25/30
9 5 30 5/30 1
30 1
3, 2, 11, 13, 4, 3, 2, 4, 5, 6, 7, 3, 4, 5, 3, 2, 5, 6,
27, 15, 4, 21, 12, 4, 3, 6, 29, 13, 6, 17, 6, 13, 6, 5, 12, 26
Intervalos ni Ni fi Fi
[0, 5) 13 13 13/36 13/36
[5, 10) 11 24 11/36 24/36
[10, 15) 6 30 6/36 30/36
[15, 20) 2 32 2/36 32/36
[20, 25) 1 33 1/36 33/36
[25, 30] 3 36 3/36 1
36 1
3. Representaciones gráficas
5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7
En caso de que los intervalos tengan distinta amplitud, las alturas de los rectángu-
los han de ser calculadas teniendo en cuenta que sus áreas deben ser proporcionales
a las frecuencias de cada intervalo. De esta forma, las alturas de cada rectángulo
se calcuları́an como el cociente entre la frecuencia absoluta y la amplitud de cada
intervalo: di = ncii . Este cociente se llama densidad de frecuencia.
Polı́gono de frecuencias. Se forma al unir los puntos medios de cada intervalo, a
una altura proporcional a la frecuencia.
Figura 5: Pictograma
Cartograma. Son los gráficos que se realizan sobre un mapa, señalando sobre
determinadas zonas con distintos colores o rayados lo que se trata de poner de
manifiesto. Se suelen utilizar estos tipos de diagramas para representar la densidad
demográfica de una nación, la renta per cápita, los ı́ndices de lluvia de una nación,
etc.
Aún cuando las tablas estadı́sticas y las representaciones gráficas permiten obtener, de
una manera rápida, una idea aproximada del comportamiento de una distribución, lo que se
intenta es resumirla en una serie de expresiones, que intentan representar el conjunto total de
datos mediante un solo valor numérico. En este proceso de sı́ntesis surgen distintas medidas.
Son medidas que tienden a situarse hacia el centro del conjunto de datos ordenados.
• La MEDIA ARITMÉTICA de una variable estadı́stica es la suma de todos los valores
de dicha variable dividido por el número de valores. Se denota por x̄.
Cálculo de la media aritmética:
Si la variable X toma los valores x1 , . . . , xn con frecuencias absolutas respectivas n1 , . . . , nn ,
entonces Pn n
x1 n1 + . . . + xn nn i=1 xi ni
X
x̄ = = = xi f i
N N i=1
Si a todos los valores de una variable les sumamos una constante, la media aritmética
queda aumentada también en esa constante. Le afectan los cambios de origen. Ma-
temáticamente, si Y = X + b, entonces ȳ = x̄ + b para todo b ∈ R.
Si todos los valores de una variable se multiplican por una constante, la media aritméti-
ca queda multiplicada también por esa constante. Le afectan los cambios de escala.
Matemáticamente, si Y = aX, entonces ȳ = ax̄ para todo a ∈ R.
x̄1 N1 + . . . + x̄k Nk
x̄ =
N1 + . . . + Nk
OBSERVACIONES:
No siempre es posible realizar el cálculo de la media: cuando los datos son cualitativos
o cuando los datos se encuentran agrupados en clases, estando alguna de ellas abierta.
En estos casos en los que no es posible calcular la media, se utilizan otras medidas,
como la moda y la mediana.
Calificaciones 1 2 3 4 5 6 7 8 9
Número de alumnos 2 2 4 5 8 9 3 4 3
Puede ocurrir que existan distribuciones que no tengan moda. Eso ocurre cuando las
frecuencias de todos los datos son iguales.
Aun cuando la moda se considera una medida de centralización, no siempre tiene por
qué situarse en la zona central. De hecho, es frecuente encontrar la moda próxima a
los valores extremos de la distribución.
Calificaciones 1 2 3 4 5 6 7 8 9
Número de alumnos 2 2 4 5 8 9 3 4 3
Datos simples. En este caso se ordenan los datos de menor a mayor y la mediana ser
el valor central, si el número de datos es impar.
• EJEMPLO 6:
0 0 1 2 3 3 3 3 4 5 5 ⇒ Me = 3
Si el número de datos es par, no existe término central, sino dos términos centrales.
En este caso, se toma como mediana la semisuma de los dos valores centrales, aunque
dicho valor resultante no pertenezca al conjunto de datos.
• EJEMPLO 7:
0 0 1 2 3 4 4 5 6 6 ⇒ Me = 3,5
OBSERVACIONES:
1. Cuando entre los datos existe alguno ostensiblemente extremo que afecta a la
media.
2. Cuando los datos están agrupados en clases y alguna de ellas es abierta.
Calificaciones 1 2 3 4 5 6 7 8 9
Número de alumnos 2 2 4 5 8 9 3 4 3
xi 3 6 7 8 9
ni 15 20 15 40 10
Clases 0 − 5 5 − 10 10 − 15 15 − 20
ni 14 36 30 20
Son valores de la distribución que la dividen en partes iguales, es decir, en intervalos que
comprenden el mismo número de valores. Se denominan CUANTILES.
Debido a que los cuantiles son parámetros del tipo de la mediana, su cálculo se realiza
de forma análoga. Pueden ser:
• CUARTILES: son tres valores que dividen a la serie de datos en cuatro partes iguales,
dentro de cada cual están incluidos el 25 % de los valores de la distribución. Se representan
por Q1 , Q2 , Q3 y se designan por cuartil primero, segundo y tercero, respectivamente. Ası́,
Q1 es el valor que ocupa el lugar N/4, Q2 el 2N/4 y Q3 el 3N/4.
Para distribuciones de variable estadı́stica continua o bien para distribuciones de variable
estadı́stica discreta con un gran número de datos, y que se han agrupado en clases, aplicamos
la siguiente expresión:
k
N − Ni−1
Qk = Li−1 + ci 4 , k = 1, 2, 3
ni
siendo [Li−1 , Li ) el primer invervalo cuya frecuencia absoluta acumulada supera o iguala k4 N .
• DECILES: son nueve valores que dividen a la serie de datos en diez partes iguales. Se
representan por D1 , D2 , . . . , D9 y se designan decil primero, segundo, ..., noveno, respectiva-
mente.
N ×k
Dk es el valor que ocupa el lugar , k = 1, . . . , 9
10
Para distribuciones de variable estadı́stica continua o bien para distribuciones de variable
estadı́stica discreta, con un gran número de datos, y que se han agrupado en clases, aplicamos
la siguiente expresión:
k
10
N − Ni−1
Dk = Li−1 + ci , k = 1, . . . , 9
ni
siendo [Li−1 , Li ) el primer invervalo cuya frecuencia absoluta acumulada supera o iguala
k
10
N.
• PERCENTILES: son noventa y nueve valores que dividen a la serie de datos en cien
partes iguales. Se representan por P1 , P2 , . . . , P99 y se designan percentil primero, segundo,...,
noventa y nueve, respectivamente.
N ×k
Pk es el valor que ocupa el lugar , k = 1, . . . , 99
100
Para distribuciones de variable estadı́stica continua o bien para distribuciones de variable
estadı́stica discreta con un gran número de datos, y que se han agrupado en clases, aplicamos
la siguiente expresión:
k
N − Ni−1
Pk = Li−1 + ci 100 , k = 1, . . . , 99
ni
siendo [Li−1 , Li ) el primer invervalo cuya frecuencia absoluta acumulada supera o iguala
k
100
N.
Se observa que la mediana coincide con Q2 , D5 y P50 .
• EJERCICIO 12: Las calificaciones en la asignatura de bioestadı́stica de los cuarenta
alumnos de una clase vienen dadas por la siguiente tabla.
Calificaciones 1 2 3 4 5 6 7 8 9
Número de alumnos 2 2 4 5 8 9 3 4 3
Calcular e interpretar:
Calcular e interpretar:
b) Los percentiles de orden 40 y 90. (Sol. P40 = 57,25 puntos, P90 = 72,13 puntos)
Grupo A 46 48 49 50 50 51 52 54
Grupo B 10 18 30 50 50 70 82 90
puntuaciones del grupo A están muy próximas a la media y diremos que se encuentran poco
dispersas; en cambio las del grupo B se encuentran alejadas de la media y diremos que se
encuentran muy dispersas.
Luego, la investigación acerca de una distribución queda incompleta si solo se estudian
las medidas de centralización, siendo imprescindible conocer si los datos numéricos están
agrupados o no alrededor de los valores centrales. A esto se le llama dispersión (es decir,
la mayor o menor separación de los valores respecto a otro, que se pretende sea su sı́ntesis)
y a los parámetros que miden estas desviaciones respecto a la media se les llama medidas
de dispersión o parámetros de dispersión. Vamos a distinguir entre medidas de dispersión
absolutas y relativas.
Medidas de dispersión absolutas:
• El RANGO de una distribución es la diferencia entre el mayor y el menor valor de
la variable estadı́stica. En el ejemplo anterior, al tener el mismo número de datos ambas
distribuciones y ser el recorrido de la distribución del grupo A 54 − 46 = 8, mucho más
pequeño, diremos que es más homogénea, o menos dispersa, que la distribución del grupo B
con rango 90 − 10 = 80.
OBSERVACIONES:
Estas medidas son válidas para comparar distribuciones, pero si estas vienen en distin-
tas unidades, es preferible utilizar otras. Asimismo, perseguimos determinar la repre-
sentatividad de las medidas de posición y las que acabamos de ver no hacen referencia
a ningún promedio. Se necesitan medidas de dispersión que involucren a los prome-
dios. Veamos, a continuación, un tipo de gráfico que, nutriéndose de las medidas de
centralización, posición y dispersión vistas hasta ahora, nos permite concluir distintos
aspectos sobre una distribución.
Diagrama de cajas y patillas o “Box Plot”
M o.
◦ Una distribución es asimétrica a la derecha respecto a la media si los valores
inferiores a x̄ tienen mayor frecuencia. ⇒ x̄ > M e > M o.
◦ Una distribución es asimétrica a la izquierda respecto a la media si los valores
superiores a x̄ tienen mayor frecuencia. ⇒ x̄ < M e < M o.
Si a todos los valores de una variable les sumamos una constante, la varianza no varı́a.
No se ve afectada por los cambios de origen. Matemáticamente, Y = X +b ⇒ SY2 = SX 2
para todo b ∈ R.
Si todos los valores de una variable se multiplican por una constante, la varianza
queda multiplicada por el cuadrado esa constante. Le afectan los cambios de escala.
Matemáticamente, Y = aX ⇒ SY2 = a2 SX 2
para todo a ∈ R.
Tanto la varianza como la desviación tı́pica dependen de todos los valores de la distri-
bución ası́ como de la media.
En los casos en que no sea posible calcular la media aritmética, no será posible tampoco
obtener la varianza y la desviación tı́pica por ser funciones de la media aritmética.
Calificaciones 1 2 3 4 5 6 7 8 9
Número de alumnos 2 2 4 5 8 9 3 4 3
El valor más pequeño de este coeficiente serı́a el cero, pues este es el mı́nimo valor que puede
tomar la desviación tı́pica, lo que indica máxima representatividad de la media aritmética.
El coeficiente de variación no es significativo cuando la media aritmética es cero, ya que
puede conducirnos a tomar conclusiones equivocadas.
• EJERCICIO 17: Se ha medido el peso, en kilos y altura, en metros, de seis personas,
obteniéndose los datos siguientes:
Pesos 65 60 65 63 68 68
Alturas 1,7 1,5 1,68 1,7 1,75 1,8
¿Qué variable está más dispersa, los pesos o las alturas?, ¿qué media es más representativa?
(Sol. Más dispersa la altura y más representativa el peso.)