Tema 1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 22

TEMA 1.

Estadı́stica descriptiva
unidimensional

OBJETIVOS

Conocer el origen de la estadı́stica y entender las relaciones existentes entre estadı́stica


descriptiva, teorı́a de probabilidad e inferencia.

Distinguir entre los diferentes tipos de datos que se pueden presentar en un estudio
descriptivo: cualitativo y cuantitativo, discreto y continuo.

Aprender a ordenar los datos creando tablas estadı́sticas de valores agrupados y sin
agrupar, utilizando los distintos tipos de frecuencias.

Realizar las representaciones gráficas adecuadas a cada tipo de distribución de frecuen-


cias.

Definir una serie de medidas que sinteticen la información contenida en una distribución
de frecuencias unidimensional, tanto de valores agrupados como sin agrupar.

ˆ Aprender a calcular e interpretar las medidas usuales de posición central y no


central.
ˆ Aprender a calcular e interpretar las medidas usuales de dispersión, para comparar
la dispersión entre dos o más variables o distribuciones de frecuencias.

Estudiar cómo se ven afectadas estas medidas al transformar los datos de una variable.

1
Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

La palabra estadı́stica procede del vocablo estado, pues era función principal de los go-
biernos de los estados establecer registros de población, nacimientos, defunciones, cosechas,
impuestos etc.
Hoy en dı́a, la mayorı́a de las personas entienden por estadı́sticas los conjuntos de datos
distribuidos en tablas, gráficos publicados en los diarios, ... En la actualidad se entiende la
estadı́stica como un método de toma de decisiones. De ahı́ que se emplee en multitud de
estudios cientı́ficos de todas las ramas del saber. Por ejemplo:

¿Cómo saber si un nuevo medicamento producirá efectos satisfactorios?

Cuáles serán las necesidades de puestos médicos para los próximos cinco años?

No quiere decir que gracias a la estadı́stica se pueda contestar a estas preguntas con total
exactitud, pero sı́ que mediante procedimientos de inferencia estadı́stica se puede responder
a las cuestiones planteadas con un margen de error prefijado.
La estadı́stica se puede dividir en dos partes:
• ESTADÍSTICA DESCRIPTIVA.
Trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones.
Se construyen tablas y se representan gráficos que permiten simplificar, en gran medida, la
complejidad de todos los datos que intervienen en la distribución. Asimismo, se calculan
parámetros estadı́sticos que caracterizan la distribución y se limita a realizar deducciones
directamente a partir de los datos y parámetros obtenidos.
• ESTADÍSTICA INFERENCIAL.
Plantea y resuelve el problema de establecer previsiones y conclusiones generales sobre
una población a partir de los resultados obtenidos de una muestra. Utiliza resultados obte-
nidos mediante la estadı́stica descriptiva y se apoya en el cálculo de probabilidades.

1. Definiciones

• POBLACIÓN: conjunto de elementos que cumplen una determinada caracterı́stica. Los


elementos de la población se llaman individuos.
• MUESTRA: cualquier subconjunto de la población. El número de elementos de una
muestra se llama tamaño.
El proceso mediante el cual se extrae una muestra representativa de la población se conoce
con el nombre de muestreo aleatorio. En este muestreo, cada individuo de la población tiene
la misma posibilidad de ser incluido en la muestra. Pero la composición de la muestra debe
estar en proporción con la composición de la población. Por ejemplo, si se desea elegir

Grado en Enfermerı́a (UAL) 2 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

una muestra formada por 1000 personas de una población en la que el 60 % son mujeres,
deberemos elegir para la muestra 600 mujeres y 400 hombres.
• CARÁCTER ESTADÍSTICO: propiedad que permite clasificar a los individuos de la
población. Por ejemplo, nivel de consumo o ahorro, edad, renta, peso, etc. Hay dos tipos de
caracteres estadı́sticos: cuantitativo y cualitativo.

CARÁCTER ESTADÍSTICO CUANTITATIVO: son aquellos que se pueden medir


numéricamente. Este tipo de carácter estadı́stico determina una variable estadı́stica.
Se llaman valores de una variable estadı́stica a los posibles resultados obtenidos al
observar dicha variable estadı́stica. Hay dos tipos de variables estadı́sticas: discreta y
continua.

ˆ VARIABLE ESTADÍSTICA DISCRETA: cuando puede tomar un número finito


de valores. Ejemplos: número de proveedores, número de defectos en la fabricación
de un producto, número de nacimientos habidos cada dı́a en una ciudad, etc.
ˆ VARIABLE ESTADÍSTICA CONTINUA: cuando puede tomar, al menos teóri-
camente, todos los valores posibles dentro de un cierto intervalo de la recta real.
Ejemplos: talla de un individuo, altura de los edificios de una ciudad, temperatura,
etc.

Una variable estadı́stica se representa con letras mayúsculas X, Y, Z, mientras que sus
valores se suelen representar con letras minúsculas: x1 , x2 , x3 , . . . , xn ; y1 , y2 , y3 , . . . , yn ;
z1 , z2 , z3 , . . . , zn .

CARÁCTER ESTADÍSTICO CUALITATIVO: son aquellos que no se pueden medir.


Este tipo de carácter estadı́stico determina un atributo. Se llaman modalidades a los
posibles resultados obtenidos al observar un atributo. Hay dos tipos de atributos: no-
minal y ordinal.

ˆ ATRIBUTO NOMINAL: cuando no se puede ordenar. Ejemplos: ciudad natal de


una persona, color de los ojos, estado civil, etc.
ˆ ATRIBUTO ORDINAL: cuando se puede ordenar. Ejemplos: nivel de idioma,
cargo en una empresa, calificación de un alumno, etc.

Por ejemplo, para el estado civil, las modalidades serán: soltero, casado, separado,
divorciado y viudo, mientras que para la calificación de un alumno: suspenso, aprobado,
notable, sobresaliente y matrı́cula de honor.

Por otra parte, se puede hablar de análisis de datos unidimensionales o multidimensionales,


dependiendo del número de caracterı́sticas a estudiar. En el caso multidimensional, la natu-
raleza de las caracterı́sticas puede ser mixta. Por ejemplo, en distribuciones bidimensionales,
puede trabajarse conjuntamente con caracterı́sticas cuantitativas y cualitativas.

Grado en Enfermerı́a (UAL) 3 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

2. Distribución de frecuencias. Tablas estadı́sticas

Sea X una variable estadı́stica que ha tomado los valores x1 , . . . , xn , que supondremos
ordenados de menor a mayor, en un conjunto de individuos. Definimos:

Se llama FRECUENCIA ABSOLUTA del valor xi , y la representamos por ni , al número


de veces que se repite dicho valor. El total de datos de la muestra será, entonces,
N = ni=1 ni .
P

Se llama FRECUENCIA ABSOLUTA ACUMULADA del valor xi , y la representamos


por Ni , al número de individuos que toman valores menores o iguales que xi :

Ni = n1 + n2 + . . . + ni

Se llama FRECUENCIA RELATIVA del valor xi , y la representamos por fi , a la


proporción de individuos que han tomado el valor xi . Es, por tanto, el cociente entre la
frecuencia absoluta de xi y el número total de datos que intervienen en la distribución:
ni
fi =
N

Se llama FRECUENCIA RELATIVA ACUMULADA del valor xi , y la representamos


por Fi , a la proporción de individuos que toman valores menores o iguales a xi . Es,
por tanto, el cociente entre la frecuencia absoluta acumulada de xi y el número total
de datos que intervienen en la distribución:
Ni
Fi = = f1 + f2 + . . . + fi
N

La distribución de frecuencias de una variable viene definida por los valores que toma la
variable y sus respectivas frecuencias. Existen distribuciones de frecuencias de valores no
agrupados y agrupados.
Veamos cómo proceder ordenadamente para analizar una muestra.

1. Recogida de datos. Consiste en la toma de datos numéricos procedentes de la muestra.

2. Ordenación de los datos. Una vez recogidos los datos, los colocaremos en orden creciente
o decreciente, según el tipo de estudio que tengamos que hacer.

3. Recuento de frecuencias. Efectuaremos el recuento de los datos obtenidos.

4. Agrupación de los datos. En caso de que la variable sea continua o bien discreta pero
con un número de datos muy grande, es muy aconsejable agrupar los datos en clases
o intervalos. Pero, ¿cuál es el número idóneo de clases que debemos escoger a la hora

Grado en Enfermerı́a (UAL) 4 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

de agrupar? No existe una contestación tajante a esta pregunta; existen incluso varios
criterios para dar respuesta a esta cuestión.
Con carácter muy general, podemos enunciar como uno de los criterios más sencillos
el de Norcliffe, que establece que el número de clases debe ser aproximadamente igual
a la raı́z cuadrada positiva del número de datos.
Una vez decidido el número de clases, es aconsejable escoger los lı́mites de clase inferior
y superior, de modo que se sitúen en números redondos. Los extremos del i-ésimo
intervalo se denotan por Li−1 y Li , donde Li−1 es su extremo inferior y Li su extremo
superior.
Para el mejor tratamiento de la información, es más cómodo que los intervalos sean de
la misma amplitud, que se denota por ci y se define como la diferencia entre el extremo
superior e inferior del intervalo:

ci = Li − Li−1

Si es ası́, se verificará que el número de clases o intervalos es igual al cociente entre el


rango o recorrido y la amplitud. El rango o recorrido es la diferencia entre el mayor y
el menor valor de la variable.
Esta relación nos permitirá deducir el número de intervalos si fijamos la amplitud, o esta
si fijamos el número de intervalos. Como ya hemos comentado, en el establecimiento
del número de intervalos no existen reglas fijas, porque, en última instancia, dependerá
de los objetivos de la investigación.
A los puntos medios de cada clase se les llama marca de clase:
Li−1 + Li
xi =
2
Con el fin de que la clasificación esté bien hecha, los intervalos se deben construir
de tal manera que el lı́mite superior de una clase coincida con el lı́mite inferior de la
siguiente. Y, además, se debe adoptar el criterio de que los intervalos sean cerrados por
la izquierda y abiertos por la derecha (es decir, de la forma [Li−1 , Li )), a excepción del
último, que será cerrado por ambos extremos (es decir, de la forma [Ln−1 , Ln ]). Puede
tomarse como lı́mite inferior del primer intervalo el mı́nimo valor de la variable o inferior
a dicho valor. Fijado este y sumando la amplitud, se obtienen los intervalos. Debe
comprobarse que el valor máximo de la variable está recogido en el último intervalo.

5. Construcción de la tabla estadı́stica. Las tablas más simples son las que constan de
una primera columna, donde se refleja los distintos valores o modalidades que presenta
el carácter en estudio. Se añaden una o más columnas a su derecha que representan las
respectivas frecuencias. En muchas ocasiones es interesante trabajar con porcentajes,
que se obtienen multiplicando las frecuencias relativas por 100.

Grado en Enfermerı́a (UAL) 5 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

La tabla para organizar la información basada en datos no agrupados y agrupados en


intervalos será, respectivamente,

xi ni Ni fi Fi Intervalos ni Ni fi Fi
x1 n1 N1 f1 F1 [L0 , L1 ) n1 N1 f1 F1
x2 n2 N2 f2 F2 [L1 , L2 ) n2 N2 f2 F2
.. .. .. .. .. .. .. .. .. ..
. . . . . . . . . .
xi ni Ni fi Fi [Li−1 , Li ) ni Ni fi Fi
.. .. .. .. .. .. .. .. .. ..
. . . . . . . . . .
xn nn N fn 1 [Ln−1 , Ln ] nn N fn 1
N 1 N 1

Obsérvese que en la última fila de cada tabla, se ha llevado a cabo la suma de las
frecuencias (no acumuladas) por columnas, siendo la de las absolutas N y la de las
relativas 1, como es natural.

• EJEMPLO 1 (variable estadı́stica discreta): Un profesor tiene anotadas en su agenda las


calificaciones de 30 alumnos. Construir la tabla estadı́stica sabiendo que son las siguientes:

5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7

Notas (xi ) ni Ni fi Fi
0 2 2 2/30 2/30
1 3 5 3/30 5/30
2 1 6 1/30 6/30
3 1 7 1/30 7/30
4 1 8 1/30 8/30
5 3 11 3/30 11/30
6 2 13 2/30 13/30
7 5 18 5/30 18/30
8 7 25 7/30 25/30
9 5 30 5/30 1
30 1

• EJEMPLO 2 (variable estadı́stica continua): Agrupar los siguientes datos, correspon-


dientes a las edades de las personas que acuden a un logopeda a lo largo de un mes, en
intervalos de amplitud 5, considerando que el extremo inferior del primer intervalo es 0.

3, 2, 11, 13, 4, 3, 2, 4, 5, 6, 7, 3, 4, 5, 3, 2, 5, 6,
27, 15, 4, 21, 12, 4, 3, 6, 29, 13, 6, 17, 6, 13, 6, 5, 12, 26

Grado en Enfermerı́a (UAL) 6 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

Intervalos ni Ni fi Fi
[0, 5) 13 13 13/36 13/36
[5, 10) 11 24 11/36 24/36
[10, 15) 6 30 6/36 30/36
[15, 20) 2 32 2/36 32/36
[20, 25) 1 33 1/36 33/36
[25, 30] 3 36 3/36 1
36 1

3. Representaciones gráficas

Aunque las tablas estadı́sticas contienen toda la información, a veces es conveniente


expresarla mediante un gráfico, con el fin de hacerla más clara y evidente. Según como sea
la naturaleza del carácter estudiado, utilizaremos un tipo u otro de representación gráfica.

1. Para fenómenos cuantitativos, tipo discreto.


• EJEMPLO 3 (variable estadı́stica discreta): Un profesor tiene anotadas en su agenda
las calificaciones de treinta alumnos. Representar gráficamente esta información.

5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7

Diagrama de barras. Son útiles cuando se desean comparar datos cualitativos o


datos cuantitativos de tipo discreto. Para construirlo se llevan los valores de la
variable sobre el eje de abscisas y sobre cada valor de la variable se levanta un
segmento igual a la frecuencia (absoluta o relativa).

Figura 1: Diagramas de barras para los datos del Ejemplo 3

Polı́gono de frecuencias (absolutas o relativas). Se forman uniendo los extremos


de las barras mediante una lı́nea quebrada.

Grado en Enfermerı́a (UAL) 7 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

Figura 2: Polı́gonos de frecuencias para los datos del Ejemplo 3

2. Para fenómenos cuantitativos, tipo de continuo.


• EJEMPLO 4: (variable estadı́stica continua): Las edades de las personas que acuden
a un logopeda a lo largo de un mes son registradas. Representar gráficamente esta
información.
3, 2, 11, 13, 4, 3, 2, 4, 5, 6, 7, 3, 4, 5, 3, 2, 5, 6,
27, 15, 4, 21, 12, 4, 3, 6, 29, 13, 6, 17, 6, 13, 6, 5, 12, 26

Histograma. Se utiliza generalmente para distribuciones de variable estadı́stica


continua, y para distribuciones de variable estadı́stica discreta, con un gran núme-
ro de datos, y que se han agrupado en clases. Para construir el histograma se
representan sobre el eje de abscisas los lı́mites de las clases. Sobre dicho eje se
construyen unos rectángulos que tienen por base la amplitud del intervalo y por
altura la frecuencia absoluta de cada intervalo, siempre que todos los intervalos
tengan igual amplitud.

Figura 3: Histograma para los datos del Ejemplo 4

Grado en Enfermerı́a (UAL) 8 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

En caso de que los intervalos tengan distinta amplitud, las alturas de los rectángu-
los han de ser calculadas teniendo en cuenta que sus áreas deben ser proporcionales
a las frecuencias de cada intervalo. De esta forma, las alturas de cada rectángulo
se calcuları́an como el cociente entre la frecuencia absoluta y la amplitud de cada
intervalo: di = ncii . Este cociente se llama densidad de frecuencia.
Polı́gono de frecuencias. Se forma al unir los puntos medios de cada intervalo, a
una altura proporcional a la frecuencia.

3. Para fenómenos cualitativos.

Diagrama de sectores. Representa las distintas modalidades de un carácter me-


diante sectores circulares. El ángulo central de cada sector ha de ser proporcional
a la frecuencia absoluta correspondiente. No es aconsejable representar un gran
número de categorı́as, ni representar atributos ordinales.

Figura 4: Diagrama de sectores

Pictograma. Son dibujos alusivos a la distribución que se pretende estudiar y


que mediante su forma, tamaño, etc., ofrece una descripción lo más expresiva
posible de la distribución estadı́stica. Se comprende que este método tiene el
grave inconveniente de la falta de precisión.

Figura 5: Pictograma

Grado en Enfermerı́a (UAL) 9 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

Cartograma. Son los gráficos que se realizan sobre un mapa, señalando sobre
determinadas zonas con distintos colores o rayados lo que se trata de poner de
manifiesto. Se suelen utilizar estos tipos de diagramas para representar la densidad
demográfica de una nación, la renta per cápita, los ı́ndices de lluvia de una nación,
etc.

Figura 6: Cartograma sobre densidades de población

• EJEMPLO 5: La población activa de un determinado paı́s, expresada en millones de


trabajadores, es la siguiente: Agricultura 4,05, Industria 5,22, Construcción 1,78, Ser-
vicios 7,53. Representar gráficamente esta información. (Sol. Agricultura 4,05/18,58 =
0,217 21,8 %, Industria 28,1 %, Construcción 9,6 %, Servicios 40,5 % o Agricultura
4,05/18,58 = 0,217 × 360◦ = 78,48◦ , Industria 101,16◦ , Construcción 34,56◦ , Servi-
cios 145,8◦ )

4. Sı́ntesis numérica de los datos

Aún cuando las tablas estadı́sticas y las representaciones gráficas permiten obtener, de
una manera rápida, una idea aproximada del comportamiento de una distribución, lo que se
intenta es resumirla en una serie de expresiones, que intentan representar el conjunto total de
datos mediante un solo valor numérico. En este proceso de sı́ntesis surgen distintas medidas.

Grado en Enfermerı́a (UAL) 10 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

4.1. Medidas de posición central (o de centralización)

Son medidas que tienden a situarse hacia el centro del conjunto de datos ordenados.
• La MEDIA ARITMÉTICA de una variable estadı́stica es la suma de todos los valores
de dicha variable dividido por el número de valores. Se denota por x̄.
Cálculo de la media aritmética:
Si la variable X toma los valores x1 , . . . , xn con frecuencias absolutas respectivas n1 , . . . , nn ,
entonces Pn n
x1 n1 + . . . + xn nn i=1 xi ni
X
x̄ = = = xi f i
N N i=1

Si los datos están agrupados en intervalos, se toma como xi la marca de clase.


PROPIEDADES:

Si a todos los valores de una variable les sumamos una constante, la media aritmética
queda aumentada también en esa constante. Le afectan los cambios de origen. Ma-
temáticamente, si Y = X + b, entonces ȳ = x̄ + b para todo b ∈ R.

Si todos los valores de una variable se multiplican por una constante, la media aritméti-
ca queda multiplicada también por esa constante. Le afectan los cambios de escala.
Matemáticamente, si Y = aX, entonces ȳ = ax̄ para todo a ∈ R.

Si x̄i es la media de cada uno de k grupos (i = 1, . . . , k) de tamaño Ni , entonces

x̄1 N1 + . . . + x̄k Nk
x̄ =
N1 + . . . + Nk

La suma de las desviaciones de los valores de la variable respecto a su media es cero:


n
X
(xi − x̄)ni = 0
i=1

OBSERVACIONES:

La media aritmética es la medida de centralización que más se utiliza.

Presenta la ventaja de tener en cuenta todos los datos de la distribución, además de


resultar muy sencillo su cálculo.

Tiene el grave el inconveniente de que si la distribución posee valores extremos, estos


producen una distorsión sobre el valor de x̄.

Grado en Enfermerı́a (UAL) 11 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

No siempre es posible realizar el cálculo de la media: cuando los datos son cualitativos
o cuando los datos se encuentran agrupados en clases, estando alguna de ellas abierta.
En estos casos en los que no es posible calcular la media, se utilizan otras medidas,
como la moda y la mediana.

• EJERCICIO 1: El número de horas que dedica un sanitario a su consulta privada


durante la semana es el siguiente: 3,5, 5,5, 4, 6, 5, 3. Calcular la media de horas dedicadas
a su consulta. (Sol. 4,5 horas)
• EJERCICIO 2: Las calificaciones en la asignatura de bioestadı́stica de los cuarenta
alumnos de una clase vienen dadas por la siguiente tabla. Hallar la calificación media. (Sol.
5,3 puntos)

Calificaciones 1 2 3 4 5 6 7 8 9
Número de alumnos 2 2 4 5 8 9 3 4 3

• EJERCICIO 3: Se ha aplicado un test sobre satisfacción en el trabajo a 88 sanitarios de


un centro hospitalario, obteniéndose los siguientes resultados. Calcular la puntuación media.
(Sol. 59,14 puntos)

Puntuaciones 38 − 44 44 − 50 50 − 56 56-62 62-68 68-74 74-80


Número de sanitarios 7 8 15 25 18 9 6

• La MODA es el valor de la variable que presenta mayor frecuencia absoluta (o relativa).


La moda no tiene por qué ser única; puede haber varios valores de la variable con la mayor
frecuencia. En este caso se dirá que la distribución es bimodal, trimodal, ..., según sean dos,
tres, ..., los valores de la variable que presentan mayor frecuencia.
Cálculo de la moda:
Como consecuencia de la definición, el cálculo de la moda resulta muy sencillo en los casos
de datos simples y datos no agrupados en intervalos. Pero, en el caso de datos agrupados en
intervalos, determinamos el intervalo modal, que es el de mayor densidad de frecuencia, y la
moda se calcula como
di+1
M o = Li−1 + ci
di−1 + di+1
teniendo en cuenta que:
Li−1 es el extremo inferior de la clase modal.
ci es la amplitud del intervalo modal.
di+1 es la densidad de frecuencia del intervalo siguiente al modal.
di−1 es la densidad de frecuencia del intervalo anterior al modal.

Grado en Enfermerı́a (UAL) 12 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

Se considera que d0 = 0 y dn+1 = 0.


Si todos los intervalos tienen la misma amplitud, entonces ci = c para todo i, y la fórmula
se puede escribir como
ni+1
M o = Li−1 + c
ni−1 + ni+1
donde
c es la amplitud del intervalo modal.
ni+1 es la frecuencia absoluta del intervalo siguiente al modal.
ni−1 es la frecuencia absoluta del intervalo anterior al modal.
Se considera que n0 = 0 y nn+1 = 0.
OBSERVACIONES:

Puede ocurrir que existan distribuciones que no tengan moda. Eso ocurre cuando las
frecuencias de todos los datos son iguales.

La moda es menos representativa que la media aritmética, pero en algunas ocasio-


nes es más útil que esta; por ejemplo, cuando se trata de una distribución de datos
cualitativos.

En la moda no intervienen todos los datos de la distribución.

Aun cuando la moda se considera una medida de centralización, no siempre tiene por
qué situarse en la zona central. De hecho, es frecuente encontrar la moda próxima a
los valores extremos de la distribución.

En definitiva, la moda representa el valor dominante de la distribución; ası́, por ejemplo,


en unas elecciones la moda es el partido más votado.

• EJERCICIO 4: Las calificaciones en la asignatura de bioestadı́stica de los cuarenta


alumnos de una clase vienen dadas por la siguiente tabla. Hallar e interpretar la moda. (Sol.
6 puntos)

Calificaciones 1 2 3 4 5 6 7 8 9
Número de alumnos 2 2 4 5 8 9 3 4 3

• EJERCICIO 5: Se ha aplicado un test sobre satisfacción en el trabajo a 88 sanitarios


de un centro hospitalario, obteniéndose los siguientes resultados. Calcular e interpretar la
moda. (Sol. 59,27 puntos)

Puntuaciones 38 − 44 44 − 50 50 − 56 56-62 62-68 68-74 74-80


Número de sanitarios 7 8 15 25 18 9 6

Grado en Enfermerı́a (UAL) 13 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

• EJERCICIO 6: Calcular la moda de la siguiente distribución. (Sol. 45,5)

Clases 0 − 25 25 − 50 50 − 100 100 − 150 150-200


ni 20 140 180 40 20

• La MEDIANA de una variable estadı́stica es un valor de la variable, tal que el número


de observaciones menores que él es igual al número de observaciones mayores que él. Es decir,
el número de datos que preceden a la mediana es igual al número de datos que le siguen.
Cálculo de la mediana:

Datos simples. En este caso se ordenan los datos de menor a mayor y la mediana ser
el valor central, si el número de datos es impar.
• EJEMPLO 6:
0 0 1 2 3 3 3 3 4 5 5 ⇒ Me = 3

Si el número de datos es par, no existe término central, sino dos términos centrales.
En este caso, se toma como mediana la semisuma de los dos valores centrales, aunque
dicho valor resultante no pertenezca al conjunto de datos.
• EJEMPLO 7:
0 0 1 2 3 4 4 5 6 6 ⇒ Me = 3,5

Datos no agrupados en intervalos. Variable estadı́stica discreta. Podrı́amos proceder


ordenando los datos como si fueran simples, pero se comprende que este método puede
resultar muy laborioso, por lo que, para abreviar el proceso, calculamos las frecuencias
absolutas acumuladas y la mediana viene dada por el primer valor de la variable cuya
frecuencia absoluta acumulada supera a la mitad del número de datos, previamente
calculado.
En el caso de que la mitad del número de datos coincida con la frecuencia absoluta
acumulada correspondiente a un valor, la mediana es la semisuma entre ese valor y el
siguiente de la tabla.
N
Datos agrupados en intervalos. En este caso, hallamos 2
e identificamos el primer
intervalo tal que Ni ≥ N2 . Será
N
2
− Ni−1
M e = Li−1 + ci
ni
Obsérvese que en el caso de que la mitad del número de datos coincida con la frecuencia
absoluta acumulada correspondiente a un intervalo, la mediana es directamente el
lı́mite superior de dicho intervalo.

Grado en Enfermerı́a (UAL) 14 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

OBSERVACIONES:

La mediana es particularmente útil en los siguientes casos:

1. Cuando entre los datos existe alguno ostensiblemente extremo que afecta a la
media.
2. Cuando los datos están agrupados en clases y alguna de ellas es abierta.

Como consecuencia de la definición de mediana, se tiene que el 50 % de los datos son


menores o iguales a ella y el 50 % restante es mayor o igual.

La mediana es el primer parámetro de centralización que depende del orden de los


datos y no de su valor.

• EJERCICIO 7: El número de horas que dedica un sanitario a su consulta privada


durante la semana es el siguiente: 3,5, 5,5, 4, 6, 5, 3. Calcular e interpretar la mediana. (Sol.
4,5 horas.)
• EJERCICIO 8: Las calificaciones en la asignatura de bioestadı́stica de los cuarenta
alumnos de una clase vienen dadas por la siguiente tabla. Hallar e interpretar la mediana.
(Sol. 5 puntos)

Calificaciones 1 2 3 4 5 6 7 8 9
Número de alumnos 2 2 4 5 8 9 3 4 3

• EJERCICIO 9: Calcular la mediana de la siguiente distribución. (Sol. 7,5)

xi 3 6 7 8 9
ni 15 20 15 40 10

• EJERCICIO 10: Se ha aplicado un test sobre satisfacción en el trabajo a 88 sanitarios


de un centro hospitalario, obteniéndose los siguientes resultados. Calcular e interpretar la
mediana. (Sol. 59,36 puntos)

Puntuaciones 38 − 44 44 − 50 50 − 56 56-62 62-68 68-74 74-80


Número de sanitarios 7 8 15 25 18 9 6

• EJERCICIO 11: Calcular la mediana de la siguiente distribución (Sol. 10)

Clases 0 − 5 5 − 10 10 − 15 15 − 20
ni 14 36 30 20

Grado en Enfermerı́a (UAL) 15 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

4.2. Medidas de posición no central

Son valores de la distribución que la dividen en partes iguales, es decir, en intervalos que
comprenden el mismo número de valores. Se denominan CUANTILES.
Debido a que los cuantiles son parámetros del tipo de la mediana, su cálculo se realiza
de forma análoga. Pueden ser:
• CUARTILES: son tres valores que dividen a la serie de datos en cuatro partes iguales,
dentro de cada cual están incluidos el 25 % de los valores de la distribución. Se representan
por Q1 , Q2 , Q3 y se designan por cuartil primero, segundo y tercero, respectivamente. Ası́,
Q1 es el valor que ocupa el lugar N/4, Q2 el 2N/4 y Q3 el 3N/4.
Para distribuciones de variable estadı́stica continua o bien para distribuciones de variable
estadı́stica discreta con un gran número de datos, y que se han agrupado en clases, aplicamos
la siguiente expresión:
k
N − Ni−1
Qk = Li−1 + ci 4 , k = 1, 2, 3
ni
siendo [Li−1 , Li ) el primer invervalo cuya frecuencia absoluta acumulada supera o iguala k4 N .
• DECILES: son nueve valores que dividen a la serie de datos en diez partes iguales. Se
representan por D1 , D2 , . . . , D9 y se designan decil primero, segundo, ..., noveno, respectiva-
mente.
N ×k
Dk es el valor que ocupa el lugar , k = 1, . . . , 9
10
Para distribuciones de variable estadı́stica continua o bien para distribuciones de variable
estadı́stica discreta, con un gran número de datos, y que se han agrupado en clases, aplicamos
la siguiente expresión:
k
10
N − Ni−1
Dk = Li−1 + ci , k = 1, . . . , 9
ni
siendo [Li−1 , Li ) el primer invervalo cuya frecuencia absoluta acumulada supera o iguala
k
10
N.
• PERCENTILES: son noventa y nueve valores que dividen a la serie de datos en cien
partes iguales. Se representan por P1 , P2 , . . . , P99 y se designan percentil primero, segundo,...,
noventa y nueve, respectivamente.
N ×k
Pk es el valor que ocupa el lugar , k = 1, . . . , 99
100
Para distribuciones de variable estadı́stica continua o bien para distribuciones de variable
estadı́stica discreta con un gran número de datos, y que se han agrupado en clases, aplicamos
la siguiente expresión:
k
N − Ni−1
Pk = Li−1 + ci 100 , k = 1, . . . , 99
ni

Grado en Enfermerı́a (UAL) 16 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

siendo [Li−1 , Li ) el primer invervalo cuya frecuencia absoluta acumulada supera o iguala
k
100
N.
Se observa que la mediana coincide con Q2 , D5 y P50 .
• EJERCICIO 12: Las calificaciones en la asignatura de bioestadı́stica de los cuarenta
alumnos de una clase vienen dadas por la siguiente tabla.

Calificaciones 1 2 3 4 5 6 7 8 9
Número de alumnos 2 2 4 5 8 9 3 4 3

Calcular e interpretar:

a) Los cuartiles primero y tercero. (Sol. Q1 = 4 puntos, Q3 = 6,5 puntos)

b) Los percentiles de orden 30 y 70. (Sol. P30 = 4 puntos, P70 = 6 puntos)

• EJERCICIO 13: Se ha aplicado un test sobre satisfacción en el trabajo a 88 sanitarios


de un centro hospitalario, obteniéndose los siguientes resultados. Calcular e interpretar la
mediana. (Sol. 59,36 puntos)

Puntuaciones 38 − 44 44 − 50 50 − 56 56-62 62-68 68-74 74-80


Número de sanitarios 7 8 15 25 18 9 6

Calcular e interpretar:

a) Los cuartiles primero y tercero. (Sol. Q1 = 52,8 puntos, Q3 = 65,66 puntos)

b) Los percentiles de orden 40 y 90. (Sol. P40 = 57,25 puntos, P90 = 72,13 puntos)

4.3. Medidas de dispersión

Consideremos el siguiente ejemplo: se ha aplicado a dos grupos de ocho voluntarios un test


de 100 preguntas sobre primeros auxilios, obteniéndose los siguientes resultados referentes al
número de preguntas contestadas:

Grupo A 46 48 49 50 50 51 52 54
Grupo B 10 18 30 50 50 70 82 90

Si calculamos la media, moda y mediana de ambas distribuciones, se observa que todas


son iguales a 50. Mientras que en el grupo A la mayorı́a de los voluntarios han contestado
prácticamente a la mitad de las preguntas, en el grupo B hay voluntarios que casi han
contestado a la totalidad, y otros que han contestado a muy pocas preguntas. Por tanto, las

Grado en Enfermerı́a (UAL) 17 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

puntuaciones del grupo A están muy próximas a la media y diremos que se encuentran poco
dispersas; en cambio las del grupo B se encuentran alejadas de la media y diremos que se
encuentran muy dispersas.
Luego, la investigación acerca de una distribución queda incompleta si solo se estudian
las medidas de centralización, siendo imprescindible conocer si los datos numéricos están
agrupados o no alrededor de los valores centrales. A esto se le llama dispersión (es decir,
la mayor o menor separación de los valores respecto a otro, que se pretende sea su sı́ntesis)
y a los parámetros que miden estas desviaciones respecto a la media se les llama medidas
de dispersión o parámetros de dispersión. Vamos a distinguir entre medidas de dispersión
absolutas y relativas.
Medidas de dispersión absolutas:
• El RANGO de una distribución es la diferencia entre el mayor y el menor valor de
la variable estadı́stica. En el ejemplo anterior, al tener el mismo número de datos ambas
distribuciones y ser el recorrido de la distribución del grupo A 54 − 46 = 8, mucho más
pequeño, diremos que es más homogénea, o menos dispersa, que la distribución del grupo B
con rango 90 − 10 = 80.
OBSERVACIONES:

Cuanto menor es el recorrido de una distribución, mayor es el grado de representativi-


dad de los valores centrales.

El recorrido tiene la gran ventaja de su sencillez de cálculo.

Tiene gran aplicación en procesos de control de calidad y, de una manera general,


en aquellos procesos que se pretenda verificar longitudes, pesos, volúmenes, estando
prefijados de antemano los lı́mites permitidos.

El recorrido presenta el inconveniente de que solo depende de los valores extremos.


Basta que uno de ellos se separe mucho, para que el recorrido se vea sensiblemente
afectado.

Para paliar, en alguna medida, el inconveniente anterior, se utilizan en ocasiones otros


rangos.

ˆ Rango intercuartı́lico: Q3 − Q1 . El 50 % de los datos se encuentran entre Q1 y Q3 .


ˆ Rango interdecı́lico: D9 − D1 . Ofrece una dispersión sobre el 80 % de la población.
ˆ Rango entre percentiles: P99 − P1 . La idea de la dispersión la ofrece sobre prácti-
camente toda la población.

Grado en Enfermerı́a (UAL) 18 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

Estas medidas son válidas para comparar distribuciones, pero si estas vienen en distin-
tas unidades, es preferible utilizar otras. Asimismo, perseguimos determinar la repre-
sentatividad de las medidas de posición y las que acabamos de ver no hacen referencia
a ningún promedio. Se necesitan medidas de dispersión que involucren a los prome-
dios. Veamos, a continuación, un tipo de gráfico que, nutriéndose de las medidas de
centralización, posición y dispersión vistas hasta ahora, nos permite concluir distintos
aspectos sobre una distribución.
Diagrama de cajas y patillas o “Box Plot”

Figura 7: Diagrama de cajas y patillas

ˆ Es un gráfico representativo de la distribución de un conjunto de datos en cuya


construcción se usa la mediana, el primer cuartil, el tercer cuartil, el valor máximo
y el valor mı́nimo (sin contar los valores atı́picos, que son los que se alejan del
resto de datos, bien por circunstancias poco usuales, o anomalı́as en la toma de
datos).
ˆ Esta presentación visual, presenta información sobre la tendencia central, disper-
sión y simetrı́a de los datos de estudio.
ˆ Permite identificar los valores atı́picos. En el gráfico se identifican con aquellos
puntos que quedan fuera de las patillas, ya sea a la izquierda o a la derecha.
ˆ La distancia que hay entre el primer y el tercer cuartil (rango intercuartı́lico, RI)
permite tener una idea de la dispersión. Cuanto más grande sea esa distancia,
más dispersa es la distribución de datos.
ˆ La lı́nea que representa la mediana indica la simetrı́a. Si está relativamente en
el centro de la caja la distribución, es simétrica. Si, por el contrario, se acerca
al primer o tercer cuartil, la distribución será sesgada a la derecha (asimétrica
positiva) o sesgada a la izquierda (asimétrica negativa) respectivamente.
◦ Una distribución es simétrica si existe el mismo número de valores a ambos
lados del eje de simetrı́a, perpendicular al eje de abscisas por x̄ ⇒ x̄ = M e =

Grado en Enfermerı́a (UAL) 19 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

M o.
◦ Una distribución es asimétrica a la derecha respecto a la media si los valores
inferiores a x̄ tienen mayor frecuencia. ⇒ x̄ > M e > M o.
◦ Una distribución es asimétrica a la izquierda respecto a la media si los valores
superiores a x̄ tienen mayor frecuencia. ⇒ x̄ < M e < M o.

Figura 8: Simetrı́a y tipos de asimetrı́a

• La VARIANZA de una variable estadı́stica es la media aritmética de los cuadrados


de las desviaciones respecto a la media. Se llaman desviaciones respecto a la media a las
diferencias entre cada valor de la variable y la media. Se denota por S 2 .
Cálculo de la varianza:
Si la variable X toma los valores x1 , . . . , xn con frecuencias absolutas respectivas n1 , . . . , nn ,
entonces Pn Pn 2
2
i=1 (xi − x̄) ni x ni
2
S = = i=1 i − x̄2
N N
Si los datos están agrupados en intervalos, se toma como xi la marca de clase.
La varianza nos medirá la mayor o menor dispersión de los valores respecto a la media
aritmética. Si la dispersión es muy grande, la media aritmética no será representativa. En el
caso extremo de que todas las observaciones fuesen iguales, la media aritmética coincidirı́a
con el valor común de las mismas, dando lugar a que la varianza sea cero.
PROPIEDADES:

Grado en Enfermerı́a (UAL) 20 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

No puede ser negativa: S 2 ≥ 0.

Si a todos los valores de una variable les sumamos una constante, la varianza no varı́a.
No se ve afectada por los cambios de origen. Matemáticamente, Y = X +b ⇒ SY2 = SX 2

para todo b ∈ R.

Si todos los valores de una variable se multiplican por una constante, la varianza
queda multiplicada por el cuadrado esa constante. Le afectan los cambios de escala.
Matemáticamente, Y = aX ⇒ SY2 = a2 SX 2
para todo a ∈ R.

• La DESVIACIÓN TÍPICA es la raı́z cuadrada positiva de la varianza y se denota por


S:
Cálculo de la desviación tı́pica:

S = + S2

Sus propiedades se deducen de las de la varianza.


OBSERVACIONES:

Tanto la varianza como la desviación tı́pica dependen de todos los valores de la distri-
bución ası́ como de la media.

En los casos en que no sea posible calcular la media aritmética, no será posible tampoco
obtener la varianza y la desviación tı́pica por ser funciones de la media aritmética.

La varianza tiene el grave inconveniente de que no viene expresada en las mismas


unidades que los datos, debido a que las desviaciones van elevadas al cuadrado. Por
ejemplo, si los datos son metros, la varianza vendrá dada en metros cuadrados. En
cambio, la desviación tı́pica viene expresada en las mismas unidades que los datos de
la distribución. De ahı́ que la desviación tı́pica resulte más interesante que la varianza.

• EJERCICIO 14: El número de horas que dedica un sanitario a su consulta privada


durante la semana es el siguiente: 3,5, 5,5, 4, 6, 5, 3. Calcular el rango, la varianza y la
desviación tı́pica. (Sol. Rango= 3 horas, 1,16 horas2 , 1,08 horas)
• EJERCICIO 15: Las calificaciones en la asignatura de bioestadı́stica de los cuarenta
alumnos de una clase vienen dadas por la siguiente tabla. Calcular el rango, la varianza y la
desviación tı́pica. (Sol. Rango= 8 puntos, S 2 = 4,31 puntos2 , S = 2,07 puntos)

Calificaciones 1 2 3 4 5 6 7 8 9
Número de alumnos 2 2 4 5 8 9 3 4 3

Grado en Enfermerı́a (UAL) 21 Curso 2023/2024


Metodologı́a de investigación Bloque I, Tema 1: Estadı́stica descriptiva unidimensional

• EJERCICIO 16: Se ha aplicado un test sobre satisfacción en el trabajo a 88 sanitarios de


un centro hospitalario, obteniéndose los siguientes resultados. Calcular el rango, la varianza
y la desviación tı́pica. (Sol. Rango= 42 puntos, S 2 = 88,73 puntos2 , S = 9,4 puntos)

Puntuaciones 38 − 44 44 − 50 50 − 56 56-62 62-68 68-74 74-80


Número de sanitarios 7 8 15 25 18 9 6

Medidas de dispersión relativas:


Si tenemos dos distribuciones con dos promedios y queremos saber cuál de los dos es
más representativo, no lo podemos saber por sus respectivas medidas de dispersión, ya que
las distribuciones, en general, no vendrán dadas en las mismas unidades de medida. Aunque
fueran las mismas, tampoco se podrı́a si los promedios son numéricamente diferentes. De aquı́
surge la necesidad de construir medidas adimensionales, es decir, que no vengan afectadas
por las unidades de medida.
• COEFICIENTE DE VARIACIÓN DE PEARSON: es el cociente entre la desviación
tı́pica y el valor absoluto de la media aritmética y suele expresarse en %.
S
CV = × 100
|x̄|

El valor más pequeño de este coeficiente serı́a el cero, pues este es el mı́nimo valor que puede
tomar la desviación tı́pica, lo que indica máxima representatividad de la media aritmética.
El coeficiente de variación no es significativo cuando la media aritmética es cero, ya que
puede conducirnos a tomar conclusiones equivocadas.
• EJERCICIO 17: Se ha medido el peso, en kilos y altura, en metros, de seis personas,
obteniéndose los datos siguientes:

Pesos 65 60 65 63 68 68
Alturas 1,7 1,5 1,68 1,7 1,75 1,8

¿Qué variable está más dispersa, los pesos o las alturas?, ¿qué media es más representativa?
(Sol. Más dispersa la altura y más representativa el peso.)

Grado en Enfermerı́a (UAL) 22 Curso 2023/2024

También podría gustarte