Estadistica Descriptiva Parte 2
Estadistica Descriptiva Parte 2
Estadistica Descriptiva Parte 2
Probabilidad y Estadística
Unidad: 1-2022
UNIVERSIDAD DE EL SALVADOR
Contenidista: Ing. Virginia de Melara Facultad Multidisciplinaria de Occidente
Departamento de Ingeniería y Arquitectura
UNIDAD 1: ESTADISTICA DESCRIPTIVA
• Objetivos de la unidad:
• Construir tablas de frecuencias absolutas, relativas y acumuladas.
• Representar gráficamente las tablas de frecuencias.
• Interpretar las tablas y su representación gráfica.
• Construir e interpretar el diagrama de rama y hojas.
• Calcular e interpretar las medidas descriptivas numéricas de un conjunto de datos.
• Usar un paquete estadístico como herramienta para el análisis descriptivo de un conjunto de
datos.
Tipos de Estadísticos
Un estadístico es un valor que describe una muestra. Casi todos los
estadísticos muestrales se determinan con ayuda de fórmulas y suele
asignárseles denominaciones simbólicas con el uso de letras del alfabeto
español (por ejemplo x, s y r).
Tipos de Estadísticos
• Medidas de Centralización
• Medidas de Posición
• Medidas de Dispersión
• Medidas de Forma
Medidas de Centralización
Las medidas de tendencia central son valores numéricos que localizan, en algún sentido, el centro
de un conjunto de datos. Es frecuente que el término promedio se asocie con todas las medidas de
tendencia central.
• Media (media aritmética): La media muestral se representa por (léase “x barra” o “media
muestral”). La media se encuentra al sumar todos los valores de la variable x (esta suma de x
valores se simboliza como Σx) y dividir la suma entre el número de estos valores, n (el “tamaño
muestral”).
• Mediana: es el valor de los datos que ocupa la posición media cuando los datos están
clasificados en orden de acuerdo con su tamaño. La mediana muestral se representa por 𝒙 (léase
“x tilde” o “mediana muestral”).
Medidas de Centralización
Procedimiento para determinar la mediana para n impar
Si dos o más valores de la muestra están empatados por la frecuencia más alta (número de veces
que se presenta), se dice que no hay moda. Por ejemplo, en la muestra 3, 3, 4, 5, 5, 7, el 3 y el 5
aparecen igual número de veces. No hay un valor que aparezca con más frecuencia, por tanto, esta
muestra no tiene moda.
Medidas de Centralización
• Rango medio: es el número que está exactamente a la mitad entre el dato de valor más bajo, L, y
el dato de valor más alto, H. Se encuentra al promediar los valores bajo y alto:
𝐿+𝐻
rango medio =
2
Para el conjunto de datos {3, 3, 5, 6, 8}, L = 3 y H = 8, por tanto
3+8 11
rango medio = = = 5.5
2 2
Medidas de Posición
Las medidas de posición se utilizan para describir la posición que un dato específico posee en
relación con el resto de los datos cuando están en orden por categorías. Cuartiles y percentiles son
dos de las medidas de posición más populares.
• Cuartiles: son valores de la variable que dividen los datos ordenados en cuartos; cada conjunto
de datos tiene tres cuartiles. El primer cuartil, Q1, es un número tal que a lo sumo 25% de datos
son menores en valor que Q1 y a lo sumo 75% son mayores. El segundo cuartil es la mediana. El
tercer cuartil, Q3, es un número tal que a lo sumo 75% de los datos son menores en valor que Q3
y a lo sumo 25% son mayores.
Medidas de Posición
• Percentiles: son los valores de la variable que dividen un conjunto de datos clasificados en 100
subconjuntos iguales; cada conjunto de datos tiene 99 percentiles El k-ésimo percentil, Pk , es un
valor tal que a lo sumo k% de los datos son menores en valor que Pk y a lo sumo (100 – k)% de
los datos son mayores
Medidas de Posición
El procedimiento para determinar el valor de cualquier k-ésimo percentil (o cuartil) comprende
cuatro pasos básicos como se indica en el diagrama de la siguiente figura.
Medidas de Posición
Ejemplo: Usando la muestra de 50 calificaciones del examen final de estadística que aparecen en la
siguiente tabla, encuentre el primer cuartil, Q1 ; el 58-avo percentil, P58; y el tercer cuartil, Q3 .
Medidas de Posición
Solución
Paso 1: Ordenar los datos: puede ser formulada una lista ordenada o puede usarse una gráfica que
muestre los datos clasificados. El diagrama de tallo y hoja es especialmente útil, porque da
números de profundidad contados desde ambos extremos.
Medidas de Posición
𝑛𝑘 (50)(25)
Paso 2: Encontrar Q1 : = = 𝟏𝟐. 𝟓 (n = 50 y k = 25, porque Q1 = P25.)
100 100
Paso 4: Encontrar P58: P58 es el valor que está a la mitad entre los valores de las 29ava y 30ava
piezas de datos, contando desde L y
77+78
P58 = = 𝟕𝟕. 𝟓
2
Por tanto, puede decirse que “a lo más, 58% de las calificaciones de examen son menores en valor
que 77.5”. Esto es equivalente a decir que “a lo más, 42% de las calificaciones de examen son
mayores en valor a 77.5.”
Medidas de Posición
Técnica opcional: cuando k es mayor a 50, reste k de 100 y use (100 – k) y ponga k en el paso 2. La
profundidad se cuenta entonces desde el dato más alto, H. Encontrar Q3 , usando la técnica
opcional.
Una medida adicional de tendencia central, es el Cuartil Medio: El valor número que está al centro
entre el primer cuartil y el tercer cuartil.
𝑄1+𝑄3
Cuartil Medio =
2
El resumen de cinco números para el conjunto de 50 calificaciones de examen del ejemplo anterior
es el siguiente:
Medidas de Posición
El resumen de cinco números es todavía más informativo cuando se muestra en un diagrama
trazado a escala. Un diagrama gráfico que logra esto se conoce como diagrama de caja y bigotes.
• Diagrama de caja y bigotes: es una representación gráfica del resumen de cinco números. Los
cinco valores numéricos (más pequeño, primer cuartil, mediana, tercer cuartil, y más grande) están
ubicados en una escala ya sea vertical u horizontal.
La caja se usa para describir la mitad central de los datos que está entre dos cuartiles. Los bigotes
son segmentos de recta que se usan para describir la otra mitad de los datos: un segmento de recta
representa el cuarto de los datos que es menor en valor que el primer cuartil, y un segundo
segmento de recta representa el cuarto de los datos que es mayor en valor que el tercer cuartil.
Medidas de Posición
La siguiente figura es un diagrama de caja y bigotes de las 50 calificaciones de examen.
Medidas de Dispersión
Las medidas de dispersión incluyen el rango, varianza y desviación estándar. Estos valores
numéricos describen la cantidad de dispersión, o variabilidad, que se encuentra entre los datos: los
datos agrupados de manera estrecha tienen valores relativamente pequeños, y aquellos datos que
estén más dispersos tienen valores más grandes.
• Rango: es la diferencia en valor entre los datos de valor más alto, H, y los datos de valor más bajo,
L:
rango = valor alto – valor bajo
rango = H – L
• Desviación desde la media: una desviación desde la media, (x – ), es la diferencia entre el valor
de x y la media, .
σ𝑥
Considere la muestra 6, 3, 8, 5, 3. Usar la fórmula, = 𝑛
, se encuentra que la media es 5. Cada
desviación, (x – ), se encuentra entonces al restar 5 de cada valor x:
Medidas de Dispersión
• Varianza muestral: la varianza muestral, s², es la media del cuadrado de las desviaciones,
calculada usando n – 1 como divisor:
σ 𝑋− ²
s² =
𝑛−1
s = 4.5 = 2.1
Medidas de Forma
Las medidas de forma permiten comprobar si una distribución de frecuencia tiene características
especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la
clasifiquen en un tipo particular de distribución.
Las medidas de forma: Son indicadores estadísticos que permiten identificar si una distribución de
frecuencia presenta uniformidad.