Estadistica Descriptiva Parte 2

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 33

MATERIA:

Probabilidad y Estadística

Unidad: 1-2022
UNIVERSIDAD DE EL SALVADOR
Contenidista: Ing. Virginia de Melara Facultad Multidisciplinaria de Occidente
Departamento de Ingeniería y Arquitectura
UNIDAD 1: ESTADISTICA DESCRIPTIVA
• Objetivos de la unidad:
• Construir tablas de frecuencias absolutas, relativas y acumuladas.
• Representar gráficamente las tablas de frecuencias.
• Interpretar las tablas y su representación gráfica.
• Construir e interpretar el diagrama de rama y hojas.
• Calcular e interpretar las medidas descriptivas numéricas de un conjunto de datos.
• Usar un paquete estadístico como herramienta para el análisis descriptivo de un conjunto de
datos.
Tipos de Estadísticos
Un estadístico es un valor que describe una muestra. Casi todos los
estadísticos muestrales se determinan con ayuda de fórmulas y suele
asignárseles denominaciones simbólicas con el uso de letras del alfabeto
español (por ejemplo x, s y r).

Tipos de Estadísticos
• Medidas de Centralización
• Medidas de Posición
• Medidas de Dispersión
• Medidas de Forma
Medidas de Centralización

Las medidas de tendencia central son valores numéricos que localizan, en algún sentido, el centro
de un conjunto de datos. Es frecuente que el término promedio se asocie con todas las medidas de
tendencia central.

• Media (media aritmética): La media muestral se representa por (léase “x barra” o “media
muestral”). La media se encuentra al sumar todos los valores de la variable x (esta suma de x
valores se simboliza como Σx) y dividir la suma entre el número de estos valores, n (el “tamaño
muestral”).

Formula de media muestral:


σ𝑥
=
𝑛
Medidas de Centralización
Ejemplo de Media: Un conjunto de datos consta de los cinco valores 6, 3, 8, 6 y 4. Encuentre la
media.
σ𝑥 6+3+8+6+4 27
= = = = 5.4
𝑛 5 5
Por lo tanto, la media de esta muestra es 5.4.

• Mediana: es el valor de los datos que ocupa la posición media cuando los datos están
clasificados en orden de acuerdo con su tamaño. La mediana muestral se representa por 𝒙෥ (léase
“x tilde” o “mediana muestral”).
Medidas de Centralización
Procedimiento para determinar la mediana para n impar

Encuentre la mediana para el conjunto de datos {6, 3, 8, 5, 3].

1. Clasificar los datos en orden de tamaño, obteniendo 3, 3, 5, 6 y 8.


2. Obtener la profundidad de la mediana con la fórmula:
𝑛+1 5+1 6
d(𝑥෤ )= 2
=
2
= =3
2
3. La mediana es el tercer número desde cualquier extremo de los datos clasificados, es decir 𝒙෥ = 5.
Medidas de Centralización
Procedimiento para determinar la mediana para n par

Encuentre la mediana de la muestra 9, 6, 7, 9, 10, 8.

1. Clasificar los datos en orden de tamaño, obteniendo 6, 7, 8, 9, 9 y 10.


2. Obtener la profundidad de la mediana con la fórmula:
𝑛+1 6+1 7
d(𝑥෤ )= 2
=
2
= = 3.5
2
3. La mediana está a la mitad entre los datos tercero y cuarto. Para hallar el número que está a la
mitad entre dos valores cualquiera, sumar los dos valores y dividir la suma entre 2. En ese caso,
sumar el tercer valor (8) y el cuarto valor (9) y luego dividir la suma (17) entre 2.
La mediana es 𝒙෥ = 8.5, un número que está a la mitad entre los dos números “medios”.
Medidas de Centralización
• Moda: la moda es el valor de x que se presenta con mayor frecuencia.

Un conjunto de datos consta de los siete valores 6, 3, 8, 6, 3, 6 y 4. Encuentre la moda.

Se ordenan los datos {3, 3, 4, 6, 6, 6, 8}, la moda es 6.

Si dos o más valores de la muestra están empatados por la frecuencia más alta (número de veces
que se presenta), se dice que no hay moda. Por ejemplo, en la muestra 3, 3, 4, 5, 5, 7, el 3 y el 5
aparecen igual número de veces. No hay un valor que aparezca con más frecuencia, por tanto, esta
muestra no tiene moda.
Medidas de Centralización
• Rango medio: es el número que está exactamente a la mitad entre el dato de valor más bajo, L, y
el dato de valor más alto, H. Se encuentra al promediar los valores bajo y alto:
𝐿+𝐻
rango medio =
2
Para el conjunto de datos {3, 3, 5, 6, 8}, L = 3 y H = 8, por tanto
3+8 11
rango medio = = = 5.5
2 2
Medidas de Posición
Las medidas de posición se utilizan para describir la posición que un dato específico posee en
relación con el resto de los datos cuando están en orden por categorías. Cuartiles y percentiles son
dos de las medidas de posición más populares.

• Cuartiles: son valores de la variable que dividen los datos ordenados en cuartos; cada conjunto
de datos tiene tres cuartiles. El primer cuartil, Q1, es un número tal que a lo sumo 25% de datos
son menores en valor que Q1 y a lo sumo 75% son mayores. El segundo cuartil es la mediana. El
tercer cuartil, Q3, es un número tal que a lo sumo 75% de los datos son menores en valor que Q3
y a lo sumo 25% son mayores.
Medidas de Posición
• Percentiles: son los valores de la variable que dividen un conjunto de datos clasificados en 100
subconjuntos iguales; cada conjunto de datos tiene 99 percentiles El k-ésimo percentil, Pk , es un
valor tal que a lo sumo k% de los datos son menores en valor que Pk y a lo sumo (100 – k)% de
los datos son mayores
Medidas de Posición
El procedimiento para determinar el valor de cualquier k-ésimo percentil (o cuartil) comprende
cuatro pasos básicos como se indica en el diagrama de la siguiente figura.
Medidas de Posición
Ejemplo: Usando la muestra de 50 calificaciones del examen final de estadística que aparecen en la
siguiente tabla, encuentre el primer cuartil, Q1 ; el 58-avo percentil, P58; y el tercer cuartil, Q3 .
Medidas de Posición
Solución
Paso 1: Ordenar los datos: puede ser formulada una lista ordenada o puede usarse una gráfica que
muestre los datos clasificados. El diagrama de tallo y hoja es especialmente útil, porque da
números de profundidad contados desde ambos extremos.
Medidas de Posición
𝑛𝑘 (50)(25)
Paso 2: Encontrar Q1 : = = 𝟏𝟐. 𝟓 (n = 50 y k = 25, porque Q1 = P25.)
100 100

Paso 3: Encontrar la profundidad de Q1 :d(Q1 ) = 13 (porque 12.5 contiene una fracción, B es el


siguiente entero más grande, 13.)

Paso 4: Encontrar Q1 :Q1 es el 13avo valor, contando desde L, Q1 = 67

Paso 2: Encontrar P58 : 𝑛𝑘 (50)(58)


= = 𝟐𝟗 (n = 50 y k = 58.)
100 100
Medidas de Posición
Paso 3: Encontrar la profundidad de P58: d(P58) = 29.5 (como A = 29, un entero, sumar 0.5 y usar
29.5.)

Paso 4: Encontrar P58: P58 es el valor que está a la mitad entre los valores de las 29ava y 30ava
piezas de datos, contando desde L y
77+78
P58 = = 𝟕𝟕. 𝟓
2

Por tanto, puede decirse que “a lo más, 58% de las calificaciones de examen son menores en valor
que 77.5”. Esto es equivalente a decir que “a lo más, 42% de las calificaciones de examen son
mayores en valor a 77.5.”
Medidas de Posición
Técnica opcional: cuando k es mayor a 50, reste k de 100 y use (100 – k) y ponga k en el paso 2. La
profundidad se cuenta entonces desde el dato más alto, H. Encontrar Q3 , usando la técnica
opcional.

Paso 2: Encontrar Q3 : 𝑛𝑘 (50)(25) (n = 50 y k =75, donde Q3 = P75, y k > 50;


= = 𝟏𝟐. 𝟓 usar 100 – k = 100 - 75 = 25.)
100 100
Paso 3: Encontrar la profundidad de Q3 desde H.

Paso 4: Encontrar la profundidad de Q3 : Q3 es el 13avo valor, contando desde H, Q3 = 86 .


Medidas de Posición
Por tanto, puede decirse que “a lo sumo, 75% de las calificaciones de examen son menores en valor
a 86.” Esto también equivale a decir que “a lo sumo, 25% de las calificaciones de examen son
mayores en valor a 86”.

Una medida adicional de tendencia central, es el Cuartil Medio: El valor número que está al centro
entre el primer cuartil y el tercer cuartil.
𝑄1+𝑄3
Cuartil Medio =
2

Encontrar el Cuartil Medio para el ejemplo anterior: Q1 = 67 y Q3 = 86.


67 + 86
Cuartil Medio = = 76.5
2
Medidas de Posición
Resumen de cinco números: el resumen de cinco números está compuesto de lo siguiente:
1. L, el valor más pequeño del conjunto de datos
2. Q1, el primer cuartil (también llamado P25, el 25avo percentil)
3. 𝐱෥ , la mediana
4. Q3, el tercer cuartil (también llamado P75, el 75avo percentil)
5. H, el valor más grande del conjunto de datos

El resumen de cinco números para el conjunto de 50 calificaciones de examen del ejemplo anterior
es el siguiente:
Medidas de Posición
El resumen de cinco números es todavía más informativo cuando se muestra en un diagrama
trazado a escala. Un diagrama gráfico que logra esto se conoce como diagrama de caja y bigotes.

• Diagrama de caja y bigotes: es una representación gráfica del resumen de cinco números. Los
cinco valores numéricos (más pequeño, primer cuartil, mediana, tercer cuartil, y más grande) están
ubicados en una escala ya sea vertical u horizontal.
La caja se usa para describir la mitad central de los datos que está entre dos cuartiles. Los bigotes
son segmentos de recta que se usan para describir la otra mitad de los datos: un segmento de recta
representa el cuarto de los datos que es menor en valor que el primer cuartil, y un segundo
segmento de recta representa el cuarto de los datos que es mayor en valor que el tercer cuartil.
Medidas de Posición
La siguiente figura es un diagrama de caja y bigotes de las 50 calificaciones de examen.
Medidas de Dispersión
Las medidas de dispersión incluyen el rango, varianza y desviación estándar. Estos valores
numéricos describen la cantidad de dispersión, o variabilidad, que se encuentra entre los datos: los
datos agrupados de manera estrecha tienen valores relativamente pequeños, y aquellos datos que
estén más dispersos tienen valores más grandes.

• Rango: es la diferencia en valor entre los datos de valor más alto, H, y los datos de valor más bajo,
L:
rango = valor alto – valor bajo
rango = H – L

La muestra 3, 4, 5, 6, 8 tiene un rango de H – L = 8 – 3 = 5. El rango de 5 nos dice que estos datos


caen todos ellos dentro de un intervalo de 5 unidades.
Medidas de Dispersión
Las otras medidas de dispersión que se van a estudiar en este capítulo son medidas de dispersión
alrededor de la media.

• Desviación desde la media: una desviación desde la media, (x – ), es la diferencia entre el valor
de x y la media, .

σ𝑥
Considere la muestra 6, 3, 8, 5, 3. Usar la fórmula, = 𝑛
, se encuentra que la media es 5. Cada
desviación, (x – ), se encuentra entonces al restar 5 de cada valor x:
Medidas de Dispersión
• Varianza muestral: la varianza muestral, s², es la media del cuadrado de las desviaciones,
calculada usando n – 1 como divisor:

𝑆𝑢𝑚𝑎 𝑑𝑒 (𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜 𝑑𝑒 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛𝑒𝑠)


varianza muestral: s cuadrada =
𝑛𝑢𝑚𝑒𝑟𝑜 −1

σ 𝑋− ²
s² =
𝑛−1

donde n es el tamaño muestral, es decir, el número de datos de la muestra.


Medidas de Dispersión
σ 𝑋− ²
La varianza de la muestra 6, 3, 8, 5, 3 se calcula en la siguiente tabla con la fórmula s² =
𝑛−1
Medidas de Dispersión
• Desviación muestral estándar: la desviación estándar de una muestra, s, es la raíz cuadrada
positiva de la varianza:

desviación muestral estándar: s = raíz cuadrada de varianza muestral


s = 𝑠2

La desviación estándar para el ejercicio anterior es:

s = 4.5 = 2.1
Medidas de Forma
Las medidas de forma permiten comprobar si una distribución de frecuencia tiene características
especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la
clasifiquen en un tipo particular de distribución.

Las medidas de forma: Son indicadores estadísticos que permiten identificar si una distribución de
frecuencia presenta uniformidad.

• Coeficiente de simetría: Mide el grado de asimetría de la distribución con respecto a la media. Un


valor positivo de este indicador significa que la distribución se encuentra sesgada hacia la
izquierda (orientación positiva). Un resultado negativo significa que la distribución se sesga a la
derecha. La distribución se considera simétrica si el valor del coeficiente es cero.
Medidas de Forma
3
𝑛 𝑋−
As = σ
𝑛−1 𝑛−2 𝑠
Ejemplo: Calcular el coeficiente de asimetría a partir de los siguientes datos obtenidos de una
muestra: 5, 3, 1, 3, 3, 3, 4, 3, 2, 1.

Paso 1: Calcular la desviación


Estándar de la muestra.
Medidas de Forma
Paso 2: Calcular El Coeficiente de simetría.

La distribución se considera simétrica si el valor del coeficiente es cero.


Medidas de Forma
• Curtosis: Indica que tan apuntada o achatada se encuentra una distribución respecto a un
comportamiento normal (distribución normal). Si los datos están muy concentrados hacia la
media, la distribución es leptocúrtica (curtosis mayor a 0). Si los datos están muy dispersos, la
distribución es platicúrtica (curtosis menor a 0). El comportamiento normal exige que la curtosis
sea igual a 0 (distribución mesocúrtica).
Medidas de Forma
4
𝑛 (𝑛+1) 𝑋− 3(𝑛−1)2
Curtosis = σ −
𝑛−1 𝑛−2 (𝑛−3) 𝑠 (𝑛−2)(𝑛−3)
Ejemplo: Calcular el coeficiente de asimetría a partir de los siguientes datos obtenidos de una
muestra: 5, 3, 1, 3, 3, 3, 4, 3, 2, 1

Paso 1: Calcular la desviación


Estándar de la muestra.
Medidas de Forma
Paso 2: Calcular la Curtosis

La distribución es leptocúrtica porque el indicador es mayor a 0.


Bibliografía
- Johnson R. & Kuby P. (2008) Estadística Elemental: Lo Esencial, (10ª. Ed.)
México: Cengage Learning Editores.
- Quezada V. & Vergara J. (2007) Estadística básica con aplicaciones en Ms
Excel. Edición electrónica gratuita. Universidad de Cartagena.

También podría gustarte