Analisis Exploratorio de Datos
Analisis Exploratorio de Datos
Analisis Exploratorio de Datos
a la Investigación:
Análisis y Discusión de
los Datos Cuantitativos
VÍCTOR F. ZENA G.
ING. ELECTRÓNICA (UNA – PY)
MSC. ING. BIOMÉDICA (UPV – ES)
PHD. ING. ELECTRÓNICA (UPV-ES)
Evaluación
Tareas (4)
Tarea 1 – 10/10/2020
Tarea 2 – 17/10/2020
Tarea 3 - 24/10/2020
Tarea 4 - 31/10/2020
Software estadístico
R
• Software libre
• Línea de códigos –
Orientado a objetos.
• Gran versatilidad en gráficos
• Lenguaje R
https://www.r-project.org
Software estadístico (I)
Matlab
https://la.mathworks.com
Software estadístico (III)
¿Para qué sirve la
estadística?
La ciencia se ocupa en general de fenómenos
observables.
La ciencia se desarrolla observando hechos,
formulando leyes que lo explican y realizando
experimentos para validar o rechazar dichas
leyes.
Los modelos que crea la ciencia son de tipo
deterministas y aleatorios (estocástico)
La estadística se utiliza como tecnología al
servicio de las ciencias donde la incertidumbre y
la variabilidad forman parte de su naturaleza.
La estadística es la
ciencia de…
Género Freq
Hombre 31
Mujer 59
Las tablas de
frecuencias y gráficos
son dos maneras
equivalentes de
expresar los resultados
Estudio estadístico… pasos
Plantear la hipótesis sobre una población
- Los fumadores se ausentan más al trabajo que los no fumadores
- ¿En qué sentido? ¿Mayor número de ausencias? ¿tiempo medio de ausencia?
Decidir que datos recoger (diseño de experimentos)
- ¿qué individuos pertenecerán al estudio (muestras)
Fumadores y no fumadores en edad laboral
Criterios de exclusión ¿cómo se eligen? ¿descartamos los que padecen enfermedades crónicas?
- ¿qué datos recoger de los mismos? (variables)
Número de ausencias
Tiempo de duración de cada ausencia
¿Sexo? ¿Sector laboral? ¿otros factores?
Recolectar datos (muestreo)
- ¿Estratificado? ¿Sistemáticamente?
Describir los datos obtenidos
- Tiempo medio de ausencias en fumadores y en no fumadores (estadísticos).
- Porcentaje de ausencias por fumadores y sexo (frecuencias), gráficos…
Realizar Inferencia sobre la población
- Los fumadores están ausentes 10 veces/año más de media que los no fumadores
Cuantificar la confianza en la inferencia
- Nivel de confianza del 95%
- Significación del contraste p=2%
Método científico y
estadística
Plantear Diseño de
Hipótesis experimento
Recoger
Obtener
datos y
conclusiones
analizarlos
Población y muestra
Escala de medidas
Intervalo
Datos cuantitativos
Razón
Muestreo aleatorio simple
Definición: sistema de
selección en que se
extrae una muestra de
tamaño n de una
población de tamaño
N, de modo que cada
muestra posible de
tamaño n tenga la
misma probabilidad
de ser seleccionada
𝑘 = 1 + 3,322 × log10 𝑛
Regla de Sturges
σ𝑁
𝑖=1 𝑥𝑖
Población 𝜇=
𝑁
σ𝑛𝑖=1 𝑥𝑖
Muestra 𝑥ҧ =
𝑛
Medidas de tendencia
central
Media
Edades
σ𝑛𝑖=1 𝑥𝑖
42 31 32 𝑥ҧ =
𝑛
28 23 37
42 + 28 + 28 +∙∙∙ +40 + 22 428
28 50 40 𝑥ҧ = = = 37,6
12 12
61 34 22
Medidas de tendencia
central
Media. Obs: la media se ve afectada por valores
extremos!
Salario de médicos:
75$
σ𝑛𝑖=1 𝑥𝑖
75$ 𝑥ҧ =
𝑛
80$
75$ + 75$ + 80$ + 280$ + 80$ 590$
280$ 𝑥ҧ = = = 118$
5 5
80$
1 2 3 4 5
Si n es par:
1 2 3 4 5 6
3,5
𝑛+1
𝑚𝑒𝑑𝑖𝑎𝑛𝑎 =
2 𝑡é𝑟𝑚𝑖𝑛𝑜
Medidas de tendencia
central
Mediana
Edades
42 31 32
22 23 28 28 31 32 34 37 40 42 50 61
28 23 37
28 50 40
61 34 22 12 + 1
𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = = 6,5𝑡é𝑟𝑚𝑖𝑛𝑜
2
32 + 34
𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = = 33 𝑎ñ𝑜𝑠
2
✓ Es única.
✓ Los valores extremos no tienen efectos importantes sobre la mediana
Medidas de tendencia
central
Moda: el valor que más se repite (el valor que
ocurre con mayor frecuencia)
Edades
42 31 32 42 31 32 42 31 32
28 23 37 28 23 37 28 23 37
28 50 40 25 50 40 28 50 40
61 34 22 61 34 22 61 40 22
25%
Q1
Vigésimo quinto percentil (P25)
25% Whisker
P25 = Q1 o primer cuartir
Extremo inferior
Outlier
Diagrama de cajas y bigotes
Resumen con 5 números:
0.08
Mínimo, cuartiles y máximo.
0.06
Suelen dar una buena idea
densidad
de la distribución.
0.04
P25 P50 P75
0.02
Mín. Máx.
0.00
las observaciones. 40 45 50 55 60 65
separan de la caja en no
densidad
Misma µ para
ambas poblaciones
Población A
#edades
Población B
µ edades
Medidas de dispersión
𝑅 = 𝑥𝐿 − 𝑥𝑆
Edades
42 31 32
28 23 37 𝑅 = 𝑥𝐿 − 𝑥𝑆 = 61 − 22 = 39 𝑎ñ𝑜𝑠
25 50 40
61 34 22
✓ Utilidad limitada
Medidas de dispersión
Miden el grado de dispersión de las variables
independientemente de su causa
Amplitud o Rango:
0.05
Diferencia entre observaciones extremas.Mín. P25 P50 P75 Máx.
0.04
0.03
25% 25% 25% 25%
0.02
Rango intercuartílico:
Rango intercuartílico
- Es la distancia entre primer y tercer cuartil.
0.01
Rango intercuartílico = P75 - P25
Rango
-
1
S = ( xi − x ) 2
2
n i
- Es sensible a valores extremos (alejados de la media).
2
2
42 − 37,6 + 28 − 37,6 2 + ⋯ + 22 − 37,6 2
𝑠 = = 128,24 𝑎ñ𝑜𝑠 2
12 − 1
Medidas de dispersión
50
* A una distancia de dos desv. estd. de la media las tendremos casi todas.
Medidas de dispersión
S
Es la razón entre la desviación estd. y la media.
Mide la desviación típica en forma de
CV =
“qué tamaño tiene con respecto a la media”
x
También se la denomina variabilidad relativa.
Coeficiente
Desviación
Rango Varianza de
estándar
variación
Resumen
Posición
Dividen un conjunto de datos ordenados en grupos:
percentiles, cuartiles.
Centralización
Indican valores de las variables a los que los datos
tienden a agruparse: Media, Moda, Mediana
Dispersión
Indican la mayor o menor concentración de datos con
respecto a la medida de centralización
Forma
- Asimetría
- Apuntamiento o curtosis
Ejemplo
El 5% de los recién nacidos tienen un peso demasiado
bajo. ¿Qué peso se considera “demasiado bajo”?
Percentil 5 o cuantil 0,05
25
20
frecuencia
15
10
5
0
1 2 3 4 5
15
10
5
0
50 55 60 65 70 75 80 85
10
5
0
0.20
0.5
0.20
0.4
0.15
0.15
0.3
0.10
0.10
0.2
0.05
0.05
0.1
x s x s
x s
66 % 78 %
78 %
0.00
0.00
0.0
8 10 12 14 16 18 20 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento
(aplastamiento) de una distribución con respecto a la
distribución normal o gaussiana. Es adimensional.
0.8
0.3
1.5
0.6
0.2
1.0
0.4
0.1
0.5
0.2
x s
x s x s
68 %
57 % 82 %
0.0
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 3 -2 -1 0 1 2
Ejercicios
Los siguientes son pesos (kg) y estaturas (cm) Pesos Estaturas
de 14 individuos de una muestra. 83.9 185
59.7 161
a) Para cada variable calcule, la media, 99 177
64.6 173
Mediana, variancia, desviación estándar y CV 63.8 174
78.8 180
b) Para cada variable, elaborar un gráfico de 71.3 168
cajas y bigotes 65.3 175
79.6 183
c) ¿Qué conjunto de mediciones tiene mayor 70.3 184
69.2 174
Variabilidad, peso o estatura? 56.4 164
66.2 169
88.7 205