Exploracion de Datos
Exploracion de Datos
Exploracion de Datos
Exploración de datos
Mathieu Kessler
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Guión
1 Introducción
4 Medidas numéricas
Medidas de centro
Medidas de dispersión
Un resumen gráfico: el diagrama de caja-bigotes
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Guión
1 Introducción
4 Medidas numéricas
Medidas de centro
Medidas de dispersión
Un resumen gráfico: el diagrama de caja-bigotes
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Guión
1 Introducción
4 Medidas numéricas
Medidas de centro
Medidas de dispersión
Un resumen gráfico: el diagrama de caja-bigotes
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Ejemplo
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Guión
1 Introducción
4 Medidas numéricas
Medidas de centro
Medidas de dispersión
Un resumen gráfico: el diagrama de caja-bigotes
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
A 51 0.35
B 19 0.13
O 5 0.03
AB 70 0.49
60
40
20
0
AB A B O
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
10
8
Frecuencias
6
4
2
Mediciones de nitrato
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
28, 26, 33, 24, 34, -44, 27, 16, 40, -2, 29, 22, 24, 21, 25, 30, 23,
29, 31, 19, 24, 20, 36, 32, 36, 28, 25, 21, 28, 29, 37, 25, 28, 26,
30, 32, 36, 26, 30, 22, 36, 23, 27, 27, 28, 27, 31, 27, 26, 33, 26,
32, 32, 24, 39, 28, 24, 25, 32, 25, 29, 27, 28, 29, 16, 23
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Dos preguntas
¿Por qué repitieron tantas veces las mediciones?
¿Qué hacer con estos datos? ¿Cuál es el valor que damos
como la velocidad de la luz?
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
1 + log2 (n)
Pos. 14 15 16 17 18 19 20 21 22 23 24 25 26
Dato 24 24 24 24 24 25 25 25 25 25 26 26 26
Pos. 27 28 29 30 31 32 33 34 35 36 37 38 39
Dato 26 26 27 27 27 27 27 27 28 28 28 28 28
Pos. 40 41 42 43 44 45 46 47 48 49 50 51 52
Dato 28 28 29 29 29 29 29 30 30 30 31 31 32
Pos. 53 54 55 56 57 58 59 60 61 62 63 64 65
Dato 32 32 32 32 33 33 34 36 36 36 36 37 39
Pos. 66
Dato 40
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
40
30
Frecuencias
20
10
−40 −20 0 20 40
Mediciones
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
1 ¿Distribución simétrica?
2 ¿Colas largas?
3 ¿Unimodal?
4 ¿datos atı́picos?
5 ¿centro aprox. de la distribución?
6 ¿Presentan los datos mucha dispersión?
25
20
15
Frecuencias
10
5
0
−40 −20 0 20 40
Mediciones
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Ejemplos de histogramas
40
Histograma aprox. simétrico, unimodal, con colas cortas. Histograma asimétrico
40
30
30
Frec.
Frec.
20
20
10
10
0
0
1.5 2.0 2.5 3.0 3.5 4.0 4.5 0 2 4 6 8 10
x1 x00
70
60
30
50
40
20
Frec.
Frec.
30
20
10
10
0
0 5 10 15 2 3 4 5 6 7
x0 x12
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
40
30
Frecuencias
20
10
−40 −20 0 20 40
Mediciones
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
0.08
0.06
Densidad
0.04
0.02
● ● ●● ●●● ●● ●●● ● ● ● ●
0.00 ● ●●
●●●
● ●● ●●
●● ● ●●
●●●●●
●● ●
●● ●
● ●●●●● ●
−40 −20 0 20 40
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Guión
1 Introducción
4 Medidas numéricas
Medidas de centro
Medidas de dispersión
Un resumen gráfico: el diagrama de caja-bigotes
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Medidas de centro
Cálculo
Datos: x1 , . . . , xn , la media es
x1 + · · · + xn
x̄ = .
n
Datos ya agrupados: tenemos los valores distintos x1 , . . . , xm
junto con sus frecuencias n1 , . . . , nm , la media es
n1 · x1 + · · · + nm · xm
x̄ = .
(n1 + . . . + nm )
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Medidas de centro
Aspectos de la media
IMPORTANTE
La media se interpreta como el centro de gravedad de los
datos.
⇒ es muy sensible a datos atı́picos.
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Medidas de centro
¿Cómo se calcula?
Si tenemos n datos, x1 , x2 , . . . , xn , ordenamos los datos por orden
creciente. La mediana es el dato ordenado no (n + 1)/2.
Ejemplos
125, 129, 134, 185, 200 Me es el dato ordenado número 3,
⇒ Me = 134.
11, 15, 20, 23: Me es el dato ordenado no 2.5, (¿?)⇒, por
convención, punto intermedio entre el dato no 2 y el dato
no 3.⇒ Me = 17.5.
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Medidas de centro
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Medidas de dispersión
La desviación tı́pica
Cálculo de la varianza
Definición:
(x1 − x̄)2 + · · · + (xn − x̄)2
s2 = .
n−1
Fórmula alternativa:
n
s2 = (x 2 − (x̄)2 )
n−1
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Medidas de dispersión
Ejemplo de cálculo
La fórmula alternativa:
n
s2 = (x 2 − (x̄)2 )
n−1
x 2 : elevamos todos los datos al cuadrado y después
calculamos su media.
(x̄)2 : calculamos la media de los datos y después la elevamos
al cuadrado.
Ejemplo
Datos: 4, 5.5, 6.5, 8.
x 2 = (42 + 5.52 + 6.52 + 82 )/4 = 38.125.
x̄ = (4 + 5.5 + 6.5 + 8)/4 = 6 ⇒ (x̄)2 = 36.
Deducimos s 2 = 2.8333 y s = 1.683251
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Medidas de dispersión
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Medidas de dispersión
El rango intercuartı́lico
Cuartiles y percentiles
La mediana separa el conjunto en dos partes de mismo tamaño.
Los cuartiles separan el conjunto en 4 partes de mismo tamaño.
Los percentiles separan el conjunto en 100 partes de mismo tamaño.
Cuartiles
Q1 : primer cuartil. Deja el 25% de los datos ordenados a su
izquierda.
Q3 : tercer cuartil. Deja el 75% de los datos ordenados a su
izquierda.
¿y Q2 ? segundo cuartil. Q2 = Me.
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Medidas de dispersión
Percentiles
Percentil k
Si k es un entero, entre 0 y 100, Pk deja el k% de los datos
ordenados a su izquierda.
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Medidas de dispersión
Medidas de dispersión
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
12
Dato atpico
11
Bigote
Q3
10
Me
Q1
9
●
8
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas
●
9
● ●
● ● ● ●
●
● ● ● ● ● ● ●
●
● ● ● ● ●
● ●
● ●
● ●
● ●
● ● ●
● ● ●
●
● ● ● ●
● ●
● ● ● ●
●
● ●
● ● ● ●
● ●
● ●
● ●
●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ●
●
● ● ●
● ●
● ● ●
● ●
● ●
● ●
● ●
● ●
●
●
● ●
● ●
● ●
●
●
● ● ● ●
● ●
● ●
● ●
● ●
●
● ● ●
●
● ●
● ●
●
● ●
8
●
7
6
5
4
1990 1992 1994 1996 1998 2000 2002 2004 2006 2008
Año
Kessler UPCT
Exploración de datos