Exploracion de Datos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 42

Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Exploración de datos

Mathieu Kessler

Departamento de Matemática Aplicada y Estadı́stica


Universidad Politécnica de Cartagena

Cartagena, Enero 2010

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Guión

1 Introducción

2 Unos cuantos términos

3 Tabulación y representaciones gráficas


Gráficas para una variable cualitativa
Gráficas para una variable cuantitativa

4 Medidas numéricas
Medidas de centro
Medidas de dispersión
Un resumen gráfico: el diagrama de caja-bigotes

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Guión

1 Introducción

2 Unos cuantos términos

3 Tabulación y representaciones gráficas


Gráficas para una variable cualitativa
Gráficas para una variable cuantitativa

4 Medidas numéricas
Medidas de centro
Medidas de dispersión
Un resumen gráfico: el diagrama de caja-bigotes

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

La estadı́stica utiliza datos para conseguir comprensión sobre un


fenómeno.
Combinación entre conocimientos previos y nuestro uso de
gráficas y cálculos ⇒ información.
Grandes conjuntos de datos: más información disponible pero
difı́cil de extraer
Es fundamental un primer paso: Exploración de datos

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Guión

1 Introducción

2 Unos cuantos términos

3 Tabulación y representaciones gráficas


Gráficas para una variable cualitativa
Gráficas para una variable cuantitativa

4 Medidas numéricas
Medidas de centro
Medidas de dispersión
Un resumen gráfico: el diagrama de caja-bigotes

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Unos cuantos términos:


Un conjunto de datos describe individuos. Éstos pueden ser
personas o objetos.
Asociados a un conjunto: variables. Distinguimos dos tipos de
variables:
variable cuantitativa: asocia un número a cada individuo.
variable cualitativa: coloca a cada individua en una categorı́a
Ejemplo de variables asociadas a la clase: peso, altura, sexo,
edad, grupo sanguı́neo.
Un concepto fundamental: la distribución de una variable X
en el conjunto. Establecemos la lista de los valores de X junto
con su frecuencia.
Frecuencia absoluta: número de veces que aparece
Frecuencia relativa: proporción de veces que aparece.
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Ejemplo

Distribución del grupo sanguı́neo en una clase:

Grupo Frec. absoluta Frec. relativa


A 51 51/145=0.35
B 19 0.13
O 5 0.03
AB 70 0.49

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Guión

1 Introducción

2 Unos cuantos términos

3 Tabulación y representaciones gráficas


Gráficas para una variable cualitativa
Gráficas para una variable cuantitativa

4 Medidas numéricas
Medidas de centro
Medidas de dispersión
Un resumen gráfico: el diagrama de caja-bigotes

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Representaciones gráficas: una herramienta fundamental

Para variable cualitativa:


Diagrama de barras
Diagrama de sectores

Para variable cuantitiva:


Diagrama de barras
Histograma
Gráfica de densidad

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cualitativa

Grupo sanguı́neo: diagrama de barras


Grupo Frec. absoluta Frec. relativa
80

A 51 0.35
B 19 0.13
O 5 0.03
AB 70 0.49
60
40
20
0

AB A B O
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cualitativa

Grupo sanguı́neo: diagrama de sectores


Grupo Frec. absoluta Frec. relativa
A 51 0.35
B 19 0.13
O 5 0.03
AB
AB 70 0.49

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cuantitativa

Un primer ejemplo: mediciones de nitrato

Mediciones del contenido en nitrato de una muestra de agua:

Valor Frecuencia Valor Frecuencia


0.45 1 0.49 8
0.46 2 0.50 10
0.47 4 0.51 5
0.48 8 0.51 8

Valores distintos: 8, Número de datos: 46

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cuantitativa

Mediciones de nitrato: diagrama de barras


Valor Frec. Valor Frec.
0.45 1 0.49 8
0.46 2 0.50 10
0.47 4 0.51 5
0.48 8 0.51 8

10
8
Frecuencias

6
4
2

0.45 0.46 0.47 0.48 0.49 0.50 0.51 0.52

Mediciones de nitrato

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cuantitativa

Ejemplo: mediciones de la velocidad de la luz

Newcomb and Michelson consiguieron una estimación bastante


precisa de la velocidad de la luz en ... 1882
Midieron el tiempo que tarda la luz en recorrer una distancia de
7400m.
En nanosegundos, tiempo − 24800:

28, 26, 33, 24, 34, -44, 27, 16, 40, -2, 29, 22, 24, 21, 25, 30, 23,
29, 31, 19, 24, 20, 36, 32, 36, 28, 25, 21, 28, 29, 37, 25, 28, 26,
30, 32, 36, 26, 30, 22, 36, 23, 27, 27, 28, 27, 31, 27, 26, 33, 26,
32, 32, 24, 39, 28, 24, 25, 32, 25, 29, 27, 28, 29, 16, 23

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cuantitativa

Dos preguntas
¿Por qué repitieron tantas veces las mediciones?
¿Qué hacer con estos datos? ¿Cuál es el valor que damos
como la velocidad de la luz?

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cuantitativa

Tabla de frecuencias e histograma


El conjunto presenta muchos valores distintos pero próximos
⇒ agrupamos los datos en clases.
Ordenamos los datos, dividimos el rango en clases, colocamos
cada dato en su clase.
Realizamos el recuento de las frecuencias de cada clase.

¿Cuántas clases escoger


Un problema sin solución perfecta
Una regla muy usada: la regla de Sturges:

1 + log2 (n)

Recordar: n: número de datos, log2 (n) = ln(n)/ ln(2)


Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cuantitativa

Mediciones de la velocidad de la luz: datos ordenados


Pos. 1 2 3 4 5 6 7 8 9 10 11 12 13
Dato -44 -2 16 16 19 20 21 21 22 22 23 23 23

Pos. 14 15 16 17 18 19 20 21 22 23 24 25 26
Dato 24 24 24 24 24 25 25 25 25 25 26 26 26

Pos. 27 28 29 30 31 32 33 34 35 36 37 38 39
Dato 26 26 27 27 27 27 27 27 28 28 28 28 28

Pos. 40 41 42 43 44 45 46 47 48 49 50 51 52
Dato 28 28 29 29 29 29 29 30 30 30 31 31 32

Pos. 53 54 55 56 57 58 59 60 61 62 63 64 65
Dato 32 32 32 32 33 33 34 36 36 36 36 37 39
Pos. 66
Dato 40

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cuantitativa

Clases de amplitud 5 empezando en -45 y acabando en 40:


Clase Frec. Clase Frec. Clase Frec.
] − 45, −40] 1 ] − 15, −10] 0 ]15, 20] 4
] − 40, −35] 0 ] − 10, −5] 0 ]20, 25] 17
] − 35, −30] 0 ] − 5, 0] 1 ]25, 30] 26
] − 30, −25] 0 ]0, 5] 0 ]30, 35] 10
] − 25, −20] 0 ]5, 10] 0 ]35, 40] 7
] − 20, −15] 0 ]10, 15] 0

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cuantitativa

Completamos la tabla con las frecuencias acumuladas:


Definición de frecuencia acumulada
La frecuencia absoluta (relativa) acumulada de una clase es el
número (proporción) de datos que pertenecen a esta clase o a
alguna clase anterior.

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cuantitativa

Clase Frecuencias Frec. Acumuladas


Absolutas Relativas(%) Absolutas Relativas(%)
] − 45, −40] 1 1.5 1 1.5
] − 40, −35] 0 0.0 1 1.5
] − 35, −30] 0 0.0 1 1.5
] − 30, −25] 0 0.0 1 1.5
] − 25, −20] 0 0.0 1 1.5
] − 20, −15] 0 0.0 1 1.5
] − 15, −10] 0 0.0 1 1.5
] − 10, −5] 0 0.0 1 1.5
] − 5, 0] 1 1.5 2 3.0
]0, 5] 0 0.0 2 3.0
]5, 10] 0 0.0 2 3.0
]10, 15] 0 0.0 2 3.0
]15, 20] 4 6 6 9
]20, 25] 17 25.7 23 34.7
]25, 30] 26 39.3 49 74
]30, 35] 10 15.3 59 89.3
]35, 40] 7 10.7 66 100
TOTAL 66 100.0
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cuantitativa

Representación gráfica de la tabla de frecuencia: el


histograma

40

30
Frecuencias

20

10

−40 −20 0 20 40

Mediciones

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cuantitativa

Cómo interpretar un histograma

Nos fijamos en:


1 ¿Es la distribución simétrica?

2 ¿Tiene la distribución colas largas?


3 ¿Tiene un único máximo claro? (Histograma unimodal)
4 ¿Aparecen datos atı́picos? Un dato atı́pico es un dato que se
aleja del patrón global del conjunto
5 ¿Dónde está aprox. el centro de la distribución?
6 ¿Presentan los datos mucha dispersión?

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cuantitativa

1 ¿Distribución simétrica?
2 ¿Colas largas?
3 ¿Unimodal?
4 ¿datos atı́picos?
5 ¿centro aprox. de la distribución?
6 ¿Presentan los datos mucha dispersión?

25
20
15
Frecuencias

10
5
0

−40 −20 0 20 40

Mediciones

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cuantitativa

Ejemplos de histogramas
40
Histograma aprox. simétrico, unimodal, con colas cortas. Histograma asimétrico

40
30

30
Frec.

Frec.
20

20
10

10
0

0
1.5 2.0 2.5 3.0 3.5 4.0 4.5 0 2 4 6 8 10

x1 x00

Cola larga a la derecha Histograma bimodal

70
60
30

50
40
20
Frec.

Frec.

30
20
10

10
0

0 5 10 15 2 3 4 5 6 7

x0 x12

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cuantitativa

Gráfica de densidad: ejemplo de las mediciones de la luz:


Buscamos visualizar la densidad de los datos, según las regiones,
partiendo del histograma:

40

30
Frecuencias

20

10

−40 −20 0 20 40

Mediciones
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Gráficas para una variable cuantitativa

Gráfica de densidad: ejemplo de las mediciones de la luz:


Obtenemos la gráfica de densidad (en este caso con R):

0.08

0.06
Densidad

0.04

0.02

● ● ●● ●●● ●● ●●● ● ● ● ●
0.00 ● ●●
●●●
● ●● ●●
●● ● ●●
●●●●●
●● ●
●● ●
● ●●●●● ●

−40 −20 0 20 40

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Guión

1 Introducción

2 Unos cuantos términos

3 Tabulación y representaciones gráficas


Gráficas para una variable cualitativa
Gráficas para una variable cuantitativa

4 Medidas numéricas
Medidas de centro
Medidas de dispersión
Un resumen gráfico: el diagrama de caja-bigotes

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Buscamos resúmenes de las caracterı́sticas de la distribución


Para variable cuantitativa, calculamos medidas numéricas que
buscan contestar a las preguntas planteadas ante el histograma.
Veremos:
Medidas de centro
Medidas de dispersión
Un resumen visual: el diagrama de cajas-bigotes.

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Medidas de centro

La primera medida de centro: la media

Cálculo
Datos: x1 , . . . , xn , la media es
x1 + · · · + xn
x̄ = .
n
Datos ya agrupados: tenemos los valores distintos x1 , . . . , xm
junto con sus frecuencias n1 , . . . , nm , la media es
n1 · x1 + · · · + nm · xm
x̄ = .
(n1 + . . . + nm )

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Medidas de centro

Aspectos de la media

IMPORTANTE
La media se interpreta como el centro de gravedad de los
datos.
⇒ es muy sensible a datos atı́picos.

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Medidas de centro

Otra medida de centro: la mediana


¿Qué es la mediana?
La mediana es el punto que deja el 50% de los datos a su izquierda
y el otro 50% a su derecha.

¿Cómo se calcula?
Si tenemos n datos, x1 , x2 , . . . , xn , ordenamos los datos por orden
creciente. La mediana es el dato ordenado no (n + 1)/2.
Ejemplos
125, 129, 134, 185, 200 Me es el dato ordenado número 3,
⇒ Me = 134.
11, 15, 20, 23: Me es el dato ordenado no 2.5, (¿?)⇒, por
convención, punto intermedio entre el dato no 2 y el dato
no 3.⇒ Me = 17.5.
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Medidas de centro

La mediana no es sensible a datos atı́picos:

125, 129, 134, 185, 200 Me es el dato ordenado número 3,


⇒ Me = 134
125, 129, 134, 185, 2000 Me es el dato ordenado número 3,
⇒ Me = 134
125, 129, 134, 185, 20000000 Me es el dato ordenado número
3, ⇒ Me = 134

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Medidas de dispersión

La desviación tı́pica

Mide lo “lejos” que están situados los datos respecto a su


centro de gravedad (la media)
Se denota por s, es la raı́z cuadrada de la varianza s 2 ,

s = s 2.

Cálculo de la varianza
Definición:
(x1 − x̄)2 + · · · + (xn − x̄)2
s2 = .
n−1
Fórmula alternativa:
n
s2 = (x 2 − (x̄)2 )
n−1
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Medidas de dispersión

Ejemplo de cálculo
La fórmula alternativa:
n
s2 = (x 2 − (x̄)2 )
n−1
x 2 : elevamos todos los datos al cuadrado y después
calculamos su media.
(x̄)2 : calculamos la media de los datos y después la elevamos
al cuadrado.

Ejemplo
Datos: 4, 5.5, 6.5, 8.
x 2 = (42 + 5.52 + 6.52 + 82 )/4 = 38.125.
x̄ = (4 + 5.5 + 6.5 + 8)/4 = 6 ⇒ (x̄)2 = 36.
Deducimos s 2 = 2.8333 y s = 1.683251
Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Medidas de dispersión

Algunos aspectos de la desviación tı́pica

La desviación tı́pica es representativa de la dispersión del


conjunto de datos solo si la media es representativa de su
centro.
Unidades de la varianza y de la desviación tı́pica.

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Medidas de dispersión

El rango intercuartı́lico

Cuartiles y percentiles
La mediana separa el conjunto en dos partes de mismo tamaño.
Los cuartiles separan el conjunto en 4 partes de mismo tamaño.
Los percentiles separan el conjunto en 100 partes de mismo tamaño.

Cuartiles
Q1 : primer cuartil. Deja el 25% de los datos ordenados a su
izquierda.
Q3 : tercer cuartil. Deja el 75% de los datos ordenados a su
izquierda.
¿y Q2 ? segundo cuartil. Q2 = Me.

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Medidas de dispersión

Percentiles

Percentil k
Si k es un entero, entre 0 y 100, Pk deja el k% de los datos
ordenados a su izquierda.

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Medidas de dispersión

Ejemplo de percentiles: curvas de crecimiento

Fuente: Fundación Faustino Orbegozo Eizaguirre


Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Medidas de dispersión

El rango intercuartı́lico: RIC


RIC = Q3 − Q1 .
Mide la dispersión de los datos

También sirve para detectar atı́picos:


Se considera posible atı́pico un data menor de Q1 − 1.5 × RIC , o
mayor de Q3 + 1.5 × RIC .

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Un resumen gráfico: el diagrama de caja-bigotes

El diagrama de caja-bigotes (boxplot)

Permite visualizar la tendencia central, la dispersión, los datos


atı́picos.
Los componentes del diagrama de caja-bigotes
En un eje vertical:
Tres segmentos horizontales y paralelos a la altura de Q1 , Me
y Q3 . Se cierra la caja resultante.
Dos segmentos verticales (bigotes) de una longitud máxima
de 1.5 × RIC . Se recortan hasta los últimos datos del
conjunto que no sean atı́picos.

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Un resumen gráfico: el diagrama de caja-bigotes

12

Dato atpico
11

Bigote

Q3
10

Me

Q1
9


8

Kessler UPCT
Exploración de datos
Introducción Unos cuantos términos Tabulación y representaciones gráficas Medidas numéricas

Un resumen gráfico: el diagrama de caja-bigotes

Muy útil para comparar subconjuntos


Calificaciones de los aprobados en la prueba de acceso, Distrito Único de la Región de Murcia
10

● ● ●
● ●
● ● ● ●
● ●
● ● ● ●

● ● ● ● ●
● ●
● ●
● ● ● ●
● ●
● ● ● ●

● ● ●
● ●
● ●
● ● ●
● ●
● ●
● ● ● ● ●
● ● ● ●
● ● ●
● ● ● ●

● ●
● ● ●
● ●
● ● ● ● ●
Calificación (aprox. 115000 alumnos)


9

● ●
● ● ● ●

● ● ● ● ● ● ●

● ● ● ● ●
● ●
● ●
● ●
● ●
● ● ●
● ● ●

● ● ● ●
● ●
● ● ● ●

● ●
● ● ● ●
● ●
● ●
● ●

● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ●

● ● ●
● ●
● ● ●
● ●
● ●
● ●
● ●
● ●


● ●
● ●
● ●


● ● ● ●
● ●
● ●
● ●
● ●

● ● ●

● ●
● ●

● ●
8


7
6
5
4

1990 1992 1994 1996 1998 2000 2002 2004 2006 2008

Año

Kessler UPCT
Exploración de datos

También podría gustarte