Analisis Exploratorio de Datos
Analisis Exploratorio de Datos
Analisis Exploratorio de Datos
EXPLORATORIO DE
DATOS
ANÁLISIS EXPLORATORIO DE DATOS
Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos
ausentes (missing) sobre la representatividad de los datos analizados.
PREPARACIÓN DE LOS DATOS
VARIABLES CUALITATIVAS
VARIABLES CUANTITATIVAS
Son aquellas que no aparecen en
Las variables cuantitativas son las
forma numérica, sino como
que pueden expresarse
categorías o atributos . En
numéricamente. Permite distinguir
dichas categorías puede haber un
entre variables cuantitativas
orden subyacente (variable
discretas y continuas.
ordinal) o no (variable
Se suelen representar
nominal).
gráficamente mediante
Se suelen representar mediante
histogramas, grafico de tallos y
diagrama de barras, sectores o
hojas, grafico de cajas, etc…
líneas.
GRAFICO DE CAJAS
El grafico de cajas se caracteriza por:
- Centralización de los datos (con la mediana)
- La dispersión (con el rango intercuartil)
- La simetría (observando la posición de la mediana)
- La longitud de la colas (con los segmentos que parten de los lados laterales)
En la caja observamos:
- Un dato atípico denotado por un circulo.
- Un dato extremo denotado por un asterisco, siempre es el dato mas lejano.
- Tiene asimetría negativa porque la longitud de la cola izquierda es más larga que la otra.
- La mediana esta al centro de la caja, pero no significa que sea simétrica.
- El 50% del total de los datos representa la caja.
Solución:
Dato menor: 33,1 Dato mayor: 36,5
Tallos posibles: 33, 34, 35 y 36
Hojas: 1, 4, 7, 7, 9, 8, 6, 2, 2, …
Sólo existen 4 tallos, debiendo ser el
mínimo 5 tallos, entonces los tallos
propuestos se desdoblan, de la
siguiente manera:
33 (del 33,0 al 33,4)
33 (del 33,5 al 33,9) Interpretación:
34 (del 34,0 al 34,4) - Son 35 casos.
34 (del 34,5 al 34,9) - La menor observación es de 33,1
35 (del 35,0 al 35,4) - La mayor observación es de 36,5
35 (del 35,5 al 35,9) - Tiene distribución asimétrica positiva porque la
36 (del 36,0 al 36,4) distribución de datos está sesgada (sesgo
positivo), es decir, hay mayor concentración de
36 (del 36,5 al 36,9)
datos a la derecha.
Ejemplo: Se entrevistaron a 474 empleados y se le preguntaron sobre el sector donde
trabajan, obteniéndose los siguientes resultados utilizando el SPSS 22:
Categoría Laboral
Frecuencia Porcentaje
Válido Administrativo 360 75,9
En este ejemplo, trabajamos Seguridad 27 5,7
con una variable cualitativa Directivo 83 17,5
nominal (Categoría Laboral), Total 470 99,2
Perdidos Sistema 4 ,8
realizando un análisis
Total 474 100,0
exploratorio de datos
observamos que hay datos
perdidos llamados datos
ausentes, porque al verificar
la vista de datos del SPSS 22
hay 4 celdas vacías.
Ejemplo: Se recolectó información sobre los salarios de 20 jóvenes, antes de realizar un
estudio descriptivo se hizo un análisis exploratorio univariado sobre dicha variable.
170 200 200 210 210 210 210 220 220 220 220 220 220 230 230 230 230 240 240 240
HISTOGRAMA: En el
histograma, observamos que
hay un joven cuyo salario esta
muy por debajo del restante,
este dato es considerado dato
atípico, que ha sido originado
por error de digitación o se ha
entrevistado a un joven cuyo
sueldo no esta asociado al
grupo. En algunos casos se
elimina ese dato o se recolecta
nuevamente la información.
GRAFICO Q-Q: En el grafico observamos que la distribución no es normal por que hay un
dato que esta muy separado de la línea, ese dato es considerado dato atípico
GRAFICO DE CAJAS: En el grafico observamos que existe un dato que esta muy separado
de la caja, ese dato es considerado dato atípico. Son considerados datos atípicos los
datos que están por encima de U y por debajo de L.
NORMALIDAD
N Válido 16
Perdidos 0
Media 1230,00
Mediana 1230,00
Moda 1230
Asimetría ,000
GRAFICO DE CAJAS: En el grafico observamos que las líneas en forma de bigotes que están
hacia el lado derecho e izquierdo son iguales, la mediana esta al centro de la caja, no hay
datos atípicos; entonces podemos afirmar que los datos siguen una distribución normal.
GRAFICO Q-Q: En el grafico observamos que los datos están muy cerca a la línea por lo
tanto siguen una distribución normal
ANÁLISIS ESTADÍSTICO
BIDIMENSIONAL
Es un gráfico donde se presentan
una variable en el eje horizontal y
la otra en el vertical. El patrón de
los puntos representa la relación
entre las variables.
DIAGRAMA DE DISPERSIÓN
Se denomina diagrama de dispersión o nube de puntos a la
grafica de los valores (xi, yi) de las variables X e Y en el
sistema cartesiano. En el diagrama de dispersión se
visualiza el tipo de relación existente entre dos variables.
DIAGRAMA DE DISPERSIÓN
CORRELACIÓN CORRELACIÓN
CORRELACIÓN NULA
DIRECTA POSITIVA INDIRECTA NEGATIVA
Ejemplo: En el siguiente ejemplo, se realiza un grafico de dispersión entre las
variables “salario inicial “y “salario actual” del archivo “DATOS EMPLEADOS.SAV”.