1 Analisis Exploratorio de Datos
1 Analisis Exploratorio de Datos
1 Analisis Exploratorio de Datos
AED
QUE ES UN A E D
Es examinar los datos previamente a la aplicacin de cualquier
tcnica estadstica. De esta forma el analista consigue un
entendimiento bsico de sus datos y de las relaciones
existentes entre las variables analizadas.
Es un conjunto de tcnicas cuya finalidad es conseguir un
entendimiento bsico de los datos y de las relaciones
existentes entre las variables analizadas.
El AED proporciona mtodos sencillos para organizar y
preparar los datos, detectar fallos en el diseo y recogida de
datos, tratamiento y evaluacin de datos ausentes (missing)
identificacin de casos atpicos (outliers) y comprobacin de
los supuestos subyacentes en la mayor parte de las tcnicas
multivariantes (normalidad, linealidad, homocedasticidad).
QUE BUSCO EN UN A E D?
Existe algn tipo de estructura (normalidad,
multimodalidad, asimetra, curtosis, linealidad,
homogeneidad entre grupos, homocedasticidad, etc.)
en los datos que voy a analizar?
Existe algn sesgo en los datos recogidos?
Hay errores en la codificacin de los datos?
Cmo se sintetiza y presenta la informacin contenida
en un conjunto de datos?
Existen datos atpicos (outliers)? Cules son? Cmo
tratarlos?
Hay datos ausentes (missing)? Tienen algn patrn
sistemtico? Cmo tratarlos?
ETAPAS PREVIAS A LA ESTIMACIN DE
RESERVAS
OBJETIVOS PRINCIPALES
1) Creacin de una base de datos y preparar los datos para hacerlos accesibles a
cualquier tcnica estadstica.
2) Seleccin de un paquete estadstico
3) Realizar un examen grfico de la naturaleza de las variables individuales a
analizar y un anlisis descriptivo numrico que permita cuantificar algunos
aspectos grficos de los datos.
4) Realizar un examen grfico de las relaciones entre las variables analizadas y un
anlisis descriptivo numrico que cuantifique el grado de interrelacin existente
entre ellas.
5) Evaluar, si fuera necesario, algunos supuestos bsicos subyacentes a muchas
tcnicas estadsticas como, por ejemplo, la normalidad, linealidad y
homocedasticidad.
6) Identificar los posibles casos atpicos (outliers) y ausentes (missing) evaluando
el impacto potencial que puedan ejercer en anlisis estadsticos posteriores.
ANEXO ETAPAS DE UN A. E. D.
La codificacin depende del tipo de variable
Los paquetes estadsticos existentes en el mercado proporcionan diversas
posibilidades (datos tipo cadena, numricos, nominales, ordinales, etc),
permitiendo realizar manipulaciones de los datos previas a un anlisis de los
mismos:
- Combinar conjuntos de datos de dos archivos distintos
- Seleccionar subconjuntos de los datos
- Dividir el archivo de los datos en varias partes
- Transformar variables
- Ordenar casos
- Agregar nuevos datos y/o variables
- Eliminar datos y/o variables
- Guardar datos y/o resultados
Finalmente, y con el fin de aumentar la inteligibilidad de los datos almacenados,
conviene asociar a la base de datos utilizada, un libro de cdigos en el que se
detallen los nombres de las variables utilizadas, su tipo y su rango de valores, su
significado as como las fuentes de donde se han sacado los datos.
INFORMACIN NECESARIA
- Identificador de la muestra (sondaje, galera, pozo, etc)
- Coordenadas del collar del sondaje
- Inclinacin y azimut de los sondajes
- Desviacin de los sondajes
- Recuperacin de las muestras
- Interpretaciones geolgicas morfolgicas
- Resultados de las muestras recolectadas (leyes, litologas,
profundidades)
- Informacin topogrfica del sector de inters.
-
VARIABLES
Variables y Tipos de variables
- Variable: cada una de las caractersticas de los elementos de una
poblacin y que varan de una unidad a otra.
- Variables cualitativas o nominales (o categricas): aquellas que no
tienen medida numrica; se representan por categoras o atributos (tipo
de suelo, de vegetacin, textura, raza, religin).
- Variables cuantitativas: las que pueden expresarse numricamente
(temperatura, precipitacin, profundidad suelo, altitud, pendiente, .)
# Variables discretas u ordinales: son el resultado de contar y slo
toman valores enteros (nmero de puntos, de cuadrculas, de pxeles,
dureza de un mineral).
# Variables continuas: son el resultado de medir, y pueden contener
decimales (temperatura, profundidad, altura). Se pueden subdividir a
voluntad.
Pueden tomar, entonces, cualquier valor de un determinado intervalo
MEDIDAS DESCRIPTIVAS NUMERICAS Y REPRESENTACIONES GRFICAS
GRAFICO DE DISPERSIN
scatterplot X-Y
GRFICOS ESTADSTICOS