análisis de datos exploratorios (ADE)

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 5

Análisis de datos exploratorio “ADE”

INVESTIGACION EN SALUD ANIMAL


Investigación sobre las causas de diarrea en terneros
Investigación sobre las causas de mastitis subclínica
Investigación sobre las causas de mortalidad en cerditos antes del destete
Causas de una baja ganancia de peso en cerdos de engorda
Causas de abortos en bovinos
Para realizar estas investigaciones epidemiológicas Datos sobre potenciales factores de riesgo
necesitaremos recolectar y analizar datos (causas)
- Productivos - Edad del animal
- Sanitarios - Sexo del animal
Datos sobre la ocurrencia del problema - Raza
- Terneros con diarrea / sin diarrea - Manejos
- Vacas abortadas / no abortadas Tratamientos / vacunaciones
- Ganancia de peso - Presencia de agente infeccioso (pruebas
- Producción láctea diagnósticas)

ANALISIS DE DATOS EXPLORATORIO (ADE)


Como su nombre lo indica, es una exploración de los datos con los que estamos trabajando
Es un proceso de descripción de las variables disponibles en los datos
Entender las variables
Entender relaciones entre las variables
Entender posibles sesgos y errores en el registro de la información
El ADE es uno de los pasos más importantes del análisis de datos
Es en extremo beneficioso para la persona que realice el análisis de datos
Es un proceso de exploración de diversas alternativas en las que intentamos entender nuestros datos
Pasaremos la mayor parte de nuestro tiempo trabajando en el ADE

El ADE nos ayudara a construir y dirigir nuestro análisis


La mayor parte de las inferencias que podemos hacer de nuestros datos se empiezan a visualizar en el ADE
OBJETIVOS DEL ADE
Conocer/entender las variables presentes en nuestros datos
- Descripción de los datos recopilados
- Evaluar calidad de datos recopilados
DESCRIPCIÓN DE LOS DATOS RECOPILADOS
Identificar las variables de interés(respuesta) y potenciales predictores (factores de riesgo)
Tipo de variables (numéricas , categóricas)
Distribución de las variables numéricas
- Distribución normal, asimétrica con cola a la izquierda o derecha
Frecuencias relativas de categorías
- Porcentajes
Visualización de tendencias, patrones, asociaciones

EVALUAR CALIDAD DE DATOS RECOPILADOS


- Identificar valores extremos (“outliers”)
- Potenciales errores (valores imposibles)
- Identificar valores faltantes (NAs)
Valores extremos (“outliers”) vs errores
No todos los errores son “outliers” y no todos los “outliers” son errores
Importante a la hora de decidir qué hacer con un “outlier”

EVALUACION DE LA CALIDAD DE DATOS (ADE)


CORRECIÓN DE DATOS
Valores faltantes
- Buscar valores faltantes en los registros o fuentes originales
Errores (valores imposibles)
- Identificar y contrastar valores imposibles con registros originales y fuentes originales
Valores extremos (“outliers”)
- Identificar outliers
- Asegurarse que no sean un error de registro
- Nunca eliminar valores extremos de los datos
TIPO DE VARIABLES CATEGÓRICAS/CUALITATIVAS

Variables se clasifican en categorías 2) NOMINALES


Expresan un valor cualitativo Categorías no tienen un orden inherente
- Raza, país, regiones
1) BINARIAS: 3) ORDINALES
Si/no (presencia/ausencia) Categorías tienen un orden inherente
- Positivos y negativos a un test diagnóstico - Score de rinitis atrófica progresiva (0 - 5)
- Vivos/muertos - Score de cojeras
- Enfermos/No enfermos - Condición corporal (0 - 5)
TIPO DE VARIABLES NUMÉRICA/CUANTITATIVA
Son medibles y tienen un orden 2) DISCRETAS (NÚMERO ENTERO)
La variable numérica sol puede tomar valores enteros
1) CONTINUAS - Ej: número de partos, número de animales nacidos
Existe un continuo en la escala de posibles valores
- Ej: peso de animal, ganancia diaria de peso

Número de animales en una granja Ganancia diaria de peso


- Numérica Discreta - Numéricas Continua Ejemplos
El sexo de un animal Raza de los animales
- Categórica Binaria - Categórica Nominal

DESCRIPCIÓN DE VARIABLES CATEGÓRICAS

Tablas de frecuencia Porcentajes

DESCRIPCIÓN DE VARIABLES CONTINUAS


Nos dicen algo sobre el valor típico de nuestros datos
Medidas usadas en epidemiología veterinaria
- Media
- Mediana Medidas de tendencia
- Media geométrica central
- Moda

1) MEDIA (PROMEDIO)
La suma de los valores es dividida por el número de observaciones Σx/n
La media es sensible a valores extremos
1, 2, 4, 5, 6, 7, 9, 10
- media = 5.5 Ejemplos
1, 2, 4, 5, 6, 7, 9, 100
- media = 16.75
2) MEDIANA
Es la observación del medio de la distribución
Ordenar variables de menor a mayor
Encontrar el valor del medio
Para un números de observaciones impar, la mediana toma el valor de la
observación central
El 50% de las observaciones estará por debajo el valor de la mediana y el
otro 50% por sobre este valor
Para un número de observación par, la mediana es el promedio de los dos valores centrales
La mediana es menos sensible a valores extremos que la media

3) MEDIA GEOMÉTRICA
La raíz n del producto de los datos
Datos muy asimétricos o logaritmos

4) MODA
Es el valor que ocurre más frecuentemente en los datos
Menos usado en epidemiología veterinaria para describir datos
Distribuciones bi-modales (dos modas)

MEDIA V/S MEDIANA


Para describir datos numéricos y simétricos (distribución normal) hay que usar la media
Para describir datos numéricos y asimétricos (datos que no están normalmente distribuidos) hay que usar la
mediana

DESVIACIÓN ESTÁNDAR
Es la más usada. Es el promedio de la suma de la diferencia de cada observación
con la media

RANGO
Diferencia entre el valor más alto y el más bajo
Muchas veces se reporta el valor mínimo y el máximo

COEFICIENTE DE VARIACIÓN
Medida de variación relativa a la media
Útil para comparar variabilidad en 2 muestras que tienen distintas escalas

RANGO INTER-CUARTIL
Percentiles 25, 50, 75 son el primer, segundo y tercer cuartil,
respectivamente
Percentil 50 o segundo cuartil es la mediana (65.5)

Diferencia entre el primer y el tercer cuartil


- Primer cuartil = percentil 25 (62.5)
- Tercer cuartil = percentil 75 (68.5)
- Rango inter-cuartil = 6
VISUALIZACION DE DATOS EN ADE
VISUALIZACIÓN UNIVARIADA
Histogramas
- Usualmente variables continuas (discretas barras)
Gráfico de cajas y bigotes (Boxplots)
- Usualmente variables continuas (discretas)
Gráfico de barras (Barplots)
- Variables discretas, categóricas

HISTOGRAMAS
Usualmente variables continuas (discretas barras)
Para la visualizar la distribución de variables continuas
Presentan la variable de interés en el eje X (horizontal) y el número de observaciones o porcentaje en el
eje Y (vertical)
La variable de interés en el eje X es dividida en un número de intervalos (automático en muchos softwares
estadísticos)

GRÁFICO DE CAJAS Y BIGOTES


Usualmente variables continuas (discretas)
La caja representa el 50% de los datos del medio (percentiles 25 y 75)
La línea horizontal dentro de la caja representa la mediana
Los bigotes se extienden 1.5 veces el rango inter-cuartil
Más de una forma de calcular el largo del bigote
Observaciones por sobre los bigotes son llamados usualmente “outliers” o
valores extremos

GRÁFICO DE BARRAS (BARPLOTS)


Variables discretas, categóricas
El número o porcentaje de variables discretas o categóricas
es presentado

VISUALIZACION BIVARIADA
GRÁFICO DE DISPERSIÓN (SCATTERPLOTS)
Presentan la relación entre 2 variables numéricas

GRÁFICO DE TAPETE
Porcentaje de lechones destetados durante un año

GRÁFICOS DE CAJAS
Permiten una visualización de las diferencias que pueden existir (o no)
en la variable respuesta entre grupos

También podría gustarte