Tema 5
Tema 5
Tema 5
Gestión de Datos
Transformación
de Datos
Alvaro Ortigosa
1
27/11/20
Contenidos
01 Valores perdidos
02 Normalización
02 Detección de outliers
2
27/11/20
3
27/11/20
• Un error de programación
4
27/11/20
isnull()
NaN
5
27/11/20
6
27/11/20
7
27/11/20
8
27/11/20
9
27/11/20
10
27/11/20
11
27/11/20
12
27/11/20
13
27/11/20
14
27/11/20
Ejemplo
• El problema de los datos perdidos no es tanto la cantidad sino el mecanismo por el que se han
producido los valores perdidos.
15
27/11/20
Ejemplo
• El problema de los datos perdidos no es tanto la cantidad sino el mecanismo por el que se han
producido los valores perdidos.
á
An
• ¿Son ignorables?
• Las observaciones con datos perdidos son una muestra aleatoria del conjunto de
observaciones.
• Ejemplo de MCAR:
1. Las personas que no nos proporcionan su salario tienen, en promedio, el mismo salario que las personas que
nos lo proporcionan.
2. Las características estadísticas (media, porcentajes) del resto de las variables son las misma para los sujetos
que nos proporcionan su salario y para los que no lo proporcionan.
16
27/11/20
• Los registros con datos incompletos son diferentes significativamente de los que presentan datos
completos, y el patrón de ausencia de datos puede ser predecible a partir de variables con datos
• Es imposible probar si la condición MAR es satisfecha y la razón es que dado que no conocemos
la información faltante no podemos comparar los valores de aquellos sujetos que tienen
información con los que no la tienen.
17
27/11/20
• La probabilidad de los datos perdidos sobre una variable Y depende de los valores
de dicha variable una vez que se han controlado el resto de las variables.
• En otras palabras, los valores perdidos están relacionados con la razón para estar
perdidos
• Ejemplos:
1. Si son los hogares de renta mayor los que con menos probabilidad nos proporcionan el salario (vergüenza,
pudor, miedo, etc.), una vez controladas el resto de las variables, entonces la pérdida de datos no es
aleatoria ni ignorable.
18
27/11/20
Punto de vista
• Podría resultar si los VVPP son MCAR (pero ya vimos que no es lo normal) y
pocos.
19
27/11/20
• Omitir / Borrar
• Imputar
20
27/11/20
Imputación
21
27/11/20
• Ver https://github.com/matthewbrems/ODSC-missing-data-may-
18/blob/master/Analysis%20with%20Missing%20Data.pdf
22
27/11/20
• Desventajas
Imputación KNN
• Manhattan si no lo son
23
27/11/20
24
27/11/20
• https://machinelearningmastery.com/handle-missing-data-python/
• https://stats.idre.ucla.edu/stata/seminars/mi_in_stata_pt1_new/
• https://towardsdatascience.com/practical-strategies-to-handle-
missing-values-626f9c43870b
• https://towardsdatascience.com/6-different-ways-to-compensate-for-
missing-values-data-imputation-with-examples-6022d9ca0779
• https://towardsdatascience.com/data-cleaning-with-python-and-
pandas-detecting-missing-values-3e9c6ebcf78b
25
27/11/20
2.- Normalización
26
27/11/20
• Usando la escala original puede provocar que se otorgue más peso a las
variables con un rango mayor.
Ejemplo
27
27/11/20
Ejemplo (ii)
28
27/11/20
Tipos de escalado
• Normalización y estandarización
Estandarización
• Ecuación
29
27/11/20
Estandarización (ii)
Estandarización (iii)
30
27/11/20
Normalización Min-Max
• Se re-escalan los valores para que estén entre un nuevo mínimo y un nuevo
máximo.
• Si el re-escalado es entre 0 y 1:
• Código:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(df) scaled_features = scaler.transform(df)
#Convert to table format - MinMaxScaler
df_MinMax = pd.DataFrame(data=scaled_features, columns=["Age", "Salary","Purchased",
"Country_France","Country_Germany", "Country_Spain"])
31
27/11/20
32
27/11/20
• https://towardsdatascience.com/understand-data-normalization-in-
machine-learning-8ff3062101f0
• https://www.kdnuggets.com/2020/04/data-transformation-
standardization-normalization.htm
• https://www.kdnuggets.com/2019/04/normalization-vs-
standardization-quantitative-analysis.html
• https://scikit-learn.org/stable/modules/preprocessing.html
33
27/11/20
3.- Detección de
outliers
34
27/11/20
Outliers: ejemplos
Tipos de Outliers
35
27/11/20
Consecuencia outliers
36
27/11/20
• Errores en el muestreo
Detección de outliers
• Univariado / Multivariado
• Paramétrico / No paramétrico
37
27/11/20
• Cálculo z-score:
38
27/11/20
39
27/11/20
Gestión de Outliers
• Una técnica habitual es probar con y sin abrazaderas para verificar si los
outliers afectan al algoritmo utilizado
40
27/11/20
Outliers: referencias
• https://towardsdatascience.com/a-brief-overview-of-outlier-
detection-techniques-1e0b2c19e561
• https://www.edvancer.in/data-cleaning
Fín de capítulo
Alvaro Ortigosa
41