Teorico 3
Teorico 3
Teorico 3
Clustering
- k means
- Clustering jerárquico
- DBSCAN
Evaluación
Aprendizaje no supervisado
alterix.com
- Engloba técnicas de aprendizaje automático en las que no hay un salida conocida de antemano, ni
etiquetas o categorías con las que entrenar al algoritmo de aprendizaje.
- Se le presentan los datos al algoritmo y se espera que el mismo “extraiga” conocimiento de ellos.
- Se puede dividir en dos tipos: transformaciones de los datos y clustering
Transformaciones
- Buscan crear nuevas representaciones de los datos que pueden ser más fáciles de entender que la
representación original (para humanos o para otros algoritmos)
- Una aplicación habitual es la reducción de dimensionalidad, que busca representar los datos en
espacios de menor dimensión manteniendo la mayor cantidad de información posible.
PCA
- Estandarización
- Cálculo de la matriz de covarianza (m x m)
- Cómputo de vectores y valores propios
- Elegir los p primeros vectores propios según sus valores propios (con p < m)
- Proyectar los datos originales en el nuevo espacio
tSNE
- Calcula la distribución conjunta Pij, que asigna una probabilidad a cada combinación de valores posibles
de todas las variables en el espacio original.
- Distribución Qij en el espacio de menor dimensionalidad (inicialización aleatoria u otra técnica)
- Cálculo de la divergencia Kullback-Leibler entre ambas distribuciones e Iteraciones para minimizarla
UMAP
- Asume cosas que no siempre se cumplen; misma densidad, que todas las direcciones de variación son
igualmente importantes, que los clusters son convexos
k-Means
https://stackoverflow.com/questions/15376075/
- Para elegir k se puede graficar la suma de todas las distancias (al cuadrado) entre los puntos de un
mismo cluster como función de k.
- Esta suma siempre es decreciente, pero también su pendiente. Se puede usar el codo o “elbow” como
criterio para fijar k
clustering jerárquico
https://medium.com/@viveksalunkhe80/hierarchical-clustering/
Clustering jerárquico
- Los métodos jerárquicos tienen por objetivo agrupar clusters para formar uno nuevo o bien
separar alguno ya existente para dar origen a otros dos, de tal forma que se minimice alguna
distancia o se maximice alguna medida de similitud.
- Se subdividen en métodos aglomerativos y disociativos, cada un una gran diversidad de variantes.
Clustering aglomerativo
- La idea es que los clusters forman zonas densas separadas por zonas menos densas
- Identifica puntos “core” en base a dos parámetros: : min_samples y eps.
- Un puno es un “core” si hay por lo menos min_samples a menos de la distancia eps del mismo
- Los cores que están entre sí a menos de eps se incluyen en el mismo cluster.
DBSCAN
- a: distancia promedio entre un punto y todos los otros puntos de su mismo cluster
- b: distancia promedio entre un punto y todos los puntos del cluster más cercano