Aprendizaje No Supervisado

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 2

Aprendizaje no supervisado

El término aprendizaje no supervisado se refiere a métodos estadísticos que extraen


significado de los datos sin entrenar un modelo en datos etiquetados, también construye
un modelo de los datos, pero no distingue entre una variable de respuesta y variables
predictoras. (Bruce, 2017)
En otros casos, el objetivo puede ser reducir la dimensión de los datos a un conjunto de
variables más manejable. Este conjunto reducido podría luego utilizarse como entrada en
un modelo predictivo, como regresión o clasificación. (Bruce, 2017)
Finalmente, el aprendizaje no supervisado puede verse como una extensión del análisis
exploratorio de datos a situaciones en las que te enfrentas a un gran número de variables
y registros. El objetivo es obtener información sobre un conjunto de datos y cómo las
diferentes variables se relacionan entre sí. Las técnicas no supervisadas proporcionan
formas de filtrar y analizar estas variables y descubrir relaciones. (Bruce, 2017)
A continuación, comparto script da la actividad de aprendizaje no supervisado.
https://colab.research.google.com/drive/1MjvQGs_uyklJXeqFK664OlTkZEzx8gFb?
usp=sharing
Desarrollo de la actividad
Se carga la base de datos a la que se realizara el análisis de la siguiente fuente de
información
Mall_Customers (kaggle.com)
Luego de cargas la base se realizar funciones de data cleaning con el objetivo de
encontrar atípicos en la base de datos como son datos nulos o duplicados.
El siguiente paso en la actividad es aplicar los algoritmos de agrupamiento
 K-means.
 DBSCAN (Density-Based Spatial Clustering of Applications with Noise).
 GMM (Gaussian Mixture Model).
 BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies).
 Affinity Propagation.
 Mean Shif
 OPTICS (Ordering Points To Identify the Clustering Structure)
 Clustering Jerárquico Aglomerativo.
Donde se tuvieron los siguientes resultados.
El k.means a clasificado tres grupos teniendo en cuenta su ingreso anual y su cantidad en
gastos mientras que el DBSCAN tienen diferentes grupo mezclado los ingresos con los
gatos. El GMM también agrupa tres grupos dependiendo del gasto y su ingreso muy
parecido al k.means lo mismo que para el BIRCH. El algoritmo de propagación de afinidad
separa diferentes grupos mezclado los ingresos y gatos lo mismo que OPTICS. Y Mean
shift solo identifica un grupo sin realizar ningún tipo de distinción.
Teniendo en cuenta todos los algoritmos aplicados. Lo que mejor me hacen un clustering
teniendo en cuenta el dataset con el que estamos trabajando podríamos decir que el
algoritmo de k-means, Gaussian Mixture Model y Clustering Jerárquico Aglomerativo. Ya
que se puede identificar cada grupo de manera clara y aquellos en medio que tienen
similitudes en el gasto y el ingreso.

Bibliografía
Bruce, P. B. (2017). Practical Statistics for Data Scientists. United States of
America.: O’Reilly Media,.
Dr., D. R. (2024, 10). SpringerLink. Retrieved from Gaussian Mixture Models:
https://link.springer.com/referenceworkentry/10.1007/978-0-387-73003-
5_196
iawei Han, M. K. (2021). Data Mining - Concepts And Techniques. The-Morgan-
Kaufmann.
Martin Ester, H.-P. K. (2024, 10). A Density-Based Algorithm for Discovering
Clusters. Retrieved from A Density-Based Algorithm for Discovering
Clusters: A Density-Based Algorithm for Discovering Clusters
McKinney, W. (n.d.). Python for Data Analysis. O’Reilly’s.
VanderPlas, J. (2017). Python Data Science Handbook. O’Reilly.
Zhang, T. R. (1996). Data Mining and Knowledge Discovery. Editor in Chief.

También podría gustarte