2 1AprendizajeNoSupervisado

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 33

Aprendizaje No

Supervisado
Introducción

u El aprendizaje supervisado realizamos predicciones utilizando ejemplos


etiquetados, es decir el entrenamiento del modelo se realiza con datos en
donde se conoce el resultado. Por su parte, en el aprendizaje no
supervisado, las variables de entrada se proporcionan sin etiquetas de
salida.
u En el aprendizaje no supervisado, un algoritmo segrega los datos en un conjunto de datos
en el que no están etiquetados en función de algunas características ocultas en los
datos. Esta función puede ser útil para descubrir la estructura oculta de los datos y para
tareas como la detección de anomalías.
u Los algoritmos de aprendizaje no supervisados agrupan los datos en un conjunto de
datos sin etiquetas en función de las características ocultas subyacentes en los datos.
Debido a que no hay etiquetas, no hay forma de evaluar el resultado, una diferencia
clave entre los algoritmos de aprendizaje supervisado. Al agrupar datos a través del
aprendizaje no supervisado, aprendes algo acerca de los datos en bruto que, de otro
modo, no serían visibles, en conjuntos de datos de grandes dimensiones, este problema
es aún más pronunciado.
Clasificación de aprendizaje no
supervisado

u Aprendizaje no supervisado paramétrico


En este caso, suponemos una distribución paramétrica de datos. Supone que los
datos de muestra provienen de una población que sigue una distribución de
probabilidad basada en un conjunto fijo de parámetros. Teóricamente, en una
familia normal de distribuciones, todos los miembros tienen la misma forma y
están parametrizados por la media y la desviación estándar, eso significa que, si
conoce el promedio y la desviación estándar y que la distribución es normal,
conoce la probabilidad de cualquier observación futura. El aprendizaje no
supervisado paramétrico implica la construcción de modelos de mezclas
gaussianas y el uso del algoritmo de maximización de expectativas para predecir
la clase de la muestra en cuestión. Este caso es mucho más difícil que el
aprendizaje supervisado estándar porque no hay etiquetas de respuesta
disponibles y, por lo tanto, no hay una medida exacta de precisión disponible
para verificar el resultado.
Clasificación de aprendizaje no
supervisado

u Aprendizaje no supervisado no paramétrico


En esta versión, los datos se agrupan en grupos, donde cada grupo dice
algo acerca de las categorías y clases presentes en los datos. Este método
se usa comúnmente para modelar y analizar datos con pequeños tamaños
de muestra. A diferencia de los modelos paramétricos, los modelos no
paramétricos no requieren que el modelador haga suposiciones sobre la
distribución de la población, y a veces se los conoce como un método libre
de distribución.
Clasificación de aprendizaje no supervisado

u Agrupamiento o Clustering en el aprendizaje no


supervisado
El agrupamiento puede considerarse el problema de
aprendizaje no supervisado más importante,
entonces, como cualquier otro problema de este
tipo, se trata de encontrar una estructura en una
colección de datos sin etiqueta. Una definición
amplia de clustering podría ser, el proceso de
organizar objetos en grupos cuyos miembros son
similares de alguna manera. Un clúster es, por lo
tanto, una colección de objetos que son similares
entre ellos y son diferentes a los objetos que
pertenecen a otros clústeres.
Los algoritmos de agrupación se pueden
clasificar como se detalla a continuación:

u Agrupamiento exclusivo: los datos se agrupan de manera exclusiva, de


modo que si un cierto punto de datos pertenece a un grupo definido,
entonces podría no ser incluido en otro clúster.

u Agrupamiento jerárquico: se basa en la unión entre los dos clústeres más


cercanos. La condición de inicio se realiza estableciendo cada punto de
datos como un clúster, después de algunas iteraciones alcanza los
clústeres finales deseados.

u Agrupación probabilística: utiliza un enfoque probabilístico.


Algoritmos de Aprendizaje no supervisado

u Agrupación de clústeres k-Means: divide datos en


clústeres distintos según la distancia al centroide de
un clúster.
Dado un conjunto de observaciones (x1, x2, …, xn),
donde cada observación es un vector real
de d dimensiones, k-medias construye una partición de
las observaciones en k conjuntos (k ≤ n) a fin de
minimizar la suma de los cuadrados dentro de cada
grupo (WCSS): S = {S1, S2, …, Sk}
Algoritmos de Aprendizaje no supervisado

u Agrupamiento jerárquico: crea una


jerarquía multinivel de clústeres mediante
la creación de un árbol de clústeres.
u El clustering jerárquico suele
representarse a través de un
dendograma, que muestra en qué orden
se han unido los cluster y cuál es el grado
de proximidad que tienen los clusters que
se unen.
u El dendrograma puede usarse para generar diferentes agrupamientos.
u Para ello, se selecciona un nivel y se poda el dendrograma descartando
los hijos de los nodos con nivel igual o superior al nivel seleccionado. Los
nodos hojas del árbol resultante dan el agrupamiento buscado.
u Dependiendo del nivel seleccionado se obtienen agrupamientos con
clusters más o menos compactos

u Obtener el centroide como la suma ponderada de los centroides de los


clusters que se unen usando la siguiente expresión:

u Con (xi , x2, . . . , xn) e (y1, y2, . . . , yn) los centroides de los cluster y N1 e
N2 el n´umero de elementos en cada uno de ellos.
Paralizando el Proceso de Calibración
K-means.
u La finalidad del proceso de calibración de modelos de minería de datos,
es buscar “maximizar la Inercia Inter-Clases, minimizar el error global, o
maximizar el área bajo la curva ROC”

Criterios de la Inercia
Criterios de la Inercia

u Se busca tener clases lo más homogéneas posibles y tal que estén


suficientemente separadas. Este objetivo se puede concretar
númericamente a partir de la siguiente propiedad: Supóngase que se
está en presencia de una partición P=(C1,C2,C3…,Ck) de Ω donde g1, g2,
g3…,gk son los centros de gravedad de las clases

u g es el centro de la gravedad total

Paralizando el Proceso de Calibración K-means.


Ejemplo Estudiantes

u Consumo de drogas en estudiantes:


u El primer paso a desarrollar en este trabajo, fue el análisis de los
parámetros del método descriptivo de Clustering K-Medias, en el
programa estadístico de R.
u Con el objetivo de analizar los valores del modelo en R, y poder medir los
grados de libertad o número de parámetros que se manejan en el
algoritmo, los cuales se podrán calibrar y así, de esa manera crear la
estructura del modelo de minería.
u Uno de los parámetros más importantes del modelo es el algoritmo a usar
en el método, donde R propone el uso de 4 posibles algoritmos ("Hartigan-
Wong", "Lloyd", "Forgy","MacQueen"), para su calibración.

Paralizando el Proceso de Calibración K-means.


Método Lloyd.

u Es un algoritmo propuesto por Lloyd en 1957, toma un conjunto de


observaciones o casos y los clusteriza en grupos tratando de minimizar la
distancia inter clusters mediante la suma de sus cuadrados

Paralizando el Proceso de Calibración K-means.


Método Forgy.

Forgy, en 1965, sugiere un algoritmo simple consistente en la siguiente


secuencia de pasos:
u Comenzar con una configuración inicial. Ir al paso 2 si se comienza con un conjunto de puntos semilla. Ir al
paso 3, si se comienza con una partición de los casos.

u Colocar cada individuo en el cluster con la semilla más próxima. Las semillas permanecen fijas para cada ciclo
completo que recorra el conjunto de datos.

u Calcular los nuevos puntos semilla como los centroides de los clusters.
u Alternar los pasos, segundo y tercero hasta que el proceso converja, es decir, continuar hasta que ningún
individuo cambie de cluster en el paso segundo

Paralizando el Proceso de Calibración K-means.


Método MacQueen.

MacQueen, en 1972, emplea el término KMedias para denotar el proceso de asignar


cada individuo al cluster (de los K prefijados), con el centroide más próximo. La clave
de este procedimiento radica en que el centroide se calcula a partir de los miembros
del cluster, tras cada asignación y no al final de cada ciclo, como ocurre en los
métodos de Forgy y Jancey.
El algoritmo de MacQueen considera la siguiente secuencia de pasos:
u 1. Toma los K primeros casos como clusters unitarios.
u 2. Asigna cada uno de los m − K individuos restantes al cluster con el centroide más próximo, y
después de cada asignación, recalcula el centroide del cluster obtenido.
u 3. Tras la asignación de todos los individuos en el paso segundo, toma los centroides de los
clusters existentes como puntos semillas fijos, y hace una pasada más sobre los datos asignando
cada dato al punto semilla más cercano.
u El último paso, es el mismo que el del método de Forgy, excepto que la recolocación se
efectúa una vez más sin esperar a que se produzca la convergencia

Paralizando el Proceso de Calibración K-means.


Método Hartigan and Wong.

El objetivo del algoritmo K-medias, es dividir M puntos en N dimensiones


dentro de K conglomerados, de modo que se minimiza la suma dentro de los
cuadrados. Pero esto no es práctico, excepto cuando M y N son pequeños y
K = 2. En cambio, con el algoritmo de Hartigan se busca un óptimo local, que
solucione que no se muevan de un punto de un grupo a otro, reduciendo la
suma inter-clusters de los cuadrados

Considerando entonces, que el método kmedias en el programa estadístico de R, puede


ser calibrado con cada uno de estos algoritmos. La estructura del modelo de minería se
construyó, probando el método con cada uno de ellos, para comparar sus resultados y
elegir aquel que arrojó mejores resultados para este conjunto específico de datos.

Paralizando el Proceso de Calibración K-means.


Aplicación

u Distinguir tres especies de flor Iris utilizando la clusterización

u Iris es un género de plantas de la familia Iridaceae, cuyo nombre deriva


del latín arcoiris, refiriéndose a la extensa variedad de colores florales que
poseen sus muchas especies.
u Dento del conjunto contamos con 50
flores dentro cada una de las tres
subespecies(150)
(setosa, versicolor y virginica).
Identificadas por el ancho y alto de
sepalo y petalo.
u Visualizamos el dataSet
disponible en R.
u Lo cargamos al workSpace
u Visualizamos por medio de
una gráfica como se
encuentran los datos con
respecto a su tamaño de
petalo y altura.
u En este punto no sabemos a
que cluster pertenece cada
punto.
u Corremos el algoritmo
kmeans en R, pasandole el
parametro de cuantos
conjuntos queremos que
realice. Como lo observamos
al principio del ejercicio, en
este caso serán divididos en 3
especies, iris-setosa, iris-
Versicolor, iris-Virginica.
Interpretación

u Cluster means: La primera agrupación nos indica que el largo del sepalo
que es de 5.91613 con una anchura de 2.748387 y así sucesivamente.
u Clustering Vector: Es un vector de agrupameinto y establece a que punto
en particular pertenece cada uno de los datos.
u Avalible components: son algunas de las componentes del algoritmo
kmeans que puede utilizar como por ejemplo el tamaño.
u Visualizando el tamaño de cada cluster
Comparación con los Métodos PCA,
CJ

u De acuerdo a Wikipedia, “PCA es un procedimiento matemático que


utiliza la transformación ortogonal para convertir un conjunto de
observaciones de variables posiblemente correlacionadas en un conjunto
de valores de variables linealmente no correlacionadas llamadas
componentes principales.” Está diseñado de tal manera que cada uno
de los sucesivos componentes principales explica una cantidad
decreciente de la variación en el conjunto de datos
PCA
LDA
Interpretación.

u El análisis de componentes principales (PCA) aplicado a estos datos


identifica la combinación de atributos (componentes principales o
direcciones en el espacio de características) que representan la mayor
variación en los datos. Aquí graficamos las diferentes muestras en los 2
primeros componentes principales.
u El análisis discriminante lineal (LDA) intenta identificar los atributos que
explican la mayor variación entre clases . En particular, LDA, a diferencia
de PCA, es un método supervisado que utiliza etiquetas de clase
conocidas.
Bibliografía.

u Tan, P.-N., Steinbach, M., and Kumar, V. Introduction to Data Mining.


Addison-Wesley, 2006.
u Master Data Science Online. (2020, 28 mayo). Aprendizaje Automático no
Supervisado: Máster en Data Science ≡ ONLINE.
https://masterdatascience.online/aprendizaje-automatico-no-
supervisado/
u K-medias. (s. f.). Wikiwand. https://www.wikiwand.com/es/K-medias
u Rodriguez., O. (s. f.). Método. Oldemar Rodriguez.
https://docplayer.es/8851985-Metodo-k-medias-u-n-a-i-n-t-r-o-d-u-c-c-i-o-
n.html

También podría gustarte