KMeans Clusters
KMeans Clusters
KMeans Clusters
Integrantes
Natalia Merino (85828)
Gastn Sabatelli (85523)
M. Florencia Pereira (88816)
Introduccin al problema
K-Means resuelve un problema de clustering, que
consiste
en:
Se tiene un conjunto de datos u observaciones (x1, x2, ,
Caractersticas del
algoritmo
Es un problema NP-hard an para k=2.
Un problema es NP-hard si puede resolverse mediante un algoritmo que
Complejidad
n = numero de puntos,
k = numero de clusters,
I = numero iteraciones,
d = numero de atributos
cluster.
Mtodo no supervisado de aprendizaje
Los objetos debern poder representarse
mediante atributos numricos.
Los clusters son mutuamente expluyentes.
Los objetos pertenecientes a un cluster estn
lo ms cerca posible entre s y lo ms lejos
posible de los elementos de otros clusters.
Algoritmo
1. Se eligen arbitrariamente k centros o medias, una por cada
Anlisis grfico
1) Se eligen k medias
iniciales (en este caso k=3)
en forma aleatoria .
2) Se crean k clusters
asociando cada
observacin con la media
que ms se le acerca.
atributo 1 (X):
peso
Atributo 2 (Y):
pH
Remedio A
Remedio B
Remedio C
Remedio D
2
1.5
1
0.5
0
0.5
1.5
2.5
3
Peso
3.5
4.5
5.5
D
C1
C2
4.5
4
3.5
3
2.5
pH
2
1.5
1
0.5
0
0.5
1.5
2.5
3
Peso
3.5
4.5
5.5
D
C1
C2
2
1
0
0.5
1.5
2.5
3
Peso
3.5
4.5
5.5
D
C1
C2
Resultado
Remedio
Peso
pH
Cluster
Remedio A
Remedio B
Remedio C
Remedio D
Ventajas
Es un algoritmo sencillo y rpido.
Fcil de implementar. Por esta razn, la
Desventajas
El resultado del algoritmo es muy sensible a la
Desventajas (cont.)
Muy sensible a datos anmalos.
No funciona bien si los grupos son de distinto
Ejemplo en
WEKA
Bibliografa
http://elvex.ugr.es/decsai/intelligent/slides/
dm/D3%20Clustering.pdf
http://home.dei.polimi.it/matteucc/Clustering
/tutorial_html/kmeans.html
http://maya.cs.depaul.edu/classes/ect584/we
ka/k-means.html
Preguntas?
Gracias