uber (1)
uber (1)
uber (1)
Uber
01.
Projet uber
Description
Filtrage
● Suppression des points géographiques hors des limites définies pour éviter le bruit.
● Exclusion des valeurs nulles ou incohérentes dans les colonnes Lat et Lon.
Normalisation
● Les coordonnées n'ont pas été normalisées car elles conservent leur sens
géographique brut pour le clustering.
Autres traitements
- Analyse : La diminution de WCSS ralentit après K=4, suggérant un bon choix pour le nombre de
clusters.
Evaluation des clusters
K=2 : 0.74
K=3 : 0.44
K=4 : 0.46
K=5 : 0.47
K=6 : 0.48
K=7 : 0.48
K=8 : 0.43
K=9 : 0.40
K=10 : 0.41
● Analyse : Un score élevé pour K=2 indique des clusters bien séparés.
Résultats
● K-means :
○ Meilleur pour des clusters compacts et bien séparés.
○ Moins performant avec des formes irrégulières ou bruitées.
● DBSCAN :
○ Prend en compte les points isolés.
○ Efficace pour des clusters de densité variable.
○ Résultats influencés par le choix de eps et min_samples.
Recommandation :
● DBSCAN est plus adapté si les données contiennent des zones de densité variable.
● K-means est utile pour des clusters homogènes avec peu de bruit.
Résultas du kmeans
Évolution de WCSS (Within-Cluster Sum of Squares)
Voici les valeurs obtenues pour différents nombres de clusters K :
K=1 : 72502
K=2 : 51717.83
K=3 : 34216.22
K=4 : 27924.12
K=5 : 23098.00
K=6 : 18452.75
K=7 : 14877.05
K=8 : 12435.59
K=9 : 10946.08
K=10 : 9578.92
●
● Analyse : La diminution rapide de WCSS ralentit après K=4, ce qui suggère que 4 clusters est un bon choix.
Limites observées
● Les clusters sont bien définis pour des valeurs faibles de K, mais les clusters peuvent manquer de cohérence pour des
données de densité variable.
Visualisation des Clusters de K-means
Paramètres explorés
● EPS : Valeur testée = EPS4 (0.1 ou autre valeur selon le contexte exact).
● Min_samples : Valeur testée = MIN_SAMPLES4 (4 ou autre valeur selon le
contexte exact).
● Résultats générés :
○ Les clusters identifiés sont représentés par des couleurs distinctes.
○ Les points isolés (bruit) sont exclus, ce qui améliore la cohérence des
clusters.
Limites observées
K-means
● Avantages :
○ Simple et rapide à implémenter.
○ Utile pour des clusters bien séparés.
● Inconvénients :
○ Mal adapté aux clusters de densité variable.
○ Sensible au bruit et aux valeurs aberrantes.
Avantages et Inconvénients Observés
DBSCAN
● Avantages :
○ Gère efficacement les formes complexes et le bruit.
○ Ne nécessite pas de spécifier le nombre de clusters à l’avance.
● Inconvénients :
○ Paramètres eps et min_samples difficiles à optimiser.
○ Moins performant pour des clusters très denses ou homogènes.
Conclusion et Perspectives