uber (1)

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 22

Projet

Uber
01.

Projet uber
Description

Ce projet consiste à développer une solution pour aider les chauffeurs


d'Uber à identifier les zones les plus populaires où se trouvent les
utilisateurs à tout moment de la journée. Uber a identifié que l'une des
principales frustrations de ses utilisateurs est le temps d'attente
lorsqu'un chauffeur n'est pas à proximité.
Description

Pour réduire ces temps d'attente, Uber souhaite déterminer où se trouvent


ces "meilleures-zones" où les chauffeurs devraient se positionner
pour maximiser leurs chances de trouver des clients rapidement
Objectifs

1 - Algorithme de Clustering: L'objectif est de créer un algorithme


qui regroupera les lieux de prise en charge en clusters pour identifier ces
hot-zones.
Dataset utilisé

Description des colonnes pertinentes

● Lat : Latitude de la localisation d'un trajet Uber.


● Lon : Longitude de la localisation d'un trajet Uber.
● Ces colonnes représentent les coordonnées géographiques utilisées pour le
clustering.

Taille des données

● Les données couvrent plusieurs mois en 2014 et 2015.


● Plusieurs millions de lignes issues des fichiers suivants :
○ Avril à septembre 2014.
○ Janvier à juin 2015.
Distribution des Données

Distribution des données

● Les trajets sont majoritairement concentrés dans les zones urbaines.


● La densité de points est particulièrement élevée dans les grandes villes.
Prétraitement des Données

Filtrage

● Suppression des points géographiques hors des limites définies pour éviter le bruit.
● Exclusion des valeurs nulles ou incohérentes dans les colonnes Lat et Lon.

Normalisation

● Les coordonnées n'ont pas été normalisées car elles conservent leur sens
géographique brut pour le clustering.

Autres traitements

● Découpage en échantillons pour des analyses spécifiques.


● Ajout d'étiquettes temporaires pour explorer des clusters liés à différentes périodes.
Méthodologie de clustering

K-means : Définition et Fonctionnement

● K-means regroupe les données en divisant les points en K clusters.


● Il minimise la somme des distances au carré entre chaque point et le centre de son
cluster (WCSS).
● Processus :
1. Initialisation de K centres aléatoires.
2. Assignation des points au centre le plus proche.
3. Recalcul des centres et répétition.

Limites de K-means pour des Données Géographiques

● Sensible aux valeurs aberrantes et au bruit.


● Assume des clusters sphériques, inadaptés aux formes irrégulières.
● Ne gère pas les points isolés.
Méthodes de clustring

DBSCAN : Définition et Avantages

● DBSCAN identifie les clusters basés sur la densité des points.


● Avantages :
○ Gère les clusters de formes irrégulières.
○ Ignore les points isolés (bruit).
● Paramètres principaux :
○ eps : Distance maximale entre deux points pour les considérer comme
voisins.
○ min_samples : Nombre minimal de points dans un voisinage pour former
un cluster.
Evaluation des clusters

K-means : Résultats de WCSS


Évolution du WCSS pour différents K :
K=1 : 72502
K=2 : 51717.83
K=3 : 34216.22
K=4 : 27924.12
K=5 : 23098.00
K=6 : 18452.75
K=7 : 14877.05
K=8 : 12435.59
K=9 : 10946.08
K=10 : 9578.92

- Analyse : La diminution de WCSS ralentit après K=4, suggérant un bon choix pour le nombre de
clusters.
Evaluation des clusters

K-means : Silhouette Score


Mesure de la cohérence des clusters :

K=2 : 0.74
K=3 : 0.44
K=4 : 0.46
K=5 : 0.47
K=6 : 0.48
K=7 : 0.48
K=8 : 0.43
K=9 : 0.40
K=10 : 0.41

● Analyse : Un score élevé pour K=2 indique des clusters bien séparés.
Résultats

4.1. Résultats de K-means

● Graphiques de l'évolution de WCSS.


● Visualisation des clusters sur la carte.
● Limites observées (par exemple, faible segmentation pour certains groupes).

4.2. Résultats de DBSCAN

● Cartographie des clusters.


● Exploration des paramètres (eps, min_samples) :
○ Impact sur le nombre de clusters.
○ Visualisations interactives des clusters (si disponibles).
Comparaison des méthodes

Performances : K-means vs DBSCAN

● K-means :
○ Meilleur pour des clusters compacts et bien séparés.
○ Moins performant avec des formes irrégulières ou bruitées.
● DBSCAN :
○ Prend en compte les points isolés.
○ Efficace pour des clusters de densité variable.
○ Résultats influencés par le choix de eps et min_samples.

Recommandation :

● DBSCAN est plus adapté si les données contiennent des zones de densité variable.
● K-means est utile pour des clusters homogènes avec peu de bruit.
Résultas du kmeans
Évolution de WCSS (Within-Cluster Sum of Squares)
Voici les valeurs obtenues pour différents nombres de clusters K :
K=1 : 72502
K=2 : 51717.83
K=3 : 34216.22
K=4 : 27924.12
K=5 : 23098.00
K=6 : 18452.75
K=7 : 14877.05
K=8 : 12435.59
K=9 : 10946.08
K=10 : 9578.92


● Analyse : La diminution rapide de WCSS ralentit après K=4, ce qui suggère que 4 clusters est un bon choix.

Limites observées

● Les clusters sont bien définis pour des valeurs faibles de K, mais les clusters peuvent manquer de cohérence pour des
données de densité variable.
Visualisation des Clusters de K-means

Carte des clusters générés :


● Les clusters sont représentés par des points regroupés
géographiquement.
● Ils montrent une séparation claire dans les zones urbaines denses.

Problème : Certaines zones de faible densité sont mal segmentées, limitant


l'efficacité de K-means dans ces cas.
Résultats de DBSCAN

Paramètres explorés

● EPS : Valeur testée = EPS4 (0.1 ou autre valeur selon le contexte exact).
● Min_samples : Valeur testée = MIN_SAMPLES4 (4 ou autre valeur selon le
contexte exact).

Impact des paramètres

● La variation de eps et min_samples influence directement :


○ Le nombre de clusters formés.
○ L'identification des points isolés comme bruit.
Cartographie des Clusters DBSCAN

● Résultats générés :
○ Les clusters identifiés sont représentés par des couleurs distinctes.
○ Les points isolés (bruit) sont exclus, ce qui améliore la cohérence des
clusters.

Limites observées

● La performance dépend du choix des paramètres eps et min_samples.


● DBSCAN peut ne pas capturer de larges clusters homogènes.
Comparaison des méthodes
Avantages et Inconvénients Observés

K-means

● Avantages :
○ Simple et rapide à implémenter.
○ Utile pour des clusters bien séparés.
● Inconvénients :
○ Mal adapté aux clusters de densité variable.
○ Sensible au bruit et aux valeurs aberrantes.
Avantages et Inconvénients Observés

DBSCAN

● Avantages :
○ Gère efficacement les formes complexes et le bruit.
○ Ne nécessite pas de spécifier le nombre de clusters à l’avance.
● Inconvénients :
○ Paramètres eps et min_samples difficiles à optimiser.
○ Moins performant pour des clusters très denses ou homogènes.
Conclusion et Perspectives

- K-means reste une méthode simple et efficace pour des ensembles


de données homogènes et bien séparés.
- DBSCAN est plus adapté aux données complexes avec des formes
irrégulières et des zones bruitées.
Perspectives :
● Intégration de méthodes hybrides pour exploiter les avantages des
deux algorithmes.
● Exploration des clusters en fonction d'autres variables (temps, type de
trajet).

Vous aimerez peut-être aussi