Ben Tadjine - Amel - F5
Ben Tadjine - Amel - F5
Ben Tadjine - Amel - F5
Département d’Informatique
Filière : Informatique
Option : STIC
Juin 2022
Dédicace
Pour tes encouragements, ton soutien et surtout pour ton amour et ton sacrifice afin
que rien m’entrave le déroulement de mes études.
Quoi que je fasse ou que je dise, je ne saurai point te remercier comme il faut. Ton
affectation me couvre, ta bienveillance me guide et ta présence à mes côtés a toujours
été ma source de force pour affronter les différents obstacles.
Pour ton soutien moral et ton encouragement tout au long de mes études.
ii
Remerciements
iii
Résumé
iv
Abstract
Nowadays, transport has become an essential element for the modern societies. So the
management of networks has become also important. Among the most used tools for the
management of these networks, we find traffic lights. These lights do not adapt to the amount
of traffic (fixed time for each traffic light). The evolution of new technologies has made it
possible to solve this problem and to make traffic lights smart.
The objective of this work is to propose a new dynamic control solution l for intelligent
traffic lights using reinforcement learning combined with deep learning. The main advantage
of our system is to provide adaptation between traffic lights and smooth traffic flow in
different conditions.
Keywords: Smart traffic lights, Traffic control, Reinforcement learning, Deep learning.
v
ملخص
في الوقت الحاضر ،أصبح النقل البري عنصرًا أساسيًا في عمل المجتمعات الحديثة .لذلك أصبحت إدارة مثل
هذه الشبكة مهمة .من بين األدوات األكثر استخدا ًما إلدارة هذه الشبكات نجد إشارات المرور .هذه األخيرة ،ال تتكيف مع
مقدار حركة المرور (وقت محدد لكل إشارة مرور) .أدى ظهور التقنيات الجديدة إلى حل هذه المشكلة وسمح لألضواء
بأن تكون ذكية.
الهدف الرئيسي من عملنا هو اقتراح حل جديد للتحكم الديناميكي في إشارات المرور الذكية باستخدام التعلم
المعزز والتعلم العميق أيضا .الميزة الرئيسية لنظامنا هي أنه يوفر التكيف بين إشارات المرور وتسهيل حركة المرور
في ظروف مختلفة.
الكلمات المفتاحية :إشارات المرور الذكية ،التحكم في حركة المرور ،التعلم المعزز ،التعلم العميق.
vi
Table de matière
Dédicace ii
Remerciements iii
Résumé iv
Abstract v
ملخص vi
INTRODUCTION GENERALE 1
vii
4.2. Signalisation intelligente 9
4.2.1. Feux tricolores 10
4.2.2. Inconvénients des feux tricolores 11
4.2.3. Définition de la signalisation intelligente 11
4.2.4. Architecture générale de la signalisation intelligente 11
4.3. Défis dans la conception de la signalisation intelligente 12
4.4. Avantages de la signalisation intelligente 12
5. Conclusion 13
viii
II. Implémentation et expérimentation 30
1. Matériel utilisés pour le développement de l’application 30
2. Outils logiciels utilisés pour le développement de l’application 31
3. Exécution et résultats 31
3.1. Paramètres du Q-Learning 31
3.2. Paramètres du Deep-Learning 31
3.3. Tableau d’initialisation des paramètres 32
4. Déroulement de l’exécution 32
5. Discussion des résultats 35
6. Conclusion 38
CONCLUSION GENERALE 39
REFERENCES BIBLIOGRAPHIQUES 40
ix
Liste des figures
xi
Liste des tableaux
xii
Introduction générale
Des feux de circulation classique ont été mis en place pour gérer ce
phénomène. En effet, la plupart des villes africaines en général et algériennes en
particulier utilisent ce type de signalisation (temps fixe pour chaque feu) réglées une
seule fois en tenant compte de prévisions du trafic. On peut observer par exemple que
la durée des feux est la même à 8H00 du matin, où la circulation est complètement
embouteillée par les camions de marchandises traversant la ville et les particuliers se
rendant à leur travail, qu’à 22H00 le soir où la plupart des rues sont complètement
dégagées [1]. Le minutage prédéfini ne tient pas compte des conditions du trafic.
On voit bien là, la nécessité de systèmes plus dynamiques connus sous le nom
des systèmes de transport intelligent. Ces systèmes, permettent le contrôle adaptatif du
trafic à l’aide des informations fournis par ses capteurs.
1
Dans le deuxième chapitre, on expose les travaux existants sur la signalisation
intelligente.
2
Chapitre 1. Concepts de base
3
1. Introduction
La croissance rapide de l’urbanisation a entraîné une augmentation du nombre de
véhicules dans les villes et les agglomérations. Par conséquent, de grandes préoccupations
sont entraînés, telles que la congestion, les retards de transport et la pollution. C'est pourquoi,
des nouvelles techniques de gestion de trafic sont apparues et qui s'insèrent sous le concept de
"Systèmes du Trafic Intelligent".
Dans ce chapitre on va parler des notions de base du réseau routier et les systèmes de
gestion de ce réseau en soulignant l'importance de la signalisation intelligente.
2. Réseau routier
On peut définir un réseau routier comme un ensemble d’intersections, liées entres eux
avecdes routes où chaque route comporte une ou plusieurs voies [2].
a. Route [2]
C’est le trajet pour déplacer d’un endroit vers un autre. Elle se caractérise par sa
longueur, nombre de voies et les directions de la circulation à l’intérieur.
4
b. Intersection
Le croisement entre deux routes ou plus forme une intersection [4]. Les mouvements
au sein d’une intersection sont caractérisés par ses routes d’origine et ses routes de
destination. Elle peut avoir plusieurs schémas à savoir la géométrie de l’infrastructure.
Elle comporte trois zones [2] :
- Zone de conflit : elle présente la ressource critique que tous les véhicules partagent.
C’est l’espace de croisement des routes.
- Zone de sortie : c’est la zone qui peut libérer l’intersection, elle forme la sortie de
celle-ci.
5
3. Congestion routière
3.1. Définition
C’est un phénomène apparus lorsque la capacité du réseau routier s’approche de sa valeur
maximale. On peut dire que la congestion est un cas où la demande du trafic dépasse l’offre
[5]. Ce phénomène apparaît le plus souvent à des heures de pointe. Ces derniers représentent
la période de grande fréquentation de la journée pendant laquelle un trafic est le plus
important. Généralement, c'est le moment où la majorité des personnes actives se rendent à
leur lieu de travail (entre 7h et 9h le matin) et puis lorsqu'ils rentrent à leur domicile (entre
17h et 20 h).
La pollution.
6
4. Gestion du réseau routier
La gestion du trafic routier s’inscrit dans le domaine des systèmes de transport intelligent [2].
Dans les années 80, et avec l’évolution de la technologie de nouveaux projets ont été
proposés. Ils avaient les mêmes buts qui sont la réduction de la pollution, l’optimisation de la
sécurité, etc. Les deux projets qui ont été développés sont (PROMETHEUS – PROgraM for
European Traffic with Highest Efficiency en 1986 ; IVHS America – Intelligent Vehicle
Highway Society of America en 1988). Le développement technique et technologique avec
les objectifs attendus, forment ainsi une source pour l’innovation des nouveaux STI.
4.1.2. Définition
La notion d’intelligence des systèmes du trafic est liées à l’intégration des appareils et
de la technologie de l’Internet des Objets (Internet Of Things - IOT) au sein de ces systèmes,
tels que les capteurs, les actionnaires et les systèmes embarqués avec microprocesseur. En
effet, les villes sont devenues plus intelligentes grâce au développement de l’IOT, qui a mené
à la création des nouvelles applications visant à améliorer la vie des gens [9].
7
Figure 3. Présentation de la structure du service télépéage [10].
Sécurité des véhicules et des routes : C’est le service qui aide à éviter les accidents de
la route. Il permet aux véhicules de communiquer leurs positions afin d’éviter les
collisions.
8
Figure 5. Présentation du service d’appel d’urgence [10].
9
4.2.1. Feux tricolores
Aux niveaux des carrefours, les feux de circulation ou bien feux tricolore, sont des
dispositifs aidant à la régulation du trafic routier entre les véhicules et les piétons [3].
Généralement, ils fonctionnent avec la séquence (vert, orange, rouge) avec un temps fixe pour
chaque couleur [11].
Feu vert : Celui qui indique que l’usager a la propriété à procéder [3].
Feu orange ou jaune : Celui qui indique que le conducteur doit marquer l’arrêt, sauf
s’il ne peut pas arrêter son véhicule dans les conditions de sécurité suffisantes [3].
Feu rouge : Celui qui indique au conducteur qu’il doit marquer absolument l’arrêt
[3].
Un cycle de feu :
10
Une phase de feu :
C’est une durée pendant laquelle un ou bien plusieurs flux de véhicules cohérents
(ensemble de véhicules qui peuvent franchir l’intersection au même temps) sont admis
à l’intersection [12].
L’émission des gaz carboniques due aux filles d’attentes crées par les feux de
signalisation non adaptatifs.
La perte du temps.
11
- Module de contrôle du trafic : le contrôle intelligent des feux de signalisation
(ou de circulation) a besoin d'une conception de contrôleur efficace, pour
commuter, selon le trafic, les feux tricolores en utilisant les informations
collectées par le module précédent [13].
Réduire la pollution
Réduire le stress.
12
5. Conclusion
Au sein de ce chapitre, on a défini les Systèmes du Trafic Intelligents (STI) et la
signalisation intelligente. On a exposé les avantages et les défis de la signalisation intelligente.
Dans le prochain chapitre, on s’intéressera aux travaux reliés sur la signalisation intelligente.
13
Chapitre 2. Etat de l’art
14
1. Introduction
Chaque année le nombre des usagers routiers augmente et dépasse la capacité de
certaines routes conduisant à des embouteillages et à des files d’attente longues. Ce
phénomène de congestion mène à la création des nouvelles techniques de contrôle du trafic
parmi eux les feux de signalisation intelligentes.
2. Travaux reliés
Les travaux existants peuvent être classés selon deux axes : les méthodes mathématiques
et les méthodes issues de l’intelligence artificielle.
Les auteurs dans [16] ont aussi proposé un algorithme intelligent de contrôle de feux
de circulation, basé sur la PD mais combinée avec les réseaux de neurones. En supposant que
le futur schéma d’arrivée des véhicules est connu, PD est utilisé pour trouver les temps des
feux verts optimaux pour une intersection isolée.
Dans [17], les auteurs ont proposé de nouvelles approches mathématiques pour gérer
le système de trafic urbain sur une intersection isolée. En effet, ils ont proposé des approches
basées sur la méthode "Branch and Bound" [18] pour le contrôle de feux de circulation. Ils
ont aussi utilisé des nouvelles technologies pour traiter le mouvement de chaque véhicule
individuellement et distinguer les différents types de véhicules tels que les véhicules publics
et d'urgence.
15
2.2. Modèles issus de l'intelligence artificielle
Pour les solutions issues de l‘intelligence artificielle, on retrouve des travaux se basant
sur la logique, les méthodes bio-inspirées et les méthodes issues de l’apprentissage par
renforcement. Les derniers travaux ont été synthétises comme suit :
La logique floue [19] permet de remplacer le choix strictement binaire par la mise en
place des degrés de vérification d’une condition. Plusieurs auteurs l’ont utilisé pour le
traitement des problèmes de gestion des feux de signalisation [20-21].
Dans [22], les auteurs ont proposé aussi un feu de signalisation intelligent se basant
sur la logique floue. La collecte des données de trafic est effectuée en utilisant un
réseau de capteurs sans fil. Ces données collectées forment deux entrées pour le
contrôleur logique (quantité de trafic et le temps d’attente pour chaque voie). Puis, ce
contrôleur calcule un degré de priorité afin d’attribuer le feu vert pour la valeur la plus
élevée.
Les auteurs dans [23] ont aussi utilisé la méthode Mamdani de la logique floue pour
développer une meilleure conception dynamique de contrôle de feux de circulation. La
durée du feu vert est prédite en se basant sur trois critères qui sont : le nombre de
véhicules, la longueur de la file d’attente et la largeur de chaque voie où chacun de ces
critères prend une valeur dans des intervalles identifiés précédemment. En utilisant
ainsi certaines règles et avec les valeurs des trois critères le calcul de la durée de feu
vert est calculée.
Dans [24], ils ont prouvé qu’ils peuvent améliorer efficacement les performances du
contrôleur basé sur la logique floue, en appliquant une méthode bio-inspiré qui est
l’Optimisation par Essaim Particulaire (PSO) pour affiner les paramètres du contrôleur
de feux de signalisation.
Le réseau de neurone [19] est inspiré du système nerveux biologique. Il est composé
de plusieurs neurones connectés entre eux. Dans cette méthode, l’apprentissage est fait
de sorte que pour chaque entrée particulière, il y a une sortie cible en ajustant les poids
entre les neurones. Cet ajustement est fait en comparant la sortie du réseau par rapport
à la valeur cible attendue, jusqu’à aboutir à la sortie correspondante. Il peut apporter
des solutions simples à des problèmes complexes.
16
Cet outil a été utilisé aussi pour la conception des feux adaptatifs [25]. En effet, le
modèle de la logique flou proposé est combiné à un réseau de neurone pour optimiser
le contrôleur du trafic.
L’algorithme génétique [19] est parmi aussi les outils utilisés pour traiter le problème
de gestion du trafic routier [26,27]. A l’aide des informations sur le trafic, tels que le
nombre de véhicules et le temps moyen d’attente sur une intersection, cet algorithme
peut appliquer des méthodes d’optimisation afin d’aboutir à une solution approchée.
Dans [5], les auteurs ont proposé d’optimiser le temps pour quatre intersections. Au
début ils ont créé le chromosome initial de 16 valeurs aléatoires où chaque gène
présente une durée de feu vert et à partir de cette représentation, la population initiale
est générée en permutant ses gènes. Puis des opérateurs de mutation et croisement sont
appliqués aux individus. Ils ont utilisé une sélection par roulette et ce processus se
répète jusqu’à aboutir à un nombre de génération bien défini.
17
Contrairement aux travaux basés sur la politique du gradient profond qui mappent
leurs observations directement, les agents basés sur la fonction de valeur estiment les
valeurs pour tous les signaux de contrôle légaux, ensuite ils sélectionnent l’action de
contrôle optimale avec la valeur la plus élevé.
Dans [33], ils ont conçu un contrôleur intelligent de feux de circulation. Ils ont utilisé
l’algorithme d’apprentissage Q-learnig en tenant compte des informations du trafic
aux intersections voisines aussi. Ces informations sont captées à l’aide des caméras.
Dans [34], les auteurs ont conçu un contrôleur de feux de circulation à l’aide d’un
algorithme d'apprentissage Q-asynchrone à n étapes sur deux intersections. L’agent a
été présenté par un réseau de neurones à deux couches cachées. L’état de
l’environnement est basé sur des statistiques du trafic et des informations sur la phase
actuelle de feux de signalisation. Les actions ont été modélisées par l’activation des
phases vertes. La récompense est définie en fonction du nombre de véhicules en file
d’attente. Les auteurs ont développé une simulation dynamique et stochastique à des
heures de pointe pour tester les performances de l'agent.
Tous ces travaux ont été synthétisés dans le tableau comparatif suivant tout en
soulignant les avantages et les problèmes de chaque méthode utilisée.
Programmation T. H. Heung et al, 2005 [14] Elle Fournit une Méthode très couteuse
dynamique solution en espace mémoire
J. Wu et al, 2009 [15]
globalement (calculs intermédiaires)
D. Teodorović et al, [16] optimale.
2006
Elle est très flexible,
en permettant l’ajout
des fonctions ou
bien des contraintes
quelconques.
Branch and YAN et al, 2008 [17] La complexité Il est limité aux réseaux
bound temporelle est de petite taille.
moindre
18
Logique floue Z. Liao et L. Zhao, [20] Il n’est pas Précision de réglage en
2006 nécessaire de faire général peu élevé.
[21] un modèle
R Patil et al, 2016 Exigences de calcul très
mathématique du élevées pour un haut
R Hawi et al, 2017 [22]
système à régler. degré de précision.
D. Hartanti et al, 2019 [23]
Optimisation par Y. Wei et al : 2008 [24] Convergence rapide. Stagne dans des optima
essaim locaux.
particulaire Le temps de calcule est
long pour les instances
de grande taille.
19
Apprentissage T. L. Thorpe et C. W. [28]
par renforcement Anderson, 1996 S'adapte bien à la Il exige beaucoup du
M. Wiering et al : 2000 [29] dynamique de temps et de puissance
l'environnement de calcul pour entraîner
S. Araghi et al : 2013 [30]
le modèle.
K. Prabuchandran , [31]
2014
S. S. Mousavi et al , [32]
2017
TD Learning
et
20
apprentissage par
renforcement basé sur la
fonction de valeur
3. Conclusion
Vu la dynamique du trafic et les travaux reliés présentés ci-dessus, on peut souligner
l’importance de l’apprentissage par renforcement pour la conception des systèmes intelligents
de contrôle du trafic. Dans ce cadre, on se propose d’utiliser cette méthode d’apprentissage
pour la conception de notre modèle et qui sera détaillée dans le chapitre suivant.
21
Chapitre 3. Conception et
implémentation
22
1. Introduction
Les méthodes d’apprentissage par renforcement sont des outils adaptés au
modèle dynamique du trafic. C’est dans ce cadre que s’insère notre modèle proposé.
Ce type d’apprentissage se base sur le modèle décisionnel de Markov : Un outil
mathématique puissant de modélisation de la dynamique de l’environnement.
Dans ce qui suit, on présente dans la première partie de ce chapitre les concepts
clés de cette modélisation. Elle sera suivie par la présentation du modèle proposé
impliquant l’algorithme d’apprentissage par renforcement choisi (Q-learning) et
amélioré par une autre technique d’apprentissage (Deep-Learnimg). Les résultats de
l’implémentation seront exposés à la fin de ce chapitre.
I. Modélisation et conception
1. Concepts clés de la modélisation
1.1. Processus de Décision de Markov (PDM)
C’est un outil de formalisation de la prise de décision séquentielle. C’est à dire,
pour un processus qui passe par un ensemble d’états, s’il est à un instant t dans l’état st,
alors la distribution de la probabilité conditionnelle de l’état suivante st+1 ne dépend
que de l’état qui la précède [35]. Le modèle de Markov forme un moyen très utile pour
la description du comportement dynamique d’un agent [36]. Donc, il représente la
base de la structuration des problèmes résolus par l’apprentissage par renforcement
[35].
23
L'agent : c’est l’unité fondamentale de l’apprentissage par renforcement. Il
interagit séquentiellement avec son environnement, en disposant de
l’intelligence essentielle pour prendre des décisions et choisir la bonne action
pour une situation donnée [35].
L'environnement : Il représente le monde avec lequel l’agent interagit et
apprend [38].
L'ensemble d'actions : représente tous les actions possibles que l’agent peut
effectuer [38].
a. Q-learning
Q-learning est l’un des algorithmes fondamentaux d’apprentissage par
renforcement [38]. IL permet de stocker toutes les valeurs Q d’état-action possibles
pour une politique optimale de l’agent dans un tableau. La mise à jour de ce tableau est
établie en utilisant l’équation (1) [39] :
Où :
rt+1 signifiée la récompense reçue après avoir exécuter l’action at dans l’état st.
Q' (s t+1, a t+1) est la valeur Q associée à l'action at+1 dans l'état st+1, c'est-à-dire
l'état suivant après l'action at dans l'état st.
b. Politique décisionnelle
L’agent suit une politique décisionnelle selon les valeurs optimales de Q. On la
désigne par le symbole π. C’est une fonction qui met en correspondance un état donné avec
les probabilités de sélectionner chaque action possible dans cet état [35]. Néanmoins, la
politique peut changer pour avoir une meilleure exploration des solutions en utilisant d'autres
politiques existantes (ε-greedy, softmax,..).
25
2. Modèle Proposé
Pour adapter le modèle proposé à notre problématique (signalisation intelligente), on
doit modéliser tout d'abord les composants de l’algorithme Q-learning et qui sont : l’agent,
l’environnement, les états, les actions et la récompense.
2.1. Modélisation
a. L’agent
L'agent représente le système de contrôle des feux de signalisation qui interagit
avec l'environnement dynamique.
b. Environnement
Représentant le trafic à l’intérieur d’une intersection.
d. L’action
Une action de l’agent représente l’activation d’une phase verte pour un ensemble
de voies à une durée fixée. On a quatre actions possibles définies comme suit :
26
Vague Nord-Sud : la phase verte est active pour les véhicules qui se
trouvent dans les tronçons Nord et Sud et qui veulent continuer tout droit ou
tourner à droite.
Vague Nord-Sud Gauche : la phase verte est active pour les véhicules
qui se trouvent dans les tronçons Nord et Sud et qui veulent tourner à gauche.
Vague Est-Ouest : la phase verte est active pour les véhicules qui se
trouvent dans le tronçon Est et Ouest et qui veulent continuer tout droit ou tourner
à droite.
Vague Est-Ouest à gauche : la phase verte est active pour les véhicules
qui se trouvent dans le tronçon Est et Ouest et qui veulent tourner à gauche.
27
Figure 15. Vague Est-West.
e. La récompense
Comme on a vu précédemment, la récompense est le résultat que
l’environnement donne à l’agent après avoir exécuter une action at à partir d’un état st. Dans
cette application, l'objectif est de fluidifier le flux de trafic à travers le carrefour dans le
temps. La récompense doit être dérivée donc d'une mesure de performance de l'efficacité du
trafic. Plusieurs mesures ont été utilisées dans la littérature telle que le débit, le retard
moyen, le temps d’attente et le temps de parcours. Dans notre modèle, on a choisi d’utiliser
le temps d’attente cumulé jugé comme un paramètre important pour la fluidification du
réseau routier. Il est calculé par l’équation (3)
𝑇𝐴𝐶𝑡 = ∑𝑣𝑒ℎ=1
𝑛 𝑇𝐴 (𝑣𝑒ℎ, 𝑡) (3)
28
Où :
TACt est le temps d'attente total cumulé à l’instant t.
TAt (veh,t) est la durée en secondes pendant laquelle un véhicule veh est en attente à
l’instant t, depuis son apparition dans l'environnement.
n est le nombre total de véhicules dans l'environnement à l'instant t.
La 2ieme étape de notre modèle proposé est l'amélioration du Q-learning. Cette dernière est
représentée ci-dessous
Une fois que le réseau neuronal profond s'est suffisamment approché de la fonction
Q-learning, il reste juste de choisir la politique de sélection d’une action.
29
-Politique du choix d’action
Après l’explication des différentes parties de notre modèle, on peut le présenté dans
la figure suivante :
Chaque voie entrante présente les directions qu’une voiture peut suivre. La voie à
droite est dédiée au virage à droite ou continuer tout droit. Les deux voies médianes sont
dédiées pour aller tout droit uniquement. Ces trois voies partagent le même feu de
signalisation. La voie à gauche est dédiée seulement au virage à gauche. Un feu de
signalisation est dédié pour cette voie.
30
Figure 18. Intersection modélisée.
Afin de fournir à l’agent une représentation de l’environnement les voies entrantes
sont discrétisées en cellules permettant d’identifier la présence ou l’absence d’un véhicule à
l’intérieur. Chaque tronçon est divisé en cellules. La moitié d’entre eux sont situées le long de
la voie de gauche et les autres couvrent les trois autres voies.
Les véhicules sont représentés par des triangles jaunes (qui représentent les entités
mobiles), Les feux de signalisation sont situés au centre de l’intersection et sont contrôlés par
l’agent. Si l’agent à l’instant t+1 choisit la même action de l’instant t, une phase jaune est
activée. Sinon, il n’y a pas de phase jaune. Cette modélisation a été proposée dans un fichier
environnement.xml. Pour valoriser le modèle proposé, on a utilisé une distribution aléatoire
pour générer les véhicules. A l'aide d'un générateur de nombres aléatoires, le tronçon source
et la destination de chaque véhicule sont déterminés.
31
2. Outils logiciels utilisés pour le développement de l’application
Langage Python 3.6.9 : Python est un langage de programmation de haut niveau
développé par Guido Van Rossum et de nombreux contributeurs bénévoles. Il est un
langage portable, dynamique, extensible, gratuit qui permet une approche modulaire et
orienté objet de la programmation.
SUMO 1.1.0 : est un package de simulation de trafic open source conçu pour gérer de
grands réseaux. Il permet une simulation intermodal incluant les piétons et fournis un
large éventail d’outils pour la création des scénarios.
3. Exécution et résultats
Pour le choix des paramètres utilisés dans l’application, on a pris en considération le
temps d’exécution et la qualité de l'apprentissage et de la solution obtenue.
Paramètre Valeur
Gamma : γ 0.75
32
Nombre d’états 80
Nombre d’actions 4
Taux d’apprentissage 0.001
4. Déroulement de l’exécution
L’exécution du programme est faite sur le Terminal. Une phase d’entraînement est
lancée, suivie d’une phase de simulation présentée par les figures suivantes :
33
Figure 20.Modèle en cours d’entraînement.
34
Maintenant la phase de simulation peut commencer après cette phase
d’entraînement.
35
Figure 24. Fin de la simulation.
Les résultats obtenus ont été présentés sous forme de graphes valorisant la performance du
système proposé pour les étapes d’entraînement et de test et sont exposés ci-dessous.
36
La figure 25 présente le résultat d’entraînement du notre modèle en fonction de temps
d’attente cumulé. On remarque que le temps d’attente diminue avec le nombre d’épisodes, ce
qui veut dire que notre modèle est bien entraîné.
Faible débit
37
Moyen débit :
Haut débit :
Les figures précédentes présentent la file d’attente résultant du test du modèle entraîné.
Dans les trois figures, on remarque qu’il y a des pics à certains moments. Ces pics se diffèrent
d’une figure à une autre selon les types de débit.
38
Pour la figure 26 : 4 véhicules au maximum, la figure 27 : 12 véhicules au maximum
et la figure 28 : 18 véhicules au maximum. On remarque aussi que le nombre de véhicules
n’augmente pas d’une façon exponentielle, au contraire après chaque pic le nombre de
véhicules diminue.
Ces résultats reflètent l’adaptation du modèle proposé aux différents types de trafic
etassurent :
Elimination de la congestion.
Fluidification du trafic.
6. Conclusion
Dans ce chapitre, on a présenté un modèle hybride proposé pour la signalisation
intelligente (Q-learning avec Deep-Learning). On a aussi exposé notre modélisation du trafic
à l’intérieur de l’intersection à l’aide de la plateforme SUMO. Les résultats obtenus
permettent d’appuyer le modèle proposé et de souligner son adaptation au trafic.
39
Conclusion générale
Dans ce mémoire, nous avons présenté des notions importantes sur les réseaux
routiers et les systèmes intelligents de gestion de ces réseaux dans une première partie.
Ensuite, dans la deuxième partie nous avons présenté les travaux connexes sur les contrôles de
feux de signalisation intelligente.
Notre recherche nous a amené à proposer une nouvelle solution pour la gestion
dynamique de la signalisation intelligente en utilisant une hybridation entre deux algorithmes
d’apprentissage qui sont l’apprentissage par renforcement (Q-learning) et le Deep Learning.
Le système proposé a été testé pour différents débits de trafic, où on a constaté que
notre système est adaptatif au grand débit de trafic et répond ainsi à l'objectif attendu qui est
l'élimination de la congestion aux heures de pointe.
40
Références bibliographiques
[1] I.ALIOUA ,et A.DJOUDER . Gestion de Trafic Urbain à base de Réseau de Capteurs sans
Fil : Cas de la Ville de Bejaia . Mémoire de fin de cycle en vue de l‟obtention du diplôme de
Master en Recherche Opérationnelle, 2012
[2] S.Hadj Rabah, D.Nouari, Feux Tricolores Intelligents pour les Villes Intelligentes,
Mémoire de Master, Université Akli Mohand Oulhadj de Bouira, 2019.
[3] Guideke B.R, Valerie M.O.M.R. Etude et Simulation des feux de circulation cas du
carrefour poste centrale de Yaoundé Caméroun. 2018.
[4] Jia Wu, Utilisation de la conduite coopérative pour la régulation de trafic dans une
intersection, École Doctorale Sciences Pour l’Ingénieur et Microtechniques, 20 Juillet 2011.
[5] Y.Aibeche, Développement d'un système intelligent de gestion des feux de circulation à
Base des algorithmes génétiques, 2020.
[7] A.Kumar , Développement d'un système intelligent de feux de circulation à l'aide Réseau à
tolérance de retard. Thèse en exécution partielle pour l'attribution du diplôme de maître de la
technologie dans informatique ,université guru gobind singh indraprastha 2010- 2012.
[9] Zantalis F, Koulouras S, Kandris D. A Review of Machine Learning and IOT in Smart
Transportation. Future Internet 2019,11,94; DOI:10.3390/fi11040094.
[11] Labsi M.Y, Ouamri S ; Un système de feux tricolores intelligent de gestion de circulation
à Ain Témouchent ; Centre universitaire Belhadj Bouchaib ; 2019/2020.
41
[13] Agrawal A, Paulus R. Intelligent trafic light design and control in smart cities : a survey
on a techniques and methodologies. International Journal of Vehicle Information and
Communication Systems, January 2020.DOI : 10.1504/UVICS2020.111456.
[15] J. Wu, A. Abbas-Turki, and A. El Moudni, “Discrete methods for urban intersection
traffic controlling,” in IEEE 69th Vehicular Technology Conference (VTC Spring). IEEE,
2009, pp. 1–5.
[17] F. Yan, M. Dridi, and A. El Moudni, “A scheduling approach for autonomous vehicle
sequencing problem at multi-intersections,” International Journal of Operational Research,
vol. 9, no. 1, pp. 57–68, 2011.
[18] W.Glankwamdee. Topics in Branch and Bound on computational grids. doctoral thesis.
Lehigh University. 2008.
[20] Z. LIAO and L. ZHAO. Wireless sensor networks help to improve the traffic safety in
residential communities. In 6th International Conference on ITS Telecommunications
Proceedings, pages 973 -978. June 2006.
[22] R Hawi, G Okeyo, M Kimwele, Smart Traffic Light Control using Fuzzy Logic and
Wireless Sensor Network, in Computing Conference. London. 2017.
42
[23]D. Hartanti, R. N. Aziza, and P. C. Siswipraptini, “Optimization of smart traffic lights to
prevent traffic congestion using fuzzy logic,” TELKOMNIKA, vol. 17, no. 1, pp. 320–327,
2019,doi:10.12928/TELKOMNIKA.v17i1.10129.
[24] Y. Wei, Q. Shao, Y. Han, and B. Fan, “Intersection signal control approach based on pso
and simulation,” in Second International Conference on Genetic and Evolutionary
Computing. IEEE, 2008, pp. 277–280.
[26] X.F. CHEN et Z.-K. SHI. Real-coded genetic algorithm for signal timing optimization of
a single intersection. In International Conference on Machine Learning and Cybernetics,
volume 3, pages 1245 - 1248, 2002.
[28] T. L. Thorpe and C. W. Anderson, “Traffic light control using sarsa with three state
representations,” tech. rep., Citeseer, 1996.
[29] M. Wiering et al., “Multi-agent reinforcement learning for traffic light control,” in
ICML, pp. 1151–1158, 2000.
[31] S. S. Mousavi, M. Schukat, and E. Howley, “Traffic light control using deep policy-
gradient and value-function- based reinforcement learning,” IET Intell. Transp. Syst., vol. 11,
pp. 417–423, 2017, doi:10.1049/iet-its.2017.0153.
[32] Y.Liu, L.Liu, W.Chen. Intelligent Traffic Light Control Using Distributed Multi-agent Q
Learning. IEEE 20th Internationnal Conference on Intelligent Transportation System (ITSC).
2017.
43
[33] W. Gender. Reinforcement Learning Traffic Signal Control. Thèse de doctorat.
McMaster University. Hamilton, Ontario (Civil Engineering). 2018.
[37] D.L.S.Marta, Deep Learning Methods for Reinforcement Learning, Thesis to obtain the
Master of Science Degree in Aerospace Engineering, 2016.
[38] M.Benyamine, Deep Reinforcement Learning for Complex Manipulation Tasks with
Sparse Feedback, A thesis submitted in fulfillment of the requirements for the degree of
Master of Industrial Engineering and Management, Ben-g urion university of the negev, 2020
44