Bouali Hakim Acyl I A
Bouali Hakim Acyl I A
Bouali Hakim Acyl I A
Thème :
Utilisation d’une méthode d’apprentissage supervisée pour la
detection de l’attrition d’un client Djezzy
Membres de jury :
Il est essentiel pour moi de remercier les professionnels rencontrés au sein de l’entreprise
DJEZZY qui m’ont accordé leur temps pour répondre à mes questions et je remercie
plus particulièrement mon encadreur Monsieur HANNACHI Radhouane pour ses
directives précieuses et son appui considérable dans ma démarche.
Je tiens à remercier les membres du jury d’avoir bien accepté de consacrer leur temps
pour évaluer ce modeste travail.
Je souhaite vivement remercier ma famille pour leur soutien et leur compréhension tout
au long de mes années d’études.
Enfin, je n’oublie pas de remercier mes amis d’études et tous ceux qui ont contribué de
près ou de loin à ma formation et à l’aboutissement de ce projet.
1
Dédicaces
A ma chère maman.
2
Résumé
La perte de clientèle est un problème majeur des grandes entreprises en raison de son effet
direct sur les revenus de celles-ci, en particulier dans le secteur de télécommunication. Les
entreprises cherchent à mettre au point des moyens pour prédire l’attrition des clients. La
principale contribution de notre travail est de développer un modèle de prévision du taux de
désabonnement qui aide les opérateurs de télécommunications à prédire les clients les plus
susceptibles de quitter. Pour développer un modèle performant répondant à cet effet, nous
mettons en œuvre divers algorithmes d’apprentissage supervisé et choisissons le meilleur selon
son taux de précision.
3
Table des matières
Introduction générale ...................................................................................................... 8
Chapitre I....................................................................................................................... 11
Apprentissage automatique ........................................................................................... 11
I.1. Introduction ............................................................................................................ 12
I.2. Apprentissage automatique..................................................................................... 12
I.1.1. Définition ......................................................................................................... 13
I.1.2. Types d’apprentissage automatique ................................................................ 13
I.1.3. Objectifs des méthodes d’apprentissage .......................................................... 15
I.1.4. Types de données............................................................................................. 16
I.3. Algorithmes d’apprentissage automatique ............................................................. 18
I.3.1. Algorithmes d’apprentissage supervisé ........................................................... 18
I.3.2. Algorithmes d’apprentissage non supervisé .................................................... 37
I.4. Quelques exemples d’application des algorithmes de l’apprentissage supervisé .. 42
I.5. Conclusion .............................................................................................................. 44
Chapitre II ..................................................................................................................... 45
Domaine d’étude ........................................................................................................... 45
II.1. Introduction ........................................................................................................... 46
II.2. Etude de l’existant ................................................................................................. 46
II.2.1. Fiche signalétique de Djezzy.......................................................................... 46
II.2.2. Historique ....................................................................................................... 47
II.2.3. Structure fonctionnelle de Djezzy .................................................................. 48
II.2.4. Domaine d’étude : .......................................................................................... 50
II.2.5. Besoin de l’application à réaliser ................................................................... 51
II.3. Conclusion ............................................................................................................. 51
Chapitre III .................................................................................................................... 52
Conception .................................................................................................................... 52
III.1. Introduction .......................................................................................................... 53
III.2. Approche proposée .............................................................................................. 53
III.3. Attrition (churn en anglais) .................................................................................. 53
III.4. Cycle de vie de notre projet ................................................................................. 54
III.5. Architecture du projet .......................................................................................... 55
4
III.6. Algorithmes à utiliser ........................................................................................... 56
III.7. Conclusion ........................................................................................................... 56
Chapitre IV .................................................................................................................... 57
Implémentation ............................................................................................................. 57
IV.1. Introduction.......................................................................................................... 58
IV.2. Logiciels et librairies ........................................................................................... 58
IV.2.1. Logiciels ....................................................................................................... 58
IV.2.2. Librairies ....................................................................................................... 58
IV.3. Mise en œuvre...................................................................................................... 59
IV.3.1. Compréhension du problème métier ............................................................. 59
IV.3.2. Compréhension des données ........................................................................ 59
IV.3.3. Préparation des données ............................................................................... 63
IV.3.4. Modélisation ................................................................................................. 67
IV.3.5. Evaluation ..................................................................................................... 71
IV.4. Résultats et discussion ......................................................................................... 75
IV.5. Implémentation du meilleur modèle dans notre étude......................................... 77
IV.6. Perspectives ......................................................................................................... 78
IV.7. Conclusion ........................................................................................................... 78
Conclusion générale ..................................................................................................... 79
Bibliographie................................................................................................................. 81
5
Table des figures
6
Table des tableaux
7
|Introduction générale
Introduction générale
8
|Introduction générale
Contexte du travail
La perte de la clientèle est l’un des problèmes de plus en plus préoccupants du secteur des
télécommunications. Le progrès technique et le nombre croissant d’opérateurs ont accru le
niveau de concurrence. En raison du coût élevé de l’acquisition de nouveaux clients, le secteur
des télécommunications est passé de la stratégie de l’acquisition à celle de la fidélisation des
clients déjà existants. Pour appliquer cette stratégie, les entreprises doivent réduire le potentiel
de l’attrition des clients (customer churn en anglais). D’autre part, la prévision des clients
susceptibles de quitter l’entreprise représentera une source de revenus supplémentaire
potentiellement importante si cela est fait à un stade précoce.
L’apprentissage automatique est l’art de l’analyse prédictive dans lequel un système est
formé sur un ensemble de données pour en apprendre à partir des modèles, puis testé pour
effectuer des prédictions sur un nouvel ensemble de données. Plus les prédictions sont précises,
plus le modèle est performant.
Problématique
La perte des clients communément appelé « attrition » constitue un vrai problème dans
les entreprises évoluant dans les différents secteurs d’activités surtout en situation de
concurrence où l’industrie de la télécommunication en fait partie.
Djezzy est une entreprise qui évolue dans ce secteur et souffre de ce phénomène et est
mise en concurrence dans le marché de la télécommunication en Algérie.
9
|Introduction générale
Afin de parvenir à réduire la rétention des clients, on devrait commencer par connaitre
qui sont les clients susceptibles de partir ? Quelle est la probabilité qu’un client parte ? Et
pouvons-nous les prédire à l’avance ?
Contributions
Pour y parvenir au problème cité auparavant, nous pensons mettre en place des techniques
d’apprentissage supervisé en regroupant des données sur les clients Djezzy à une période avec
leurs différentes caractéristiques.
Organisation du mémoire
- Dans le premier chapitre nous aborderons les deux techniques les plus populaires
de l’apprentissage automatique ainsi que quelques généralités sur les algorithmes
de celui-ci ;
- Dans le second chapitre nous étudierons le domaine de notre recherche ;
- Dans le troisième chapitre nous présentons notre approche pour concevoir notre
système de prédiction de l’attrition.
- Dans le quatrième et dernier chapitre nous présentons l’implémentation de notre
solution ainsi que les résultats expérimentaux obtenus sur notre base de données
en nous basant sur les critères d’évaluation que nous définirons
10
Chapitre I
Apprentissage automatique
11
|Chapitre I : Apprentissage automatique
I.1. Introduction
L’apprentissage automatique s’appuie sur des observations ou sur des expériences pour
produire une procédure qui permettra de classer des individus, des objets et à prédire de
nouvelles entrées.
Après avoir donné quelques définitions, nous présentons dans ce chapitre l'apprentissage
supervisé et nous citons quelques algorithmes les plus populaires pour la classification
supervisée. Ensuite, nous élaborons un tableau qui montre les différents avantages et
inconvénients des algorithmes cités.
Dans les années 1990, grâce aux statistiques, l’apprentissage automatique est devenu très
célèbre. L’intersection de l’informatique et de la statistique a donné naissance à des approches
probabilistes de l’IA. Cela a déplacé le champ vers des approches basées sur des données.
Disposant de données à grande échelle, les scientifiques ont commencé à mettre en place des
12
|Chapitre I : Apprentissage automatique
systèmes intelligents capables d’analyser de grandes quantités de données et d’en tirer des
enseignements.
Les progrès de l’IA se sont poursuivis jusqu’aux années 2000, plusieurs contributions
scientifiques à l’IA firent, telles que le concept du deep learning.
I.1.1. Définition
«L'apprentissage automatique est la science qui consiste à faire en sorte que les
ordinateurs agissent sans être explicitement programmés.» - Stanford [1]
Pour commencer, un algorithme d’apprentissage est représenté par une fonction qui prend
en entrée un ensemble d’apprentissage ou d’entrainement D et fournit un classifieur h.
L’objectif de l’algorithme A est de généraliser l’information contenue dans D afin de produire
une fonction prédictive.
En fonction du type de problème que l’on se pose, on peut mettre en place plusieurs types
d’apprentissage.
13
|Chapitre I : Apprentissage automatique
Apprentissage supervisé
b. Et une valeur de sortie Y appelée valeur supervisée (qui peut être une classe pour le
cas d’une classification).
Apprentissage non-supervisé
Il vise à concevoir un modèle structurant l’information. La différence ici est que les
comportements (ou catégories ou encore les classes) des données d’apprentissage ne sont pas
connus, c’est ce que l’on cherche à trouver. [3]
Comprenons cela par un exemple. Supposons qu’un chef d'un magasin de location
souhaiterait comprendre les préférences de ses clients pour développer son activité. Il pourra
14
|Chapitre I : Apprentissage automatique
regrouper tous ses clients en 10 groupes en fonction de leurs habitudes d'achat et utiliser une
stratégie distincte pour les clients de chacun de ces 10 groupes.
La classification
(Équation I.1)
𝑋→𝑌
ℎ {
𝑥 ⟼ 𝑦 = ℎ(𝑥)
Notez que pour le problème de classification, l’espace des réponses 𝑌 ⊂ ℕ est discret et
fini, vu que chaque 𝑦 ∈ 𝑌 représente une classe. Lorsque 𝑌 est continu (c.à.d. 𝑌 ⊂ ℝ), on parle
alors du problème de régression, qui sert à estimer la relation entre une à plusieurs variables
𝑥(𝑖) ∈ ℝ et une autre variable 𝑦 ∈ ℝ. Dans le cadre de ce mémoire, nous nous intéressons au
problème de classification qu’au problème de régression.
15
|Chapitre I : Apprentissage automatique
coût 0/1 : vaut 0 lorsque les étiquettes prévues et observées coïncident (c.à.d. lorsque
la classe de 𝑥 est correctement prédite), 1 sinon. Ce type de coût est utilisé pour la
classification.
Erreur quadratique : (équation I.2) (ℎ(𝑥) − 𝑦)2. Elle est utilisée particulièrement en
régression.
La régression
La segmentation
Par définition, selon Stanford, le machine learning est une technologie de l’intelligence
artificielle permettant aux ordinateurs d’apprendre sans avoir été programmés explicitement
[1]. Pour apprendre et se développer, les ordinateurs ont besoin de données à analyser et sur
lesquelles s’entrainer. Les données, donc, sont très importantes pour l’apprentissage.
16
|Chapitre I : Apprentissage automatique
Données structurées
Elles résident généralement dans des bases de données relationnelles (SGBDR) et sont
constituées de champs avec des types de données prédéfinis. Le langage SQL (Structred Query
Language) permet d'effectuer des requêtes sur ce type de données structurées dans des bases de
données relationnelles. Les données structurées sont facilement analysées d’ailleurs, la plupart
des algorithmes d’apprentissage automatique fonctionnent avec des données structurées.
Données semi-structurées
Elles conservent un type de données contenant des balises sémantiques qui identifient des
éléments de données distincts, ce qui permet le regroupement d'informations et les hiérarchies.
Le courrier électronique est un exemple très courant de type de données semi-structuré ainsi
que XML et d’autres langages de balisage.
Données non-structurées
Elles sont composées de types de fichiers, tels que des fichiers texte, audio, vidéo, et des
publications sur les réseaux sociaux, qui peuvent être plus difficiles à analyser et à exploiter.
Ces données sont également stockées dans une base de données non relationnelle telle
que NoSQL (Not only SQL).
Les données non structurées sont généralement pré-traitées pour en extraire des données
structurées, avant que le modèle ne puisse être construit.
17
|Chapitre I : Apprentissage automatique
Parmi les méthodes de classification supervisées les plus populaires, on peut citer :
L’algorithme des plus proches voisins (K-PPV ou K-NN pour Nearest Neighbor) consiste
à déterminer pour chaque nouvel individu que l’on veut classer, la liste des plus proches voisins
parmi les individus déjà classés. L’individu est affecté à la classe qui contient le plus d’individus
parmi ces plus proches voisins. Cette méthode nécessite de choisir une distance, et le nombre
de voisins à prendre en compte soit k.
Afin de trouver les k plus proches d’une donnée à classer, on peut choisir plusieurs
mesures de distance, la plus souvent utilisée est la distance Euclidienne, cependant, en fonction
du problème, on peut encore utiliser les distances de Manhattan, de Mahalanobis, de Hamming,
etc.
Distance Euclidienne :
Distance Manhattan :
𝑛
𝑑(𝑥, 𝑦) = ∑ |𝑥𝑖 − 𝑦𝑖|
𝑖=1
Distance de Hamming :
18
|Chapitre I : Apprentissage automatique
𝑛
𝑑(𝑥, 𝑦) = ∑ |𝑥𝑖 − 𝑦𝑖|
𝑖=1
𝑥 = 𝑦 ⇒ 𝑑(𝑥, 𝑦) = 0
𝑥 ≠ 𝑦 ⇒ 𝑑(𝑥, 𝑦) = 1
- Choix de k
- Algorithme
- Exemple
19
|Chapitre I : Apprentissage automatique
158 58 M
158 59 M
158 63 M
160 59 M
160 60 M
168 62 L
160 64 L
163 64 L
165 61 L
Sur la base de données fournie, nous devons prédire la taille du t-shirt du client suivant :
20
|Chapitre I : Apprentissage automatique
161 61 ?
Pour trouver les plus proches voisins, nous allons calculer la distance euclidienne :
4.2
158 58 M
3.6
158 59 M
3.6
158 63 M
2.2
160 59 M
1.4
160 60 M
7.1
168 62 L
160 64 L 3.2
163 64 L 3.6
165 61 L 4
21
|Chapitre I : Apprentissage automatique
4.2
158 58 M
3.6
158 59 M
3.6
158 63 M
2.2
160 59 M
1.4
160 60 M
7.1
168 62 L
160 64 L 3.2
163 64 L 3.6
165 61 L 4
2/3 des voisins se dirigent vers la taille « M ». Par conséquent, selon l’algorithme k-nn la
classe de (161,61) est la taille « M ».
22
|Chapitre I : Apprentissage automatique
Un classifieur probabiliste simple basé sur le théorème de Bayes qui suppose que les
descripteurs qui décrivent les objets de l’ensemble d’apprentissage sont indépendants (d’où le
nom naïf).
𝑃(𝑥 |𝑦)𝑃(𝑥)
Théorème de Bayes est donné par : (équation I.3) 𝑃(𝑥|𝑦) = , 𝑎𝑣𝑒𝑐 𝑃(𝑥|𝑦) est
𝑃(𝑦)
- Formulation
(Équation I.4)
Cette dernière formule peut s’écrire d’une manière différente, d’après la règle de Bayes.
(Équation I.5)
23
|Chapitre I : Apprentissage automatique
(Équation I.7)
𝑛
- Exemple
Nous disposons des 10 exemples de courriels bancaires suivants afin de prédire si un mail
est un spam ou pas.
Nous souhaitons prédire la classe des messages suivants : « gagner million », « million
compte » et « code compte ».
P (spam) P (¬spam)
6/10 4/10
24
|Chapitre I : Apprentissage automatique
Par conséquent, nous devons trouver la classe y avec la probabilité maximale (Équation
I.7).
- Définition
Un arbre de décision est une structure qui est souvent utilisée pour représenter des
connaissances. Il permet de remplacer ou d’assister un expert humain dans la détermination des
propriétés d’un objet, c’est l’opération de classification. Un arbre de décision est une
représentation d’une procédure de décision pour déterminer la classe d’un objet donné.
25
|Chapitre I : Apprentissage automatique
Classer un nouvel individu se fait par une descente dans l’arbre, de la racine vers une des
feuilles (qui encode la décision ou la classe). A chaque niveau de la descente on passe un nœud
intermédiaire où une variable est testée pour décider du chemin (ou sous arbre) à choisir pour
continuer la descente.
Température ≼ 37.5
Chaque feuille
oui non représente une
Chaque nœud interne teste
classe
un attribut
Gorge irritée
malade
oui non
Chaque branche correspond à
une valeur de l’attribut
malade bien-portant
26
|Chapitre I : Apprentissage automatique
instances. La sélection des attributs est basée sur une heuristique ou une mesure statistique.
Enfin, partitionner les instances entre les nœuds fils suivant la satisfaction des tests.
Le choix des attributs à tester est une étape cruciale pour la construction de l’arbre car
elle permet de choisir l’attribut qui permettra de répartir au mieux le jeu d’apprentissage. Pour
ce faire, une mesure statistique est souvent utilisée. L’objectif principal est de construire des
arbres de décision relativement simples. On cherche un arbre petit et simple plutôt qu’un arbre
grand qui est complexe difficile à interpréter par un non-expert.
Dans la pratique, les deux mesures les plus connues sont : l’entropie et l’indice de Gini.
(Équation I.8)
𝑛 |𝐶𝑖| |𝐶𝑖|
𝐸(𝐴) = − ∑ ∗ (𝑙𝑜𝑔2 ( ))
𝑖=1 |𝐴| |𝐴|
- Indice de Gini :
(Équation I.9)
𝑛 |𝐶𝑖| |𝐶𝑖|
𝐼(𝐴) = − ∑ ∗ (1 − )
𝑖=1 |𝐴| |𝐴|
27
|Chapitre I : Apprentissage automatique
Les forêts aléatoires sont introduites par Breiman en 2001, basés sur le principe de
l’algorithme expliqué précédemment. L’idée derrière leur conception été d’améliorer la
précision des modèles obtenus, les forêts aléatoires combinent plusieurs modèles pour obtenir
une meilleure performance. Dans ce contexte deux méthodes sont particulièrement utilisées : le
bagging et le boosting.
- Le bagging
Le « bagging » est un algorithme qui se base sur le « Bootstrap » qui consiste à créer de
nouveaux échantillons par tirage au hasard dans l’ancien échantillon, avec remise.
28
|Chapitre I : Apprentissage automatique
classifieur est construit, le résultat de la classification est ensuite obtenu par rapport au vote
majoritaire.
- Le boosting
- Algorithme
29
|Chapitre I : Apprentissage automatique
La régression logistique binaire est une technique prédictive qui vise à construire un
modèle permettant de prédire les valeurs prises par une variable cible qualitative à partir d’un
ensemble de variables explicatives quantitatives ou qualitatives.
Cette méthode a été utilisé dans plusieurs domaines de recherche tels que la biologie
humaine, la sociologie, la finance …, dans ce type de modèle le but est de décrire la relation
entre une variable expliquée ou réponse Y dichotomique codée traditionnellement en 0 pour
absence du phénomène et 1 pour présence du phénomène que nous cherchons à expliquer à
travers p variables explicatives 𝑋 = (𝑋1 , … , 𝑋𝑝 ) ∈ ℝ𝑝 .
- Formulation
(Équation I.10)
𝑝
𝑙𝑜𝑔𝑖𝑡(𝑝) = ln( )
1−𝑝
(Équation I.11)
𝑝(𝑌 = 1|𝑋)
𝑙𝑜𝑔𝑖𝑡(𝑝(𝑌 = 1|𝑋)) = ln ( ) = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑗 𝑥𝑗
1 − 𝑝(𝑌 = 1|𝑋)
30
|Chapitre I : Apprentissage automatique
- Principe
La technique des séparateurs à vastes marges est utilisée pour résoudre des problèmes de
discrimination, c.à.d. décider à quelle classe appartient un échantillon de données ou de
régression, prédire la valeur numérique d’une variable.
Les SVMs ont été développés pour but de séparer les données en deux classes à l’aide
d’une frontière aussi simple que possible, de telle façon que la distance entre les différents
groupes de données et la frontière qui les sépare soit maximale. Cette distance est aussi appelée
« marge » et les SVMs sont ainsi qualifiés de « séparateurs à vaste marge », « les vecteurs de
support » étant les données les plus proches de la frontière.
L’idée principale des SVMs est de reconsidérer le problème dans un espace de dimension
supérieure, éventuellement de dimension infinie. Dans ce nouvel espace, il est alors probable
qu’il existe un hyperplan séparateur linéaire. Si c’est le cas, les SVMs cherche parmi l’infinité
des hyperplans séparateurs celui qui maximise la marge entre les classes.
Les SVMs font appel à une fonction implicite qui transforme les entrées X en un vecteur
dans un espace de Hilbert F. Dans le cas d’un classement en 2 classes, on détermine un
hyperplan dans cet espace F. la solution optimale repose sur la propriété que les objets sont les
plus éloignés possibles de l’hyperplan, on maximise ainsi les marges.
La distance d’un point au plan est donnée par 𝑑(𝑥) = |𝜔𝑥 + 𝛽|/||𝜔||.
31
|Chapitre I : Apprentissage automatique
𝑓(𝑥) ≥ 0 ⇒ 𝑥 ∈ 𝑐𝑙𝑎𝑠𝑠𝑒1
{
𝑓(𝑥) > 0 ⇒ 𝑥 ∈ 𝑐𝑙𝑎𝑠𝑠𝑒2
- Exemple :
L’objectif est de tracer un hyperplan qui classe tous les vecteurs d’apprentissage en deux
classes {-1,1}.
Un hyperplan f(x) donne une fonction discriminante linéaire qui divise l’espace d’origine
en deux demi-espaces : 𝑓(𝑥) = 𝜛𝑥 + 𝛽 où 𝜛 est le vecteur de poids et 𝛽 est le biais.
2
En remplaçant 𝛽 dans l’équation I.12 : 𝛼 = 5
11
On remplace la valeur de 𝛼 dans l’équation I.14 : 𝛽 = − 5
2 4
Donc 𝛽 = (5 , 5)
(Équation I.15)
2 4 11
𝑓(𝑥) = 𝑥1 + 𝑥2 − ⟺ 𝑓(𝑥) = 𝑥1 + 2𝑥2 − 5
5 5 5
32
|Chapitre I : Apprentissage automatique
Maintenant, pour décider à quelle classe appartient l’exemple suivant (4,5). Il suffit de
remplacer les variables 𝑥1 𝑒𝑡 𝑥2 par les valeurs 4 et 5 respectivement dans l’équation I.15 :
𝑓(4,5) = 8,5 > 1 du coup on va le classer dans la classe +1.
Les réseaux de neurones artificiels (Artificial Neural Networks en anglais) sont des
modèles de calculs dont la conception initiale est très schématiquement inspirée du
fonctionnement des neurones biologiques.
Grâce à leur capacité d’apprentissage, les réseaux neuronaux permettent de découvrir des
relations complexes entre un grand nombre de variables, sans intervention externe. Les tâches
particulièrement adaptées au traitement par réseau de neurones sont : l’association, la
classification, l'estimation, et la commande de processus complexes.
Les réseaux de neurones sont constitués d’un ensemble de neurones (nœuds) connectés
entre eux par des liens qui permettent de propager les signaux de neurone à neurone.
L’architecture générale d’un réseau de neurones est subdivisée en plusieurs niveaux, ainsi, on
retrouve trois différentes couches: une couche d’entrée, une couche de sortie, et entre ces deux
une couche cachée. Ces couches peuvent être composées de un ou plusieurs neurones. La figure
suivante représente l’architecture générale d’un réseau de neurones :
33
|Chapitre I : Apprentissage automatique
- Le perceptron
34
|Chapitre I : Apprentissage automatique
Les entrées sont les valeurs que reçoit le réseau en entrée, il peut s’agir de valeurs
numériques, alphabétiques, alphanumériques, des images, des signaux et autres. Par exemple
dans le domaine médical ce sera les symptômes du malade, dans notre domaine il s’agit des
différentes variables de notre base de données contenant des informations historiques des
clients. Les valeurs sortantes de cette couche iront directement dans la couche cachée.
Les sorties sont les valeurs que retourne le réseau de neurones, tout comme les entrées,
elles peuvent être de différents types. Par exemple dans le domaine médical ce sera la maladie
et pourquoi pas aussi le traitement à prescrire au malade, dans notre domaine il s’agira de
valeurs binaires 0 ou 1 (0 pour dire que le client est dans la classe non churner et 1 pour dire
que le client est classé churner). Les valeurs retournées par la couche cachée seront prises par
la couche de sortie.
Les poids représentent des valeurs réelles comprises entre 0 et 1, permettant d’affecter
un degré d’importance à une donnée en entrée. Ces poids sont initialisés avec des valeurs
aléatoires. Ils sont modifiés à chaque itération et propagés dans le réseau.
35
|Chapitre I : Apprentissage automatique
Et la fonction de transfert est le modèle mathématiques qui relie les entrées et les sorties
du système. Dans cette étape les valeurs des données xi sont associées à leurs poids respectifs
wi afin de calculer une nouvelle valeur qui sera passée à la couche suivante.
Il existe plusieurs fonction de transfert, on peut citer : les fonctions qui utilisent le
logarithme, le cosinus, l’exponentiel …etc, chacune varient selon le temps d’exécution,
l’espace mémoire, …etc.
- La rétropropagation (Backpropagation)
- Exemple
Nous allons utiliser un perceptron simplifié. Notre perceptron sera un réseau de neurone
comportant deux couches dont tous les neurones seront connectés à la couche suivante. Il s’agit
de reconnaitre un motif géométrique sur un élément de quatre pixels.
Si l’image contient deux, trois ou quatre pixels blancs sera classée comme « claire ». Si
elle contient 0 ou 1 pixel blanc, elle sera classée comme « sombre ».
36
|Chapitre I : Apprentissage automatique
Le réseau va se charger de classer une image de 2*2 pixels soient donc quatre entrées. Il
y a en tout seize motifs possibles soient donc un échantillon de seize exemples.
Pixel 1 X1
0.25
Si S > -0.1
Pixel 2 X2 0.25
1 Clair
S
0 Sombre
0.25
Pixel 3 Sinon
x3
0.25
Nous avons 0.5 > -0.1 donc le résultat du réseau est 1, l’image est classé comme « claire ».
Il existe de nombreuses méthodes de classification non supervisée, seule une sélection est
décrite en dessous. Cette sélection représente les méthodes les plus fréquemment utilisées.
37
|Chapitre I : Apprentissage automatique
Les clusters formés dans cette méthode forment une structure de type arborescence basée
sur la hiérarchie appelée dendrogramme. Il s’agit d’un arbre dans lequel la racine est le cluster
unique qui regroupe tous les échantillons, les feuilles étant les individus, et les nœuds
intermédiaires de l’arbre représentent les clusters.
Commence par une solution spécifique aux données pour arriver à une autre solution plus
générale. Avec ces méthodes, chaque observation est initialement considérée comme un cluster
distinct (feuille), c’est-à-dire on démarre avec autant de clusters que de données. Ensuite, les
clusters les plus similaires sont fusionnés selon un critère donné jusqu’à ce qu’il reste qu’un
seul grand cluster (racine) englobant tous les individus.
Algorithme HCA
Entrée: une collection A de N objets;
Sortie : un dendrogramme
- Initialiser N clusters chacun réduit à un objet de A (𝑪 ∶= {𝑪𝟏 . . . 𝑪𝑵 }) ;
- Initialiser la matrice de distance entre les pairs de cluster ;
- Tant que |𝑪| > 𝟏 ou (condition d’arrêt) faire
38
|Chapitre I : Apprentissage automatique
Illustration
Figure I.6 : Exemple de clustering hiérarchique ascendant pour quelques villes de France qui
ont des profils météo similaires.
39
|Chapitre I : Apprentissage automatique
À l’inverse des méthodes ascendantes, ces méthodes commencent par une solution générale
pour arriver à une autre plus spécifique. Les méthodes descendantes démarrent d’un seul cluster
contenant la totalité des données, puis, elles divisent à chaque étape les clusters selon un critère
jusqu’à l’obtention de n clusters.
Il existe différentes méthodes pour mesurer la distance entre les clusters. On peut citer :
- Single Link Method : définit la distance minimale entre toutes les paires d’objets
de 2 clusters.
- Complete Link Method : définit la distance maximale entre toutes les paires
d’objets de 2 clusters.
- Average Linkage : définit la distance moyenne entre toutes les paires d’objets.
Méthode agglomérative
Méthode divisive
40
|Chapitre I : Apprentissage automatique
Ces méthodes consistent à diviser de manière optimale l’ensemble des instances en un groupe
fini de clusters k étant fixé à priori. Les approches par partitionnement utilisent un processus
itératif en fonction du nombre k qui consiste à affecter chaque individu à la classe la plus proche
au sens d’une distance – ou d’un indice de similarité-. Il existe plusieurs algorithmes utilisant
cette méthode comme K-Means, K-Médoids, CLARANS.
- K-Means
Cet algorithme fut longtemps utilisé sur les grands jeux de données en raison de sa
rapidité. On a n objets à partitionner en k clusters. Cet algorithme construit les k clusters et les
corrige jusqu’à obtenir une similarité satisfaisante, ou qu’il n’y ait plus de changement.
Algorithme
Algorithme K-Means
Entrée : k le nombre de clusters ;
Sortie : ensemble de k clusters ;
Choisir aléatoirement les centres de groupes et le nombre de clusters ;
Répéter
affecter chaque objet O au cluster Ci dont il est le plus proche à son centre ;
recalculer le centre de chaque cluster ;
jusqu’à stabilisation des centres
Illustration
41
|Chapitre I : Apprentissage automatique
Dans la figure I.8, les points représentent les exemples de formation et les croix
représentent les centroïdes des clusters. (a) jeu de données initial. (b) centroïdes de clusters
initiaux aléatoires. (c), (d), (e) et (f) Illustration de l'exécution de deux itérations de k-
means. Dans chaque itération, nous attribuons chaque exemple d'apprentissage au centroïde du
cluster le plus, nous déplaçons ensuite chaque centre de cluster vers la moyenne des points qui
lui sont attribués.
Consiste à identifier dans l’espace de description des objets les régions de forte densité,
entourées par des régions de faible densité pour former les clusters.
42
|Chapitre I : Apprentissage automatique
- Probabilité de collision, par exemple dans le cas d’un jeu vidéo, on calcule la
distance entre le personnage et les objets les plus proches pour savoir si le
personnage peut être bloqué par un obstacle ;
- Interaction à distance : en physique, l’intensité des interactions diminue avec la
distance, il est donc utile de déterminer les plus proches voisins d’une particule,
par exemple, pour limiter les calculs d’interactions.
Arbre de décision
- Diagnostic médical ;
- …
Forêts aléatoires
- Aide au diagnostic médical ;
- La prévision de la pollution ;
- Reconnaissance des positions et des mouvements ;
- Reconnaissance d’actions (exemple : boire, téléphoner, écrire,…)
- …
SVM
43
|Chapitre I : Apprentissage automatique
Réseaux de neurone
- Estimations boursières ;
- Reconnaissance de formes.
I.5. Conclusion
Nous avons présenté une vue générale sur les méthodes de classification supervisée et
qu’elles peuvent être basées sur des hypothèses probabilistes (classifieur naïf bayésien) ou sur
des notions de proximité (plus proche voisins) ou bien encore sur des recherches dans des
espaces d’hypothèses (arbre de décision, réseau de neurone et SVM).
En résumé, les algorithmes k-ppv et le classifieur naïf bayes sont très simple à mettre en
œuvre en revanche, en pratique, il est impossible de les implémenter pour des dimensions plus
élevées et un grand nombre de variables. Les arbres de décisions sont faciles à comprendre, à
interpréter et ont besoin de peu de données pour apprendre contrairement aux réseaux de
neurones qui ont besoin de beaucoup de données. Les résultats obtenus par ces derniers ne sont
pas interprétables car le réseau généré par cet algorithme est une boite noire tout comme la
régression logistique aussi. Les forets aléatoires sont très efficaces dans le cas de grande
dimension et sont robustes contre les valeurs aberrantes, par contre sont souvent un peu lent
durant l’apprentissage. Enfin, tout comme les réseaux de neurones, les SVMs ont une capacité
de manipuler de grandes quantités de données par contre, ils utilisent des fonctions
mathématiques complexes pour la classification et pour trouver les meilleures paramètres, cet
algorithme demande un temps énorme pendant la phase d’entrainement.
Dans le prochain chapitre, nous allons voir comment le machine learning est utilisé dans
le domaine du marketing en télécommunication.
44
Chapitre II
Domaine d’étude
|Chapitre II : Domaine d’étude
II.1. Introduction
La rétention des clients est devenue aujourd’hui très importante avec l’accroissement de
la concurrence et la diversité des offres sur le marché. Dans l’industrie de la télécommunication
par exemple, le taux du churn (ou attrition) annuel chez l’opérateur OTA varie de 8% à 11%
prés. Avec une telle compétitivité, la stratégie mise en place par l’opérateur, au lieu de tenter
d’acquérir de nouveaux clients ou d’attirer les abonnés loin de la concurrence, il s’intéresse
plutôt à la réduction des départs de ces clients surtout que le coût d’acquérir un nouveau client
est cinq fois plus coûteux que d’en garder un abonné.
La rétention d’un client est relativement lié à son insatisfaction sur les offres ou la qualité
des services, il faut donc détecter au plutôt ces motifs d’insatisfaction afin d’y apporter une
réponse appropriée au plus vite.
L’analyse Big Data avec le Machine Learning et le Data Mining s’est révélé être un
moyen efficace d’identifier et de prédire le désabonnement des clients afin d’anticiper la rupture
des clients avant qu’elle se produise.
46
|Chapitre II : Domaine d’étude
II.2.2. Historique
C'est en juillet 2001 que le groupe Orascom Telecom remporte la deuxième licence de
téléphonie mobile en Algérie, et ce pour un montant de 737 millions de dollars. Avec 2,5
47
|Chapitre II : Domaine d’étude
milliards USD d’investissement depuis 2001 à ce jour, fort d’un capital humain de plus de 4000
employés, et plusieurs offres et solutions (3G, 2G et VSAT), OTA (membre du groupe
GTH/VimpelCom).Les numéros de téléphones des abonnés de Djezzy commencent par (07)7x
xx xx xx , (07)9x xx xx xx ou (07)8x xx xx xx pour les numéros plus récents.
Le Chairman de cette entreprise est Vincenzo NESCI depuis juillet 2012. Le groupe
égyptien Orascom Telecom a annoncé, mercredi 18 novembre 2009, avoir été informé
officiellement, le mardi 17 novembre, par la Direction générale des impôts (DGI) d’un
redressement fiscal de 596,6 millions de dollars pour sa filiale algérienne Djezzy. Le parc
abonné de Djezzy s'est établi à 18,872 millions en novembre 2014.
En 2016, Djezzy, grâce à un partenariat avec la startup française Be-Bound, fondée par
Albert Szulman et Yazid Chir, offre désormais à ses clients la possibilité d'avoir internet sur
leur mobile sans connexion 3G, mais dès lors qu'ils captent un signal, même très faible en
transférant les données via le réseau 2G ou le réseau SMS. [7]
48
|Chapitre II : Domaine d’étude
De budget de la technologie ;
Il est responsable:
49
|Chapitre II : Domaine d’étude
50
|Chapitre II : Domaine d’étude
L’attrition des clients, se produit lorsque ceux-ci cessent de faire affaire avec
l’entreprise. L’entreprise est intéressée par l’identification de segments de ces clients car le prix
pour acquérir un nouveau client est généralement supérieur à celui de conserver l’ancien.
En effet, notre travail est de développer un modèle permettant de prédire le churn d’un
client en utilisant un algorithme de ML et de calculer sa probabilité de quitter. Et ceci à partir
des données historiques des clients.
II.3. Conclusion
Dans ce chapitre, nous avons présenté des informations générales sur l’entreprise et
notamment le département Numérisation/GIE de la direction technologie où se situe notre
travail.
Dans le prochain chapitre, nous allons présenter la conception du système proposé pour
la prédiction du churn des clients, ceci en nous basant sur les clients de l’entreprise Djezzy.
51
Chapitre III
Conception
52
|Chapitre III : Conception
III.1. Introduction
L’un des problèmes majeurs de la gestion des relations clients dans les sociétés de
télécommunication est le départ des clients. L’objectif de l’application à présenter est de savoir
quels types de clients risquent de se désabonner.
53
|Chapitre III : Conception
La compréhension des données : au cours de cette phase, il est important d’avoir une
compréhension fine des données collectées de différentes sources de données disponible
dans l’entreprise. Du coup, un contrôle de cohérence de données est effectué pour
vérifier s’il convient aux objectifs du projet.
La préparation des données : cette phase est estimée par de nombreux experts comme
étant souvent la phase la plus longue et la plus critique d’un projet d’apprentissage
automatique, car la qualité des résultats du modèle dépend de la qualité des données
fournies. Par conséquent, les données doivent être organisées et structurées d’une
manière spécifique. Cette étape rassemble toutes les activités de nettoyage et de
prétraitement requises pour concevoir un tableau de données bien formé à partir duquel
des modèles d’apprentissage peuvent être créé.
54
|Chapitre III : Conception
Généralement cette phase comprend trois étapes : transformation des données, nettoyage
des données et sélection des variables.
Données
Prétraitement
historiques Sélection Construction
des données Evaluation du Prise de
des clients des variables du modèle modèle décision
L’architecture proposée pour notre système de prédiction du churn est constituée de cinq
phases :
55
|Chapitre III : Conception
Plusieurs algorithmes ont déjà été utilisés pour la prédiction du churn dans le l’industrie
de la télécommunication, cependant selon l’échantillon utilisé pour l’étude le taux de prédiction
été différent. Parmi ces algorithmes de machine learning qu’on utilisera, on cite :
III.7. Conclusion
A travers ce chapitre, nous avons exposé la conception de notre projet et son architecture
qu’on mettra en place dans le chapitre suivant. Nous avons vu le cycle de vie d’un projet en
apprentissage automatique.
Dans le prochain chapitre, nous exposerons les résultats expérimentaux obtenus lors des
tests. Nous présentons aussi nos perspectives pour le futur dans le domaine de la détection de
la perte des clients dans le secteur de télécommunication.
56
Chapitre IV
Implémentation
57
|Chapitre IV : Implémentation
IV.1. Introduction
Ce chapitre est consacré à la partie réalisation et tests de notre projet. En effet nous
commençons par présenter les logiciels et librairies utilisées ainsi que la base de données sur
laquelle nous avons construit et testé notre système, pour ensuite exposer les résultats
expérimentaux obtenus. Au final, nous discuterons ces résultats et proposerons des
améliorations afin d’obtenir des résultats meilleurs.
IV.2.1. Logiciels
IV.2.2. Librairies
readxl : lit un fichier Excel de type « .xls » ou « .xlsx » dans une trame de données R ;
sqldf : est un package R utilisé pour l’exécution d’instruction SQL sur des trames de
données R ;
58
|Chapitre IV : Implémentation
Dans cette phase initiale, le but est de comprendre les objectifs du projet.
L’objectif de la prédiction du churn est d’identifier les clients qui sont susceptibles de se
désabonner et de quitter l’entreprise afin de d’améliorer la prise de décision et de mettre en
place des actions de rétention. Pour ce faire, nous considérons les clients qui ont tourné et
analysons leurs données sur une période de trois mois.
Pour notre étude, l’entreprise nous a fournis trois bases de données se présentant comme
suit :
59
|Chapitre IV : Implémentation
Avant de décrire les variables de ces bases, nous avons préféré joindre ces trois bases de
données en une seule avec une simple requête sql pour mieux les visualiser. Et ainsi nous
formons notre trame de données sur laquelle on va travailler.
60
|Chapitre IV : Implémentation
61
|Chapitre IV : Implémentation
l’international durant
mois 5.
TRAF_OUT_VOICE_INTERNATION La durée des appels numeric
AL_M4
émis vers
l’international durant
mois 4.
TRAF_OUT_VOICE_ROAMING_M6 La durée des appels numeric
émis en roaming1
durant le mois 6.
TRAF_OUT_VOICE_ROAMING_M5 La durée des appels numeric
émis en roaming durant
le mois 5.
TRAF_OUT_VOICE_ROAMING_M4 La durée des appels numeric
émis en roaming durant
le mois 4.
CNT_OUT_SMS_TOTAL_M6 Le nombre de numeric
messages envoyés
durant le mois 6.
CNT_OUT_SMS_TOTAL_M5 Le nombre de numeric
messages envoyés
durant le mois 5.
CNT_OUT_SMS_TOTAL_M4 Le nombre de numeric
messages envoyés
durant le mois 4.
REV_REFILL_M6 Le total rechargé numeric
durant le mois 6.
REV_REFILL_M5 Le total rechargé numeric
durant le mois 5.
1
Roaming : c’est un service qui permet à un abonné d’un réseau téléphonique d’utiliser sa
carte SIM dans une autre zone que la zone d’origine de l’opérateur, grâce à des accords entre
les opérateurs.
62
|Chapitre IV : Implémentation
Avant de passer au processus de prétraitement des données nous devons d’abord créer la
variable cible. Dans la télécommunication une règle est définie, en théorie, si un client
n’effectue aucune activité pendant 90 jours il est considéré comme étant un churner. En
pratique, selon un manager de l’entreprise 90% des clients qui ne sont pas actifs pendant 60
jours finissent par quitter l’entreprise. Sur cette analyse, nous allons créer une nouvelle variable
qu’on nommera Date_diff qui calculait la différence des deux champs dates de la base
d’activité. Puis, à partir de cette nouvelle variable nous avons déduit la variable cible nommée
CHURN de type facteur qui valait « 1 » si le client allait quitter et « 0 » s’il restait. Ainsi nous
obtenons 2000 clients étiquetés « churner » et 10000 clients étiquetés « non-churner ».
63
|Chapitre IV : Implémentation
Puis, nous avons calculé d’autres variables nommées outlier_flag_[variablei] pour chaque
variablei, ensuite nous avons calculé la variable globale outlier_flag_global pour voir quels sont
les enregistrements qui ont des valeurs extrêmes. Les résultats obtenus sont résumés dans le
tableau suivant :
churner Non-churner
Aberrant 9717 283
Non-aberrant 1918 82
Dans notre cas, nous avons généré les variables moyennes pour les variables se portant
sur chaque trois mois (AVG_REV, AVG_TRAF_OUT_VOICE_ONNET,
AVG_TRAF_OUT_VOICE_OFFNET, AVG_TRAF_OUT_VOICE_INTERNATIONAL,
AVG_TRAF_OUT_VOICE_ROAMING, AVG_CNT_OUT_SMS_TOTAL,
AVG_REV_REFILL) qui sont de type réel, les variations en pourcentage et réelles des
variables sur trois mois aussi (DIFF_REV5_4, DIFF_REV6_5, DIFF_REV5_4_prct,
DIFF_REV6_5_prct…) et des variables flags (de type facteur) pour les variables SMS et
TRAFIC (SMS_M6_FLAG, ONNET_M6_FLAG, OFFNET_M5_FLAG,…).
- Traitement des valeurs manquantes (NA’s) et infinies (INF’s) des variables dérivées :
Lors de la création des variables de variation en pourcentage y’a eu quelques
valeurs NA’s et INF’s qui ont été générées du coup, pour les traiter nous avons remplacé
les NA’s par des 0 car elles sont dues aux valeurs des deux variables qui sont égales à 0
(c.à.d. 0/0), puis nous avons remplacé les valeurs INF’s par 1 qui vaut 100%.
64
|Chapitre IV : Implémentation
Nom de la variable
REV_M6
DIFF_REV6_5_prct
REV_REFILL_M6
DIFF_REFILL_6_5_prct
DIFF_REV6_5
DIFF_REFILL_6_5
DIFF_ONNET_6_5_prct
65
|Chapitre IV : Implémentation
DIFF_OFFNET_6_5_prct
TRAF_OUT_VOICE_OFFNET_M6
TRAF_OUT_VOICE_ONNET_M6
OFFNET_M6_FLAG
ONNET_M6_FLAG
AVG_REV
AVG_REV_REFILL
DIFF_OFFNET_6_5
DIFF_ONNET_6_5
DIFF_SMS_6_5_prct
DIFF_ONNET_5_4_prct
DIFF_SMS_6_5
REV_M4
Après avoir analysé ces variables, nous avons remarqué qu’elles n’étaient pas vraiment
logiques. Alors, après longue réflexion, nous avons sélectionné les variables de variation en
pourcentage et celle de trafic et SMS en flag. Nous obtenons les variables pertinentes finales
qui seront intégrées au modèle pour l’apprentissage suivantes :
Nom de la variable
DIFF_REV5_4_prct
DIFF_REV6_5_prct
DIFF_ONNET_5_4_prct
DIFF_ONNET_6_5_prct
DIFF_OFFNET_5_4_prct
DIFF_OFFNET_6_5_prct
DIFF_INTERNATIONAL_5_4_prct
DIFF_INTERNATIONAL_6_5_prct
DIFF_ROAMING_5_4_prct
66
|Chapitre IV : Implémentation
DIFF_ROAMING_6_5_prct
DIFF_SMS_5_4_prct
DIFF_SMS_6_5_prct
DIFF_REFILL_5_4_prct
DIFF_REFILL_6_5_prct
SMS_M6_FLAG
SMS_M5_FLAG
SMS_M4_FLAG
ONNET_M6_FLAG
ONNET_M5_FLAG
ONNET_M4_FLAG
OFFNET_M6_FLAG
OFFNET_M5_FLAG
OFFNET_M4_FLAG
INTERNATIONAL_M6_FLAG
INTERNATIONAL_M5_FLAG
INTERNATIONAL_M4_FLAG
ROAMING_M6_FLAG
ROAMING_M5_FLAG
ROAMING_M4_FLAG
IV.3.4. Modélisation
La partition choisie pour les données pour la création des modèles est la suivante :
Dans notre échantillon, la classe cible est déséquilibrée (84% non-churners et seulement
16% churners), ce qui pourrait avoir un impact négatif important sur les modèles finaux.
68
|Chapitre IV : Implémentation
Cette méthode SMOTE () sous R s’avère être une méthode hybride (elle utilise les deux
solutions sur-échantillonnage et sous-échantillonnage) et les résultats obtenus par celle-ci
touche même à la classe majoritaire, chose qu’on ne souhaitait pas avoir. Alors nous avons opté
pour la solution suivante : créer un nouveau data frame qui unit les observations synthétisés de
la classe minoritaires retournées par cette méthode avec les observations de la classe majoritaire
existantes déjà dans l’échantillon d’apprentissage. Ainsi, nous obtenons un effectif de 7773
pour la classe majoritaire (non-churner) et 7711 pour la classe minoritaire (churner).
69
|Chapitre IV : Implémentation
70
|Chapitre IV : Implémentation
IV.3.5. Evaluation
71
|Chapitre IV : Implémentation
Classe « 1 » Classe « 0 »
Classe « 1 » VP FN
Classe « 0 » FP VN
72
|Chapitre IV : Implémentation
Classe « 0 » Classe « 1 »
Classe « 0 » 1632 312
Classe « 1 » 118 257
D’après la matrice de confusion retournée, nous avons obtenu les valeurs de performance
suivantes :
Classe « 0 » Classe « 1 »
Classe « 0 » 1826 136
Classe « 1 » 118 239
73
|Chapitre IV : Implémentation
Classe « 0 » Classe « 1 »
Classe « 0 » 1659 138
Classe « 1 » 285 237
74
|Chapitre IV : Implémentation
Classe « 0 » Classe « 1 »
Classe « 0 » 1716 134
Classe « 1 » 228 241
Le tableau ci-dessous résume les résultats obtenus pour l’évaluation de chaque modèle :
Tableau IV.14 : comparaison des résultats des mesures d’évaluation des pour chaque
algorithme d’apprentissage supervisé.
Comme indiqué dans le tableau ci-dessus, nous observons que les forêts aléatoires ont
surperformé les autres algorithmes testés avec une valeur de précision de 89.05%. Le réseau
de neurone occupe la deuxième place avec une valeur de précision de 84.39%. Tandis que, la
75
|Chapitre IV : Implémentation
régression logistique et l’arbre de décision arrivent en dernière position avec des valeurs de
précision de 81.76% et 81.46% respectivement.
Les principales caractéristiques qui contribuent à prédire le taux du churn ont été classées
à l’aide de la mesure du gain d’information. Plus la valeur du gain est élevée plus la variable
est importante dans la prédiction du churn. Les caractéristiques importantes selon l’algorithme
des forêts aléatoires sont représentées dans la figure suivante :
76
|Chapitre IV : Implémentation
Le modèle développé est un module qui sera intégré à un système global pour prédire la
probabilité de churn pour chaque client.
Alors dans notre cas, nous avons créé une nouvelle colonne qu’on a nommé « score »
qui va calculer pour chaque client sa probabilité de quitter l’entreprise.
Dans la figure suivante, on a effectué une requête sql pour voir le numéro de service du
client et sa probabilité de churner exprimée dans la colonne « score » et voici un aperçu des
résultats obtenus :
IV.6. Perspectives
La prédiction du churn est en train de devenir une des sources qui génèrent des revenus
aux entreprises de télécommunications et à renforcer les relations avec les clients en prévenant
quand ces derniers vont cesser leur activité avec l’entreprise ce qui ouvre la possibilité de
renégocier avec le client et de le fidéliser. Afin de les retenir, l’entreprise devraient mettre
quelques stratégies comme :
- Récompenser ses clients pour leur fidélité et atténuer leur insatisfaction grâce à
l’utilisation d’un cadeau automatisé ou de stratégies de tarifications.
- Le traitement du langage naturel pourrait être utilisé pour effectuer une analyse
thématique des thèmes les plus communs identifiés dans les appels de service à la
clientèle.
IV.7. Conclusion
Dans ce chapitre, nous avons présenté notre base de données sur laquelle nous avons testé notre
système de prédiction du churn. Nous avons exposé nos résultats expérimentaux ainsi que
quelques solutions pour améliorer ce travail.
78
Conclusion générale
79
|Conclusion générale
Notre étude qui s’est porté sur « l’utilisation d’une méthode d’apprentissage supervisé
pour la detection de l’attrition d’un client » au sein de Djezzy nous a permis de toucher à un
domaine de l’intelligence artificielle qui est l’apprentissage automatique, de connaitre quelques
techniques et algorithmes de celui-ci, aussi nous avons implémenté quelques algorithmes de
l’apprentissage supervisé pour notre étude ce qui nous a permis de développer nos
connaissances en ce domaine.
L’importance de ce type d’étude sur le marché des télécommunications est d’aider les
entreprises à accroitre leurs bénéfices. On sait maintenant que la prédiction de l’attrition des
clients est l’une des sources de revenus les plus importantes pour ce type d’entreprises. Par
conséquent, cette recherche visait à construire un système qui prédit le départ des clients dans
la société Djezzy.
Nous souhaitons à l’avenir utiliser le traitement du langage naturel afin de prédire le churn
des clients dans le secteur des télécommunications en analysant les mots et les phrases répétés
dans les appels au service client pour classifier leur réclamations en thèmes (problème de
facturation, d’offre, ou de couverture réseau,…) ou encore extraire certains sentiments qui
indiqueraient la probabilité que le client reste encore un an ou plus ou bien quitterait bientôt
l’entreprise. Dans ce cas, là encore, en utilisant le traitement du langage naturel, l’entreprise
pourrait former un système à détecter les clients à risque et à répondre à leurs besoins profonds
afin de se protéger contre la rétention des clients ou prévoir un système de messagerie
automatique qui pourrait envoyé au client un e-mail personnalisé et convivial reconnaissant les
problème que le client a eu tout en lui notifiant une récompense.
80
Bibliographie
81
Bibliographie
[1] : https://emerj.com/ai-glossary-terms/what-is-machine-learning/.
[2] : https://www.itpedia.nl/fr/2018/04/05/wat-is-machine-learning/.
[3] :http://elearning.univjijel.dz/elearning/pluginfile.php/4333/mod_resource/content/1/
SupportCours_Mokhtar_Taffar_ApprAuto.pdf.
[4] : https://tel.archives-ouvertes.fr/tel-00335313v2/document.
[5] : F.Souam Ait El Hadj, cour fouille de données, Master I, CPI, UMMTO 2018.
[7] : https://www.mpttn.gov.dz/fr/content/djezzy.
http://chercheurs.lille.inria.fr/pgermain/publis/memoire.pdf
http://eric.univ-lyon2.fr/~jahpine/cours/m2_dm-ml/cm.pdf.
http://www.dmi.usherb.ca/~larocheh/cours/ift725_A2014/diapositives/ift615-apprentissage-
automatique.pdf.
http://www.math.univ-
angers.fr/~labatte/enseignement%20UFR/master%20MIM/classificationsupervisee.pdf.
http://www.math.univ-
angers.fr/~labatte/enseignement%20UFR/master%20MIM/classificationsupervisee.pdf.
https://www.math.u-psud.fr/~arlot/enseign/2009Centrale/cours-classif.pdf.
https://www.r-project.org/other-docs.html.
https://www.researchgate.net/figure/Random-forest-model-Example-of-training-and-
classification-processes-using-random_fig5_280533599.
82
G.M. ApurvaSree, S. Ashika, S. Karthi, V. Sathesh, M. Shankar, J. Pamina, Mar-Apr 2019 :
"Churn Prediction in Telecom using".
Abdelrahim Kasem Ahmad, Assef Jafar, Kadan Aljoumaa, 20 March 2019: "Customer churn
"Prediction in telecom using machine learning in big data platform".
83