Ecosystemes de L'ingenierie Des Données

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 113

Ecosystèmes de l’ingénierie

des données
KARIM EL ALAOUI Youssef
Décembre 2021
Sommaire
Sommaire:

Objectifs du cours
I- Contexte de la transformation digitale
1-La révolution numérique
2-Histoire de l’utilisation de la data
3-Les grands Hommes de la data
4-Le droit à l’information
5-L’Open Data
6-Les réseaux sociaux et internet
II- L’industrie de la data
1-Les métiers de la data
2-L’utilisation de la data
3-La connaissance client
4-Les grands acteurs de l’industrie
5-Comment devenir data driven?
III- L’apprentissage artificielle
IV- Gouvernance Data
Objectifs du cours

Ce cours vis à permettre de mieux assimiler les enjeux de


l’ingénierie de la donnée d'une entreprise que ça soit dans le
secteur bancaire, de l'industrie ou autre. Pour se faire, on abordera
les techniques et technologies de mises en œuvre de la politique de
data driven. Autrement dit comment transformer la données en
valeur ajoutée pour une entreprise ou un organisme?
Contexte de la transformation digitale

Tout les spécialistes s'accordent que nous sommes au coeur de la


quatrième révolution industrielle.

- La transition numérique est quasiment achevée


- La transformation numérique est plus profonde
- En plein phase d'accélération numérique
- Le numérique permet d'immenses gains de productivité
- Profond changement dans le comportement du consommateur
Contexte de la transformation digitale

Vs
Contexte de la transformation digitale

Vs
Contexte de la transformation digitale

La valeur ajoutée de la digitalisation

Améliore l’image Accroit la qualité


de l’entreprise De travail

Augmente Renforce la capacité


la rentabilité D’innovation
Contexte de la transformation digitale
Contexte de la transformation digitale

Top Secteur de
Client final Concurrence
management l’entreprise

La techno Les La culture


Stratégie Formation Mesure en place compétences Le budget
d’entreprise
Contexte de la transformation digitale
Contexte de la transformation digitale
Contexte de la transformation digitale

Durant les trois derniers siècle, l'humanité a vécu trois révolutions industrielles.

1- 18ème siècle la première révolution (la mécanique)


2- 19ème siècle la deuxième révolution (l’électricité)
3- 20ème siècle la troisième révolution (la robotique)
4- 21ème siècle la quatrième révolution (???)
5- 21ème siècle la cinquième révolution (???)
Contexte de la transformation digitale

Serge Abiteboul et Gilles Dowek sont tous les deux chercheurs à


Inria, montrent que la data a étaient utilisée il y a près de 5000
ans. En Mésopotamie, l’invention de l’écriture est inventée pour
pouvoir effectuer des algorithmes
Contexte de la transformation digitale

L’utilisation de la data est née suite à un besoin des états de gérer


rationnellement leurs ressources.Le recensement chez les pharaons
en 525 av JC dénombre 7 millions d’égyptien.
Contexte de la transformation digitale

Guillaume le Conquérant, a réalisé en 1086 le premier recensement


national. Ce dernier a permis de répondre à un besoin de
renseignements sur le pays qu’il venait de conquérir pour pouvoir
l’administrer.
Contexte de la transformation digitale

Muhammad Ibn Musa Al Khwarizmi


780-850

1- LE PERE DE L'ALGEBRE

2- mathématicien, géographe,
astrologue et astronome...

3- Système de numération actuelle.

4- Son nom est à l’origine du mot


algorithme.

5- …
Contexte de la transformation digitale
Contexte de la transformation digitale
Contexte de la transformation digitale

Johann Carl Friedrich Gauss


1777-1855

1- LE PRINCE DES MATHEMATIQUES

2- mathématicien, astronome et
physicien.

3- En probabilités la loi normale porte


son nom.
Contexte de la transformation digitale
Contexte de la transformation digitale

Alan Turing
1912-1954

1- LE PERE DE L'INFORMATIQUE

2- Mathématicien et cryptologue
britannique

3- Inventeur des concepts de


programmation

4- L'Intelligence Artificielle

5- Un des principaux acteurs de la


seconde guerre mondiale
Contexte de la transformation digitale

L'ACE computer conçu par Alan Turing partie de l'ère de l'information à


l'intérieur de l'exposition Science Museum de Londres La Grande-Bretagne
Contexte de la transformation digitale
Contexte de la transformation digitale
Contexte de la transformation digitale
Contexte de la transformation digitale
Contexte de la transformation digitale

En 2019, 57% des humains connectés…


Contexte de la transformation digitale

Nombre d’utilisateurs actifs (aout 2019)

2,4 milliards Facebook

2 milliards YouTube

1,5 milliards WhatsApp

1 milliards Instagram

321 millions Twitter

300 millions Pinterest

260 millions Linkedin

203 millions Snapchat


Contexte de la transformation digitale
Contexte de la transformation digitale

- Caméra 2 voire plus


- Microphones : reconnaissance
vocale, reconnaissance de musiques
-Détecteur de proximité
-Capteur de luminosité
-Magnétomètre : GPS
-Gyromètre, Accéléromètre,
Thermomètre
-Capteur de pression et d’impulsions
cardiaques
-Scanner d’empreintes digitale
-…
Contexte de la transformation digitale
Contexte de la transformation digitale
Contexte de la transformation digitale

L’étude de l’utilisation d’internet dans le monde fait ressortir, sur 7,75 milliards
d’individus dans le monde, on recense:
1- 5,19 milliards d’utilisateurs de téléphone portable
2- 4,54 milliards d’internautes
3- 3,8 milliards d’utilisateurs actifs des réseaux sociaux
4- 3,75 milliard d’utilisateurs des médias sociaux sur mobile
Contexte de la transformation digitale

6,6 Objets connecté


par personne en
moyenne
(50 milliards)

25 milliards
d’objets
Plus d’objets connectés dans
connectés que le monde
d’humains sur
terre

2008 2015 2020


Contexte de la transformation digitale

Aujourd’hui, 20% des données utilisées par les entreprises sont générées par
leurs Systèmes d’information. Les 80% restants sont issues
- Données Open Data
- Données issus d’internet
- Données des objets connectées
Contexte de la transformation digitale
Contexte de la transformation digitale

Le Big Data se caractérise par la problématique des 5 V:

- Le volume des données ne cesse de croitre de façon exponentielle


- La vitesse de génération de données est tout simplement monstrueuse
- Le type de données est assez varié (texte, image, vidéo …)
- La source des données pose assez souvent la question de la pertinence et
fiabilité des données
- La question centrale est comment créer de la valeur à partir de ces données?
Vélocité Volume
vitesse à laquelle les données se La quantité de données généré chaque
produisent de divers sources milliseconde

Valeur
Fait de la BIG DATA c’est bien beau, mais ce Variété
qui est utile c’est comment en créer de la Fait référence aux données structurées et
valeur? non structurés

Variété
Fiabilité et validation des données
Contexte de la transformation digitale
Contexte de la transformation digitale
Sommaire
Sommaire:

Objectifs du cours
I- Contexte de la transformation digitale
1-La révolution numérique
2-Histoire de l’utilisation de la data
3-Les grands Hommes de la data
4-Le droit à l’information
5-L’Open Data
6-Les réseaux sociaux et internet
II- L’industrie de la data
1-Les métiers de la data
2-L’utilisation de la data
3-La connaissance client
4-Les grands acteurs de l’industrie
5-Comment devenir data driven?
III- L’apprentissage artificielle
L’industrie de la data

???
DATA Processus
DATA
DATA
DATA
L’industrie de la data
L’industrie de la data
L’industrie de la data
L’industrie de la data

2. Compréhension de la données
1. Compréhension du besoin métier  Identification des sources de données
 Définition du use case  Collecte des données & intégration
 Evaluation d’impact  Maitrise des inputs du modèle
 Spécifications fonctionnelles

3. Préparation de la data

 Consolidation des données


6. Mise en production
 Création de variables
 Plan de déploiement  Etudes descriptives
 Suivi de la performance
 Monitoring
 Reporting

7. Back testing
4. Modélisation
 Choix DU modèle
 Back test et stress test du modèle  Choix des modèles
 Partage des résultats de modélisation  Etude de stabilité des modèles
 Maitrise des outputs du modèle  Etude de signification des modèles
L’industrie de la data

Utilisent les inputs


du modèles et
apporte sa
Supervise la partie connaissance terrain
analytique.

Les métiers

Data Analytics
Manager
Data
Engineer

Data Met en production


Analyst les modèles, et
veille au
Data Architect
maintiens des
Collecte la donnée modèles
et réalise les
analyses Data
statistiques
Scientist Met en place
l’architecture data pour
supporter l’intégration
Nettoie et organise et préserve les sources
les données de données
Créé les modèles
L’industrie de la data

Choix des outils

Le réservoir d'eau est représenté par un jeu de


données sur lequel des algorithmes d'analyse
pourraient être exécutés
L’industrie de la data
L’industrie de la data
L’industrie de la data
L’industrie de la data
L’industrie de la data
L’industrie de la data

Les entreprises de nos jours passent d'une stratégie product-centric vers une
approche custmer-centric. Pour se faire l'entreprise doit avoir une connaissance
parfaite de son client.

Cela va passer par les étapes suivantes :

1- Servir les meilleurs clients en priorité


2- Segmenter ses clients
3- Fidéliser les clients
4- Eviter le churn des clients
5- ...
L’industrie de la data
L’industrie de la data
L’industrie de la data
L’industrie de la data
L’industrie de la data
L’industrie de la data

Un score, permet d’anticiper le besoin du client

- Un score sert à prédire l’occurrence d’événements, tels que la


souscription d’une offre par un client ou son degré de fragilité (ex.
risque d’attrition…)

L’objectif étant d’atteindre les clients les plus réceptifs / appètent


à une offre :

Augmenter l’efficacité des actions


tout en réduisant les coûts
L’industrie de la data

Processus de construction du score Clients présentant le profil


qui s’approche le plus au
profil des souscripteurs,
Analyse du profil des souscripteurs reçoivent les scores les

% souscripteurs
plus élevés

Choix des variables discriminantes

Affectation des coefficients aux


caractéristiques

Décile de Score
Calcul des notes de score :
somme des coefficients

le score sert à classer les clients par


Classement des scores des plus
hauts au plus bas probabilité
décroissante d’occurrence du phénomène à
prédire (la souscription)
L’industrie de la data

• Données de transaction
– Volume des achats
– Nombre de transactions
– Nombre de connexion
– Régularité des achats
– …

• Données sur les produits et contrats


– Achat par type de produit
– Epargne, crédit
– …

• Données du client
– Age
– Ancienneté de la relation
– Lieu de résidence
– …
L’industrie de la data

L’univers des variables candidates à l’entrée au modèle est très important : plusieurs centaines de
variables calculées -> filtrer le sous ensemble de variables les plus utiles !

Principe de sélection :
Retenir que les variables les plus corrélées avec l’évènement à prédire ‘la souscription’, tout en étant
indépendantes les unes des autres ;

Discrétisation / Groupement de modalités:


Les variables retenues sont recodées pour maximiser le pouvoir prédictif, et améliorer la robustesse du
modèle: prise de compte des valeurs extrêmes, valeurs manquantes…
- Les modalités présentant une relation similaire avec la variable cible, sont regroupées ensemble dans les
mêmes classes

Pool des variables initiales

Ensemble
final
de variables
recodées

Filtrage
+
Groupement /
mise en classes
L’industrie de la data

Concrètement, notre modèle permet de définir la relation fonctionnelle entre la probabilité de souscription
et notre sélection de variables.

Mathématiquement, on recherche une fonction G :

( )= + ∗ + ∗ é +⋯
L’industrie de la data
L’industrie de la data
L’industrie de la data
L’industrie de la data
L’industrie de la data

L'acronyme GAFA désigne quatre des entreprises les plus puissantes du monde grâce à leurs pouvoirs
économique et financier supérieur à plusieurs états.

-Google : Le puissant moteur de recherche


-Appel : La marque à la pomme (clin d'oeil à alan turing)
-Facebook : C'est gratuit (et ça le restera toujours)!!!
-Amazon : work hard, have fun, make history
L’industrie de la data
L’industrie de la data
L’industrie de la data

Devenir une entreprise data driven implique de mettre la données au centre de la stratégie de
l'entreprise. La transformation ne se fait pas en un jour, cela nécessite du temps. les clés de la
réussite de cette transition :

-Le capital humain : recrutement de profils data : Data Engineer, Data Scientist...

-Vision : décrire la vision stratégique de vos objectifs Data-Driven.

-Vivre la data comme culture

-Impliquer l'ensemble des collaborateurs

-Mesurer l'impact

-etc...
L’industrie de la data
Sommaire
Sommaire:

Objectifs du cours
I- Contexte de la transformation digitale
1-La révolution numérique
2-Histoire de l’utilisation de la data
3-Les grands Hommes de la data
4-Le droit à l’information
5-L’Open Data
6-Les réseaux sociaux et internet
II- L’industrie de la data
1-Les métiers de la data
2-L’utilisation de la data
3-La connaissance client
4-Les grands acteurs de l’industrie
5-Comment devenir data driven?
III- L’apprentissage artificielle
IV- Gouvernance data
L’apprentissage artificielle

L’apprentissage automatique (machine learning en anglais), un des champs d’étude de


l’intelligence artificielle qui concerne le développement, l’analyse et l’implémentation des
méthodes automatisables qui permettent à une machine d’évoluer grâce à un processus
d’apprentissage.
L’apprentissage artificielle
L’apprentissage artificielle
L’apprentissage artificielle
L’apprentissage artificielle
L’apprentissage artificielle
L’apprentissage artificielle
L’apprentissage artificielle
L’apprentissage artificielle
L’apprentissage artificielle
Sommaire
Sommaire:

Objectifs du cours
I- Contexte de la transformation digitale
1-La révolution numérique
2-Histoire de l’utilisation de la data
3-Les grands Hommes de la data
4-Le droit à l’information
5-L’Open Data
6-Les réseaux sociaux et internet
II- L’industrie de la data
1-Les métiers de la data
2-L’utilisation de la data
3-La connaissance client
4-Les grands acteurs de l’industrie
5-Comment devenir data driven?
III- L’apprentissage artificielle
IV- Gouvernance data
Gouvernance data

Data gouvernance – Définition

L’ensemble des procédures (règles, normes et métriques), des rôles et responsabilités de


chaque membre pour la gestion globale des données:

- Disponibilité
- Exploitabilité
- Intégrité
- Et la sécurité des données
Gouvernance data
Gouvernance data

Source Gartner
Gouvernance data

Les questions à se poser

Les données L’approche Data: Vous êtes plutôt?


- Les sources de données sont elles fiables? Traditionnel Agile
- Quelles sont les critères de qualité de nos
données?
- Comment utiliser les données pour améliorer
nos process?
Vs
Est-ce qu’on respecte la loi?

Data gestion : Est-ce qu’on fait la différence entre : Data Stewardship

Data gouvernance Data management


Aves vous mis en place un processus
d'intendance?
Gouvernance data

Pourquoi l’agilité?

DATA THINKING DATA ARCHITECTURE


Mettre la données au cœur de la Industrialisation le process de
stratégie de l’entreprise traitement des données de
bout en bout

DATA Gouvernance DATA SCIENCE


Mettre des processus, Extraire de la donnée de la
Organisation, Outils permettant de valeur afin de répondre à
maitriser la qualité et l’usage de la des problématiques métier
donnée
Gouvernance data

Agronyme : C.N.D.P.
Nom : La Commission Nationale
de contrôle de la protection des Données à caractère Personnel

Date de naissance : 18 Février 2009


Créé par : la loi n°09-08 relative à la protection des
personnes physiques à l’égard du traitement des données à
caractère personnel.
Mission principale : La CNDP a pour objectif principal de veiller
au respect des libertés et droits fondamentaux des personnes
physiques à l'égard des traitements de données à caractère
personnel.
Gouvernance data

DATA MANAGEMENT
La création de la données ainsi que sa transformation nécessite un ensemble de process, de
technologies et surtout de personnes c’est ce qu’on appelle le DATA MANAGEMENT

Sa principale tâche est la gestion de la données que ça soit le sourcing, la transformation, la


création, l’archivage de la donnée.

DATA Gouvernance
La Data Gouvernance est le cadre d’organisation pour établir la stratégie, les objectifs
et les politiques pour une gestion efficace des données de l’entreprise.

Elle consiste en l’ensemble des étapes nécessaires pour gérer et assurer la disponibilité,
l’utilité, l’intégrité, la cohérence et l’audit des données de l’entreprise
Gouvernance data
Gouvernance data

Données L’équipe analytique

Expérience Présentation
Gouvernance data

Unicité Complétude Clarté


Une données doit avoir la Assurer que les attributs La donnée doit avoir une
même valeur au sein de des données sont bien définition claire et précise.
l’ensemble des utilisateurs définis et qu'aucun Afin que l’ensemble des
Exemple : Nombre de attribut n'est manquant utilisateurs l’exploite
client pour décrire les données. facilement

Exactitude Fraicheur Accesible


S’assurer que les valeurs Une donnée doit être Mise La donnée est accessible
des données Stocker sont à jours à des fréquences et par l'ensemble des
correcte. régulier. Tout en parties prenantes
Exemple : numéro de s’assurant de l’archivage concernées au même
téléphone 000000000 de l’historique. moment
Gouvernance data

Evolution du data tools landscape

Module
Data visualisation
Gouvernance data
Gouvernance data

Espace de stockage de données Capacité de calcul

Gestion des données


Rapidité de traitement structurées et non structurées
Gouvernance data

Données structurées
Data non structurées 1
Images, video, audio
Données résumées en lignes et en
Data des réseaux sociaux
colonnes

Le data lake est comparable à un lac, avec

Le réservoir d'eau est représenté par un jeu de


1 Entrant
données sur lequel des algorithmes d'analyse
pourraient être exécutés
2 Bassins
2
3 Sortant

3
Le flux sortant est les données
analysée, transformée...
Gouvernance data
Gouvernance data

La meilleure configuration étant de faire cohabiter le Data lake et le Data Warehouse


Gouvernance data

DATA Office F.C.

La stratégie est définie comme


« l’art et la manière » à suivre
sur une période donnée (moyen
ou long terme), en tenant
compte de l’environnement
externe (risques et
opportunités) et des capacités
et possibilités disponibles en
interne dans une optique de
création de valeur durable.
Gouvernance data
Dis le moi je l’oublierai,
enseigne le moi je m’en
souviendrai, implique
mois et j’apprendrai
Gouvernance data
Gouvernance data

Chief Data officer

Transformation Data Pilotage de la Transformation DATA


Gouvernance DATA
Data Office

Data Owners Métiers: utilisateurs de la Data


Exécution des politiques de données : Exécution des Uses Cases
- Définition
- Sources
- Utilisation
- Qualité requise
- Sécurité
- Confidentialité

Systèmes
Systèmes d’information
d’Informations Modélisation Analytique
Identification des impacts des
besoins Data sur les systèmes
Gouvernance data

Qualité de
Data Metadata
la donnée
gouvernance management

Architecture
Utilisation Data
de la data

Stratégie
Data
Gouvernance data
Gouvernance data

Gestion du changement

Auditer

Planifier

Tester

Déployer

Optimiser

Déploiement du changement
Gouvernance data

Extraction des informations dans un but de résoudre une


problématique métier en appliquant des techniques de
business intelligence ou de data science

1- Conduite du changement
Promouvoir la culture DATA dans l’ensemble des
directions

2- Data gouvernance
Définition des responsabilités Data
Governance
3- Data office
Coordination entre les différentes parties

4- Data infrastructure Modèle du


Le socle technique doit supporter le stockage gestion Use Case
des données Data
Use Case Data
(Contenu) Infrastructure
(Contenant)
Gouvernance data

Le choix du premier usecase data est un des éléments clé de


la réussite du projet de transformation data. Par exemple: Le
choix doit répondre à une problématique stratégique.
Conquête d’un segment.
Churn des clients…

Fédérer les producteurs et les utilisateurs de données.


Forte collaboration entre producteurs et utilisateurs de données.

Définition des rôles de tout à chacun.


Identification de responsables de la données en terme d’utilisation et
de production.
Gouvernance data
Venir ensemble est un
commencement,
Rester ensemble est un progrès,
travailler ensemble est un succès
Gouvernance data

Le choix du Use case doit être pensé de façon de résoudre un


problème de bout en bout et répondant à un besoin précis:

Recueillir le besoin du
client Concevoir le modèle

Choix des outils Structurer la donnée


Collecte
Analyse Restitution
Stockage
Gouvernance data

Selon le HUB Institut 5 choses sont à retenir concernant la mise en


place d’une stratégie DATA:

Identifier

Intégration
Data Nettoyer

DATA unifier
DATA
DATA
DATA
Gouvernance data

Selon le HUB Institut 5 questions sont à se poser avant d’entamer une


transformation data:
1- Avez-vous un « Chief Data Officer »? Sinon, qui pilote et est
responsable des sujets liés à la donnée?
2- Votre entreprise est elle conforme en matière de législation sur les
données?
3-Avez-vous sensibilisé et formé vos collaborateurs ET dirigeants aux
enjeux de sécurité ? Faites-vous des vérifications régulières pour vous
assurer de la bonne application des procédures ?
4-Votre système d’information est-il à même de s’interfacer et d’être
interopérable, rapidement et simplement de manière fiable avec des
outils externes (via des API) ?
5- La direction marketing a-t-elle été formée à la donnée, au CRM, à la
DMP ?

Vous aimerez peut-être aussi