Certificate Supplement FR RNCP35288

Supplément au certificat
France
1. Intitulé du certificat (Dans la langue d'origine)

Concepteur développeur en science des données
2. Traduction de l'intitulé du certificat (Le cas échéant. Cette traduction est dépourvue de toute valeur légale)
3. Eléments de compétences acquis

Bloc n°1 - Construction et alimentation d'une infrastructure de gestion de données
C1.1 - Concevoir une architecture de données robuste et adaptée en créant des lacs de données (Data Lake en anglais) et des
entrepôts de données (Data Warehouse en anglais) afin de répondre aux besoins de stockage, d'utilisation, de sécurité et
de protection de l'organisation définie par un cahier des charges
C1.2 - Intégrer la dimension de stockage et de calcul distribuée à l'infrastructure de données via l'utilisation d'outils comme Spark ou
AWS Redshift afin de l'adapter à des besoins de gestion de données massives (Big Data en anglais)
C1.3 - Collecter des données provenant de différentes sources (Web, Logiciels internes de type Sage / Excel ou externes de type
Google Analytics) via des librairies de programmation de type Scrapy ou Beautifulsoup dans le respect des normes de protection des
données utilisateurs définies dans le RGPD pour alimenter le Data Lake afin d'affiner le résultat d'analyses futures.
C1.4 - Nettoyer et organiser les données dans l'entrepôt de données (Data Warehouse en anglais) en écrivant des processus
d'extraction, transformation et chargements (ETL en anglais) afin de rendre ces données disponibles et compréhensibles pour
les autres équipes métiers.
Bloc n°2 - Analyse exploratoire, descriptive et inférentielle de données

C2.1 - Traiter des bases de données grâce à des analyses statistiques descriptives et inférentielles via des librairies de programmation
comme Numpy ou Pandas, pour les organiser et les nettoyer afin de les normaliser par rapport à la population étudiée.
C2.2 - Effectuer des analyses univariées et multivariées sur des bases de données structurées afin de préciser des relations entre
plusieurs variables et d'établir des liens statistiques entre elles.
C2.3 - Optimiser les analyses statistiques grâce au traitement parallélisé via l'utilisation d'outils comme Spark pour accélérer le temps de
calcul d'un ordinateur afin de pouvoir analyser des volumes de données massifs (Big Data)
C2.4 - Présenter le résultat d'une analyse statistique de données structurées, massives ou non, grâce à des librairies de programmation
comme Plotly ou Matplotlib pour synthétiser ce résultat devant un public profane afin de faciliter la prise de décisions et appuyer leurs
déclinaisons opérationnelles
Bloc n°3 - Analyse prédictive de données structurées par l'intelligence artificielle
C3.1 - Traiter des données structurées en créant un pipeline de traitement grâce à des librairies de programmation comme Scikit-
Learn pour encoder, normaliser et découper des données afin de les rendre interprétables par un algorithme d'apprentissage
automatique (Machine Learning en anglais)
C3.2 - Effectuer des analyses prédictives sur un jeu de données structurées grâce à des algorithmes d'apprentissage automatique
supervisés adaptés afin d'automatiser des tâches liées aux résultats des prédictions de ces algorithmes
C3.3 - Élaborer un algorithme d'apprentissage automatique non-supervisé pour segmenter une base de données en différents groupes
homogènes ou réduire la dimension de cette dernière afin de pouvoir comprendre des observations de manière granulaire et de
permettre leur visualisation
C3.4 - Évaluer la performance prédictive des algorithmes d'apprentissage automatique en déterminant l'influence des différentes
variables pour pouvoir l'améliorer afin de démontrer son utilité aux directions métiers, par rapport aux processus déjà établis dans
l'organisation
Bloc n°4 - Analyse prédictive de données non-structurées par l'intelligence artificielle
C4.1 - Traiter des données non-structurées (image, texte, audio) par la création de fonction de traitements via l'utilisation de librairies de
programmation comme TensorFlow ou Numpy pour les transformer en matrices afin de les rendre interprétables par un algorithme
d'apprentissage automatique profond (Deep learning en anglais)
C4.2 - Élaborer des réseaux de neurones adaptés (classiques, convolutifs ou recursifs) en superposant des couches neuronales via des
librairies de programmation comme TensorFlow pour analyser des données non-structurées afin de détecter des signaux sur ces
dernières
C4.3 - Créer un algorithme robuste et précis en configurant un réseau de neurones pré-entrainé profond afin de répondre à des
problématiques de prédiction sur des volumes de données massifs
C4.4 - Créer des données non-structurées en élaborant des réseaux de neurones adverses afin de construire de nouvelles bases
d'entrainement pour des applications d'intelligence artificielle
Le Supplément au certificat complète l'information figurant sur le certificat/titre/diplôme. Ce document n'a aucune valeur légale. Son format est basé sur la Décision (UE)
2018/646 du Parlement européen et du Conseil du 18 avril 2018 concernant un cadre commun pour l'offre de meilleurs services dans le domaine des aptitudes et des
certifications (Europass) et abrogeant la décision n°2241/2004/CE.
© Union européenne, 2002-2020 | https://europa.eu/europass/en Page 1/5

C4.5 - Évaluer la performance d'un algorithme d'apprentissage automatique profond en évaluant des indicateurs sur des données
d'entrainement et de validation afin d'industrialiser son utilisation
Bloc n°5 - Industrialisation d'un algorithme d'apprentissage automatique et automatisation des processus de décision
C5.1 - Standardiser la construction et l'environnement informatique d'un algorithme d'apprentissage automatique grâce des outils de
production comme MLflow et Docker afin de faciliter la mise en production de projets d'intelligence artificielle sur tous types de
plateformes
C5.2 - Créer une interface de programmation applicative grâce à des outil comme AWS sagemaker afin de donner un accès à échelle
aux prédictions des algorithmes d'apprentissage automatique à l'ensemble des équipes métiers concernées
C5.3 - Déployer une application web intégrant des algorithmes de statistiques prédictives (Machine Learning et Deep Learning) grâce à
des outils comme Flask, Heroku ou AWS sagemaker pour les rendre utilisables par l'ensemble des équipes métiers afin d'automatiser
leurs processus de décision
Bloc n°6 - Direction de projets de gestion de données
C6.1 - Traduire les enjeux métiers en problématiques mathématiques/data grâce à une compréhension des besoins propres à chaque
projet data afin de pouvoir répondre aux objectifs de l'organisation
C6.2 - Maîtriser les technologies les plus récentes et adaptées du marché grâce à de la veille technologique et de la pratique constante
pour développer une expertise afin d'être à même de proposer aux directions métiers les solutions les plus adaptées actuellement à une
problématique et l'amélioration constante des process de gestion de données déjà en place
C6.3 - Définir un cahier des charges, un retroplanning et un budget afin de défendre et détailler aux directions métier un projet data
répondant aux besoins de l'organisation
C6.4 - Gérer un projet d'analyse et de gestion de données (analyse statistique descriptive, Machine Learning, Deep Learning, Big Data
ou non) grâce à l'élaboration d'indicateurs adaptés et de tableaux de bords, afin de faire le suivi et le bilan de l’action, ainsi que de la
déclinaison opérationnelle de ses résultats, le tout dans le respect des normes de protection des données utilisateurs définies dans le
RGPD
C6.5 - Transmettre aux directions-métiers le process d'extraction d'informations et d'analyse de données en le vulgarisant afin de
soutenir la mise en place d'une stratégie et d'actions futures.
C6.6 - Diriger un projet de gestion de données, allant de sa conception à la mise en place de solutions, afin de le mener jusqu'à son
terme, d'être la personne clé disposant de toutes les informations sur le projet à tout moment, et d'accompagner d'autres services de
l'organisation dans l'ensemble des activités relatives à celui-ci
4. Secteurs d’activité et/ou types d’emplois accessibles par le détenteur du certificat
Secteurs d’activité :
Depuis l'émergence de l’Intelligence Artificielle et des Big Data, les Concepteurs Développeurs en Science des Données sont recrutés
dans de différents et nombreux domaines (commercial, finance, santé, recherche, administration…), à des postes pouvant différer
par leur niveau hiérarchique et leur niveau de technicité, et par une grandes variété d’organisations : dans l’industrie, par de grandes
entreprises comme de jeunes start-up, dans le service public et l’administration, par des institutions scientifiques, des organisations
médicales ou paramédicales et même des structures associatives. En effet, leur travail d'analyse peut facilement se retrouver à la
base de l’élaboration de la stratégie générale d’une organisation.
Tous les secteurs d’activités utilisant de la donnée sont ainsi concernés et quel que soit la taille de l’entreprise. Le “Concepteur
Développeur en Science des Données” pourra exercer son activité :
Dans une entreprise de Services Numériques (ESN ou ex SSII) réalisant des prestations de science des données ou d’
intelligence artificielle, en régie ou au forfait
Dans l’ensemble des structures utilisatrices d’Intelligence Artificielle, possédant un service dédié à l’analyse de données et aux
développements de ces IA, du secteur privé ou public, entreprises ou association (ex : Banque, Assurance, startups
spécialisées dans l’Intelligence Artificielle, certains établissements de recherche ou de santé, etc)
En tant qu’indépendant pour des missions de gestion de données, de conceptions ou mise en production d’algorithmes, ou de
pilotage de projet Data.
Dans des organismes de formation spécialisés dans l’Intelligence Artificielle.
Type d’emploi accessibles :
Data Scientist
Data Engineer
Machine Learning Engineer
Développeur Full-Stack Python (ou Software Engineer)
Data Analyst (ou Data Miner)
Business Analyst
Consultant Intelligence Artificielle (ou Consultant Data)
Product Manager Data (ou Product Owner ou chef de produit Data)
Chef de Projet Data (ou Project Manager Data)
Ingénieur d'études / Chargé d'études
Ingénieur en Business Intelligence
Directeur / Directrice de l'Organisation et des Systèmes d'Information -DOSI

Attaché / Attachée d’études statistiques
Code(s) ROME :
M1810 - Production et exploitation de systèmes d''information
M1803 - Direction des systèmes d''information
M1403 - Études et prospectives socio-économiques
M1805 - Études et développement informatique
M1806 - Conseil et maîtrise d''ouvrage en systèmes d''information
Références juridiques des réglementations d’activité :

L’ensemble du processus de conception et de développement d’algorithmes d’apprentissage automatique doit se dérouler dans le
respect des réglementations en vigueur quant à l’utilisation de données personnelles (RGPD) et des critères définissant l’utilisation
responsable des données.
Le règlement général sur la protection des données (RGPD, ou encore GDPR, de l'anglais General Data Protection Regulation)
est le règlement de l'Union Européenne qui constitue le texte de référence en matière de protection des données à caractère
personnel : il renforce la protection de ces données pour les individus, responsabilise les acteurs du traitement de ces données et
augmente le pouvoir des autorités de régulation au sein de l'Union européenne. Il est entré en application dans l'ensemble des 28
États membres de l'Union européenne à compter du 25 mai 2018. Il met en place des principes nouveaux, dont les plus importants
sont :
Un consentement explicite et positif doit être donné par l’utilisateur. Il dispose également d’un droit à l’effacement de ses
données personnelles dans les meilleurs délais et peut demander à recevoir l’ensemble des données personnelles détenues
par l’entreprise le concernant.
Le principe de protection des données dès la conception (Privacy by Design) impose aux organisations de prendre en compte
les exigences relatives à la protection des données personnelles dès la conception des produits, services et systèmes
exploitant ces données.
La minimisation des données impose à l’organisation de ne collecter, traiter et stocker que les données nécessaires en vue de
l’exécution de ses tâches.
Les organisations publiques, traitant des données très sensibles ou de plus de 250 personnes ont l’obligation de nommer un
délégué à la protection des données pour contrôler le respect du règlement, de conseiller le responsable des traitements sur
son application et de faire office de point de contact avec l'autorité de contrôle, de répondre aux sollicitations de personnes qui
souhaitent exercer leurs droits.
L’ensemble des dispositions du RGPD s'appliquent aux organisations établies en dehors de l'UE qui traitent les données
relatives aux activités des organisations de l'UE ou appartenant à des résidents de l'UE
L’utilisation responsable des données implique également de manière plus large un certain nombre de critères qui préviennent la
création d’intelligences artificielles intrusives, pouvant porter atteinte à l’ordre public, inciter à la haine ou de manière plus
générale promouvant ou permettant toute activité interdite par la loi ou allant à l’encontre de l’éthique. L’éthique des données est une
problématique en perpétuelle évolution, mobilisant nombre de groupes de travail publics comme indépendants. Si le cadre actuel est
défini par le RGPD, ces acteurs et groupes de travail essayent de créer des cadres pour faire en sorte que les évolutions permises en
science des données bénéficient directement à l’intérêt général et pas uniquement à des acteurs privés. Ces cadres incluent par
exemple le site d’open source de bases de données Kaggle ou la plateforme de travail Data for Good.
5. Base officielle du certificat
Organisme(s) certificateur(s) Système de notation / conditions d’octroi

Nom légal certificateur(s) : Modalités d'évaluation :
JEDHA Evaluation par le jury de certification sur la base de mises en
situation professionnelle : études de cas réels pour les blocs 1 à
5, conception et réalisation d'un projet data pour le bloc 6.
Bloc n°1 - Construction et alimentation d'une infrastructure

de gestion de données
Type d'évaluation :Une étude de cas sur des données réelles
Thème d'évaluation : Construction d'une infrastructure cloud
accueillant des données Big Data (collecte de données web,
intégration des données dans un Data Lake, nettoyage et
chargement des données dans une base de données type AWS
Redshift par traitement parallélisé si nécessaire via la
construction d'un processus ETL)
Contexte: En centre de formation ou à distance, étalé sur 10
heures.
Bloc n°2 - Analyse exploratoire, descriptive et inférentielle

de données

Type d'évaluation : Deux études de cas sur des données réelles

Thème d'évaluation :
- Gestion de valeurs manquantes et aberrantes d'une base de
données non-massives puis analyse pour déterminer et
présenter des tendances par le biais de graphiques.
- Analyse d'une base de données massives déstructurées
(Utilisation de Spark) adaptée à une problématique définie.
Contexte : En centre de formation ou à distance, étalé sur 20
heures.
Bloc n°3 - Analyse prédictive de données structurées

par l'intelligence artificielle
Type d'évaluation : trois études de cas pratiques tirées de cas
réels
Thème d'évaluation :
- Optimisation des processus marketing de qualification de
prospect par le biais d'algorithmes d'apprentissage supervisés
- Optimisation d'algorithmes d'apprentissage automatique
supervisé sur des bases de données déséquilibrées
- Localisation de zones de densité géographique par
l'élaboration d'algorithmes d'apprentissage automatique non-
supervisé
heures.
Bloc n°4 - Analyse prédictive de données non-structurées

par l'intelligence artificielle
Type d'évaluation : une étude de cas pratique sur des données
non-structurées
Thème d'évaluation : Analyse de sentiment, par l'élaboration
d'un algorithme permettant de déterminer le sentiment d'un
utilisateur à l'égard d'un produit (avec possibilité de créer de la
nouvelle donnée pour agrémenter la base).
heures
Bloc n°5 - Industrialisation d'un algorithme d'apprentissage

automatique et automatisation des processus de décision
Type d'évaluation : Etude de cas pratique sur le déploiement
d'un algorithme d'apprentissage automatique
Thème d'évaluation : Web dashboard construction et mise en
production d'une application web d'intelligence artificielle
heures.
Bloc n°6 - Direction de projets de gestion de données

Type d'évaluation :projet data conçu de A à Z.
Thème d'évaluation :Libre. Les apprenants peuvent préparer le
projet data de leur choix. Celui-ci peut être personnel, développé
par le candidat dans le cadre de son activité professionnelle, ou
défini par une entreprise partenaire. Il fera l'objet d'une
soutenance orale de 10 minutes suivie de 5 à 10 minutes de
questions.
Description des modalités d'acquisition de la certification
par capitalisation des blocs de compétences et/ou par
équivalence :
La certification s'acquiert par capitalisation des blocs de
compétences et par équivalence. La validation de la totalité des
6 blocs de compétences est obligatoire pour l'obtention de la
certification.
Les candidats n’ayant validé que certains des 6 blocs de
compétences du référentiel « Concepteur Développeur en
Science des Données » se voient remettre un certificat de
compétences attestant de la validation partielle de la certification
professionnelle, et nommant les blocs concernés. La validation
partielle d’un bloc n’est pas possible.

La certification est valable à vie. En cas de validation partielle

des blocs, la durée de validité de chaque bloc de compétences
est de 5 ans.
Niveau (national ou européen) du certificat Autorité responsable de l'habilitation du certificat

Niveau national (Décret n° 2019-14 du 8 janvier 2019 relatif au cadre national des France compétences
: Niveau 6
certifications professionnelles) 11 rue Scribe 75009 Paris
Niveau du Cadre européen des certifications (CEC) : Niveau 6
Accès au niveau suivant d'éducation / de formation Accords internationaux de reconnaissance des qualifications
Base légale
Date de décision d’enregistrement : 10/02/2021
Durée de l'enregistrement : 5
Date d’échéance de l’enregistrement : 10/02/2026
6. Modes d'accès à la certification officiellement reconnus
Par expérience Oui

En contrat d’apprentissage Oui
Après un parcours de formation continue Oui
En contrat de professionnalisation Oui
Après un parcours de formation sous statut d’élève ou d’étudiant Oui
Par candidature individuelle Non
7. Information complémentaire
Niveau d'entrée requis (Le cas échéant)
Un niveau 5 dans un domaine scientifique et/ou économique. À l’international, un niveau équivalent est requis. Ce niveau sera
justifié par le CV de l’apprenant.
La réussite d’un test d’admission “coding challenge”, validant des compétences nécessaires scientifiques en mathématiques
appliquées ainsi qu’en programmation python.
La réussite d’un entretien préalable qui jugera:
De la plus-value de l’acquisition des compétences décrites dans le référentiel "Concepteur Développeur en Science
des Données " pour le projet professionnel
De la pertinence et de la faisabilité de ce projet professionnel
De la capacité du candidat à suivre la Formation dans les conditions définies au préalable (possibilité de suivre la
formation en présentiel ou distanciel)
Une expérience professionnelle adaptée sera valorisée pour l’admission dans la formation.
Une pratique courante de l’anglais (niveau B2 en compréhension & expression écrite et B1 de compréhension & expression
orale du référentiel européen CECRL) est requise.
Dans certains cas, la réussite aux tests d’admission et à l’entretien pourront se substituer à un diplôme de niveau 5.
Pour toute information complémentaire, notamment sur le système national de qualifications :

https://www.francecompetences.fr
Centre national Europass

https://agence.erasmusplus.fr/programme-erasmus/outils/europass

Certificate Supplement FR RNCP35288

Transféré par

Droits d'auteur :

Formats disponibles

Certificate Supplement FR RNCP35288

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Certificate Supplement FR RNCP35288

Transféré par

Droits d'auteur :

Formats disponibles

Supplément au certificat

1. Intitulé du certificat (Dans la langue d'origine)

3. Eléments de compétences acquis

Bloc n°2 - Analyse exploratoire, descriptive et inférentielle de données

© Union européenne, 2002-2020 | https://europa.eu/europass/en Page 1/5

4. Secteurs d’activité et/ou types d’emplois accessibles par le détenteur du certificat

Type d’emploi accessibles :

© Union européenne, 2002-2020 | https://europa.eu/europass/en Page 2/5

Attaché / Attachée d’études statistiques

Références juridiques des réglementations d’activité :

5. Base officielle du certificat

Organisme(s) certificateur(s) Système de notation / conditions d’octroi

Bloc n°1 - Construction et alimentation d'une infrastructure

Bloc n°2 - Analyse exploratoire, descriptive et inférentielle

© Union européenne, 2002-2020 | https://europa.eu/europass/en Page 3/5

Type d'évaluation : Deux études de cas sur des données réelles

Bloc n°3 - Analyse prédictive de données structurées

Bloc n°4 - Analyse prédictive de données non-structurées

Bloc n°5 - Industrialisation d'un algorithme d'apprentissage

Bloc n°6 - Direction de projets de gestion de données

© Union européenne, 2002-2020 | https://europa.eu/europass/en Page 4/5

La certification est valable à vie. En cas de validation partielle

Niveau (national ou européen) du certificat Autorité responsable de l'habilitation du certificat

6. Modes d'accès à la certification officiellement reconnus

Par expérience Oui

Niveau d'entrée requis (Le cas échéant)

Pour toute information complémentaire, notamment sur le système national de qualifications :

Centre national Europass

© Union européenne, 2002-2020 | https://europa.eu/europass/en Page 5/5

Vous aimerez peut-être aussi