Syllabus-Data Engineer
Syllabus-Data Engineer
Syllabus-Data Engineer
Syllabus
Data Engineer
Notre histoire
Leader français de la formation en Data Science,
DataScientest offre un apprentissage d’excellence orienté emploi
pour professionnels et particuliers.
92% des
les entreprises ont d’abord fait appel à
DataScientest pour spécialiser et former
leurs équipes internes. En l’espace responsables Data
de quatre ans, plus de 30 entreprises des plus grands groupes
du CAC40 et de nombreux autres français souhaitent
champions français et étrangers leur renforcer leurs équipes
ont fait confiance pour former quelque en recrutant des Data
1500 professionnels. Engineer*.
*enquête menée auprès d’une quarantaine
d’entreprises partenaires.
1 500 99 %
taux de
alumnis complétion
+ de 30
groupes
du CAC40 formés
2 000 h 94 %
contenu taux de
spécialisé satisfaction
Charles S.
Responsable Académique
Thomas B
Responsable formation Data Scientist
Après son cursus à l’École des Mines de Paris, Thomas a vite rejoint
les rangs de DataScientest. Il maitrise évidemment la programmation
et la dataviz mais également machine et deep learning, NLP, computer
vision… En 2 ans Thomas a déjà formé plus de 100 apprenants
à la Data Science.
Raphaël K
Responsable formation Data Analyst
Paul D
Responsable formation Data Engineer
85 %
en ligne
MASTERCLASS
EXAMENS Chaque sprint s’accompagne d’une ou
plusieurs masterclass auxquelles vous
Chez DataScientest, pas de QCM
pourrez assister en présentiel ou en
automatisé, chaque copie est
visioconférence. Les objectifs et les
corrigée à la main par nos
formats pédagogiques de chaque
enseignants, avec des re-
Masterclass changent en fonction du
marques et conseils adaptés à
sprint abordé : corrections de use cases
chaque élève.
concrets, cours magistraux sur des
thématiques spéciales, concours entre
cohortes…
En Bootcamp ou en Continu
La formation de Data Engineer est disponible en deux formats
afin de correspondre au mieux à vos besoins.
Le BootCamp
Formez-vous rapidement,
en suivant un programme
intensif de 11 semaines
Durée
11 semaines
Rythme
Temps plein (35h)
La formation
continue
Adaptez la formation à
votre ryhtme, avec un
programme plus flexible
étalé sur 9 mois
Durée
9 mois
Rythme
De 8 à 10h par semaine
Les horaires restent à titre indicatif, la formation ayant une durée totale de 400h.
Introduction à Python
Durée : 50h
1 5
FONDAMENTAUX INTRODUCTION
DE PYTHON À LA PROGRAMMATION
Variables et types ORIENTÉE OBJET
Opérateurs et tests AVEC PYTHON
Les boucles Concepts et implémentations
Les fonctions de classes, objets, méthodes
Classes et modules Héritage
Encapsulation
2
NUMPY
Création d’un NumPy array
Manipulation d’un NumPy
array LES COMPÉTENCES
Opérations sur les NumPy ACQUISES À L’ISSUE
array
- Lire et comprendre un code
Python, langage de référence
3 DIPLÔME en data science
PANDAS
Chargement et première - Manipuler et gérer les tableaux
exploration d’un jeu de données de données
Data cleaning - Interroger, manipuler, ordonner
Data processing et modifier un jeu de données
avec Python
4 - Comprendre et utiliser la
SCIKIT-LEARN programmation orientée objet
Introduction au Machine
Learning avec Scikit-Learn
PROGRAMMATION AVANCÉE
Durée : 30h
1 GIT
INTRODUCTION Création et gestion d’un
AUX SYSTÈMES repo Git
LINUX ET À LA Utilisation de GitHub
PROGRAMMATION
BASH
Architecture d’un système LES COMPÉTENCES
Linux ACQUISES À L’ISSUE
Gestion de fichiers
Lecture, écriture et Gérer un système d’exploitation
exécution de fichiers Linux
Fonctions et boucles
en bash Créer et gérer des exécutables
Bash
vv
Bases de données
Durée : 65h
3
1 UTILISATION DE
INTRODUCTION MONGODB AVEC PYTHON
AUX SYSTÈMES
DE GESTION DE BASE Introduction à la librairie
DE DONNÉES PyMongo
Introduction à MongoDB
Introduction aux différents
Requêtes simples
types de bases de données
Requêtes complexes
(relationnelles, NoSQl)
Insertion, Suppression,
Introduction aux différentes
Modification de données
architectures de bases
dans MongoDB
de données
LES COMPÉTENCES
2 ACQUISES À L’ISSUE
INTRODUCTION
AU LANGAGE Savoir choisir un système de
DE PROGRAMMATION gestion de base de données en
SQL fonction du cas d’utilisation
Comprendre la notion de schéma
Introduction aux expressions et leur implémentation dans une
régulières base de données relationnelle
Pre-processing en Text mining Savoir lire, ingérer, modifier,
Création d’un WordCloud supprimer des données dans une
Création d’un WordCloud base de données relationnelles
Savoir lire, ingérer, modifier,
supprimer des données dans
une base de données orientées
documents (MongoDB)
1 3
INTRODUCTION INTRODUCTION
À APACHE HADOOP À APACHE HIVE
Théories des architectures Fonctionnement interne de
distribuées Apache Hive et articulation
Introduction au paradigme autour de Hadoop
Map Reduce Lectures, Ingestion,
Gestion de fichiers avec modification et suppression
HDFS de données avec HQL
Calculs distribués avec Optimisation du stockage
Hadoop MapReduce des données par partition
Calculs distribués avec
Hadoop Streaming
LES COMPÉTENCES
2 ACQUISES À L’ISSUE
INTRODUCTION Charger des données et les traiter
À PYSPARK dans HDFS
Fonctionnement interne de Transformer ces données avec
Apache Spark Hadoop Streaming ou Pyspark
Manipulation des données
non structurées avec Spark Optimiser les requêtes sur des
données structurées dans Apache
Manipulation de données
Hive
structurées avec SparkSQL
Machine Learning avec Entraîner des algorithmes de
SparkML Machine Learning sur un cluster
de machines avec Pyspark
1
INTRODUCTION
À APACHE KAFKA
Introduction aux systèmes de
messagerie
Architecture de Apache LES COMPÉTENCES
Kafka ACQUISES À L’ISSUE
Utilisation de Apache Kafka
Utilisation de la librairie Créer une application
Python-Kafka de gestion de données
en streaming
Dev Ops
Durée : 80h
3
1
INTRODUCTION À
APIS AVEC FLASK APACHE AIRFLOW
Introduction aux APIs Automatisation de tâches
Introduction aux avec Apache Airflow
architectures micro-service Utilisation de l’interface
Construction et conception graphique de Apache Airflow
d’APIs avec Flask Notions de DAG, scheduler ...
2
INTRODUCTION LES COMPÉTENCES
À DOCKER ACQUISES À L’ISSUE
Introduction aux concepts
de virtualisation Créer une API avec Flask
Introduction à la notion de
Gérer des containers Docker
contenairisation
Gestion de containers Docker Créer une image Docker
Gestions des volumes
et networks Docker Automatiser des pipelines
de données avec Airflow
Lancements multiples avec
Docker-compose
ÉTAPE 1
Après votre inscription sur le site, nous vous contactons
une première fois pour une présentation détaillée de
notre offre et une compréhension de votre parcours et
vos souhaits.
L’idée est d’aligner dès le départ vos attentes avec nos
formations .
ÉTAPE 2
Nous vous redirigeons vers un test technique de
positionnement nullement rédhibitoire qui nous
sert à savoir avec quelles bases vous démarrez. Il
s’agit essentiellement de test mathématiques de
probabilité/statistique et d’algèbre relativement
basique (niveau L1/L2 mathématiques).
ÉTAPE 3
Une fois ce test passé, un membre de l’équipe d’admission
prend contact avec vous pour échanger sur votre résultat,
vos motivations, et la pertinence de votre projet.
La communauté alumni
Beta-test
Afin de gagner en connaissances data et d’assurer la veille technologique
même après la fin de la formation, tout alumni
a accès en avant-première à tous les nouveaux
modules de formation.
Veille technologique
En parallèle, des newsletters élaborées par nos
data scientists sont régulièrement envoyées
et sont une source fiable d’informations
spécialisées en data science.
Communauté Alumni
Enfin, la communauté DataScientest ne cesse
de s’agrandir, et avec elle l’ensemble de ses alumnis. Pour garder le contact
et permettre aux anciens élèves de communiquer entre eux, DataScientest a
mis en place la commuanauté DatAlumni, un groupe qui partage et échange
sur divers thèmes autour de la Data Science. Vous serez invité à la rejoindre en
début de votre formation! Au programme : vieille technologique, opportunités
business, networking, événements (afterworks, salons, data challenges…).
Amir ABBASZADEH
Cofounder and CEO at Oilifina Consulting
Ayant une formation d’ ingénieur, Amir a commencé sa carrière en conseil en stratégie
chez McKinsey puis en M&A dans une banque d’investissement. Suite à une expérience
entrepreneuriale, il a senti un vrai besoin technique en traitement des données mais son profil
100% business restait un frein pour se lancer dans l’aventure.
Alina Vornicu
Responsable du Pôle Data de l’Inspection Générale de LCL
Après un master Économétrie et Statistiques Appliquées à l’Université d’Orléans, Alina a intégré
en 2010 Crédit Agricole Consumer Finance en tant que Chargée d’études statistiques dans
l’équipe Prévention du Risque et innovation puis LCL en 2015, en tant qu’Ingénieur d’études
statistiques et actuarielles dans l’équipe Data de l’Inspection Générale qu’elle a eu l’honneur de
manager depuis novembre 2019.
Stefania Di Tommaso
Data Scientist at IsCool entertainment
" À la recherche d’un nouveau travail potentiel. Chose encore plus importante,
ainsi que d’un nouveau défi intellectuel, j’ai eu la possibilité de connaître des
j’ai commencé ma formation de data professionnels du secteur, travaillant
scientist chez DataSciencetest. En 3 dans les milieux des plus différents.
mois, grâce à un suivi constant, j’ai Cette formation fut une véritable
appris les bases en programmation sur fenêtre ouverte sur un monde qui
R et Python. J’ai également découvert m’était inconnu et dont maintenant je
plusieurs algorithmes de ML et de leur fais partie !"
Caroline Uge
Data Scientist chez Back Market
J’ai assisté au bootcamp DataScientest data scientist. Cette formation m’a permis
il y a un peu plus de deux ans. A cette d’acquérir les connaissances techniques
époque, j’avais quitté un emploi de et mathématiques nécessaires pour
gestion de projet qui ne me convenait débuter en data science. Par la suite, j’ai
pas. Je m’intéressais beaucoup à l’analyse intégré une entreprise de conseil en data
de données que j’avais pu légèrement science au sein de laquelle j’ai pu mettre en
pratiquer. Je cherchais de ce fait un pratique mes acquis et affiner mon projet
poste de data analyst, dans l’optique professionnel. Aujourd’hui, je travaille
d’évoluer par la suite en data scientist. chez Back Market : j’exerce un métier
Malheureusement, mes entretiens que j’aime dans une entreprise en accord
n’aboutissaient pas par manque de avec mes valeurs. Ce bootcamp a donné
connaissances techniques. un gros coup de pouce à ma carrière et
Datascientest a été l’opportunité parfaite largement facilité ma reconversion, je le
pour monter en compétences et ainsi recommande chaudement !
prétendre directement à un poste de
Pour répondre à cette question, nous avons mené notre propre enquête auprès
d’une quarantaine d’entreprises partenaires.
En fonction du secteur et de l’entreprise le salaire d’un data engineer junior est
de 45 119 € par an.
Après 4 ans d’expérience, ce salaire augmente considérablement et atteint 55
714 euros.
Si vous êtes inscrit chez Pôle Emploi, vous êtes potentiellement éligible à l’AIF .
Soit une aide allant jusqu’à 2000€. DataScientest est également éligible
au CPF.
Enfin si vous êtes actuellement en entreprise, vous pouvez être éligible à une
aide du FNE ou toute l’année via l’OPCO.
Quoi qu’il en soit nos équipes sont là pour vous guider dans vos démarches
administratives d’inscription aux différentes aides de financement.
Pour trouver toutes les possibilités de financement, rien de plus simple : nous
avons crée une page dédiée au sujet ! Cliquez-ici pour la découvrir !
La capacité à maîtriser la data s’avère être très précieuse dans certains métiers
comme chercheur ou actuaire.
Ils bénéficient énormément de l’apport des data sciences , tout comme la
plupart des professions quantitatives qui impliquent des statistiques.
La data leur offre des nouvelles portes et opportunités.
[email protected]
www.datascientest.com
+33 9 80 80 79 49
www.datascientest.com