Etl Avec Pdi

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 32

ETL AVEC PDI

Sommaire
Présentation de PDI ................................................................................................................................. 2
Premier Programme avec PDI ................................................................................................................. 5
Les transformations............................................................................................................................... 18
Le Tri : Transformation – Tri ligne ..................................................................................................... 18
Sélection : contrôle de flux – filtrage ligne ........................................................................................ 20
Exercice :........................................................................................................................................ 21
Script SQL : Execution Script – Execution Script SQL ......................................................................... 22
Exercice :........................................................................................................................................ 22
Cumul valeur d’un champ : statistique - agrégation de valeur .................................................... 22
Champ calculé : Transformation – calcul ...................................................................................... 26
Recherche : recherche – recherche dans la base de donnée........................................................ 27
Listage des noms des sous répertoires : Extraction – récupération sous répertoire .................... 29
Listage des noms des fichiers d’un répertoire : Extraction – récupération nom fichier ............... 32
Récupération depuis un serveur FTP : Transfert de fichier (FTP) - Récupération fichier via FTP . 32
Transfert vers un fichier FTP : Transfert de fichier (FTP) – Envoi de fichier via FTP ...................... 32
Clonage : divers – clonage ligne .................................................................................................... 32
Dédoublonnage : Transformation – dédoublonnage .................................................................... 32
Eclatement : Contrôle de flux – branchement conditionnel ......................................................... 32

Réf. 1 M. THIOYE Page 1 / 32


ETL AVEC PDI
Présentation de PDI

Pentaho est une plate-forme décisionnelle open source complète possédant les
caractéristiques suivantes :

o une couverture globale des fonctionnalités de la Business Intelligence :


 ETL (intégration de données),
 reporting,
 tableaux de bord ("Dashboards"),
 analyse ad hoc (requêtes à la demande),
 analyse multidimensionnelle (OLAP) ;

o Pentaho permet d'adresser deux typologies d'utilisateurs :


 les « one-clic users », utilisateurs de base, consommateurs
d'indicateurs prédéfinis,
 les utilisateurs avancés, qui ont besoin d'outils d'analyse et
d'exploration avancés ;

Réf. 1 M. THIOYE Page 2 / 32


ETL AVEC PDI

o une architecture Web 2.0 qui se compose :


 d'un serveur Web J2EE permettant de mettre à disposition
l'ensemble des ressources décisionnelles et ceci au travers
d'URL Web uniques et standardisées. Le serveur est
dénommé "Pentaho User Console" (PUC),
 plusieurs clients riches permettant la conception et la
publication des ressources. Ces derniers sont librement
téléchargeables et peuvent être installés sous des
environnements Windows, Linux ou Mac-OS (clients Java) ;

Réf. 1 M. THIOYE Page 3 / 32


ETL AVEC PDI

o le serveur Web Pentaho comporte également une plate-forme


d'administration (Pentaho Administration Console) pour la gestion des droits
d'accès, la planification d'évènements, la gestion centralisée des sources de
données... ;
o Pentaho est reconnue pour être une solution d'une grande qualité
conceptuelle et technique. La plate-forme est orientée « processus » : au travers
de « séquences d'actions » on peut ainsi modéliser avec Pentaho des workflows
BI avancés ;
o il n'est pas besoin de connaître JAVA pour travailler avec Pentaho : seule la
maîtrise du langage SQL est nécessaire, ainsi que des connaissances de base en
XML, HTML et JavaScript. Il faut bien sûr s'autoformer (ou être formé) aux clients
de conception ;
o une communauté importante et très active s'anime autour de Pentaho. Celle-ci
contribue au codage de nombreux plugins et de projets communautaires : plugins
Kettle, Pentaho Analysis Tool, Pentaho Community Dashboard Framework, etc. ;

Réf. 1 M. THIOYE Page 4 / 32


ETL AVEC PDI
o Pentaho est une suite décisionnelle open source commerciale qui reste très
« ouverte ». Les différences fonctionnelles entre la version libre (community
edition) et la version payante (enterprise edition) restent limitées. La version libre
de Pentaho permet d'installer une plate-forme décisionnelle complète !

Premier Programme avec PDI


1. Démarrer Pentaho

2. Créer un programme de Transformation

Nous allons faire un simple programme, ou nous allons nous connecter à


MySQL et extraire une table dans un fichier Excel.

Recuperer le fichier mysqlsampledatabase.zip, extraire la base classicmodels


dans votre Mysql.

Réf. 1 M. THIOYE Page 5 / 32


ETL AVEC PDI

3. Connecté PDI à votre base

Réf. 1 M. THIOYE Page 6 / 32


ETL AVEC PDI

Réf. 1 M. THIOYE Page 7 / 32


ETL AVEC PDI

Réf. 1 M. THIOYE Page 8 / 32


ETL AVEC PDI

Réf. 1 M. THIOYE Page 9 / 32


ETL AVEC PDI

Réf. 1 M. THIOYE Page 10 / 32


ETL AVEC PDI

Réf. 1 M. THIOYE Page 11 / 32


ETL AVEC PDI

Réf. 1 M. THIOYE Page 12 / 32


ETL AVEC PDI

Réf. 1 M. THIOYE Page 13 / 32


ETL AVEC PDI

Réf. 1 M. THIOYE Page 14 / 32


ETL AVEC PDI

Exercice : Prenez le fichier excel FactFacture.xslt, il contient les tables suivant :

Réf. 1 M. THIOYE Page 15 / 32


ETL AVEC PDI

Exemple pour DimClient vous avez les champs suivants :

Réf. 1 M. THIOYE Page 16 / 32


ETL AVEC PDI

Dans MySQL :

1. Créer la base de Donnée bdStock ;


2. Créer les Tables DimClient, DimGeographie, DimProduit, DimSite,
DimTemps et FactFacture ;
3. Extraires les informations des feuilles excel vers les tables correspondant.

Réf. 1 M. THIOYE Page 17 / 32


ETL AVEC PDI
Les transformations
Le Tri : Transformation – Tri ligne
Avec la base classicmodels, nous allons faire le tri sur la table Customers et dans la base bdstpck,
créer une table costomers à l’image de celle de la base classicmodels.

Réf. 1 M. THIOYE Page 18 / 32


ETL AVEC PDI

Réf. 1 M. THIOYE Page 19 / 32


ETL AVEC PDI

Sélection : contrôle de flux – filtrage ligne

Réf. 1 M. THIOYE Page 20 / 32


ETL AVEC PDI

Exercice :

Réf. 1 M. THIOYE Page 21 / 32


ETL AVEC PDI
Script SQL : Execution Script – Execution Script SQL

Exercice : faire une ETL qui vérifie si la table Customers existe dans la base bdStock et le crée dans
le cas contraire, ensuite y insert les informations provenant de la table customers de la base
classicModel.

Cumul valeur d’un champ : statistique - agrégation de valeur

Réf. 1 M. THIOYE Page 22 / 32


ETL AVEC PDI

Réf. 1 M. THIOYE Page 23 / 32


ETL AVEC PDI

Réf. 1 M. THIOYE Page 24 / 32


ETL AVEC PDI

Réf. 1 M. THIOYE Page 25 / 32


ETL AVEC PDI
Champ calculé : Transformation – calcul

Réf. 1 M. THIOYE Page 26 / 32


ETL AVEC PDI
Recherche : recherche – recherche dans la base de donnée

Réf. 1 M. THIOYE Page 27 / 32


ETL AVEC PDI

Réf. 1 M. THIOYE Page 28 / 32


ETL AVEC PDI

Listage des noms des sous répertoires : Extraction – récupération sous répertoire

Réf. 1 M. THIOYE Page 29 / 32


ETL AVEC PDI

Réf. 1 M. THIOYE Page 30 / 32


ETL AVEC PDI

Réf. 1 M. THIOYE Page 31 / 32


ETL AVEC PDI
Listage des noms des fichiers d’un répertoire : Extraction – récupération nom fichier

Récupération depuis un serveur FTP : Transfert de fichier (FTP) - Récupération fichier


via FTP
Transfert vers un fichier FTP : Transfert de fichier (FTP) – Envoi de fichier via FTP
Clonage : divers – clonage ligne
Dédoublonnage : Transformation – dédoublonnage
Eclatement : Contrôle de flux – branchement conditionnel

Réf. 1 M. THIOYE Page 32 / 32

Vous aimerez peut-être aussi