FormationRavancee Dev Perf
FormationRavancee Dev Perf
FormationRavancee Dev Perf
Présentation de la formation 5
1 Construire un package R 7
1.1 Initialiser un package . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Ajouter une fonction : exemple fil rouge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Documenter une fonction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Tester le package de manière intéractive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Tester le package de manière automatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6 Faire un check du package . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.7 Installer le package . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.8 Annexe 1.1 : ajouter d’une méthode S3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.9 Annexe 1.2 : soumettre son package au CRAN . . . . . . . . . . . . . . . . . . . . . . . . . . 11
6 Parallélisation du code R 35
6.1 Introduction à l’execution parallèle sous R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.2 Première fonction parallèle en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.3 Parallélisation efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.4 Parallélisation dans notre exemple fil rouge . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
7 Miscélanées 43
7.1 Debugging avec browser() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3
4 CONTENTS
7.2 attach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.3 gestion mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.4 copies et variables locales/globales dans les fonctions . . . . . . . . . . . . . . . . . . . . . . . 43
7.5 naming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.6 gpplot2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Références 47
Présentation de la formation
Le but principal de cette formation est de vous donner des outils pour faciliter le développement de code
(performant) avec R. L’aspect “performance” arrivera dans un deuxième temps, et les premiers outils présentés
sont également très utiles dans des situations ne faisant pas intervenir de temps de calculs importants.
Nous allons centrer la présentation de ces outils de développement autour de la notion de package. Vous
connaissez déjà cette notion, car vous avez déjà installer des packages depuis le CRAN par exemple. Vous
savez également que c’est le moyen le plus standard dans R pour mettre à disposition du code. Nous allons
vous montrer que le package est également un excellent outil pour développer le code.
Nous allons adopter le plan suivant :
1. Construire un package
2. Tracer les changements, partager son code, développement collaboratif et automatiser les tests dans
un package
3. Mesurer le temps de calcul
4. Profiler le code
5. Utiliser Rcpp pour optimiser ce qui doit l’être
6. Paralléliser facilement le code
Afin de suivre cette formation, il est nécessaire de disposer des logiciels suivants :
• la dernière version de R (https://cloud.r-project.org/)
• la dernière version de RStudio (https://www.rstudio.com/products/rstudio/download/#download)
• un compilateur C++ (tel que gcc ou clang - natif sous les système UNIX, pour les utilisateurs Windows
nous recommandons l’installation de Rtools, pour les utilisateurs Mac il peut être nécessaire d’installer
les outils de développement Apple comme suggéré ici)
• les packages R suivants : devtools, doParallel, itertools, microbenchmark, profvis, Rcpp, RcppArmadillo,
roxygen2, testthat, mvtnorm
• le client GitHub Desktop
• le logiciel git
5
6 CONTENTS
Chapitre 1
Construire un package R
Nous présentons ici comment construire un package efficacement à l’aide d’outils graphiques présents dans
Rstudio et du package devtools.
Le site de référence sur ce sujet est le site R packages d’Hadley Wickham.
7
8 CHAPITRE 1. CONSTRUIRE UN PACKAGE R
Nous souhaitons calculer la valeur de la densité d’une loi normale multivariée sur Rp en n points. Notre
fonction doit pouvoir s’appliquer pour n’importe quelle loi normale multivariée (vecteur de moyennes dans
Rp et matrice de variance-covariance d’ordre de p quelconques), et on souhaite pouvoir calculer toutes les
valeurs de la densité évaluées sur les n points en un seul appel de la fonction.
Vous devez donc créer une fonction mvnpdf() dans un fichier nommé mvnpdf.R dans le dossier R du package,
qui :
• prend en arguments :
– x une matrice, à n colonnes (les observations) et p lignes
– mean un vecteur de moyennes
– varcovM une matrice de variance-covariance
– Log un paramètre logique valant TRUE par défaut
• renvoie une liste contenant la matrice x ainsi qu’un vecteur des images des points de x par la fonction
de densité de la variable aléatoire de loi normale multivariée considérée.
A vous de jouer !
ATTENTION ! Si vous cliquez trop vite sur le lien ci-dessous, cela invalidera votre participation
à la formation !
Voici une proposition de fonction que vous pouvez télécharger ici.
Pour des conseils lors de la rédaction de code, voir la page R code du site d’Hadley.
Il est important de bien documenter votre code. Tout projet a au moins 2 développeurs :
• vous
• vous dans 6 mois
Par égard à votre futur-vous, soyez sympas et prenez le temps de documenter votre code !
Nous vous conseillons vivement d’utiliser le package roxygen2 pour documenter vos packages. L’avantage
principale étant d’avoir l’aide d’une fonction dans le même fichier que le code définissant cette fonction.
A vous de jouer !
1. Commencer par insérer le squelette de l’aide grâce à “Insert Roxygen Skeleton” situé dans
le menu “Code” ou le sous-menu Baguette magique
2. Compléter la documentation en renseignant :
• le titre de la fonction (première ligne)
• la description de ce que fait la fonction (deuxième paragraphe)
• si vous renseignez un troisième paragraphe, cette partie ira dans la section “Details” de la
page d’aide
• la signification des paramètres
• la sortie, après la balise @return
3. Générer la documentation à l’aide de “Document” dans le menu “More” de l’onglet “Build”
(ou Ctrl+Shift+D ou devtools::document()). L’effet de cette commande est multiple :
1.4. TESTER LE PACKAGE DE MANIÈRE INTÉRACTIVE 9
• un dossier man a été créé et à l’intérieur, un fichier mvnpdf.Rd a été créé et contient les
informations de l’aide de la fonction
• le fichier NAMESPACE a été modifié
En cas de bug ou par curiosité ET une fois que vous avez terminé vous pouvez consulter cette
proposition.
Pour plus de détails sur la documentation de package et les balises roxygen2, voir la page Object documen-
tation du site d’Hadley.
Finissons par évoquer une fonction du package devtools qui initialise une page d’aide pour le package dans
son ensemble :
devtools::use_package_doc()
La page d’aide générée sera alors accessible, une fois le package installé, via :
?mypkgr
Cette commande induit la création d’un dossier tests qui comprend un fichier testthat.R - à ne pas
modifier - et un dossier testthat dans lequel on va insérer nos tests. Cet outils s’appuie sur la théorie des
tests unitaires.
Voici par exemple, le contenu d’un fichier qu’on appellera test-univariate.R à mettre dans le dossier
testthat :
context("Univariate gaussian test")
dnorm(c(1.96, -0.5)))
})
Pour exécuter ces tests, on peut utiliser dans l’onglet “Build”, le menu “More”, “Test package” (ou
devtools::test() ou Ctrl+Shift+T).
L’avantage de ces tests automatiques est qu’ils vont s’exécuter à chaque fois qu’on effectuera un check du
package.
Une bonne pratique est d’ajouter un test unitaire à chaque fois qu’un bug est identifier et résolu, afin de
pouvoir immédiatement identifier et prévenir qu’une erreur identique ne se reproduise dans le futur.
Attention ! Pour que cette méthode fasse bien ce qu’on veut quand on l’applique au résultat de notre fonction
mvnpdf(), il faut déclarer que ce résultat est de classe mvnpdf.
Tester cette fonction, en exécutant l’exemple.
N’oubliez pas de re-charger le package (Ctrl+Shift+L), et de re-documenter le package (Ctrl+Shift+D).
Consulter le contenu du dossier man et les modifications qui ont été apportées au fichier NAMESPACE.
Voici une proposition de solution : le fichier contient le code complet de la fonction mvnpdf() et de la méthode
plot() associée.
2.1.1 git
git est un logiciel de contrôle de version (c’est-à-dire un outils qui va enregistrer l’histoire des changements
successifs de votre code et permettre de partager ces changements avec d’autres personnes). git est un
logiciel en ligne de commande, et sa prise en main n’est pas nécessairement intuitive.
git fonctionne de la façon suivante : sur un serveur dans le ‘cloud’, une version à jour du code est disponible.
À tout moment il est possible d’accéder à cette version du code en ligne. Chaque contributeur peut télécharger
cette dernière version à jour (dans une action que l’on dénomme pull), avant de l’éditer localement. Une
fois ses changements effectués, le contributeur peut alors mettre à jour la version en ligne du code afin que
ses changements soient disponibles pour tout le monde (dans une action que l’on dénomme push)
NB : git a été pensé pour des fichiers légers (comme par exemple des fichiers texte) et est loin d’être optimisé
pour des fichiers trop lourds et/où compressés.
2.1.2 subversion
subversion est l’autre solution disponible dans RStudio. Elle fonctionne de manière similaire à git, mais
avec des fonctionnalités un peu plus réduites que nous détaillons pas ici (la différence majeure est que tout
13
14CHAPITRE 2. CONTRÔLE DE VERSION AVEC GIT ET GITHUB : HITORIQUE DE CHANGEMENT,
A vous de jouer !
1. Commencez par activer git depuis l’onglet “Git/SVN” de “Project Options” situé dans le
menu “Tools” et suivre les instructions.
2. À partir de l’onglet “Git” maintenant apparu à côté de l’onglet “Build”, enregistrer l’état
actuel de votre package en réalisant votre premier “commit”
3. à partir de l’onglet “Git” maintenant apparu à côté de l’onglet “Build”, enregistrer l’état
actuel de votre package en réalisant votre premier “commit” :
• 3a. sélectionner les fichiers à suivre (ne pas sélectionner le fichier .Rpoj)
• 3b. écrire un message informatif (pour vos collaborateurs - ce qui inclut votre futur vous)
• 3c. cliquer sur “Commit”
4. ajouter une ligne ”*.Rproj” au fichier “.gitignore” et effectuez un nouveau commit
5. visualiser les changements et leur historique à l’aide des outils de visualisation “Diff” et
“History” accessible depuis l’onglet “Git”
Idéalement, chaque commit ne devrait régler qu’un seul problème. Il devrait le régler dans son intégralité
(être complet) et ne contenir des changements relatifs qu’uniquement à ce problème (être minimal). Il est
alors important d’écrire des message de commit informatifs (pensez à vos collaborateur, qui incluent votre
futur vous). Il faut également être concis, et décrire les raisons des changements plutôt que les changements
eux-mêmes (visibles dans le Diff ). Il est parfois difficile de respecter ces directives à la lettre, et celles-ci ne
sont qu’un guide et ne doivent pas vous empêcher d’effectuer des commits réguliers.
Par ailleurs, la tentation d’avoir un historique de changements “propre” et bien ordonné est naturelle, mais se
révèle une source de problèmes inutiles. Elle entre en contradiction avec l’objectif de traçabilité du contrôle
de version. Le développement de code étant généralement un processus intellectuel complexe et non linéaire,
il est normal que l’enregistrement des changements reflète ce cheminement. En pratique, votre futur-vous
sera le premier utilisateur de votre historique de changements et la priorité est donc de vous faciliter la tache
dans le futur lors de la résolution de bug où l’extension de fonctionnalités.
2.3 GitHub
GitHub est un site internet proposant une solution d’hébergement de code en ligne, et s’appuyant sur git. Il
existe de nombreux sites web et services (gitlab, bitbucket, …) permettant d’héberger du code et s’appuyant
sur git. GitHub est très populaire dans la communauté des développeurs R, et est relativement facile à
utiliser, même pour un utilisateur novice.
Les avantages d’utiliser GitHub :
• une interface graphique simple pour suivre l’historique des changements de votre code
• la dernière version de développement de votre code est disponible en ligne et vous pouvez la référencer
(on peut même référencer un numéro de commit précis pour geler une version spécifique du code)
2.4. COLLABORATION POUR LA PRODUCTION DU CODE 15
• les utilisateurs disposent d’un canal clair et transparent pour signaler les bugs/difficultés
• cela facilite grandement le développement collaboratif
A vous de jouer !
1. rendez vous sur le site https://github.com/ et créez vous un compte GitHub (si vous hésitez,
une convention courante est d’utiliser prénomnom comme nom d’utilisateur)
2. ouvrez le client “GitHub desktop” sur votre machine et connectez vous à votre compte
GitHub.
3. ajouter un nouveau projet local en cliquant sur l’icone “+” en haut à gauche de la fenêtre
du client, puis en choississant “Add” et en rentrant le chemin du dossier où se trouve le code
de votre package.
4. une fois le repertoire créer en local, publiez le sur GitHub en cliquant sur “Publish” en haut
à droite de la fenêtre du client. Vérifiez sur le site de GitHub que votre code à bien été
uploadé avec les 2 commits précédents.
5. Ajouter un fichier “README.Rmd” à votre package afin de disposer d’une belle page
d’accueil sur GitHub :
• 5a. dans RStudio, executez la commande devtools::use_readme_rmd()
• 5b. à l’aide de l’outilds “Diff” de l’onglet “Git” de RStudio, étudier les changements opérer
par la commande précédente
• 5c. éditez le fichier “README.Rmd” créé, puis créer le fichier README.md correspondant
en executant knitr (cliquer su la pelotte de laine “Knit” en haut à gauche dans Rstudio),
avant d’effectuer un 3e commit contenant ces changements
• 5d. à ce stade, si vous visitez la page de votre répertoire sur GitHub, votre 3e commit
n’apparait pour l’instant pas. Il faut synchroniser le répertoire GitHub en ligne avec votre
dossier local. Pour cela, vous avez 2 solutions : soit utiliser le bouton “Sync” en haut à
droit de la fenêtre du client GitHub desktop ; soit directement depuis RStudio en cliquant
sur “Push” depuis l’onglet “Git”. Maintenant, les changement du 3e commit sont visibles
en ligne dur GitHub.
repertoires associés à votre compte GitHub non liés à un dossier local. Sélectionner le projet
de votre binome.
2.4.1 Branches
Une des fonctionnalités assez utile de git est les branches. Cela permet d’opérer des changements importants
dans le code sans perturber le fonctionnement actuel. C’est notamment utile pour explorer une piste de
développement dont on ne sait pas si elle sera concluante au final.
D’ailleurs, vous utilisez déjà les branches depuis le depuis de cette partie. En effet, la branche par défaut est
appelé “master”.
Grâce à ce système de branches, on obtient un arbre des différents commits au cours du temps (où les nœuds
correspondent à la séparations des branches).
2.4.2 Merge
Prenons l’exemple suivant : le développeur D1 et le développeur D2 on tous les 2 pullé la version v0.1 du
code à l’instant t sur leur machine respective. Ils travaillent chacun indépendamment pour apporter des
changements au code. Au moment de pusher ses changements, le développeur D2 reçoit un message d’erreur
:
“Sync Error.
Please resolve all conflicted files, commit, then try syncing again.”
Chaque fichier étant source de conflit a alors été automatiquement édité comme suit :
<<<<<<< HEAD
code dans votre version local
=======
code en ligne
>>>>>>> remote
Pour résoudre le conflit, il faut alors éditer chaque fichier un à un en choisissant s’il faut conserver la version
locale ou bien celle en ligne, avant de pouvoir commiter à nouveau et enfin de pusher vos changements avec
succès.
A vous de jouer !
1. Modifiez le fichier README.Rmd de votre binome, puis commitez votre changement et pushez
le.
2.5. INTÉGRATION CONTINUE 17
2. une fois que votre binôme a modifié votre README.Rmd, modifiez à votre tour le fichier à la
même ligne, SANS puller les changements de votre binôme au préalable ! Commitez et
essayez de pusher ces changements.
3. Résolvez le conflit.
2.4.4 Fork
L’action fork permet de créer une copie qui vous appartient à partir d’un code disponible. Ainsi le code
original ne sera pas impacté par vos changements. Cela revient à créer une branche, et la séparer de l’arbre
pour pouvoir en assumer la propriété.
Cette action est principalement utile dans le cadre des pull requests.
Il s’agit du moyen le plus facile de proposer des changements dans un code dont vous n’êtes pas collaborateur.
GitHub propose une interface graphique facilitant leur traitement.
A vous de jouer !
1. Modifiez le README.Rmd de votre voisin qui n’est pas votre binôme après avoir forké son
package.
2. Proposez votre changement sous la forme d’une pull request.
3. Acceptez la pull request sur le site de GitHub et faire le merge.
2.4.6 Issues
Pour n’importe quel répertoire GitHub, vous pouvez poster un commentaire sous forme d’issue afin d’alerter
les développeurs sur un éventuel bug, ou une question sur l’utilisation du package, ou encore demander une
fonctionnalité supplémentaire…
L’idéal est de proposer vous-même une pull request qui résout votre issue lorsque vous le pouvez (i.e. en avez
les capacités et le temps).
A vous de jouer !
1. Utilisez devtools::use_github_links() afin d’ajouter les 2 lignes suivantes au fichier
DESCRIPTION de votre package
URL: http://github.com/*prenom.nom*/mypkg
BugReports: http://github.com/*prenom.nom*/mypkg/issues
grâce à la fonction devtools::use_github_links()
2. Visualisez les nouveau changements, puis commitez les.
3. Créez une issue sur le projet de votre binome
Les services d’intégration continue permettent de checker votre package automatiquement après chaque
commit ! En cas d’échec, vous recevez un mail qui vous en informe. Un certain nombre de ces services
proposent une offre limitée gratuite pour les projets open-source.
Une autre raison d’utiliser l’intégration continue est qu’elle permet de tester votre package sur des infras-
tructures différentes de la votre (e.g. Windows, Ubuntu, Mac OS) et pour différentes versions de R (current,
devel…)
2.5.1 Travis CI
Travis est un service d’intégration continue (Continuous Integration), qui permet de checker votre package
à chaque commit sous Ubuntu. La commande devtools::use_travis() initialise le fichier de configuration
.travis.yml nécessaire.
A vous de jouer !
1. Rendez vous sur le site https://travis-ci.org/ et créez vous un compte associé à votre GitHub
en cliquant sur le bouton “SignIn with GitHub” en haut à droite.
2. Activez votre repertoire mypkg sur Travis
3. executez la commande devtools::use_travis() et commitez les changements et regardez
ce qu’il se passe sur votre page Travis
4. ajouter un joli badge à votre README.md grâce au code suivant (obtenu dans la console
R) :
[![Travis-CI Build Status](https://travis-ci.org/*prenomnom*/mypkgr.svg?branch=master)](https:/
et commitez les changements
Travis permet également de tester votre package sous Mac OS (même si ce service est parfois moins stable).
5. Ajoutez les lignes suivantes dans le fichier de configuration .travis.yml :
r:
- release
- devel
os:
- linux
- osx
N’hésitez pas à aller visiter les pages de packages connus sur GitHub pour observer comment ils configurent
leur fichier .travis.yml.
2.5.2 Appveyor
4. ajouter un joli badge à votre README.md grâce au code suivant (obtenu dans la console
R) :
[![AppVeyor Build Status](https://ci.appveyor.com/api/projects/status/github/*prenomnom*/mypkgr
et commitez les changements
2.5.3 R-hub
Le R consortium met à disposition le R-hub builder, et a pour ambition de bientôt proposer un service
d’intégration continue spécialement dédié aux packages R.
La première étape avant d’optimiser un code est de pouvoir mesurer son temps d’exécution, afin de pouvoir
comparer les temps d’exécution entre différente implémentations.
Pour mesure le temps d’exécution d’une commande R, on peut utiliser la fonction system.time() comme
ceci :
system.time(mvnpdf(x=matrix(rep(1.96, 2), nrow=2, ncol=1), Log=FALSE))
Comme son nom l’indique, ce package permet justement de comparer des temps d’exécution même quand
ceux-ci sont très faibles. De plus, la fonction microbenchmark() va répéter un certain nombre de fois
l’exécution des commandes et donc va stabiliser le résultat.
21
22 CHAPITRE 3. MESURER ET COMPARER DES TEMPS D’EXÉCUTION
library(microbenchmark)
mb <- microbenchmark(mvtnorm::dmvnorm(rep(1.96, 2)),
mvnpdf(x=matrix(rep(1.96,2)), Log=FALSE),
times=1000L)
mb
## Unit: microseconds
## expr min lq mean
## mvtnorm::dmvnorm(rep(1.96, 2)) 42.388 46.7840 52.41052
## mvnpdf(x = matrix(rep(1.96, 2)), Log = FALSE) 33.170 37.5805 41.39295
## median uq max neval
## 48.7195 50.6780 2283.302 1000
## 39.4710 41.1215 770.573 1000
1.0
Log−temps de calcul (milli−sec)
0.1
dmvnorm mvnpdf
Expression valuée
Les deux fonctions mvnpdf() et dmnvorm() étant capables de prendre en entrée une matrice, on peut égale-
ment comparer leurs comportements dans ce cas :
n <- 100
mb <- microbenchmark(mvtnorm::dmvnorm(matrix(1.96, nrow = n, ncol = 2)),
mvnpdf(x=matrix(1.96, nrow = 2, ncol = n), Log=FALSE),
times=100L)
mb
## Unit: microseconds
## expr min
## mvtnorm::dmvnorm(matrix(1.96, nrow = n, ncol = 2)) 63.159
## mvnpdf(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE) 459.783
## lq mean median uq max neval
3.2. COMPARER DES TEMPS D’EXÉCUTION AVEC MICROBENCHMARK() 23
1.0
Log−temps de calcul (milli−sec)
0.1
dmvnorm mvnpdf
Expression valuée
On parle de profiling en anglais. Il s’agit de déterminer ce qui prend du temps dans un code. Le but étant
une fois trouvé le bloc de code qui prend le plus de temps dans l’exécution d’optimiser uniquement cette
brique.
Pour obtenir un profiling du code ci-dessous, sélectionner les lignes de code d’intérêt et aller dans le menu
“Profile” puis “Profile Selected Lines” (ou Ctrl+Alt+Shift P).
n <- 10e4
pdfval <- mvnpdf(x=matrix(1.96, nrow = 2, ncol = n), Log=FALSE)
OK, we get it ! Concaténer un vecteur au fur et à mesure dans une boucle n’est vraiment pas une bonne
idée.
On a effectivement résolu le problème et on apprend maintenant de manière plus fine ce qui prend du temps
dans notre fonction.
Pour confirmer que mvnpdfsmart() est effectivement bien plus rapide que mvnpdf() on peut re-faire une
comparaison avec microbenchmark() :
n <- 1000
mb <- microbenchmark(mvnpdf(x=matrix(1.96, nrow = 2, ncol = n), Log=FALSE),
mvnpdfsmart(x=matrix(1.96, nrow = 2, ncol = n), Log=FALSE),
times=100L)
mb
## Unit: milliseconds
## expr min
## mvnpdf(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE) 5.259676
## mvnpdfsmart(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE) 3.860920
## lq mean median uq max neval
25
26 CHAPITRE 4. PROFILER SON CODE
10
mvnpdf mvnpdfsmart
Expression évaluée
## Unit: microseconds
## expr min
## mvtnorm::dmvnorm(matrix(1.96, nrow = n, ncol = 2)) 141.268
## mvnpdf(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE) 5268.798
## mvnpdfsmart(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE) 3909.857
## lq mean median uq max neval
## 194.5535 249.5232 251.4355 284.6735 432.901 100
## 5544.9990 6476.8657 6106.2360 6738.4340 11262.665 100
## 4017.5980 4950.8887 4199.9920 4958.9730 12966.330 100
4.2. COMPARAISON AVEC UNE VERSION OPTIMISÉE DANS R 27
10
Log−temps de calcul (milli−sec)
Il y a encore du travail…
Et un petit microbenchmark() :
n <- 1000
mb <- microbenchmark(mvtnorm::dmvnorm(matrix(1.96, nrow = n, ncol = 2)),
mvnpdf(x=matrix(1.96, nrow = 2, ncol = n), Log=FALSE),
mvnpdfsmart(x=matrix(1.96, nrow = 2, ncol = n), Log=FALSE),
mvnpdfoptim(x=matrix(1.96, nrow = 2, ncol = n), Log=FALSE),
times=100L)
mb
## Unit: microseconds
## expr min
## mvtnorm::dmvnorm(matrix(1.96, nrow = n, ncol = 2)) 162.396
## mvnpdf(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE) 5250.897
## mvnpdfsmart(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE) 3936.798
## mvnpdfoptim(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE) 3010.239
## lq mean median uq max neval
28 CHAPITRE 4. PROFILER SON CODE
10
Log−temps de calcul (milli−sec)
Rcpp (R-C-Plus-Plus) est un package qui facilite l’interface entre C++ et R. R est un langage interprété, ce
qui facilite un certain nombre de choses (notamment nous donne accès à la console dans laquelle on peut
évaluer du code à la volée). Néanmoins, cette facilité d’utilisation se compense entre autre par des temps
de calcul supérieurs à ceux de langages de plus bas niveau, tels que C, Fortran et C++ (mais qui nécessitent
eux une compilation).
On dirigera le lecteur curieux vers le livre en ligne Rcpp for everyone de Masaki E. Tsuda, qui constitue
une ressource très complète pour comprendre l’utilisation de Rcpp en plus de l’introduction que l’on peut
trouver dans le livre Advanced R d’Hadley Wickham.
A vous de jouer !
1. Afin de rendre votre package prêt pour l’utilisation avec Rcpp, commencez par executer la
commande suivante :
devtools::use_rcpp()
Nous allons maintenant créer une première fonction en Rcpp permettant d’inverser une matrice. Pour cela,
nous allons nous appuyer sur la library C++ Armadillo. Il s’agit d’une library d’algèbre linéaire moderne
et simple, hautement optimisée, et interfacée avec R via le package RcppArmadillo.
C++ n’est pas un langage très différent de R. Les principales différences qui nous concernent :
• C++est très efficaces pour le boucles for (y compris les boucles for emboîtées). Attention : il y a
souvent un sens qui est plus rapide que l’autre (ceci est dû à la manière dont C++ attribue et parcours
la mémoire).
29
30CHAPITRE 5. RCPP OU COMMENT INTÉGRER FACILEMENT DU CODE C++DANS UN PACKAGE R
• C++est un langage typé : il faut déclarer le type de chaque variable avant de pouvoir l’utiliser.
A vous de jouer !
1. Créez un nouveau fichier C++ depuis RStudio (via le menu File > New File > C++ File),
et enregistrez le dans le dossier src. Prenez le temps de le lire et essayez de comprendre
chaque ligne.
2. Compilez et chargez votre package (via le bouton “Install and Restart”) et essayez d’utiliser
la fonction timesTwo() depuis la console.
5. Lorsque vous avez réussi à compiler votre fonction invC et qu’elle est accèssible depuis R créer
une fonction mvnpdf_invC() à partir de l’implémentation de mvnpdfsmart en remplaçant
uniquement les calculs d’inverse matriciel par un appel à invC.
## Unit: microseconds
## expr min
## mvtnorm::dmvnorm(matrix(1.96, nrow = n, ncol = 2)) 162.003
## mvnpdf(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE) 5254.996
## mvnpdfsmart(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE) 3899.140
## mvnpdfoptim(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE) 2989.025
## mvnpdf_invC(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE) 3859.108
## lq mean median uq max neval
## 211.956 254.1075 261.6475 284.385 439.049 100
## 5481.003 6172.7274 5686.2385 6392.095 10861.353 100
## 4060.469 4434.1228 4163.0600 4365.706 11427.155 100
## 3140.927 3790.5014 3246.3620 3435.022 14313.103 100
## 4007.927 4580.6509 4146.4445 4381.927 11336.148 100
5.2. OPTIMISATION GRÂCE À C++ 31
10
Temps de calcul (milli−sec)
times=100L)
mb
## Unit: microseconds
## expr
## mvtnorm::dmvnorm(matrix(1.96, nrow = n, ncol = 2))
## mvnpdf(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE)
## mvnpdfsmart(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE)
## mvnpdfoptim(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE)
## mvnpdf_invC(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE)
## mvnpdfC(x = matrix(1.96, nrow = 2, ncol = n), mean = rep(0, 2), varcovM = diag(2), Log = FALSE)
## min lq mean median uq max neval
## 163.725 220.6850 257.91377 253.2050 278.329 869.155 100
## 5170.510 5348.5425 6002.33488 5605.3310 6243.388 12476.105 100
## 3855.651 3932.8885 5027.30814 4075.5010 4402.058 58508.370 100
## 2948.495 3114.0815 3624.92685 3239.8520 3476.350 10007.401 100
## 3790.510 3912.3125 4498.92608 4006.4635 4386.675 9056.649 100
## 32.814 45.5355 59.68107 51.2115 56.755 827.947 100
Log−temps de calcul (milli−sec)
10.0
1.0
0.1
À noter que vous pouvez utiliser des fonctions Rcpp en dehors de l’architecture d’un package grâce à la
fonction Rcpp::sourceCpp(). Mais comme nous avons qu’il est préférable de gérer tous ces code sous la
forme de package, il est peu probable que vous en ayez besoin !
5.3. ANNEXE 5.1 : L’OPTIMISATION PRÉMATURÉE N’EST PAS UNE BONNE IDÉE 33
Parallélisation du code R
En dehors de l’optimisation du code et des algorithmes, une autre façon d’obtenir un code performant est
de tirer profit des architectures parallèles des ordinateurs modernes. Il s’agit alors de paralléliser son code
afin de faire des opérations simultanées sur des parties distinctes d’un même problèmes, en utilisant différent
cœurs de calcul. On ne réduit pas le temps de calcul total nécessaire, mais l’ensemble des opérations s’exécute
plus rapidement.
Il existe un nombre non négligeable d’algorithmes qui sont d’un “parallélisme embarrassant”, c’est-à-dire
dont les calculs peuvent se décomposer en plusieurs sous-calculs indépendants. En statistique, il est ainsi
souvent facile et direct de paralléliser selon les différentes observations ou selon les différentes dimensions.
Typiquement, il s’agit d’opérations que l’on peut écrire sous la forme de boucle dont les opérations sont
indépendantes d’une itération de la boucle à l’autre.
Les opérations nécessaires pour l’établissement d’un code parallèle sont les suivantes :
1. Démarrer m processus “travailleurs” (i.e. cœurs de calcul) et les initialiser
2. Envoyer les fonctions et données nécessaires pour chaque tache aux travailleurs
3. Séparer les taches en m opérations d’envergure similaire et les envoyer aux travailleurs
4. Attendre que tous les travailleurs aient terminer leurs calculs et obtenir leurs résultats
5. Rassembler les résultats des différents travailleurs
6. Arrêter les processus travailleurs
Selon les plateformes, plusieurs protocoles de communications sont disponibles entre les cœurs. Sous les
systèmes UNIX, le protocole Fork est le plus utilisé, mais il n’est pas disponible sous Windows où on utilise
préférentiellement le protocole PSOCK. Enfin, pour les architecture de calcul distribuée où les cœurs ne
se trouvent pas nécessairement sur le même processeur physique, on utilise généralement le protocole MPI.
L’avantage des packages parallel et doParallel est que la même syntaxe permettra d’exécuter du code
en parallèle quelque soit le protocole de communication retenu.
Il existe un nombre important de packages et d’initiatives permettant de faire du calcul en R. Depuis R
2.14.0, le package parallel est inclus directement dans R et permet de démarrer et d’arrêter un “cluster”
de plusieurs processus travailleur (étape 1). En plus du package parallel, on va donc utiliser le package
doParallel qui permet de gérer les processus travailleurs et la communication (étapes 1) et l’articulation avec
le package foreachqui permet lui de gérer le dialogue avec les travailleurs (envois, réception et rassemblement
des résultats - étapes 2, 3, 4 et 5).
35
36 CHAPITRE 6. PARALLÉLISATION DU CODE R
À vous de jouer !
On va commencer par écrire une fonction simple qui calcule le logarithme n nombres:
1. Déterminez combien de coeurs sont disponibles sur votre marchine grâce à la fonction
parallel::detectCores().
5. Comparez le temps d’éxecution avec celui d’une fonction séquentielle sur les 100 premiers
entiers, grâce à la commande :
microbenchmark(log_par(1:100), log_seq(1:100), times=10)
library(microbenchmark)
library(parallel)
library(foreach)
library(doParallel)
Spoiler alert
1e+03
Log−temps de calcul (milli−sec)
1e+01
1e−01
log_par(1:100) log_seq(1:100)
Expression évaluée
La version parallèle tourne beaucoup plus lentement… Car en fait, si les tâches individuelles sont trop rapides,
R va passer plus de temps à communiquer avec les cœurs, qu’à faire les calculs effectifs.
Il faut qu’une itération de la boucle soit relativement longue pour que le calcul parallèle
apporte un gain en temps de calcul !
En augmentant n, on observe une réduction de la différence entre les 2 implémentations (le temps de calcul
en parallèle augmente très lentement comparé à l’augmentation de celui de la fonction séquentielle).
NB : les itérateurs d’itertools sont très performants mais ne peuvent servir que lorsque le code à l’intérieur
du foreach est vectorisé (il est toujours possible de vectoriser le code à l’intérieur, par exemple avec une
fonction de type apply). Ils minimisent le nombre de communication entre les coeurs.
On va maintenant se pencher sur un autre cas d’utilisation. Imaginons que l’on ait un grand tableau de
données de taille comportant 10 observations pour 100 000 variables (e.g. des mesures de génomique), et que
l’on veuille calculer la médiane pour chacune de ces variables.
x <- matrix(rnorm(1e6), nrow=10)
dim(x)
## [1] 10 100000
Pour un utilisateur averti de R, une telle opération se programme facilement à l’aide de la fonction apply :
colmedian_apply <- function(x){
return(apply(x, 2, median))
38 CHAPITRE 6. PARALLÉLISATION DU CODE R
}
system.time(colmedian_apply(x))
## Unit: seconds
## expr min lq mean median uq max
## colmedian_apply(x) 2.843944 3.091999 3.152875 3.173077 3.237731 3.283628
## colmedian_for(x) 2.762085 2.811553 2.911493 2.910902 2.990915 3.185161
## neval cld
## 20 b
## 20 a
À vous de jouer !
Essayons d’améliorer encore ce temps de calcul en parallélisant :
1 . Parallélisez le calcul de la médiane de chacune des 100 000 variables. Observe-t-on un gain
en temps de calcul ?
2. Proposez une implémentation alternative grâce à la fonction itertools::isplitIndices()
qui permet de séparer vos données (les n nombres) en autant de groupes que vous avez de
coeurs. Comparez à nouveau les temps de calcul.
colmedian_par <- function(x){
Ncpus <- parallel::detectCores() - 1
cl <- parallel::makeCluster(Ncpus)
doParallel::registerDoParallel(cl)
parallel::stopCluster(cl)
return(res)
}
system.time(colmedian_par(x))
parallel::stopCluster(cl)
return(res)
}
system.time(colmedian_parIter(x))
parallel::stopCluster(cl)
return(res)
}
system.time(colmedian_parIterFor(x))
## Unit: seconds
## expr min lq mean median uq
## colmedian_apply(x) 3.697862 3.824093 3.919906 3.843261 4.011628
## colmedian_for(x) 3.503131 3.629609 3.784733 3.741635 3.944415
## colmedian_parIter(x) 2.553892 2.588146 2.650494 2.623643 2.686496
## colmedian_parIterFor(x) 2.531870 2.569123 2.620524 2.597745 2.675092
## max neval cld
## 4.323115 20 c
40 CHAPITRE 6. PARALLÉLISATION DU CODE R
## 4.181499 20 b
## 2.911398 20 a
## 2.750947 20 a
La parallélisation ça marche !
7 coeurs disponibles pour la parallélisation
4
Temps de calcul (sec)
Le package itertools permet de séparer facilement des données ou des taches (étape 3) tout en minimisant
les communiquations avec les différents travailleurs. Il s’appuie sur une implémentation des itérateurs en
R. Son utilisation nécessite néanmoins de vectoriser le code à l’intérieur du foreach. Expérimentez avec le
petit code ci-dessous :
myiter <- itertools::isplitIndices(n=30, chunks = 3)
## [1] 1 2 3 4 5 6 7 8 9 10
# Une deuxième fois... Oh ?!
iterators::nextElem(myiter)
## [1] 11 12 13 14 15 16 17 18 19 20
# Encore !
iterators::nextElem(myiter)
## [1] 21 22 23 24 25 26 27 28 29 30
# Encore ?
iterators::nextElem(myiter)
## Error: StopIteration
6.4. PARALLÉLISATION DANS NOTRE EXEMPLE FIL ROUGE 41
À vous de jouer !
## Unit: microseconds
## expr
## mvtnorm::dmvnorm(matrix(1.96, nrow = n, ncol = 2))
## mvnpdfoptim(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE)
## mvnpdfoptim_par(x = matrix(1.96, nrow = 2, ncol = n), Log = FALSE)
## min lq mean median uq max
## 587.104 831.118 945.4399 900.807 1095.334 1343.191
## 33815.450 36360.523 41178.5100 40952.855 41881.961 59255.224
## 1683014.788 1686953.935 1698831.9920 1696132.243 1706611.128 1722043.279
## neval cld
## 10 a
## 10 b
## 10 c
42 CHAPITRE 6. PARALLÉLISATION DU CODE R
Spoiler alert 2
1000
Log−temps de calcul (milli−sec)
10
6.5 Conclusion
La parallélisation permet de gagner du temps, mais il faut d’abord bien optimiser son code. Quand on paral-
lélise un code, le gain sur la durée d’exécution dépend avant tout du ratio entre le temps de communication
et le temps de calcul effectif pour chaque tache.
Chapitre 7
Miscélanées
7.2 attach
7.5 naming
7.6 gpplot2
43
44 CHAPITRE 7. MISCÉLANÉES
Chapitre 8
45
46 CHAPITRE 8. TAKE HOME MESSAGE
Références
• Les livres en ligne d’Hadley Wickham sont vraiment excellents et contiennent beaucoup de compléments
par rapport à tout ce que l’on a traité dans cette formation :
– le site sur la construction de package R packages.
– le site Advanced R pour tout ce qui concerne l’optimisation, Rcpp, ou encore le calcul parallèle.
– le site R for Data Science est également très complet et comprend des chapitres sur la gestion des
structures de données dans R, mais aussi la modélisation ainsi que des éléments sur les graphiques
et Rmarkdown.
• le livre en ligne Rcpp for everyone de Masaki E. Tsuda est également très bien.
47