These Daouda
These Daouda
These Daouda
Daouda Traoré
par
Daouda Traoré
le 19 Décembre 2008
JURY
Z OLTAN S ZIGETI Grenoble INP Président
O LIVIER B EAUMONT INRIA Bordeaux-Sud-Ouest Rapporteur
C HRISTOPHE C ÉRIN Université Paris 13 Rapporteur
J EAN -Y VES L’E XCELLENT INRIA Rhône-Alpes Examinateur
D ENIS T RYSTRAM Grenoble INP Directeur de thèse
J EAN -L OUIS ROCH Grenoble INP Co-Directeur de thèse
Remerciements
Je tiens tout d’abord à remercier les membres de mon jury qui ont accepté de s’intéresser à mon
travail malgré leurs emplois du temps surchargés. Merci à Zoltan Szigeti pour avoir accepté de
présider le jury de ma soutenance. Merci à Olivier Beaumont et Christophe Cérin pour avoir pris
le temps de lire mon manuscrit et d’avoir grandement contribué à son amélioration par leurs re-
marques et commentaires. Ayant été plusieurs fois en contact avec Christophe Cérin durant ces
trois années, je voudrais, tout particulièrement le remercier pour son enthousiasme et sa grande
sympathie. Merci à Jean-Yves L’Excellent pour avoir accepté d’examiner ce travail. Merci à
Denis Trystram de m’avoir fait confiance pour être mon directeur de thèse, je le remercie aussi
pour son accueil et ses qualités humaines. Un très grand merci à mon encadrant et co-directeur
de thèse Jean-Louis Roch qui m’a encadré depuis mon Master 2 Recherche jusqu’à la fin de
cette thèse. Je ne saurai jamais lui exprimer toute ma gratitude pour ses qualités humaines, son
aide, son soutien, sa grande disponibilité durant ces trois années. Sans lui cette thèse n’aurai pas
abouti. Merci beaucoup à toi Jean-Louis.
Je remercie tous ceux qui m’ont aidé à faire des corrections orthographiques de ce ma-
nuscrit. Merci donc à Marc Tchiboukdjian, Gérald Vaisman, Jérôme Vienne, Moussa Tembely,
Fatouma Goundo Camara.
Je tiens à remercier mes soeurs maliennes qui m’ont aidé à préparer le pot de ma soutenance
de thèse, qui a été un grand succès. Je remercie donc Mariam Dibo, Fatoumata Goundo Camara,
Mariam Haidara ma chérie.
Je remercie tous les membres des deux équipes du laboratoire LIG et INRIA (MOAIS et
MESCAL), sans citation de leurs noms pour ne pas en oublier, pour leur gentillesse et leur ac-
cueil.
Je tiens à remercier Serge Guelton pour ses aides techniques et sa gentillesse. Je tiens à
remercier mes co-bureaux Ihab Sbeity et Afonso Sales pour leurs aides, leurs conseils et leur
accueil. Je tiens à remercier tous ceux qui m’ont aidé, soutenu et encouragé pendant cette thèse.
Enfin, je remercie ma famille pour m’avoir soutenu et encouragé durant les huit années
d’études en France, depuis ma première année à l’université jusqu’aux études doctorales.
4
Table des matières
1 Introduction 13
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Objectifs et contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Organisation du manuscrit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Programmation parallèle 19
2.1 Architectures parallèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Modèles de programmation parallèle . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1 Parallélisme à mémoire partagée . . . . . . . . . . . . . . . . . . . . . 21
2.2.2 Parallélisme à mémoire distribuée . . . . . . . . . . . . . . . . . . . . 21
2.3 Modèles de coûts des programmes parallèles . . . . . . . . . . . . . . . . . . . 22
2.4 Conception d’un programme parallèle . . . . . . . . . . . . . . . . . . . . . . 23
2.4.1 Les techniques de découpe . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.1.1 Partitionnement . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.1.2 Découpe récursive . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.2 Répartition de charge . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5 Modélisation de l’exécution d’un programme parallèle . . . . . . . . . . . . . 25
2.6 Bibliothèques de programmation parallèle . . . . . . . . . . . . . . . . . . . . 26
2.6.1 OpenMP et Pthreads . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.6.2 MPI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6.3 Cilk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.4 Intel TBB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6.5 Athapascan/Kaapi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Bibliographie 129
8 TABLE DES MATIÈRES
Table des figures
3.1 Comparaison de trois algorithmes du calcul parallèle des préfixes sur p processeurs 44
3.2 Comparaison des temps d’exécution de l’implantation "statique-proposé" et ce-
lui de l’implantation "Nicolau-Wang" sur 4 processeurs avec n grand sur la
machine AMD opteron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1 Temps d’exécution tri rapide versus tri par fusion parallèle sur AMD opteron
16 coeurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2 Temps d’exécution tri rapide versus tri par fusion sur IA64 8 coeurs. . . . . . . 87
5.3 Temps d’exécution du tri rapide adaptatif parallèle perturbé sur la machine
AMD opteron et comparaison à la borne inférieure. . . . . . . . . . . . . . . . 87
Introduction
1.1 Introduction
Le parallélisme est utilisé depuis longtemps en informatique pour résoudre des problèmes
scientifiques (e.g. simulation, météorologie, biologie, jeux vidéo) le plus rapidement possible.
Le principe de base du parallélisme est d’utiliser plusieurs ressources (e.g. processeurs) qui
fonctionnent concurremment pour accroître la puissance de calcul pour la résolution d’un même
algorithme pour un problème donné. L’objectif du parallélisme est non seulement de résoudre
les problèmes le plus rapidement, mais aussi de pouvoir résoudre des problèmes de plus grande
taille.
Pour pouvoir mettre en œuvre le parallélisme en pratique, des systèmes ou architectures ont
été développés et ne cessent d’évoluer. Ces avancées dans le domaine des architectures paral-
lèles au cours de ces dernières années, ont permis le développement considérable de nouvelles
architectures parallèles et distribuées. Ainsi, les architectures de processeurs multi-cœurs, les
processeurs graphiques (GPUs), les machines SMP (Symetric MultiProcessors), les grappes
ou les grilles de calcul sont apparues. Ce qui fait qu’aujourd’hui l’utilisation du parallélisme
devient de plus en plus omniprésente dans tous les systèmes. Les ordinateurs standards (fixes
et portables) d’aujourd’hui deviennent de plus en plus des machines constituées de plusieurs
unités de calcul (cœurs) qui sont capables de traiter simultanément des données. Les systèmes
parallèles de grande taille d’aujourd’hui comme les grilles de calcul sont capables d’exécuter
rapidement des calculs scientifiques demandant plusieurs mois de calcul sur un seul processeur.
Cependant plusieurs éléments doivent être pris en compte dans le développement d’algorithmes
parallèles efficaces pour ces nouveaux systèmes. Car dans ces nouveaux systèmes :
– Le nombre de processeurs peut varier d’une machine à l’autre.
– Les processeurs peuvent être hétérogènes ; de fréquences différentes (classique dans les
grilles de calcul comme grid5000) ou même de fonctionnement différent (GPU).
– Dans les systèmes multi-processus (e.g. processeurs multi-cœurs, machines SMP), plu-
sieurs applications peuvent être concurrentes sur une même unité de traitement. Donc la
vitesse par rapport à une application sur une ressource dépend de la charge extérieure de
14 CHAPITRE 1. INTRODUCTION
la ressource.
Pour limiter le surcoût de créations de tâches, des techniques [35, 76, 71] ont été mises en
œuvre dans l’ordonnancement par vol de travail [3, 18]. Ces techniques diminuent le surcoût
d’ordonnancement de l’algorithme parallèle, mais ne s’attaquent pas au surcoût arithmétique lié
à la parallélisation, qui peut s’avérer très couteux en comparaison avec un algorithme séquentiel.
Dans cette thèse, nous étendons un schéma algorithmique générique original proposé par
Daoudi et al [26]. Ce schéma est basé sur le couplage de deux algorithmes distincts, l’un sé-
quentiel optimal minimisant le nombre d’opérations et l’autre parallèle minimisant le temps
d’exécution. La génération du parallélisme n’est effectuée qu’en cas d’inactivité d’un proces-
seur.
classe d’architectures parallèles, en particulier dans le cas pratique usuel où les processeurs sont
de vitesse variable par rapport à l’application, du fait de leur utilisation par d’autres processus
(système ou autres applications). Ce schéma est basé sur un couplage, récursif et dynamique,
entre plusieurs algorithmes résolvant un même problème. Les contributions apportées par ce
travail de recherche sont les suivantes :
– Nous proposons un nouvel algorithme statique optimal pour le calcul parallèle des pré-
fixes sur des processeurs identiques, l’optimalité de cet algorithme a été prouvée, une
analyse expérimentale montre que cet algorithme se comporte mieux en pratique sur des
machines multicœurs que l’algorithme optimal statique de Nicolau et Wang [94].
– Nous montrons une borne inférieure du calcul des préfixes sur des processeurs à vitesses
variables. Puis nous proposons un algorithme adaptatif du calcul parallèle des préfixes
pour des processeurs dont la vitesse ou le nombre peut varier en cours d’exécution. Des
analyses théoriques et expérimentales montrent les bonnes performances de cet algo-
rithme.
– Nous proposons un algorithme adaptatif indépendant du nombre de processeurs de la
fusion parallèle de deux séquences triées et son analyse théorique. Cet algorithme a per-
mis la parallélisation adaptative de l’algorithme de tri stable. Des garanties théoriques
et expérimentales de performances sont obtenues par rapport au temps séquentiel. Nous
proposons aussi un algorithme adaptatif de la partition basé sur le schéma générique. Cet
algorithme a permis la parallélisation adaptative de l’algorithme de tri introspectif [64].
Des garanties théoriques et expérimentales de performances sont obtenues par rapport au
temps séquentiel.
– Nous proposons un schéma algorithmique parallèle générique avec une analyse théorique
montrant ses garanties d’efficacité. Puis nous donnons une interface générique basée sur
ce schéma qui permet le développement d’algorithmes parallèles adaptatifs. Elle a été
développée en C++ et utilise le moteur de vol de travail de l’environnement de program-
mation parallèle Athapascan/Kaapi [39].
– Une parallélisation adaptative de plusieurs algorithmes avec des conteneurs à accès aléa-
toires de la librairie standard C++ a pu être réalisée en utilisant notre interface générique.
A notre connaissance, nous sommes les premiers à fournir des algorithmes adaptatifs op-
timaux de : partial_sum unique_copy et remove_copy_if. Les expérimenta-
tions menées montrent le bon comportement des algorithmes de la STL que nous avons
adaptés par rapport aux librairies MCSTL (Multi-Core Standard Template Library qui
est actuellement utilisée par Gnu libstdc++ parallel mode) et TBB (Threading Building
Blocks).
Cette thèse a conduit à six publications dans des conférences internationales et nationales.
Ces publications sont :
[1] Daouda Traoré, Jean-Louis Roch, Nicolas Maillard, Thierry Gautier, and Julien Bernard.
Deque-free work-optimal parallel STL algorithms. In LNCS 5168 Springer-Verlag, editor,
EUROPAR’2008, pages 887-897, Canary Island, Spain, August 26-29th .
[2] Jean-Louis Roch, Daouda Traoré, and Julien Bernard. On-line adaptive parallel prefix
computation. In LNCS 4128 Springer-Verlag, editor, EUROPAR’2006, pages 843-850, Ger-
16 CHAPITRE 1. INTRODUCTION
Programmation parallèle
Pour rendre possible l’exécution des programmes parallèles, des architectures spécifiques de
machines ont été développées. Il existe plusieurs types d’architectures parallèles caractérisées,
principalement, par différents modèles d’interconnexions entre les processeurs et la mémoire.
En 1972, Flynn [34] propose une classification des machines parallèles basée sur la notion de
flot de données et de flot d’instructions. Dans cette classification, Flynn distingue quatre types
principaux de machines parallèles :
– Les machines SISD (Single Instruction Single Data) : Dans ces machines, une seule ins-
truction est exécutée et une seule donnée est traitée à tout instant. Les traitements dans ce
type de machines sont donc séquentiels (sans parallélisme). Ce modèle correspond à une
machine monoprocesseur.
– Les machines SIMD (Single Instruction Multiple Data) : Dans ces machines, tous les
processeurs sont identiques et sont contrôlés par une unique unité de contrôle centralisée.
A chaque étape, tous les processeurs exécutent la même instruction de façon synchrone
mais sur des données différentes. Ce type de machines est utilisé pour les calculs spé-
cialisés (e.g. calculs vectoriels). Ces machines correspondent par exemple à des proces-
seurs graphiques (graphics processing unit, GPU), les unités de calcul en virgule flottante
(Floating Point Unit, FPU). Dans l’exemple 2.1.1, l’opération d’addition (+) est exécutée
simultanément par tous les processeurs.
20 CHAPITRE 2. PROGRAMMATION PARALLÈLE
Exemple 2.1.1. Une boucle simple effectuant l’addition de deux vecteurs dans un troi-
sième (tous disjoints en mémoire).
f orall(i = 0; i < 10; i + +)
a[i] = b[i] + c[i]
Dans cet exemple tous les a[i] (0 ≤ i < 10) peuvent être calculés indépendamment.
– Les machines MISD (Multiple Instructions Single Data) : Ces machines peuvent exécuter
plusieurs instructions sur la même donnée. Ce modèle englobe certaines architectures de
type pipeline et les architectures tolérant les pannes par réplication de calcul.
– Les machines MIMD (Multiple Instructions Multiple Data) : Dans ce modèle, chaque
processeur est autonome, dispose de sa propre unité de contrôle et exécute son propre
flot d’instructions sur son propre flot de données. Ces machines sont les plus courantes
aujourd’hui : on retrouve les machines à mémoire partagée (SMPs, cc-NUMAs) et les
machines à mémoire distribuée sur lesquelles nous reviendrons.
De ces quatre modèles d’architectures, les modèles MIMD et SIMD sont prépondérants et cor-
respondent aux deux principales techniques de parallélisation.
Depuis l’apparition des processeurs vectoriels (Machines SIMD) dans les années 1980, les
architectures parallèles sont de plus en plus présentes. Ainsi des architectures de petite et de
grande taille sont apparues dont nous donnons ci-dessous une liste non exhaustive de ces archi-
tectures :
Le principal désavantage de ce modèle est que les sections critiques du code doivent être
bien analysées par le programmeur afin d’éviter une diminution significative de la performance
de la machine parallèle. L’avantage est la simplicité de programmation.
Dans ce modèle, chaque processeur de la machine parallèle possède sa propre mémoire lo-
cale. Les mémoires des processeurs sont physiquement distantes. Les communications des don-
nées entre les processeurs se font par échange de messages et aussi les synchronisations entre les
processeurs. Les communications peuvent être synchrones ; lors de l’envoi d’un message par un
émetteur, le récepteur les reçoit et sa réponse doit être explicite. Les communications peuvent
22 CHAPITRE 2. PROGRAMMATION PARALLÈLE
être bi-points ou collectives, c’est à dire faire participer tous les processeurs aux échanges. Les
communications collectives peuvent être de type diffusion (broadcast)-un processeur envoie la
même donnée à tous les processeurs- ; dispersion/regroupement (scatter/gather) ; tous vers tous
(all-to-all) ; réduction(reduction).
Le coût ou temps d’exécution d’un algorithme séquentiel est généralement exprimé en fonc-
tion de la taille des données en entrée. Le temps d’exécution d’un programme parallèle ne dé-
pend pas seulement de la taille des données en entrée, mais aussi du nombre de ressources
utilisées pour le traitement des données, de leur vitesse relative et du temps de communica-
tion inter-processeur. L’évaluation du coût d’un programme parallèle doit permettre de mettre
en évidence l’intérêt d’utiliser le parallélisme, par exemple le programme s’exécute t-il beau-
coup plus rapidement que le programme séquentiel correspondant ? Donc, pour pouvoir mener
à bien cette évaluation, il est fondamental de définir un modèle d’évaluation de coût des pro-
grammes parallèles. Ce modèle doit permettre de mener des analyses de complexité (montrer
qu’un algorithme donné est optimal, établir la complexité minimale d’un problème, ou montrer
qu’un algorithme parallèle s’exécute plus rapidement qu’un algorithme séquentiel sérialisé), de
donner une classification des algorithmes parallèles d’une manière analogue à l’algorithmique
séquentielle [73].
Le modèle théorique PRAM (Parallel Random Acces Machine) [49, 73, 55, 69, 74] est
largement utilisé pour analyser la complexité des algorithmes parallèles. Il est composé d’un
ensemble de processeurs (en nombre infini) fonctionnant de manière synchrone et d’une mé-
moire partagée, à laquelle les processeurs accèdent. Chaque processeur exécute une opération
à chaque étape du calcul (durée unitaire) et il est supposé que le temps d’accès à la mémoire
prend un temps unitaire égal à zéro. Ce modèle s’adapte bien aux architectures parallèles à
mémoire partagée. Comme il permet aux processeurs d’accéder à n’importe quelle case de la
mémoire en une unité de temps, et que sur une machine réelle l’accès simultané par plusieurs
processeurs peut conduire à des résultats incohérents, des règles ont été définies pour spécifier
le comportement en cas d’accès concurrent à la même case mémoire. Dans le modèle EREW
(Exclusive Read Exclusive Write, lecture et écriture exclusive), deux processeurs différents ne
peuvent ni lire ni écrire à une même étape sur une même case mémoire. Dans le modèle CREW
(Concurrent Read Exclusive Write, lecture concurrente et écriture exclusive), des processeurs
différents peuvent lire à une même étape le contenu d’une même case mémoire, mais ne peuvent
pas écrire simultanément dans une même case ; c’est le modèle le plus usuel.
La construction d’un algorithme parallèle pour un problème donné est beaucoup plus com-
plexe que la construction d’un algorithme en séquentiel du même problème car elle demande
la prise en compte de plusieurs facteurs qui sont par exemple : la partie du programme qui peut
être traitée en parallèle, la manière de distribuer les données, les dépendances des données, la
répartition de charges entre les processeurs, les synchronisations entre les processeurs. Il y a
essentiellement deux méthodes pour construire un algorithme parallèle, l’une consiste à détec-
ter et à exploiter le parallélisme inhérent dans un algorithme séquentiel déjà existant, l’autre
24 CHAPITRE 2. PROGRAMMATION PARALLÈLE
consistant à inventer un nouvel algorithme dédié au problème donné [69]. Dans cette section,
nous allons présenter deux techniques très courantes utilisées pour construire un algorithme
parallèle.
2.4.1.1 Partitionnement
Partitionnement simple
Dans la plupart des problèmes, les processeurs ont besoin de communiquer leurs résultats
entre eux. Dans le partitionnement avec communication, la résolution du problème se fait en
deux phases. Dans la première phase, le problème est découpé en plusieurs parties où chaque
partie pourra être exécutée par un processeur différent. Dans la deuxième phase, les processeurs
communiquent entre eux pour fusionner leurs résultats afin de terminer la résolution du pro-
blème. Comme dans le partitionnement simple, dans la plus grande majorité des problèmes, ce
partitionnement est fait en fonction du nombre de processeurs utilisés.
La découpe récursive est une technique qui permet de paralléliser efficacement certains pro-
blèmes, elle est basée sur une restriction de la méthode "diviser pour régner". Dans cette
restriction, le problème est d’abord divisé en plusieurs sous-problèmes pouvant être traités en
parallèle. Chacun des sous-problèmes est récursivement divisé en sous-problèmes de plus petite
taille. La division s’arrête lorsque la taille du sous-problème est en dessous d’un seuil ou grain.
Un grain définit un bloc de calculs (resp. de données) qui sera évalué (resp. accédé) localement
de manière séquentielle sur un processeur. Un grain trop faible entraîne un surcoût de commu-
nication ce qui peut alors dégrader les performances du calcul. Un grain trop élevé entraîne peu
de communication, mais diminue le degré de parallélisme potentiel.
2.5. MODÉLISATION DE L’EXÉCUTION D’UN PROGRAMME PARALLÈLE 25
La répartition de charge parfois appelée partage de charge (Load Sharing) consiste à utiliser
au maximum les ressources disponibles d’une machine. Le cas idéal est d’occuper en perma-
nence les ressources. Les performances d’un programme parallèle dépendent beaucoup de la
manière dont les charges sont reparties entre les processeurs. Par exemple, prenons le cas des
processeurs identiques avec des charges différentes sur chaque processeur, la performance glo-
bale sera celle du processeur le plus chargé, car les processeurs moins chargés ayant fini doivent
attendre ce dernier. Si les vitesses et les temps de calcul sont connus, la répartition de charge
peut être décidée de manière statique. Dans le cas contraire, on peut mettre en place une répar-
tition dynamique. Par exemple, une fois que les processeurs ont fini leurs calculs, ils viennent
demander de nouvelles charges. Pour que cette répartition de charge puisse être menée à bien,
il est nécessaire d’avoir une représentation décrivant le programme. La section suivante décrit
comment un programme peut être modélisé par un graphe.
Pour qu’un algorithme parallèle puisse être ordonnancé et exécuté efficacement sur plusieurs
machines, il est nécessaire d’avoir une représentation du programme décrivant l’algorithme
avant le début de l’exécution. Cette représentation est faite soit avant le début de l’exécution du
programme, soit à des moments clés de l’exécution du programme. Par exemple la création, la
terminaison d’une tâche ou l’inactivité d’un processeur. Dans cette section, nous présentons les
différentes représentations de l’exécution d’un algorithme parallèle.
Généralement trois grandes familles de graphes sont utilisées pour représenter l’exécution
des programmes parallèles : graphe de dépendance, graphe de précédence et graphe de flot de
données.
Le graphe de dépendance.
Un graphe de dépendance est un graphe non orienté. Les noeuds du graphe représentent les
tâches voire aussi les données du programme et les arêtes représentent les dépendances entre
les tâches (communications bi-points), ou entre une tâche et une donnée.
Le graphe de précédence.
Un graphe de précédence est un graphe orienté sans circuit. Les noeuds du graphe représentent
les tâches du programme et les arêtes représentent les dépendances entre les tâches.
Les dépendances sont introduites pour régler des conflits d’accès à des données, elles peuvent
être interprétées comme des communications entre les tâches. Dans ce type de graphe, une tâche
est considérée prête dès que toutes les tâches qui la précèdent dans le graphe sont terminées.
Ce type de graphe est utilisé pour des programmes parallèles dynamiques comme, par exemple,
les programmes récursifs ou les programmes contenant des boucles parallèles dont on ne connaît
pas les bornes avant l’exécution.
26 CHAPITRE 2. PROGRAMMATION PARALLÈLE
– lecture seule : la tâche ne modifiera pas la donnée mais se contentera de lire sa valeur ;
– écriture seule : la tâche ne peut utiliser la donnée que pour l’affecter ;
– écriture en accumulation : plusieurs tâches vont effectuer une opération associative et
commutative sur une donnée en écriture (un calcul de produit itéré par exemple).
– modification, ou lecture : la tâche va modifier la valeur de la donnée.
La signification d’une arête est la suivante : soient t ∈ Vt une tâche et d ∈ Vd une donnée,
l’arête (t, d) ∈ E traduit un droit d’accès en écriture de la tâche t sur la donnée d, et l’arête
(d, t) un droit d’accès en lecture de la tâche t sur la donnée d.
La différence entre les graphes de précédente et de flot de données se situe au niveau des syn-
chronisations. Dans les graphes de flot de données, une tâche est considérée prête dès que les
données qu’elle a en entrée sont disponibles. Notons néanmoins qu’un graphe de flot de don-
nées contient des informations d’un graphe de précédence.
Pour la régulation de charge, ce type de graphe fournit plus d’informations : puisque les don-
nées communiquées entre les tâches sont identifiées, les tailles des données peuvent également
être fournies. Cette information peut être utilisée pour exploiter la localité des données lors du
placement de tâches ou pour le routage des données accédées vers le site d’exécution d’une
tâche.
OpenMP [41] et Pthreads [63] sont des bibliothèques de programmation parallèle dédiées
aux architectures de machines à mémoire partagée. La bibliothèque OpenMP (Open Multi-
Processing) se présente sous la forme d’un ensemble de directives (par exemple elles peuvent
2.6. BIBLIOTHÈQUES DE PROGRAMMATION PARALLÈLE 27
servir à définir les sections parallèles, séquentielles ou critiques du code), de fonctions (par
exemple savoir le nombre de processus disponibles à l’exécution), de variables d’environne-
ment (leurs valeurs sont prises en compte à l’exécution une fois qu’elles sont fixées). OpenMP
possède une interface de programmation pour les langages de programmation C/C++ et Fortran,
et il est supporté par de nombreuses plate-formes (e.g. Linux ou Windows).
Pthreads (POSIX Threads) est une bibliothèque permettant la création et la manipulation des
processus légers (en anglais, thread). Un processus léger est une abstraction permettant d’ex-
primer des multiples flots d’exécutions indépendants au sein d’un processus système (appelé
processus lourd). Les processus légers appartenant au même processus lourd se partagent son
contexte mémoire, mais chacun possède sa pile d’exécution. La gestion des processus légers
nécessite seulement la manipulation de leur contexte d’exécution tandis que celle des processus
lourds demande aussi la gestion de zone mémoire et de ressources (fichiers ouverts, verrous,
etc...) ; aussi la gestion des processus légers est moins coûteuse que celle des processus lourds.
Par exemple un changement de contexte pour un processus léger est de 10 à 100 fois plus rapide
que celui d’un processus lourd. Pthreads définit un standard pour les opérations de manipulation
des processus légers comme par exemple la création ou la destruction d’un processus léger sur
processeur donné, la synchronisation (verrou, sémaphore, barrière de synchronisation, exclu-
sion mutuelle, etc.) entre processus légers. Pthreads est largement utilisé sur les plate-formes
fonctionnant avec les systèmes d’exploitation Linux et Solaris, mais existe aussi souvent sur des
plate-formes Windows.
2.6.2 MPI
MPI (Message Passing Interface) [93] est une bibliothèque de fonctions permettant la pro-
grammation d’applications parallèles sur des machines à mémoire distribuée. Un programme
MPI est basé sur le modèle SPMD (cf section 2.2) : une copie du programme s’exécute sur
chaque processeur, une fonction MPI retourne le numéro du processeur ce qui permet d’exécu-
ter un code spécialisé sur chaque processeur selon la valeur de son numéro. A l’initialisation,
un nombre fixé de processus est créé et généralement chaque processeur exécute un processus
unique. Les processus communiquent entre eux par échange de messages. La communication
entre deux processus peut être de type point à point (envoi et réception d’une donnée d’un
émetteur vers un destinataire) ; de type collective (diffusion d’un message à un groupe de pro-
cessus, opération de réduction, distribution ou redistribution des données envoyées). Dans un
programme MPI, un commutateur permet de connaître l’ensemble des processus actifs. MPI
définit des fonctions qui à tout moment permettent de connaître le nombre de processus gérés
dans un commutateur et le rang d’un processus dans le commutateur. La bibliothèque met à
la disposition de nombreuses fonctions permettant au programmeur d’effectuer différents types
d’envoi et de réception de messages (point à point bloquant (synchrone), point à point non
bloquant (asynchrone), collectifs) et des opérations globales (barrière, réduction, diffusion).
28 CHAPITRE 2. PROGRAMMATION PARALLÈLE
2.6.3 Cilk
Cilk [35] est un langage de programmation parallèle destiné aux machines à mémoire parta-
gée. Il est basé sur le langage C et il offre des primitives pour l’expression explicite du parallé-
lisme (créations de tâches) et les synchronisations. Il utilise l’ordonnancement par vol de travail
(dès qu’un processeur est inactif, il demande du travail à un autre processeur) pour placer les
tâches prêtes à être exécutées de manière dynamique sur des processeurs disponibles. La des-
cription du parallélisme se fait à l’aide du mot clé spawn placé devant un appel de fonction. La
sémantique de cet appel diffère de celle de l’appel classique d’une fonction : la procédure ap-
pelante peut continuer son exécution en parallèle de l’évaluation de la fonction appelée au lieu
d’attendre son retour pour continuer. Cette exécution étant asynchrone, la procédure créatrice
ne peut pas utiliser le résultat de la fonction appelée sans synchronisation. Cette synchronisation
est explicite par utilisation de l’instruction sync. Le modèle de programmation de Cilk est de
type série parallèle (la tâche mère s’exécute en concurrence avec ses filles, jusqu’à rencontrer
l’instruction sync). L’exemple 2.6.1 illustre le calcul en parallèle du nème entier Fn de la suite
de Fibonacci en Cilk. Cette suite Fn est défini par :
F0 = 0
F1 = 1 (2.1)
Fn = Fn−1 + Fn−2 ∀ i ∈ N, i ≥ 2.
Intel TBB (Intel Thread Building Blocks) [70, 95] est une bibliothèque générique C++ dé-
veloppée par la société Intel pour l’écriture des programmes sur des processeurs multicœurs. La
bibliothèque contient des structures de données génériques et des algorithmes qui permettent de
manipuler les contenus de ces structures. Grâce à ces structures et algorithmes, elle permet de
décharger le développeur de la gestion des processus légers (création, synchronisation ou termi-
naison). En plus, elle permet de faire abstraction de l’architecture sous-jacente (le programme
ne dépend pas des caractéristiques de l’architecture cible). Un programme TBB est découpé
récursivement en plusieurs tâches et celles-ci sont placées dynamiquement sur des ressources
disponibles, TBB implémente une stratégie d’ordonnancement par vol de travail similaire à celle
Cilk. Dans un programme TBB l’utilisateur spécifie les tâches à exécuter ; une tâche TBB est un
ensemble d’instructions indivisibles. La bibliothèque fonctionne avec différents compilateurs :
Gnu Compiler Collection (gcc), Intel C++ Compiler, Microsoft Windows.
6 task* execute() {
7 if (n < 2) return n
8 else {
9 long x, y ;
10 FibTask& a = *new( allocate_child()) FibTask(n-1, &x) ;
11 FibTask& b = *new( allocate_child()) FibTask(n-2, &y) ;
12 set_ref_count(3) ;
13 spawn(b) ;
14 spawn_and_wait_for_all(a) ;
15 *res = x+y ;
16 }
17 return NULL ;
18 };
19 long ParallelFib(long n) {
20 long res
21 FibTask& a = *new(task : :allocate_root()) FibTask(n, &res) ;
22 task : :spawn_root_and_wait(a) ;
23 return res ;
24 };
30 CHAPITRE 2. PROGRAMMATION PARALLÈLE
2.6.5 Athapascan/Kaapi
La bibliothèque Athapascan [37, 29, 75] fournit à l’utilisateur deux mots-clés pour définir
les tâches et données du graphe de flot de données (GFD). Le graphe GFD est orienté, sans
circuit et bipartite avec 2 types de nœuds correspondant aux tâches de calcul et aux données
en assignation unique. Un arc dans le GFD entre un nœud tâche et un nœud donnée (resp. un
nœud donnée et un nœud tâche) représente un accès en écriture (resp. en lecture) de la tâche
sur la donnée. Elle utilise Kaapi [39, 38, 46, 47] comme interface de bas niveau qui fournit
l’ordonnancement par vol de travail.
– Définition des tâches : Fork. L’utilisateur définit explicitement la granularité de son pro-
gramme en encapsulant les procédures qui seront appelées de façon asynchrone. Ces
tâches sont créées par appel de la procédure générique Fork de la bibliothèque instan-
ciée avec le type de la tâche à créer. Le corps de la tâche sera implanté comme une classe
C++ fournissant l’opérateur(), qui prend en entrée les paramètres de la tâche.
– Définition des données : Shared. La bibliothèque Athapascan définit une mémoire par-
tagée afin de permettre aux tâches de coopérer. Cette mémoire peut contenir des objets
typés ; dans la mémoire partagée, un objet de type T est déclaré comme de type Sha-
red<T> où T représente le type spécifié par l’utilisateur. Les données Shared seront ainsi
les noeuds données du GFD.
Pour permettre à l’environnement Athapascan de gérer les arêtes du GFD (les accès des tâches
sur les données), chaque tâche spécifie au moment de sa création les accès qui seront effectués
sur les données de la mémoire partagée au cours de son exécution ou lors de l’exécution de toute
sa descendance : les différentes données qui seront accédées sont spécifiées dans la liste des pa-
ramètres de la tâche et la description de ces droits d’accès (lecture r, écriture w, accumulation
cw, modification r_w) est faite à l’aide d’un mécanisme de typage : on distinguera ainsi les don-
nées Shared accédées en lecture (Shared_r<T>) de celles accédées en écriture (Shared_w<T>).
Une tâche a un fonctionnement entièrement asynchrone par rapport à la tâche qui l’a créée.
Mais la sémantique est lexicographique, donc naturelle pour un programmeur séquentiel ; toute
lecture d’une donnée partagée voit la dernière écriture dans l’ordre. Cela implique donc, entre
autre, que la tâche mère ne peut accéder aux résultats de la tâche fille : ces résultats seront ex-
ploités par une tâche nécessairement différente. Le système exécutif d’Athapascan garantit (afin
de permettre à d’éventuels ordonnanceurs de faire des estimations fiables sur la durée d’exécu-
tion des tâches) que l’exécution d’une tâche a lieu sans aucune synchronisation. Pour cela, une
tâche ne pourra débuter son exécution que si toutes les données en lecture sont prêtes, c’est-à-
dire que toutes les tâches qui écrivent sur cette donnée sont terminées.
L’exemple 2.6.3 utilise les outils offerts au programmeur Athapascan pour le calcul naïf du nème
entier Fn de la suite de Fibonacci.
5
6 struct Fibo {
7 void operator() ( Shared_w<int> res, int n) {
8 if (n < 2) {
9 res.write(n) ;
10 }
11 else {
12 Shared<int> res1 ;
13 Shared<int> res2 ;
14 Fork<Fibo>() ( res1, n-1) ;
15 Fork<Fibo>() ( res2, n-2) ;
16 Fork<Sum>() ( res, res1, res2 ) ;
17 }
18 }
19 };
20
21 Fork<Fibo>()(res, n) ; // Appel principal
Les lignes 14 et 15 de l’exemple 2.6.3 déclarent un prototype de tâche Athapascan qui prend
un entier n et retourne, par écriture (Shared_w) dans une variable partagée res, le résultat de
Fn .
Les ligne 12 et 13 déclarent deux variables partagées qui stockent les résultats de Fn−1 et Fn−2
par les tâches créées aux lignes 14 et 15.
2.7 Conclusion
Dans ce chapitre, nous avons présenté quelques notions sur la programmation parallèle.
Nous avons vu que plusieurs types d’architectures parallèles existent pour rendre en pratique
possible l’exécution des programmes parallèles. Mais chaque type d’architecture a ses parti-
cularités (e.g. mémoire partagée ou distribuée). Deux modèles basés sur des architectures à
mémoire partagée et distribuée qui sont utilisés couramment ont été présentés. Nous avons vu
qu’un programme parallèle peut être modélisé par un graphe (graphe de dépendance, graphe de
précédence ou graphe de flot de données) qui permet d’abstraire l’architecture sous-jacente sur
laquelle le programme est exécuté. Deux manières (dynamique et statique) de répartition les
charges d’un programme sur des architectures parallèles ont été présentées. Enfin, nous avons
présenté quelques bibliothèques permettant de réaliser la programmation parallèle.
La programmation parallèle est plus complexe que la programmation séquentielle car elle
nécessite la prise en compte d’éléments supplémentaires comme la gestion des synchronisations
entre les ressources de l’environnement d’exécution ou les copies de données. Dans le chapitre
32 CHAPITRE 2. PROGRAMMATION PARALLÈLE
suivant nous allons présenter quelques problèmes liés au parallélisme et l’utilité des algorithmes
adaptatifs.
Chapitre 3
Dans ce chapitre, nous étudions la notion d’algorithme adaptatif et nous précisons la signi-
fication que nous lui donnons dans la section 3.1. Dans la section 3.2, nous présentons l’intérêt
d’utilisation des algorithmes parallèles adaptatifs. Dans la section 3.3, nous illustrons l’intérêt
d’adapter des algorithmes en prenant comme cas d’étude le calcul des préfixes. Dans cette étude
de cas, nous proposons un nouvel algorithme statique optimal pour le calcul des préfixes dans
la section 3.3.3. Dans la section 3.2.3, nous présentons les différentes techniques existantes per-
mettant d’adapter les algorithmes parallèles. Enfin dans la section 3.5, nous présentons quelques
bibliothèques implémentant des algorithmes parallèles adaptatifs.
Définition 3.1.1. Un algorithme adaptatif est un algorithme qui est capable de changer auto-
matiquement son comportement en fonction de son contexte d’exécution (données manipulées
par l’algorithme, paramètres de configurations de l’environnement d’exécution, occupation des
ressources) pour atteindre des performances optimales.
Lorsque plusieurs choix de comportements sont possibles, une stratégie de décision doit
être définie pour déterminer lesquels sont les meilleurs. Lors de son exécution, l’algorithme
adaptatif doit respecter les contraintes qui lui sont imposées par cette stratégie afin d’atteindre
les performances optimales. Cette stratégie de décision peut dépendre de la configuration ma-
térielle de l’environnement ou en être indépendante. Elle peut être décidée avant l’exécution
ou au cours de l’exécution. En fonction de la stratégie choisie, nous classifions les algorithmes
adaptatifs en deux grandes classes.
Définition 3.1.2. Un algorithme adaptatif est qualifié de dépendant des ressources (resource-
aware en anglais) lorsque le choix de sa stratégie de décision est basé sur les paramètres de
configurations de son environnement d’exécution (nombre de processeurs, taille des caches,
largeur de la bande passante, etc...).
34 CHAPITRE 3. ALGORITHMES PARALLÈLES ADAPTATIFS
Le choix de cette stratégie de décision suppose que les contraintes (gestion du gain de pa-
rallélisme, réduction des défauts de cache, etc..) pouvant permettre à l’algorithme adaptatif
d’atteindre des performances optimales peuvent être connues avant l’exécution. Une fois ce
choix fait, l’algorithme adaptatif peut se comporter d’une manière unique sans changer de com-
portement jusqu’à la fin de son exécution. Par exemple la bibliothèque d’algèbre linéaire (e.g.
multiplications de vecteurs ou matrices) ATLAS [97] implémente des algorithmes adaptatifs dé-
pendants des ressources. Dans ATLAS les calculs se font par blocs, la taille du bloc est choisie
en fonction des mesures de performances (comparaisons de différentes implémentations) effec-
tuées lors l’installation. Par exemple lors de l’appel à l’algorithme de multiplication de matrices,
le choix de l’algorithme à exécuter a déjà été établi au préalable lors de l’installation.
Définition 3.1.3. [36] Un algorithme adaptatif est qualifié de indépendant des ressources
(resource-oblivious en anglais) lorsque sa stratégie de décision n’utilise aucun des paramètres
de configuration de son environnement d’exécution (nombre de processeurs, hiérarchie de caches,
. . .) et peut changer dynamiquement sa stratégie de résolution en fonction des variations de son
environnement d’exécution (disponibilité variable des ressources, variation instantanée de la
puissance des ressources, charge réseau, débit et volume mémoire, . . .). Dans ce cas la straté-
gie de décision est prise en cours d’exécution.
Dans cette thèse, nous allons étudier les algorithmes processeur-indépendants. Nous di-
sons qu’un algorithme adaptatif est un algorithme processeur-indépendant si il peut atteindre
des performances optimales sans dépendre du nombre de processeurs et de leurs vitesses respec-
tives. Dans [11] Bernard et al ont étudié un algorithme processeur-indépendant pour le trai-
tement parallèle de flux. Dans les chapitres suivants, nous présenterons plusieurs algorithmes
processeur-indépendants comme le calcul parallèle des préfixes [90], la fusion de deux listes
triées, la partition [89], et d’autres algorithmes [90].
Pour une classification détaillée des algorithmes adaptatifs, nous invitons le lecteur à lire
l’article de Roch et al [23].
3.2. POURQUOI A T-ON BESOIN D’ADAPTER DES ALGORITHMES ? 35
Le travail global (arithmétique, copie de données, création de tâches de calculs, etc.) d’un
algorithme statique (en opposition à un algorithme adaptatif) est toujours le même pour un
même problème donné et une architecture donnée. En fait l’algorithme statique dépend soit
de la taille des données en entrée, soit des caractéristiques de l’architecture cible (nombre de
processeurs par exemple). Par contre, un algorithme adaptatif fera varier son travail en fonction
des données qu’il traite ou en fonction de l’architecture sur laquelle il s’exécute. Cette variation
de travail permet à l’algorithme adaptatif d’être plus efficace (moins d’opérations, moins de
copie, etc.) que son équivalent statique. Dans cette section, nous allons présenter les besoins
d’un algorithme adaptatif en programmation parallèle.
Depuis 2005, les ordinateurs standards (fixes et portables) deviennent des machines mul-
ticœurs. Et pour pouvoir bénéficier pleinement de la puissance de calcul fournie par ces ma-
chines, les programmes doivent exploiter le parallélisme. Mais la parallélisation efficace d’un
programme sur de telles architectures est difficile. Car elle est généralement exploitée en concur-
rence par plusieurs applications en contexte multi-utilisateurs ; aussi le nombre de processeurs
physiques et leurs vitesses relatives par rapport à une application peut varier en cours d’exé-
cution de manière non prédictible. De plus, les différents cœurs peuvent être hétérogènes (fré-
quences différentes, mémoire non uniforme). Or, tout algorithme parallèle introduisant un sur-
coût, en cas de surcharge, un algorithme séquentiel peut s’avérer plus performant en temps
écoulé qu’un algorithme parallèle. L’implémentation efficace nécessite alors un algorithme pa-
rallèle qui s’adapte automatiquement et dynamiquement aux processeurs effectivement dispo-
nibles.
La parallélisation d’un algorithme introduit des surcoûts très importants par rapport à l’al-
gorithme séquentiel efficace. Ces surcoûts peuvent être dus à la création de tâches, des copies
de données, de communication de données, des synchronisations, des surcoûts arithmétiques.
D’une manière classique, paralléliser un programme consiste à définir chacune des tâches à
exécuter (concurrentes ou non) ainsi que les données nécessaires pour leurs exécutions ; le pro-
gramme fixe ainsi la granularité des calculs et la granularité des données. Nous rappelons qu’un
grain de calculs (resp. données) est un bloc de calculs (resp. données) qui sera évalué locale-
ment de manière séquentielle par un seul processeur. La performance du programme parallèle
dépend énormement du choix de ce grain. Deux points de vue antagonistes sont considérés pour
choisir ce grain [26]. D’un point de vue algorithmique pratique, le grain peut être fixé en fonc-
tion du nombre de ressources, généralement supposées identiques, disponibles lors de l’exécu-
tion. L’inconvénient d’une telle approche est que le nombre de ressources et leurs puissances
peuvent être variables, comme c’est le cas dans la programmation sur des processeurs multi-
cœurs, sur grappe en contexte multi-utilisateur ou, plus encore, sur grille de machines. D’un
point de vue algorithmique théorique [49], le grain est fixé pour minimiser le temps d’exécution
sur un nombre infini de processeurs tout en conservant un nombre total d’opérations proche du
meilleur algorithme séquentiel (on parle d’algorithme parallèle optimal). L’inconvénient d’une
telle approche est que, lors d’une exécution effective sur un nombre toujours restreint de res-
sources, le placement et l’entrelacement de ces nombreuses tâches entraîne un surcoût.
Ainsi, supposons que l’exécution du programme parallèle soit en fait effectuée sur un seul
processeur, les autres processeurs étant mobilisés pour d’autres calculs. Dans ce cas, exécuter
l’algorithme parallèle au grain préalablement choisi peut être pénalisant par rapport à l’exécuter
séquentiellement en évitant tous les surcoûts incontournables liés au parallélisme : création de
tâches, copie de données.
Le calcul des préfixes est un problème très étudié [58, 17] en parallélisme sur lequel nous
reviendrons en détail dans le chapitre 4. Ici, nous l’utilisons pour illustrer les trois besoins de
l’adaptatif expliqués dans les sections précédentes. Avant ces illustrations, nous donnons une
borne de ce calcul sur des processeurs à vitesses variables dans la section 3.3.1. Puis dans
la section 3.3.2, nous rappelons un algorithme parallèle sur processeurs identiques pour les
préfixes, ensuite nous proposons un nouvel algorithme statique optimal pour des processeurs
3.3. LE CALCUL PARALLÈLE DES PRÉFIXES : CAS D’ÉTUDE 37
identiques dans la section 3.3.3, et enfin dans la section 3.3.4, nous présentons un algorithme
récursif . Pour chaque algorithme, nous montrons ces limites.
Dans cette section, nous donnons une borne inférieure du calcul des préfixes sur p proces-
seurs à vitesse variable. Nous rappelons qu’à un instant t la vitesse Πi (t) d’un processus i,
1 ≤ i ≤ p, dépend du nombre de processus (correspondant à d’autres applications) ordonnan-
cés sur le processeur physique auquel il est affecté. Pour une exécution parallèle
PT Pp
de durée T
i=1 Πi (t)
(en temps écoulé) sur p exécuteurs, on définit la vitesse moyenne Πave = t=1
p.T
et la
vitesse maximale de tous les processeurs par Πmax = maxi=0,...,p−1;t=1,...,T Πi (t). Le théorème
suivant donne une borne inférieure du temps d’exécution du calcul parallèle des préfixes sur p
processeurs à vitesse variable.
Théorème 3.3.1. On suppose qu’une opération ⋆ prend un temps unité. Une borne inférieure
du temps d’exécution Tp de tout calcul parallèle des préfixes avec n + 1 données en entrée sur
p processeurs de vitesse moyenne Πave et de vitesse maximale Πmax est
2n
Tp ≥
p.Πave + Πmax
2n
Dans le cas des processeurs identiques ( Πave = Πmax = 1 ), la borne inférieure est de p+1 .
Nous allons maintenant présenter dans la section suivante trois algorithmes parallèles, dont nous
proposons un qui atteint cette borne sur des processeurs identiques.
Dans cette section, nous rappelons un algorithme parallèle pour le calcul des n préfixes
(πi )i=1,...,n qui est optimal asymptotiquement sur p processeurs identiques. Il est basé sur une
découpe en p + 1 blocs B0 , . . . Bp de même taille (à un élément près) des n + 1 éléments en
entrée (xi )i=0,...,n . Pour simplifier, on suppose que "n + 1" est multiple de "p + 1" : chaque bloc
Bi contient K = n+1 p+1
éléments consécutifs.
1. Etape 1 : En parallèle pour i = 0, . . . , p − 1, on calcule sur le processeur i les préfixes
séquentiels (les préfixes calculés séquentiellement) du bloc Bi . Soient αi le dernier préfixe
du bloc Bi . On remarque que les préfixes (πj )j=1,...,K du bloc B0 sont ainsi calculés.
2. Etape 2 : On calcule les p préfixes β0 = α0 , β1 = α0 ⋆ α1 , . . . , βp−1 = βp−2 ⋆ αp−1 des
valeurs α0 , . . . , αp−1 .
3. Etape 3 : Pour i . . . p, soit Bi′ le bloc de K éléments obtenus en insérant βi−1 en tête du
bloc Bi . En K tops, sur chaque processeur i, on calcule les préfixes du bloc Bi′ . On obtient
ainsi tous les préfixes πi .
La figure 3.1 illustre l’algorithme décrit.
Ce nombre total d’opérations effectuées est toujours le même, même si les p processeurs
initialement prévus pour l’exécution ne sont pas tous disponibles. Ainsi supposons qu’un seul
processeur exécute l’algorithme, les autres processeurs étant mobilisés pour d’autres calculs :
p
le nombre d’opérations effectuées par ce processeur est alors donc 2n p+1 qui est à un facteur
2p
de p+1 du nombre d’opérations de l’algorithme séquentiel optimal. Cet algorithme parallèle
n’est optimal que sur p processeurs identiques et tous dédiés au calcul. Il n’est pas performant
3.3. LE CALCUL PARALLÈLE DES PRÉFIXES : CAS D’ÉTUDE 39
si l’on dispose d’une machine avec des processeurs différents, ou d’une machine utilisée par
plusieurs utilisateurs car la charge des processeurs varie en cours d’exécution, ou bien encore
si le temps d’une opération varie. Le temps d’exécution de l’algorithme sera alors le temps de
terminaison du processeur le plus lent. Si nous supposons que la vitesse du processeur le plus
ave +Πmax
lent est de Πmin , alors cet algorithme est à un facteur de p.Π
(p+1)Πmin
de l’optimal. Pour traiter ce
problème, nous devons recourir à un algorithme adaptatif qui peut s’adapter automatiquement
et dynamiquement aux processeurs effectivement disponibles.
3.3.3.1 Algorithme
Nous rappelons tout d’abord que le tableau en entrée contient n+1 éléments (x0 , x1 , . . . xn ).
Pour effectuer le calcul parallèle des préfixes d’une manière statique de ces n + 1 éléments,
nous partitionnons le tableau en p + 1 blocs de tailles éventuellement différentes. Soit n + 1 =
s(p + 1) + q avec 0 ≤ q < p + 1 et s ≥ p où q et s sont des entiers. Nous désignons par Bi pour
i = 0, . . . , p le bloc de rang i. Nous calculons la taille de chaque bloc selon la valeur de q.
L’algorithme que nous proposons est décrit par l’algorithme 3.3.1. Dans l’algorithme x dé-
signe un pointeur sur le tableau en entrée, res un pointeur sur le tableau en sortie, size la taille
du tableau, p le nombre de processeurs exécutant l’algorithme et op l’opérateur binaire asso-
ciatif. Sur la ligne 4 de l’algorithme, un processeur exécute la fonction Calcul_Taille_Bloc qui
calcule les indices de début (B[i].start) et de fin (B[i].end) du bloc Bi ( 0 ≤ i ≤ p ) selon la
valeur de q. Chaque processeur calcule séquentiellement les préfixes (lignes 8 et 9) du bloc i
dont l’indice lui a été attribué. On remarque que les préfixes finaux (πi )i=0;...,B[0].end−1) du bloc
B0 sont ainsi calculés. Ces calculs séquentiels sur p blocs correspondent à l’étape 1. Les étapes
2 à p (ligne 12) correspondent aux calculs des p(p − 1) préfixes finaux. A chaque étape j + 1
(1 ≤ j ≤ p − 1), p − 1 processeurs finalisent les p − 1 premiers préfixes partiels (ligne 17) du
bloc Bj à l’aide du dernier préfixe final calculé (πB[j−1].end−1) du bloc Bj−1 , et un processeur
1
On remarque que si s = p, alors le bloc Bp est de taille nulle. Il y a alors p blocs seulement.
40 CHAPITRE 3. ALGORITHMES PARALLÈLES ADAPTATIFS
anticipe (ligne 19) le calcul du préfixe final (πB[j].end−1 ) permettant de finaliser les préfixes par-
tiels du bloc suivant. Les préfixes finaux du bloc B0 ayant été calculés à l’étape 1, et p préfixes
finaux du bloc Bk (1 ≤ k ≤ p − 1) ayant été calculés à l’étape k + 1, l’étape p + 1 consiste à
finaliser (ligne 25) les préfixes partiels restants du bloc Bk (1 ≤ k ≤ p − 1) et calculer les pré-
fixes finaux (ligne 27) du bloc Bp . Les fonctions Calcul_Taille_Bloc, Prefix_seq et Prefix_final
sont données sur les lignes 29, 38 et 42.
3.3. LE CALCUL PARALLÈLE DES PRÉFIXES : CAS D’ÉTUDE 41
Algorithme 3.3.1
Algorithme 3.3.1: Algorithme parallèle statique du calcul des préfixes. Les étapes sont syn-
chrones c’est à dire l’étape k ne peut commencer que si l’étape k − 1 est terminée.
42 CHAPITRE 3. ALGORITHMES PARALLÈLES ADAPTATIFS
Exemple 3.3.1. L’exécution de l’algorithme est illustrée par la figure 3.2 pour n = 20 et p = 4
et l’opérateur ⋆ est la somme de deux entiers machine (int). Le tableau est divisé en 5 blocs dont
les 4 premiers blocs sont de taille 5 et le dernier bloc de taille 1. Initialement les 4 premiers blocs
sont attribués aux 4 processeurs ; ensuite chaque processeur effectue localement sur son bloc
un calcul séquentiel de préfixe (étape 1 sur la figure 3.2). A la fin de l’exécution de la première
étape les préfixes finaux du premier bloc sont déjà calculés. Pendant la deuxième étape chaque
processeur finalise un préfixe partiel du deuxième bloc ; les processeurs P0 , P1 et P2 finalisent
à l’aide du dernier préfixe calculé du premier bloc (qui est égal à 15) les 3 premiers préfixes
partiels (21 = 15+6 , 28 = 15+13 , 36 = 15+21 ) et le processeur P3 finalise le dernier préfixe
partiel (55 = 15 + 40) qui permettra de finaliser les préfixes partiels du troisième bloc. A la
troisième étape les processeurs P0 , P1 et P2 calculent (66 = 55+11 , 78 = 55+23 , 91 = 55+36
et P3 calcule 120 = 55 + 65. A la quatrième étape les processeurs P0 , P1 et P2 calculent
136 = 120 + 16 , 153 = 120 + 33 , 171 = 120 + 51 et P3 calcule 210 = 120 + 90. A la
cinquième étape P0 finalise les préfixes partiels restants du deuxième bloc (45 = 15 + 30), P1
finalise les préfixes partiels restants du troisième bloc (105 = 55 + 50), P2 finalise les préfixes
partiels restants du quatrième bloc (190 = 55 + 70) et P3 calcule séquentiellement les préfixes
du dernier (cinquième) bloc (231 = 210 + 21).
Dans toute la suite on suppose que le temps d’une opération ⋆ est constant et prend une
unité de temps. Le théorème suivant donne une borne supérieure du temps d’exécution de l’al-
gorithme proposé.
Démonstration. Dans la preuve du théorème 3.3.2 on a montré que si q > 1, Tp = 2(s + 1),
donc pour 2 ≤ q ≤ p+3
2
, Tp = 2(s + 1). On
l a :m l m
p+3 q−1 2n 2n
si 2 ≤ q ≤ 2 , on a 0 ≤ 2 p+1 ≤ 1, d’où p+1 = 2s + 1 = Tp − 1, d’où Tp = p+1 + 1. ❏
l m l m
2n 2np
Algorithme statique n≥0 p+1
+p−1 p+1
+p−1 3
(cf sec 3.3.2)
l m l m
2n 2np
Borne inférieure - p+1 p+1
-
TAB . 3.1 – Comparaison de trois algorithmes du calcul parallèle des préfixes sur p processeurs
3.3. LE CALCUL PARALLÈLE DES PRÉFIXES : CAS D’ÉTUDE 45
3.3.3.3 Expérimentations
Nous avons implanté en SWARM [5] trois algorithmes parallèles du calcul des préfixes qui
sont :
– implantation "statique-proposé" : l’implantation de l’algorithme statique proposé.
– implantation "Nicolau-Wang" : l’implantation de l’algorithme de Nicoalu-Wang [94].
– implantation "statique" : l’implantation de l’algorithme statique présenté dans la section
3.3.2.
Les expérimentations ont été faites sur la machine idkoiff. Cette machine est composée de
huit processeurs Dual Core AMD Opteron 875, soit 16 coeurs au total à 2,2Ghz, dispose de
huit bancs de 4Go de mémoire. Sur cette machine, nous avons utilisé le noyau Lunix 2.6.23, le
compilateur gcc 4.2.3 et l’option de compilation -02.
Nous étions seuls sur la machine, et chaque implantation a été lancée 10 fois. Tous les pro-
grammes ont été compilés avec le même compilateur g++ 4.2.3 (avec l’option -O2).
F IG . 3.3 – Comparaison des accélérations des trois implantations sur 4 processeurs pour n petit
et temps de l’opération ⋆ grand
2n
vant p+1 quand n devient grand. Les bonnes performances obtenues par l’implantation "statique-
proposé" sont dues au fait que le surcoût de synchronisations p + 1 devient négligeable devant
2n
p+1
quand n devient grand.
F IG . 3.4 – Comparaison des accélérations des trois implantations sur 4 processeurs pour n grand
et temps de l’opération ⋆ grand
Le tableau 3.2 compare les temps obtenus sur 4 processeurs de l’implantation "statique-
proposé" et de l’implantation "Nicolau-Wang". Nous avons pris n = 2.108 pour l’implantation
"statique-proposé", mais nous avons pris n = 2.107 pour l’implantation "Nicolau-Wang" car
en prenant n = 2.108 l’exécution prend 50mn environ. Nous pensons que cette très mauvaise
3.3. LE CALCUL PARALLÈLE DES PRÉFIXES : CAS D’ÉTUDE 47
F IG . 3.5 – Comparaison du séquentiel pur aux temps sur un processeur des trois implantations
pour n grand et temps de l’opération ⋆ petit
performance est due aux surcoûts de synchronisation dans l’algorithme et aussi au nombre de
défauts de cache.
3.3.3.4 Conclusion
Nous avons proposé un nouvel algorithme statique optimal du calcul des préfixes. Nous
avons montré l’optimalité de cet algorithme par des analyses théoriques. Nous avons validé ces
résultats théoriques par les expérimentations menées sur une machine SMP à 16 processeurs.
Nous avons constater que notre algorithme statique optimal se comporte mieux en pratique sur
des machines multicœurs que l’algorithme optimal de Nicolau et Wang [94]. Mais cet algo-
rithme n’est efficace que sur des processeurs identiques. Il n’est pas adapté dans le casl des m
2np
processeurs différents et à vitesse variable car il effectue toujours le même nombre ( p+1 )
même si tous les processeurs initialement prévus à l’exécution ne sont pas disponibles. Sur des
processeurs différents, le temps d’exécution de cet algorithme est le temps d’exécution du pro-
ave +Πmax
cesseur le plus lent qui est à un facteur de p.Π
(p+1)Πmin
de l’optimal. Pour rendre adaptatif le
calcul des préfixes, nous proposons dans le chapitre 4 un algorithme adaptatif.
Le troisième algorithme que nous allons montrer est l’algorithme de Ladner et Fischer [58].
Cet algorithme permet de monter l’impact du coût du parallélisme.
L’algorithme parallèle de Ladner et Fischer est basé sur une approche "Diviser Pour Ré-
gner", donc pour simplifier les calculs nous supposons que n = 2k où k est un entier positif. Il
est construit récursivement à partir des étapes suivantes :
1. Etape 1 : on résout le problème en calculant en parallèle les produits des entrées groupées
par 2. On calcule donc les quantités βi :
β0 = x0 ⋆ x1 , β1 = x2 ⋆ x3 , . . . , β n2 −1 = xn−2 ⋆ xn−1
et on est ramené au problème réduit du calcul des préfixes des n2 valeurs βi .
2. Etape 2 : on résout le problème réduit en calculant (par un appel récursif des 3 étapes
décrites ici, jusqu’à obtenir un problème à deux entrées) les préfixes des n2 valeurs βi :
(β0 ), (β0 ⋆ β1 ), . . . , (β0 ⋆ β1 . . . ⋆ β n2 −1 ). Ainsi, on a calculé tous les π2k+1 pour k =
0, . . . , n2 − 1.
3. Etape 3 : à partir de la solution du problème réduit, on construit la solution du problème
initial. Les résultats qui manquent sont tous ceux ayant un indice pair : ils peuvent être
obtenus en calculant : x0 , (π1 ⋆ x2 ), (π3 ⋆ x4 ), . . . , (π2k−1 ⋆ x2k ), . . . en parallèle.
Le nombre total d’opérations exécutées par cet algorithme est donné par la récurrence sui-
vante : en supposant que W (2) = 1, on aura W (n) = W ( n2 ) + n2 + n2 = 2n − 3 et la profondeur
en nombre d’opérations ⋆ (ou chemin critique) est calculée par la récurrence D(2) = 1 et
D(n) = D( n2 ) + 2 = 2 log n.
On constante que cet algorithme fait deux fois plus d’opérations que l’algorithme séquentiel
3.4. LES TECHNIQUES D’ADAPTIVITÉ EXISTANTES 49
quelque soit le nombre de processeurs utilisés. Cet algorithme est à grain fin, indépendant du
nombre de processeurs effectivement disponibles ; il peut être émulé sur p processeurs iden-
tiques en temps asymptotique 2n p
+ O(log n) pour p < logn n mais effectue 2n opérations, et est
à un facteur de p+1p
de l’optimal. En plus du surcoût en nombre d’opérations, cet algorithme à
grain fin génère un surcoût en terme de créations de tâches qui est de l’ordre de 2nτtche où τtche
est le surcoût de création d’une tâche. Donc le temps d’exécution de cet algorithme est dégradé
par ces surcoûts en nombre d’opérations et de créations de tâches, et pour atteindre une per-
formance optimale tout en conservant un nombre optimal d’opérations et un temps d’exécution
meilleur, il est nécessaire de recourir à un algorithme adaptatif.
Plusieurs techniques d’adaptation existent, mais dans des contextes différents en fonction
des problèmes étudiés ou des architectures utilisées [1, 30, 10, 82, 28, 86, 53, 48]. Les tech-
niques de tolérances aux fautes [48, 53] étudient le plus souvent l’adaptativité des applications
parallèles sur des architectures dynamiques (les ressources peuvent apparaître et disparaître
à tout moment de l’exécution). Samir et al [48] proposent un mécanisme basé sur les appli-
cations de type graphe de flot de données d’une exécution parallèle dans les environnements
dynamiques et hétérogènes. Dans [23] les auteurs donnent une classification élargie des dif-
férentes techniques d’adaptation. Dans cette section, nous nous intéressons à l’adaptation au
niveau algorithmique, et nous supposons que l’environnement est tolérant aux fautes. Nous
présentons deux techniques non exhaustives qui sont les plus couramment utilisées dans l’adap-
tation algorithmique. Elles sont basées sur des sélections et combinaisons d’algorithmes, et sur
l’ordonnancement dynamique par vol de travail.
50 CHAPITRE 3. ALGORITHMES PARALLÈLES ADAPTATIFS
Plusieurs algorithmes peuvent exister pour la résolution d’un problème, chacun ayant ses
contraintes (e.g. type de données, environnement d’exécution) pour le résoudre efficacement.
Pour résoudre le problème quelque soit les types de données ou l’environnement d’exécution,
des techniques par sélection et combinaison d’algorithmes ont été proposées [28, 67, 24, 72]. Un
algorithme basé sur ces techniques est appelé poly-algorithme ou algorithme hybride [23, 66].
Définition 3.4.1. [23] Un algorithme est un poly-algorithme quand sa stratégie de décision est
basée sur le choix entre aux moins deux algorithmes résolvant le même problème.
Le choix fait par la stratégie de décision peut se faire au cours de l’exécution, dans ce cas
le poly-algorithme est dit "dynamique" ou avant l’exécution, dans ce cas le poly-algorithme
est dit "statique" . Lorsque le choix est unique et ne varie plus pendant l’exécution, la straté-
gie de décision sélectionne un seul algorithme parmi au moins deux algorithmes parallèles, on
parle dans ce cas de sélection d’algorithme. Lorsque le choix est fait en combinant les solutions
d’au moins deux algorithmes pour la résolution du problème, on parle de combinaison d’algo-
rithmes. Les techniques de sélection d’algorithmes sont utilisées généralement quand l’objectif
de performance est unicritère (e.g. minimiser le temps d’exécution seulement), et quant aux
techniques de combinaisons d’algorithmes, elles sont utilisées quand l’objectif de performance
est multi-critère (e.g. minimiser le temps d’exécution final et le nombre total d’opérations à
réaliser).
Les techniques de sélection d’algorithmes ont été étudiées pour la première fois en 1976 par
John Rice [72]. La bibliothèque STAPL (Standard Template Adaptive Parallel Library) [98] par
exemple utilise les techniques de sélection d’algorithmes pour la parallélisation adaptative de
certains algorithmes de la Librairie Standard C++ [65, 87]. L’algorithme de tri est un exemple
intéressant pour illustrer cette technique : il existe plusieurs algorithmes pour trier qui ont des
complexités différentes selon le contenu de la séquence à trier, la taille de la séquence, le type
des données, etc. Par exemple si la séquence ne contient que des entiers, le tri radix (radix sort)
peut être le meilleur choix pour avoir un temps d’exécution minimal.
Les techniques de combinaison d’algorithmes sont aussi très utilisées pour résoudre d’une
manière adaptative certains problèmes. Les objectifs de ces techniques étant généralement multi-
critères, l’idée est donc de faire collaborer plusieurs algorithmes résolvant le même problème,
mais optimisant chacun un critère de performance spécifique. Par exemple, si on veut optimiser
le temps d’exécution Tp obtenu par le théorème 3.4.1 d’un programme parallèle ordonnancé par
vol de travail, l’objectif est à la fois de minimiser le travail W et la profondeur D. Pour atteindre
cet objectif, l’approche générale est de coupler un algorithme séquentiel optimal qui minimise
le travail W et un algorithme parallèle à grain fin qui minimise la profondeur D. Il existe deux
approches qui permettent de réaliser ce couplage : l’une est récursive et l’autre est en cascade.
Les deux approches sont détaillées ci-dessous :
avoir un travail optimal il faut augmenter le grain, ce qui augmente la profondeur D donc
aussi le nombre de vols. Par exemple pour le calcul récursif des préfixes (algorithme de
Ladner et Fischer dans la section 3.3.4) si le grain est égal à n2 , alors W = 3n
2
et D = n.
Puisque le grain est fixé statiquement, il faut une autre technique qui permet d’adapter le
grain automatiquement
– L’approche en cascade [67] rend le travail W de l’algorithme parallèle proche du tra-
vail séquentiel Wseq et consiste à exécuter d’abord l’algorithme séquentiel optimal pour
réduire le nombre d’opérations, puis à utiliser l’algorithme parallèle pour réduire la pro-
fondeur D. L’inconvénient de cette technique est l’utilisation d’un algorithme séquentiel
à gros grain et d’un algorithme parallèle à grain fin. Aussi la cascade est décidée sta-
tiquement en fonction du nombre de processeurs ou en fonction du grain. L’algorithme
statique du calcul des préfixes présenté dans la section 3.3.2 illustre ce cas avec un grain
égal à n+1
p+1
. Donc, on peut faire la même observation que l’approche récursive concernant
l’adaptation du grain.
On peut constater que dans ces techniques (combinaison et sélection) pour avoir une adap-
tativité totale, il est nécessaire d’adapter la granularité de l’algorithme choisi (nous rappelons
qu’un grain est un bloc de calculs (resp. données) qui est évalué localement de manière séquen-
tielle sur un seul processeur). Un gros grain n’est pas adapté à des processeurs de vitesses diffé-
rentes, ou à vitesses variables, ou sur des données différentes. Un grain fin peut engendrer des
surcoûts de parallélisme (gestion de la pile contenant les appels récursifs, création de tâches).
Pour réaliser cette adaptation, nous devons recourir à une technique qui permet de prendre en
compte l’adaptation de cette granularité.
L’ordonnancement par vol de travail (work-stealing en anglais) [3, 18, 9] est une tech-
nique qui peut permettre d’équilibrer efficacement les charges d’un programme. Il est adapté
par exemple pour les algorithmes récursifs (e.g. tri).
De manière générale, un algorithme par vol de travail suit le principe glouton (greedy sche-
dule) : à tout instant où il existe une tâche prête mais non encore ordonnancée, tous les proces-
seurs sont actifs. Parmi les ordonnancements gloutons figurent les ordonnancements de liste :
les tâches non encore ordonnancées sont stockées dans une liste ; lorsqu’un processeur devient
inactif, il va chercher une tâche prête dans cette liste si celle-ci est non vide et sinon il s’ajoutent
à la liste des processeurs inactifs.
Les ordonnancements par vol de travail suivent ce principe, mais sont de plus distribués :
Chaque processeur gère localement la liste des tâches que lui-même a créées dans une pile. La
gestion locale de cette pile suit l’ordre séquentiel : la tâche qui est dépilée est toujours celle qui
serait exécutée en premier parmi les tâches dans la pile, dans un ordonnancement séquentiel.
52 CHAPITRE 3. ALGORITHMES PARALLÈLES ADAPTATIFS
Dans la suite, nous considérons un ordre séquentiel de type profondeur d’abord : la tâche la
plus prioritaire est alors toujours en dernière position de la pile. Chaque fois qu’un processeur
crée une tâche, il l’empile dans sa pile en dernière position. Lorsqu’un processeur termine une
tâche, deux cas sont distingués :
– soit sa pile locale contient des tâches prêtes : dans ce cas il prend la plus récente parmi
celle-ci et démarre localement son exécution ;
– soit sa pile locale est vide ou ne contient pas de tâches prêtes, auquel cas il passe à
l’état "voleur" et cherche à récupérer du travail sur les autres processeurs. Cet état reste
inchangé tant qu’il n’a pas trouvé un autre processeur, appelé "victime" possédant au
moins une tâche prête. Dans ce cas, il vole au processeur victime sa tâche prête la plus
ancienne.
Le choix du processeur victime peut être fait de différentes manières. Dans la suite, nous consi-
dérons que ce choix est fait de manière aléatoire (random workstealing) et uniforme. L’intérêt
de ce choix est qu’il peut être implanté efficacement en distribué sans nécessiter de synchroni-
sation, tout en garantissant une performance quasi optimale avec une grande probabilité.
Le théorème suivant donne une borne sur le temps d’exécution de l’algorithme parallèle
de travail W et de chemin critique D ordonnancé par vol de travail (pour les notations voir la
section 2.3). Nous rappelons que Tp est la durée d’exécution de l’algorithme sur p processeurs.
Théorème 3.4.1. [3, 18] Sur une machine avec p processeurs identiques, avec une grande
probabilité2 , le nombre de vols réussis est majoré par O(pD) et le temps d’exécution Tp est
majoré par
W
Tp ≤ + O (D)
p
Ce théorème est étendu dans [8] au cas de processeurs hétérogènes ou de vitesses différentes,
non connues ou variables. Au niveau du vol de travail, la seule modification est lorsque pv vole
du travail à un processeur actif pw : si pw est en cours d’exécution mais n’a pas de travail prêt
à être volé et si pv est plus de β fois plus rapide que pw (par exemple au moins deux fois plus
rapide si β = 2) alors la tâche en cours d’exécution sur pw est préemptée et migrée sur pv . Le
temps d’exécution Tp est alors donné par le théorème suivant :
Théorème 3.4.2. [8] Avec une grande probabilité, le nombre de vols réussis est majoré par
O(pD) et le temps d’exécution Tp est majoré par
W β.D
Tp ≤ +O
p.Πave Πave
.
mises en œuvres [18, 9, 71] consistent à privilégier, dans le cas où tous les processeurs sont
actifs, l’exécution séquentielle efficace de l’algorithme parallèle. Un nouveau processus n’est
effectivement créé pour l’exécution d’une tâche prête que lorsqu’un processeur devient inactif
et effectue une opération de vol : on parle de dégénérescence séquentielle [76]. Nous allons
détailler dans la section suivante cette technique.
La technique de dégénérescence séquentielle (aussi appelé Work First Principle) [35, 76, 71]
consiste à minimiser le surcoût de création de tâches parallèles de l’ordonnancement par vol de
travail. Le principe est basé sur le fait qu’une application parallèle est composée d’un nombre
de tâches très largement supérieur au nombre de processeurs. L’idée est donc de privilégier une
exécution séquentielle efficace de nombreux groupes de tâches sur un processeur sans nécessiter
de créations de tâches inutiles, et de tolérer un surcoût plus important lors du vol par un proces-
seur inactif. Pour exécuter les groupes de tâches efficacement sur un processeur, les appels de
création de tâches immédiatement prêtes (cas des programmes série-parallèle, fork/join) sont
traduits en appel local de fonction séquentielle. Ainsi dans un ordonnancement par vol utilisant
la dégénérescence le nombre de créations est égal au nombre de vols réussis.
Dans le cas des programmes série-parallèles, le nombre de vols par processeur est au plus
D d’après le théorème 3.4.1 ; ainsi, le surcoût dû au parallélisme est borné par pDτtche où τtche
est le surcoût de création d’une tâche. Par exemple le surcoût du parallélisme de l’algorithme
Ladner-Fischer à grain fin du calcul parallèle des préfixes est de (2n − 3)τtche et son travail
W = Wseq + (2n − 3)τtche par un ordonnancement par vol de travail sans dégénérescence ;
et avec dégénérescence séquentielle le surcoût est de Θ p log2 n et son travail W = Wseq +
Θ p log2 n .
Plusieurs bibliothèques implémentent des algorithmes adaptatifs, dans cette section, nous
nous intéressons à deux bibliothèques : Intel TBB et Athapascan/kaapi (présentées au chapitre
2). Nous nous intéressons à Intel TBB car elle est une bibliothèque récente, et aussi nous allons
54 CHAPITRE 3. ALGORITHMES PARALLÈLES ADAPTATIFS
comparer nos implémentations adaptatives à celles de TBB. Nous nous intéressons à Athapas-
can/kaapi car le moteur exécutif de notre interface adaptative utilise Athapascan/kaapi.
TBB auto_partitioner
L’ordonnanceur TBB utilise l’ordonnancement par vol de travail selon le principe "Travail
d’abord" (Work-first principle) similaire à celui de cilk.
3.5.2 Athapascan/kaapi
3.6 Conclusion
Nous avons présenté dans ce chapitre dans un premier temps la définition générale d’un
algorithme adaptatif et nous avons classifié les algorithmes adaptatifs en deux grandes classes :
des algorithmes qui dépendent des ressources de l’architecture cible et des algorithmes qui sont
indépendants des ressources. Puis dans une deuxième partie nous avons présenté les principaux
besoins d’algorithmes adaptatifs dans la programmation parallèle. Nous avons vu que pour pou-
voir bénéficier pleinement de la puissance de calcul fournie par les architectures dont le nombre
ou la vitesse des processeurs peuvent varier il est nécessaire de faire recours à un algorithme
3.6. CONCLUSION 55
adaptatif. Nous avons vu que paralléliser un programme peut introduire des surcoûts (arithmé-
tiques, copie, création de tâches) qui peuvent dégrader la performance du programme parallèle.
Pour illustrer tous ces besoins, nous avons utilisé le calcul parallèle des préfixes comme un cas
d’étude. Nous avons d’abord donné une borne inférieure du temps de ce calcul sur des proces-
seurs à vitesse variable, puis nous avons présenté deux algorithmes parallèles pour ce calcul qui
ont permis de mettre en évidence les besoins d’algorithmes parallèles adaptatifs. Ensuite dans
la troisième partie nous avons présenté les techniques existantes permettant d’adapter les algo-
rithmes parallèles. Nous avons montré les limites de ces techniques. Notre objectif est de déve-
lopper des algorithmes parallèles qui atteignent des performances optimales sans faire aucune
connaissance du nombre de processeurs de l’architecture cible (Processor oblivious algorithms
en anglais), c’est à dire que ces algorithmes doivent s’adapter automatiquement et dynamique-
ment au processeurs disponibles. Dans le chapitre suivant, nous allons proposer un algorithme
adaptatif indépendant du nombre de processeurs pour le calcul parallèle des préfixes.
56 CHAPITRE 3. ALGORITHMES PARALLÈLES ADAPTATIFS
Chapitre 4
Le calcul des préfixes est une opération fondamentale que l’on retrouve dans de nombreuses
applications importantes, comme par exemple dans les domaines du calcul matriciel, du traite-
ment de l’image, de la reconnaissance de langages réguliers. Dans ce chapitre, nous donnons
un nouvel algorithme parallèle de calcul des préfixes pour des processeurs dont la vitesse ou
le nombre peut varier en cours d’exécution. Basé sur le couplage récursif d’un algorithme sé-
quentiel optimal et d’un algorithme parallèle non optimal mais récursif à grain fin, il exploite un
ordonnancement dynamique de type vol de travail. Sa performance théorique est analysée sur
p processeurs à vitesses variables, de vitesse moyenne Πave . Bien que cet algorithme est indé-
2Tseq
pendant du nombre de processeurs, son temps d’exécution est équivalent à Πave (p+1)
, ce qui est
optimal si les processeurs sont identiques (e.g. Πave = 1). Expérimentalement, cet algorithme
adaptatif est comparé à un algorithme optimal pour un nombre fixé p de processeurs identiques
avec ordonnancement statique optimal sur deux machines SMP à 8 et 16 cœurs. Ses perfor-
mances sont analogues dans le cas où les processeurs sont dédiés au calcul, et il est beaucoup
plus rapide dans le cas général où la machine exécute concurremment d’autres processus (cas
multi-utilisateur).
Le calcul des préfixes est une opération qui apparaît dans de nombreux algorithmes notam-
ment l’évaluation de polynômes et les additions modulaires [27, 54, 57, 92, 58], le packing, la
parallélisation des boucles [62] et figure dans MPI sous le nom de scan [81]. Plusieurs applica-
tions du calcul des préfixes peuvent être trouvées dans [15, 17].
58
CHAPITRE 4. UN ALGORITHME ADAPTATIF POUR LE CALCUL PARALLÈLE DES PRÉFIXES
Le calcul séquentiel itératif peut être effectué par une boucle simple :
π[0] = x[0]
P our i = 1 à n
π[i] = π[i − 1] ⋆ x[i]
Ce calcul séquentiel des préfixes requiert n opérations ⋆. Nous pouvons diviser le calcul pa-
rallèle des préfixes en deux catégories : sur un nombre non borné de ressources (processeurs
par exemple) ou généralement le nombre de ressources est en O (n) dépendant de la taille n du
problème, et sur un nombre p fixé de processeurs où p est indépendant de la taille du problème,
mais l’algorithme dépendand du nombre p de processeurs.
Plusieurs auteurs [58, 33, 60, 61, 99] ont étudié le calcul des préfixes sur un nombre non
borné de ressources avec une profondeur petite (O(log n)). Dans [58] Ladner et Fischer pro-
posent un algorithme parallèle basé sur une découpe récursive de temps 2 log n avec 2n opé-
rations pour n = 2k avec k > 0. Fich [33] donne une borne inférieure de la taille en sortie
de tout circuit de calcul parallèle des préfixes de n entrées et de profondeur log n + k avec
1−k
0 ≤ k ≤ log n. Fich montre que pour n = 2m , cette borne est de (2 + 2 3 )2m − O(m2) pour
1 ≤ k ≤ m − 1, et qu’elle est de 10 3
2m − O(m3) pour k = 0 et m ≥ 0. On peut alors en
déduire que le nombre minimal d’opérations par tout algorithme parallèle du calcul des préfixes
de profondeur log n est au moins 10 3
n, et pour ceux de profondeur 2 log n est 2n, soit plus de
deux à trois fois plus élevé que celui de l’algorithme séquentiel. Donc les algorithmes proposés
par ces auteurs font au moins deux fois plus d’opérations que l’algorithme séquentiel. Ces algo-
rithmes proposés peuvent être émulés sur p processeurs identiques, mais ne seront pas optimaux
en nombre d’opérations. Par exemple l’algorithme de Ladner et Fischer [58] peut être émulé sur
p processeurs identiques en temps asymptotique 2n p
+ O(log n) pour p < logn n , mais effectue 2n
opérations donc n’est pas optimal : comme nous l’avons vu au chapitre 3.
D’autres travaux ont étudié le calcul des préfixes sur un nombre borné de ressources (pro-
cesseurs) [94, 85, 56, 32, 43]. Kruskal [56] propose un algorithme pour le calcul parallèle des
préfixes sur p processeurs de temps 2n p
2n
+ log p. Cet algorithme prend p(p+1) + log p plus d’étapes
que le temps optimal, donc est loin de l’optimal pour p ≪ n. Snir [85] donne un algorithme du
calcul parallèle des préfixes avec un nombre fixé de processeurs pour les machines à lecteurs
concurrentes et écritures exclusives (CREW) telle que la profondeur du circuit résultant pour
2n
p processeurs est p+1 + O(1), qui est très proche du temps optimal. L’algorithme de Snir est
basé est une découpe en p + 1 blocs de tailles différentes. Pour un problème donné de taille n,
l’algorithme de Snir calcule la taille de chaque bloc donnant une partition correcte du problème
permettant de minimiser la profondeur de l’ordonnancement résultant et une nouvelle partition
est faite à chaque nouvelle taille donnée. Le surcoût dû au calcul du partitionnement correct
a une influence sur le temps d’exécution de l’algorithme de Snir. Egecioglu et koc [32] ont
étudié le calcul parallèle des préfixes sur un petit nombre de processeurs. Ils montrent que le
p(p−1)n
temps d’exécution de leur algorithme est de p(p+1)+2 + 12 p(p − 1) et son nombre d’opérations
2(p+1)n
effectuées est de p(p+1)+2
− 1. Leur algorithme est loin de l’optimal si p devient grand. Sur p
processeurs (p indépendant de n) pour n > p(p+1)2
Nicolau et Wang [94] construisent un algo-
2n
rithme optimal de temps(étapes) ⌈ p+1 ⌉ basé sur une technique qu’ils appellent ordonnancement
harmonique ("Harmonic Schedules"). Cette technique permet en fait de minimiser le nombre
4.2. ALGORITHME PARALLÈLE À GRAIN ADAPTATIF 59
Notre algorithme parallèle à grain adaptatif est basé sur le couplage d’une part d’un pro-
cessus séquentiel Ps qui calcule séquentiellement les préfixes et d’autre part d’un algorithme
parallèle récursif à grain fin, qui est ordonnancé par vol de travail par d’autres processus Pv .
Chacun des processus est placé sur un processeurs. Nous rappelons que l’algorithme prend en
entrée un tableau x indicé de 0 à n et donne en sortie un tableau π indicé aussi de 0 à n. Nous
supposons que l’accès à tout élément du tableau est direct (accès aléatoire). Nous désignerons
par m le nombre de préfixes finals qui reste encore à calculer (la taille du calcul restant). L’al-
gorithme utilisant le couplage est le suivant :
60
CHAPITRE 4. UN ALGORITHME ADAPTATIF POUR LE CALCUL PARALLÈLE DES PRÉFIXES
Initialement, le processus Ps démarre le calcul des préfixes sur l’intervalle [0, n[. Chaque
processus Ps (resp. Pv ) possède sa liste distribuée Ls (resp. Lv ) des intervalles qui lui ont été
volés, initialement vide.
• Algorithme séquentiel sur un processus Ps :
1. Ps calcule séquentiellement les préfixes à partir de l’indice 0 (i.e. π1 ), jusqu’à atteindre
l’indice n ou un indice u1 tel que l’intervalle [u1 , u2] d’indices (intervalle en tête de sa
liste Ls si elle n’est pas vide) a été volé par un processus Pv .
2. Si Ls n’est pas vide, Ps dépile l’intervalle [u1 , u2 ], insère la liste Lv de Pv à la tête de sa
liste Ls .
– Si le calcul sur cet intervalle [u1 , u2 ] n’est pas terminé Ps se synchronise avec le pro-
cessus Pv ; pour cela il attend éventuellement que Pv ait terminé son calcul en cours
d’exécution (préemption faible). Il récupère le dernier indice k ≤ u2 calculé par Pv ,
qui a donc déjà calculé ru1 = xu1 , ru1 +1 = ru1 ⋆ xu1 +1 , . . . , rk = rk−1 ⋆ xk . Ps envoie
la valeur πu1 −1 à Pv et lui demande de finaliser l’intervalle [u1 , k[ (voir l’étape 1 de
l’algorithme des processus pv ).
– Sinon Ps récupère le dernier indice k = u2 calculé par Pv , qui a donc déjà calculé ru1 =
xu1 , ru1 +1 = ru1 ⋆ xu1 +1 , . . . , ru2 = ru2 −1 ⋆ xu2 . Ps prépare une tâche de finalisation qui
prend en entrée la valeur β = πu1 −1 et l’intervalle [u1 , u2 [. Cette tâche de finalisation
sera volée par un processus Pv (voir l’étape 2 de l’algorithme des processus pv ).
– Ps calcule πk = πu1 −1 ⋆ rk ; puis il reprend le calcul séquentiel des préfixes de k + 1 à
n à partir de k + 1 en revenant à l’étape 1. On parle d’opération de saut ; pour chaque
opération de saut, Ps effectue une opération ⋆.
3. Ps s’arrête lorsqu’il a calculé πn (sa liste Ls est vide en ce moment). Après avoir calculé
πn , il devient un processus voleur et exécute l’algorithme Pv .
• Algorithme parallèle sur p − 1 processus Pv :
1. Lorsqu’il est préempté par Ps (voir algorithme Ps ), Pv a déjà calculé localement des pré-
fixes partiels ru1 , . . . , rk de l’intervalle [u1 , k]. Il reçoit alors la valeur du dernier préfixe
β = πu1 −1 calculée par Ps . Il finalise alors l’intervalle [u1 , k[ (πk est calculé par Ps ) en
calculant les produits πi = β ⋆ ri pour u1 ≤ i < k. Ces produits sont parallèles ; sur
inactivité d’un autre processus voleur, une moitié de ces calculs restant à faire sur Pv dans
cet intervalle peut alors être volée.
2. Lorsqu’il est inactif, le processus Pv choisit au hasard un processus jusqu’à trouver un
processus actif Pw . Il peut s’agir soit de Ps , soit d’un autre processus voleur. Si la victime
est Ps et si Ps a encore des tâches de finalisation prêtes et non volées, une de ces tâches
est d’abord volée en priorité ; sinon Pv vole sur l’intervalle restant à calculer et volable
sur Ps .
(a) Pv découpe l’intervalle restant à calculer et volable sur Pw en deux parties ; il extrait
la partie droite [u1 , u2[ de l’intervalle et la vole. La partie gauche reste en cours de
calcul sur Pw .
(b) Pv démarre le calcul sur l’intervalle volé [u1 , u2[. Il peut s’agir : soit d’un calcul de
préfixes locaux (i.e. ru1 = xu1 , ru1 +1 = ru1 ⋆ xu1 +1 , . . .) ; soit de la finalisation de
calculs de préfixes à partir de valeurs rk déja calculées (i.e. πu1 = β ⋆ ru1 , πu1 +1 =
β ⋆ ru1 +1 , . . .).
4.2. ALGORITHME PARALLÈLE À GRAIN ADAPTATIF 61
Le programme s’arrête lorsque tous les processeurs sont inactifs. L’intérêt de cet algorithme est
qu’un processeur devenu lent sera soit préempté par le processus séquentiel, soit volé par un
processus parallèle.
Ce surcoût de maintien de cohérence peut s’avérer important vis-vis des opérations de calcul
et masquer le gain en nombre d’opérations arithmétiques grâce à l’utilisation d’un algorithme
séquentiel optimisé à la place d’un algorithme parallèle. Dans ce cas, il est alors nécessaire de
changer l’algorithme séquentiel afin d’augmenter sa granularité et donc diminuer le surcoût de
cohérence : c’est-à-dire augmenter le nombre d’opérations effectuées par accès à l’intervalle de
calcul. Nous allons désigner par extract_seq l’opération qui permet d’extraire la taille du bloc
d’instructions qui sera traité séquentiellement, nous devons alors analyser le choix de cette taille
pour masquer le surcoût de synchronisation par rapport au nombre d’opérations effectuées. Si
le nombre d’opérations extraites par extract_seq est très grand, il y aura perte de parallélisme
car la fraction extraite sera exécutée séquentiellement : aucun vol ne peut être effectué sur la
fraction extraite donc cela diminue le degré de parallélisme. Si ce nombre est petit, les sur-
coûts de synchronisations peuvent masquer le gain de calcul. Donc il faut chercher une bonne
méthode pour calculer ce nombre. Une façon de calculer ce nombre est déterminer d’abord le
temps en nombre d’opérations sur un nombre non borné de processeurs de l’algorithme paral-
lèle sur l’intervalle restant (la profondeur de l’algorithme). Nous rappelons que la profondeur
de l’algorithme parallèle est la borne inférieure du temps d’exécution de l’algorithme parallèle
sur n’importe quel nombre de processeurs. En choisissant ce nombre comme la taille du bloc
d’instructions à extraire par l’opération extract_seq, ceci n’augmentera pas la profondeur de
l’algorithme. Nous allons désigner par extract_par l’opération qui permet d’extraire du travail
un processus victime par un processeur voleur. Donc les opérations extract_seq et extract_par
sont synchronisées à l’aide des verrous pour garantir la cohérence des informations extraites.
Pour minimiser ce surcoût de synchronisations, nous avons implémenté les fonctions ex-
tract_seq et extract_par comme suit :
• extract_seq : consiste à extraire localement par chaque processus un bloc de taille α log m
sur son intervalle et à faire avancer l’indice courant de l’intervalle de α log m. Supposons
que initialement l’intervalle restant avant l’extraction est décrit par [ui, uj [ où m = uj −ui ,
62
CHAPITRE 4. UN ALGORITHME ADAPTATIF POUR LE CALCUL PARALLÈLE DES PRÉFIXES
alors après l’extraction le travail restant sera [ui + α log m, uj [. Nous avons choisi α log m
comme taille d’extraction, car pour le calcul parallèle des préfixes, la profondeur sur un
intervalle [ui, uj [ est de Ω((log uj − ui )) [33].
• extract_par : consiste à extraire la moitié du travail restant de la victime. Supposons
que le travail restant de la victime est décrit par l’intervalle [ui, uj [, alors l’opération
u −u
d’extraction consiste à extraire l’intervalle [uj − j 2 i , uj [ et à laisser l’intervalle [ui , uj −
uj −ui
2
[ à la victime. Pour augmenter le degré de parallélisme, l’extraction est effectuée à
grain fin (tant que la taille du travail restant est supérieure à 2 on peut toujours extraire
la moitié du travail restant). Nous avons choisi ce facteur 2 pour permettre la découpe
récursive jusqu’à ce grain le plus fin.
Dans le chapitre 3, nous avons rappelé un algorithme statique et proposé un nouvel algo-
rithme optimal du calcul parallèle des préfixes en découpant statiquement la taille initialement
du tableau en p + 1 blocs de même taille (à un élément près), mais ce découpage n’est pas
adapté si l’on dispose des processeurs avec des vitesses variables ou hétérogènes ou le temps
d’une opération ⋆ est variable (par exemple le calcul de la multiplication matricielle qui dépend
des tailles des matrices à multiplier). Mais construire un algorithme parallèle optimal du calcul
des préfixes par découpe dynamique n’est pas direct : dans l’algorithme précédent nous avons
fait le découpage par moitié ce qui n’est pas optimal.
Par exemple supposons qu’on ait deux processeurs P0 et P1 identiques et que l’intervalle du
travail à effectuer est [0, n[ affecté à P0 . Après le vol de P1 sur P0 , le travail restant sur P0 est
[0, n2 [ et [ n2 + 1, n[ le nouveau travail sur P1 . Les deux processeurs passent chacun un temps (en
supposant que le temps d’une opération est constant et égal à 1) de n2 − 1 sur le calcul séquentiel
des préfixes et un temps de n4 sur la finalisation de l’intervalle [ n2 + 1, n[. Donc le temps total
obtenu par les deux processeurs est T2 = 3n 4
− 1 or le temps optimal est de 2(n−1)
3
, et le temps
9
obtenu est alors à un facteur de 8 de l’optimal. Le nombre d’opérations effectuées par les deux
processeurs est de n − 1 + n2 = 3n−2 2
, or le nombre optimal d’opérations sur 2 processeurs est de
4(n−1)
3
, et le nombre d’opérations obtenu est alors à un facteur de 98 aussi. La figure 4.1 illustre
cet exemple.
L’un de nos objectifs étant de diminuer le nombre d’opérations effectuées par l’algorithme
tout en maintenant un temps optimal, donc une mauvaise découpe peut nous éloigner de ces ob-
jectifs. On voit dans l’exemple précédent qu’une mauvaise découpe entraîne une augmentation
du nombre d’opérations, du nombre de tâches de finalisations, ce qui augmente le temps de cal-
cul global : une mauvaise découpe augmente le surcoût de parallélisme. Une première solution
pour pallier à ce problème est de faire la découpe en fonction du nombre de processeurs (ce qui
été fait dans [77, 78]) ; mais dans ce cas on sera dépendant du nombre de processeurs, or un de
nos objectifs est d’être indépendant du nombre de processeurs (processor-oblivious en anglais).
La question qu’on se pose est la suivante :
– Quelle méthode faut t’il faire pour avoir une découpe optimale ?
4.2. ALGORITHME PARALLÈLE À GRAIN ADAPTATIF 63
Avant de répondre à cette question, nous reprenons l’exemple précédent avec les processeurs
P0 et P1 . Soit n = 6s − 5 où s est un entier positif et strictement supérieur à 0. Nous découpons
le tableau initial de taille n entre trois blocs de tailles respectives 2s, 3s − 3 et s − 2. La
figure 4.2 illustre une découpe indépendamment du nombre de processeurs. P0 et P1 appliquent
l’algorithme parallèle adaptatif de préfixes présenté sur le premier bloc qui est de taille 2s,
après le vol P1 et P2 travaillent chacun sur un intervalle de taille s, P0 calcule séquentiellement
les préfixes finals du premier intervalle qui dure s − 1 unités et P1 calcule séquentiellement
les préfixes partiels du deuxième intervalle qui dure s − 1 unités de temps aussi. Dès que P0
finit son calcul il préempte P1 ; et P0 récupère le dernier préfixe partiel calculé, et effectue
un saut sur les préfixes partiels calculés ; enfin P0 demande à P1 de finaliser (compléter) les
préfixes partiels. P0 en effectuant le saut atteint la limite du premier bloc, il effectue d’abord
la fusion du dernier préfixe final qu’il a calculé avec le préfixe partiel qu’il a récupéré chez P1 ,
ensuite il continue séquentiellement son calcul sur le deuxième bloc pendant que P1 finalise les
préfixes partiels du bloc précédent. Ils font tous deux s − 1 unités de temps sur leurs intervalles
respectifs. Dès que P1 termine sa finalisation, il part aider P0 en lui volant la moitié de ce qui
lui reste, P0 calcule des préfixes finaux et P1 des préfixes partiels, ce qui dure s − 1 unités de
temps. Si P0 finit son calcul, il effectue la préemption comme dans le premier bloc, et continue
ensuite séquentiellement dans le troisième bloc son calcul pendant que P1 fait la finalisation
des préfixes partiels dans le deuxième bloc qui dure s − 1 unités de temps. Le temps total
d’exécution du calcul est alors de 4(s − 1) = 2(n−1)
3
, ce qui donne un temps optimal. Le nombre
total d’opérations effectuées par P0 et P1 est de 4(s − 1) pour P0 et 4(s − 1) pour P1 , ce qui fait
64
CHAPITRE 4. UN ALGORITHME ADAPTATIF POUR LE CALCUL PARALLÈLE DES PRÉFIXES
Pour amortir ce surcoût dû au découpage, nous utilisons une technique étudiée dans [25] qui
consiste à diviser dynamiquement l’intervalle global de calculs en des étapes avec synchronisa-
tion à chaque étape. Notre algorithme adaptatif sera constitué alors d’un ensemble d’étapes où
dans chaque étape un intervalle de calcul de taille inconnue à priori sera exécuté en parallèle.
Soit s1 , s2 , . . . si la taille du l’intervalle de calcul à l’étape i. Pour le choix de la taille de l’inter-
valle, nous utilisons la technique présentée n
dans [7]. Dans [7] différents choix de taille ont été
étudiés, en particulier pour s = ρ log n avec 1 < ρ < 2. L’étape i de la division de taille si ne
commence qu’après terminaison de l’étape i − 1 pour les processus Pv , mais le processus Ps
peut continuer le calcul séquentiel optimal dans les étapes en laissant derrière lui les processus
Pv finalisés les préfixes partiels des étapes précédentes. Dans [25] cette division dynamique du
travail global est appelée macro-loop et les étapes de calcul sont appelées macro-step. Donc,
dans l’algorithme lorsque le processus Ps atteint la fin de la macro-step k, il passe à la macro-
etape k + 1, les autres processus voleurs Pv ne peuvent passer à la macro-step k + 1 tant qu’ils
n’ont pas fini la finalisation des préfixes partiels de la macro-step k. Notez que seulement tous
les processus voleurs se synchronisent dans la macro-loop. Le processus Ps ne participant pas
4.2. ALGORITHME PARALLÈLE À GRAIN ADAPTATIF 65
Soient Πseq la vitesse moyenne du processus Ps , Πφ1 la vitesse moyenne des processus
pendant la phase φ1 et Πφ2 la vitesse moyenne des processus pendant la phase φ2 . Pour simplifier
nous supposons que Πseq = Πφ1 = Πφ2 = Πave . Soit nseq le nombre de préfixes calculés de
manière séquentielle par Ps dans la phase φ1 . Soit nf inal le nombre de préfixes finaux calculés
par les processus Pv dans la phase φ1 . Soit j le nombre de sauts effectués par le processus Ps
dans la phase φ1 et ik (k ∈ {1, 2}) le nombre de tops d’inactivité dans la phase φk . Soient Tp (φ1 )
et Tp (φ2 ) le temps parallèle de la phase φ1 et φ2 .
Durant la phase φ1 de temps Tp (φ1 ) : si nous considérons le processus Ps qui exécute tou-
jours, on a
nseq + j
Tp (φ1 ) = (4.1)
Πave
Si nous considérons les processus Pv qui exécutent un algorithme parallèle, avec découpe récur-
sive sur vol de travail (profondeur O(log n)) , la profondeur finale de cet algorithme parallèle
est de D = ǫ(n). log n = log2 n due à la macro-loop (nombre d’étapes dans la macro-loop
étant égal à log n ), on a
n − nseq + nf inal + i1
Tp (φ1 ) = (4.2)
Πave (p − 1)
attend au plus Ω(log n) : lorsque le processus à préempter est en cours de calcul qui ayant
extrait à l’aide de l’opération extract_seq au plus Ω(log n) comme taille du calcul à faire
séquentiellement, et on a aussi le nombre total de vols borné par O (p − 1). log2 n ), et
66
CHAPITRE 4. UN ALGORITHME ADAPTATIF POUR LE CALCUL PARALLÈLE DES PRÉFIXES
2n
Tp (φ1 ) ≤ + O(log3 n) (4.3)
Πave (p + 1)
n − nseq − nf inal + i2
Tp (φ2 ) = (4.4)
pΠave
n
En appliquant le théorème 3.4.1, on a i2 = O (log (n − nseq − nf inal )) = O log ǫ(n) =
O(log n). Donc
1 n
Tp (φ2 ) ≤ .O + O(log n) (4.5)
pΠave ǫ(n)
2n n 3
En addition l’équation 4.3 et 4.5 on obtient : Tp ≤ Πave (p+1)
+O ǫ(n)
+ log n .
4.3 Expérimentations
Nous présentons dans cette section une évaluation des performances de notre algorithme
adaptatif du calcul parallèle des préfixes.
4.3.1 Préliminaires
Nous avons fait nos expérimentations sur deux machines différentes qui sont :
– La machine idbull. Cette machine est une machine à mémoire partagée(SMP) composée
de 2 processeurs quadri-coeurs (soit 8 coeurs au total). Elle dispose des processeurs Intel
Itanium-2 cadencés à 1,5Ghz et 31 GB de mémoire. Sur cette machine, nous avons utilisé
le noyau Lunix 2.6.7, le compilateur gcc 4.2.3 et l’option de compilation -02.
– La machine idkoiff. Cette machine est composée de huit processeurs Dual Core AMD
Opteron 875, soit 16 coeurs au total à 2,2Ghz, dispose de huit bancs de 4Go de mémoire.
Sur cette machine, nous avons utilisé le noyau Lunix 2.6.23, le compilateur gcc 4.2.3 et
4.3. EXPÉRIMENTATIONS 67
L’algorithme parallèle adaptatif (implantation "préfixe adaptatif") a été implanté sur Kaapi
[46] qui intègre l’ordonnancement par vol de travail. Nous avons aussi implanté l’algorithme
statique (implantation "préfixe statique") présenté précédemment (section 3.3.2) qui est théori-
quement optimal sur des processeurs identiques avec mémoire uniforme.
– Expérimentation sur des processeurs identiques. Nous présentons dans cette partie, une
comparaison de l’accélération obtenue par l’implantation "prefixe adaptatif" avec l’ac-
célération théorique optimale, et aussi nous nous comparons à l’implantation "préfixe
statique".
– Expérimentation sur des processeurs perturbés. Dans cette partie nous présentons une
évaluation des performances obtenues par l’implantation "préfixe adaptatif" dans le cas
où les processeurs sont de vitesses variables par rapport à l’application, du fait de leur
utilisation par d’autres processus (des charges additionnelles).
– Expérimentation sur des processeurs hétérogènes. Dans cette partie, nous présentons les
performances obtenues par notre algorithme sur des architectures hétérogènes (fréquences
différentes) simulées à l’aide d’un simulateur de charge CPU développé par Christophe
Cérin de l’université de Paris 13 dans le cadre du projet SAFESCALE.
– Expérimentation en distribué. Dans cette partie, nous présentons des résultats obtenus sur
des processeurs distribués.
4.3.2 Évaluations
Les premières expérimentations ont pour but de montrer que l’implantation "préfixe adap-
tatif" se comporte bien sur des processeurs identiques. Nous comparons l’accélération obtenue
expérimentalement par l’implantation "préfixe adaptatif" à l’accélération théorique optimale
(théorème 4.2.1 avec Πave = 1 ). Aussi nous comparons l’implantation "préfixe adaptatif" à
l’implantation "préfixe statique".
On considères deux cas pour les expérimentations : le premier cas concerne un temps par
opération ⋆ élevé et le deuxième cas concerne un temps par opération ⋆ faible.
Pour le premier cas, les expérimentations consistent au calcul des préfixes de 30000 élé-
ments en faisant varier p le nombre de processeurs utilisés (de 1 à 8 pour idbull et de 1 à 16
pour idkoiff ). Le temps séquentiel optimal de référence est de 19, 31s pour idbull et de 47, 35s
68
CHAPITRE 4. UN ALGORITHME ADAPTATIF POUR LE CALCUL PARALLÈLE DES PRÉFIXES
Le tableau 4.1 donne les temps d’exécution obtenus par l’implantation "préfixe adaptatif"
sur p processeurs ( de 1 à 8 pour idbull et 1 à 16 pour idkoiff ). Pour chaque expérience, 10
mesures ont été effectuées et seuls sont reportés les temps de l’exécution la plus rapide, la plus
lente et le temps moyen des 10 exécutions.
Le tableau 4.1 montre les temps d’exécution lorsqu’il n’y a pas d’autres calculs en cours sur
les processeurs. On remarque que les mesures de temps sont stables (écart entre temps minimum
et maximum inférieur à 4%). On vérifie l’optimalité de l’algorithme adaptatif (théorème 4.2.1
avec Πave = 1 ) qui est à moins de 2% sur idbull et de 7% sur idkoiff de la borne inférieure.
idbull idkoiff
p=1 p=2 p=4 p=8 p= 1 p=2 p=5 p=10 p=12 p=16
Minimum 19,31 12,92 7,78 4,33 47,35 31,64 15,85 8,70 7,38 5,78
Maximum 19,35 12,92 7,84 4,42 47,35 31,64 16,18 8,76 7,57 6,03
Moyenne 19,33 12,92 7,81 4,35 47,35 31,64 15,97 8,72 7,47 5,87
Borne inférieure 19,31 12,87 7,724 4,29 47,35 31,57 15,78 8,61 7,28 5,57
TAB . 4.1 – Temps d’exécution de l’implantation "préfixe adaptatif" sur le tableau de taille n =
3.104 sur les machines idbull et idkoiff.
Les figures 4.3 et 4.4 comparent les accélérations obtenues par l’implantation "préfixe adap-
tatif" sur les machines idbull et idkoiff à l’accélération théorique optimale ( p+1
2
) sur le tableau
de taille n = 3.104 . Sur la machine idbull, nous observons que les accélérations obtenues par
l’implantation "préfixe adaptatif" sont identiques aux accélérations théoriques optimales sur 1 à
8 processeurs (figure 4.3). Sur la machine idkoiff nous observons que les accélérations obtenues
par l’implantation "préfixe adaptatif" sont identiques aux accélérations théoriques optimales sur
1 à 10 processeurs ; et sur 12 à 16 elles sont légèrement inférieures aux accélérations théoriques.
Les figures 4.5 et 4.6 comparent les temps d’exécution de l’implantation "préfixe adaptatif"
à ceux de l’implantation "préfixe statique" qui est basée sur une découpe en p+1 parties. Pour le
deuxième cas les expérimentations consistent au calcul des préfixes de 108 doubles (l’opération
⋆ est l’addition de deux doubles) en faisant varier p le nombre de processeurs utilisés (de 1 à
8 pour idbull et de 1 à 16 pour idkoiff ). Le temps séquentiel optimal de référence est de 3, 14s
pour idbull et de 1, 55s pour idkoiff. La taille s0 de la première étape de la macro-loop a été
fixée à 300 et la constante α fixée à 100. Nous remarquons que sur les deux machines, l’im-
plantation "préfixe adaptatif" se comporte mieux que l’implantation "préfixe statique". Cette
différence s’explique par le fait qu’il y a des petites charges dans le système, ce qui perturbe
un peu l’implantation "préfixe statique", et l’implantation "préfixe adaptatif" s’adapte en fonc-
tion de ces charges. Nous pouvons remarquer que la meilleure accélération obtenue par ces
4.3. EXPÉRIMENTATIONS 69
F IG . 4.3 – Comparaison sur idbull de l’accélération obtenue par l’implantation "préfixe adapta-
tif" (n = 3.104 ) avec l’accélération théorique optimal ( p+1
2
).
F IG . 4.4 – Comparaison sur idkoiff de l’accélération obtenue par l’implantation "préfixe adap-
tatif" (n = 3.104 ) avec l’accélération théorique optimal ( p+1
2
).
expérimentations ne dépasse pas 4. Ceci est dû à la contention d’accès mémoire sur ces ma-
chines NUMA où chaque bi-processeurs partage la même mémoire. Mais si nous augmentons
le temps de l’opération ⋆, l’accélération augmente, ce qui été montrée dans les expérimentations
précédentes.
Dans le tableau 4.2 des processus de charges additionnels sont injectés pour perturber l’oc-
cupation de la machine et simuler le comportement d’une machine réelle, perturbée par d’autres
utilisateurs. Par souci de reproductibilité, chaque expérience sur p ≤ 16 processeurs est pertur-
bée par 16 − p + 1 processus artificiels de durée supérieure à 19s (le temps séquentiel de ré-
férence est de 19s). On peut vérifier dans le tableau 4.2 qu’en moyenne l’implantation "préfixe
adaptatif" est au moins 13% plus rapide.
70
CHAPITRE 4. UN ALGORITHME ADAPTATIF POUR LE CALCUL PARALLÈLE DES PRÉFIXES
Pour simuler l’hétérogénéité des cœurs, nous avons utilisé un simulateur de charge CPU
développé par Christophe Cérin dans le cadre du projet SAFESCALE. Des tests similaires ont
été réalisés sur un autre simulateur de charge développé au laboratoire [68]. Pour faciliter la si-
mulation, un processus a été fixé sur chaque cœur et ne sera pas migré tout long de l’exécution
sur un autre cœur. La figure 4.7 compare les accélérations obtenues par l’implantation "préfixe
adaptatif" à l’accélération théorique optimale ( P.Πave2+Πmax ), et à l’accélération de l’implanta-
tion "préfixe statique" basé sur une découpe en p + 1 parties de la bibliothèque SWARM [5]. Ici
nous avons donné la même vitesse à tous les processeurs, sauf un qui va deux fois moins vite
que les autres. Nous observons que l’accélération obtenue par l’implantation "préfixe adaptatif"
4.3. EXPÉRIMENTATIONS 71
Statique Adaptatif
p=2 p=4 p=8 p=12 p=14 p=16 p=2 p=4 p=8 p=12 p=14 p=16
Minimum 16,10 10,48 5,91 4,03 3,48 3,13 16,11 9,27 4,80 3,31 2,90 2,70
Maximum 22,22 13,60 7,77 4,11 3,60 3,17 18,17 9,99 5,04 3,71 3,02 2,77
Moyenne 19,06 11,42 6,91 4,08 3,55 3,14 17,52 9,58 4,93 3,50 2,96 2,76
TAB . 4.2 – Comparaison des temps des implantations sur p processeurs perturbés. Sur les 10
exécutions de chacun des tests, l’implantation "préfixe adaptatif" est la plus rapide.
est proche de l’optimale, ce qui montre qu’il s’adapte bien à l’hétérogénéité des coeurs. On
remarque que l’accélération obtenue par l’implantation "préfixe statique" est loin de l’optimale
et elle est égale à p+1
4
, qui est égale à l’accélération du processeur le plus lent.
La figure 4.8 compare les trois temps (minimal, moyen, maximal) obtenus par l’implanta-
2Tseq
tion "préfixe adaptatif", au temps théorique (p+1)Π ave
, et aux temps obtenus par l’implantation
"préfixe statique" implanté avec la librairie SWARM. Les deux implantations (adaptative et
statique) ont été testées sur des cœurs hétérogènes (obtenus à l’aide du simulateur) dont les ca-
ractéristiques sont données dans le tableau 4.3. Le temps séquentiel de référence est de 15, 92s
qui a été mesuré sur un seul cœur de fréquence maximale égale à 2200Mhz et avec une charge
CPU égale à 100%. La figure montre que conformément à la théorie les temps obtenus par notre
2Tseq
algorithme sont très proches de (p+1)Π ave
, et elle montre aussi que ces temps sont très meilleurs
à celui de l’algorithme statique. On peut observer sur cette figure que les temps obtenus par
l’implantation "préfixe adaptatif" sont stables. Sur la figure les processeurs sont utilisés à partir
de l’indice croissant de leur numéro indiqué dans le tableau 4.3, par exemple si le nombre de
cœurs est égal à i, cela signifie que les processeurs P1 , . . . Pi ont été utilisés.
Expérimentations en distribué
Lors d’une exécution distribuée, les surcoûts de copie des données du tableau en entrée
72
CHAPITRE 4. UN ALGORITHME ADAPTATIF POUR LE CALCUL PARALLÈLE DES PRÉFIXES
Numéro Fréquence Numéro Fréquence Nombre de cœurs cœurs utilisés Nombre de cœurs cœurs utilisés
P1 1760M hz P6 440M hz 1 P1 6 P1 . . . P6
P2 550M hz P7 1320M hz 2 P1 . . . P2 7 P1 . . . P7
P3 1100M hz P8 880M hz 3 P1 . . . P3 8 P1 . . . P8
P4 1650M hz P9 550M hz 4 P1 . . . P4 9 P1 . . . P9
P5 660M hz P10 1760M hz 5 P1 . . . P5 10 P1 . . . P10
TAB . 4.3 – Fréquences des différents cœurs utilisés et la façon dont ils ont été utilisés.
peuvent conduire à des mauvaises performances. Pour limiter ce surcoût, les données ont été
copiées dans un fichier, et ce fichier a été projeté en mémoire (mmap).
Pour réaliser cette exécution distribuée, 8 machines idbull ont été utilisées à l’aide de la com-
mande karun de Kaapi. Dans ce cas distribué, l’extraction d’une partie du travail est réalisée par
l’exécution, sur interruption, d’un service à distance chez le processeur volé ; la réalisation de ce
mécanisme a été faite en utilisant les fonctions permettant de réaliser des communications par
échange de message ("message actif") développées dans Kaapi [39]. la figure 4.9 compare l’ac-
célération obtenue par notre algorithme en distribué sur 8 processeurs à l’accélération optimale.
Nous avons utilisé un fichier contenant 10000 pages dont chaque page contient 8192 doubles.
Le grain de la fonction extract_seq a été fixé à la taille d’une page, c’est à dire 8192 doubles.
Nous pouvons remarquer sur la figure que l’implantation "préfixe adaptatif" se comporte aussi
bien.
4.4 Conclusion
F IG . 4.9 – L’accélération sur 1 à 8 machines idbull en distribué sur un fichier de 10000 pages
avec chaque page contenant 8192 doubles
gorithme parallèle optimal lorsque p processeurs identiques sont disponibles. Dans le cas de p
processeurs de vitesses variables, son temps est équivalent à celui d’un algorithme optimal sur
p processeurs identiques de vitesse égale à la moyenne des vitesses. Ces résultats théoriques
sont validés par les expérimentations menées sur des machines de 8 et 16 processeurs. Plus gé-
néralement, notre algorithme adaptatif est basé sur le couplage récursif et dynamique de deux
algorithmes un algorithme séquentiel, optimal en nombre d’opérations, et l’autre parallèle avec
un degré maximal de parallélisme. Dans le chapitre suivant, nous proposons des algorithmes
adaptatifs de la fusion de deux listes triées, de partition et ces algorithmes seront utilisés pour
paralléliser des algorithmes de tri introspectif (une variante du tri rapide) et de tri par fusion.
74
CHAPITRE 4. UN ALGORITHME ADAPTATIF POUR LE CALCUL PARALLÈLE DES PRÉFIXES
Chapitre 5
Dans ce chapitre, nous présentons deux algorithmes parallèles de tri pour des architectures
multicœurs à mémoire partagée dont le nombre ou la vitesse des processeurs physiques alloués
à une application donnée peuvent varier en cours d’exécution. Le premier repose sur une fu-
sion adaptative parallèle, le deuxième sur une partition parallèle adaptative. Les performances
théoriques sont prouvées asymptotiquement optimales par rapport au temps séquentiel. Les per-
formances expérimentales sont analysées sur deux machines différentes à 8 et 16 cœurs.
5.1 Introduction
Le tri d’un ensemble de données est l’un des problèmes fondamentaux les plus étudiés en
informatique. Il est souvent dit que 25% à 50% du travail réalisé par un ordinateur est accompli
par des algorithmes de tri [21]. L’une de ces raisons est qu’un ensemble de données trié est plus
facile à manipuler qu’un ensemble non trié ; par exemple la recherche d’une valeur dans une
séquence triée est généralement plus rapide que dans une séquence non triée. Ainsi, de part son
importance pratique considérable, il est intégré dans de nombreuses bibliothèques séquentielles
et parallèles.
Le tri parallèle a été étudié expérimentalement par beaucoup d’auteurs sur différentes archi-
tectures [16, 80, 20, 50, 31] que nous ne pouvons pas tous mentionner dans ce chapitre. Nous
nous intéressons aux algorithmes parallèles basés sur le tri rapide [19] et le tri par fusion. Dans
[42], les auteurs proposent une parallélisation du tri rapide qui repose sur une parallélisation
statique de la partition par bloc basée sur la méthode "fetch and add". Tsigas et Zhang [91] ont
étudié expérimentalement une version similaire à celle proposée dans [42] ; leurs expérimen-
tations donnent de bons résultats. Le temps d’exécution de leur algorithme
avec en entrée 2un
n log n n
tableau de taille n sur p processeurs identiques est en O p
en moyenne et en O p
dans le pire des cas. Outre un pire cas en O(n2 ) en travail, l’algorithme parallèle proposé par
Tsigas et Zhang n’est pas performant si l’on dispose d’une machine avec des processeurs dif-
76 CHAPITRE 5. ALGORITHMES ADAPTATIFS DE TRI PARALLÈLE
férents, ou d’une machine utilisée par plusieurs utilisateurs car la charge des processeurs varie
en cours d’exécution. Dans [84], les auteurs ont étudié expérimentalement une version parallèle
du tri par fusion qui repose sur une fusion parallèle. Leur algorithme de fusion parallèle est
fait en fonction du nombre de processeurs, ce qui n’est pas adapté aussi sur des architectures
multicœurs.
Pour réaliser des exécutions efficaces de ces deux algorithmes sur des architectures mul-
ticœurs, nous utilisons la technique adaptative présentée dans le chapitre 6. Nous présentons
dans la section 5.3 un algorithme adaptatif de la fusion parallèle de deux listes triées. Puis à par-
tir de cette fusion parallèle adaptative, nous présentons un algorithme adaptatif de tri parallèle
par fusion dans la section 5.3. Cet algorithme parallèle adaptatif est une version améliorée de
l’algorithme classique présenté dans [89]. Dans la section 5.4, nous proposons un algorithme
adaptatif de la partition parallèle. Puis à partir de cette partition adaptative, nous proposons un
algorithme parallèle adaptatif du tri rapide introspectif [64] dans la section 5.5.
Dans toute la suite, nous utilisons des tableaux à accès direct pour effectuer la fusion. L’in-
tervalle de travail restant en cours sur un tableau T est représenté par w = [d, f [ où d et f sont
deux indices de T , nous désignons par m = f − d son nombre d’éléments. On suppose que les
indices sont numérotés à partir de 0 ; ainsi le l’intervalle initial de travail d’un tableau T de taille
n (nombre d’éléments) est représenté par [0, n[ où T contient les éléments T [0], . . . , T [n − 1].
L’algorithme de tri par fusion consiste à prendre deux tableaux triés, notés T1 et T2 disjoints
du tableau T ; et à interclasser les éléments de T1 et T2 pour les stocker triés dans un tableau T .
Nous désignons par m1 et m2 le nombre d’éléments des tableaux restant à fusionner, on note
w1 = [i, i + m1 [ et w1 = [j, j + m2 [ les intervalles d’indices des sous-tableaux correspondants
dans T1 et T2 . La figure 5.1 montre un exemple de la fusion de deux tableaux triés.
Pour construire la fusion adaptative parallèle, comme pour le calcul adaptatif des préfixes,
nous utilisons les opérations extract_seq et extract_par qui permettent d’extraire les tailles des
calculs à effectuer localement et en parallèle. Pour minimiser le surcoût de synchronisations ces
5.2. LA FUSION ADAPTATIVE DE LISTES TRIÉES 77
• extract_seq : consiste à extraire α log m1 sur w1 ou α log m2 sur w2 . Trois cas peuvent
apparaître lors de l’opération d’extraction :
– cas 1 : w1 6= ∅ et w2 6= ∅, l’opération consiste à extraire α log m1 sur w1 et α log m2
sur w2 . La figure 5.2 illustre ce cas.
– cas 2 : w1 6= ∅ (resp. w2 6= ∅) et w2 6= ∅ (resp. w1 6= ∅), l’opération consiste à extraire
α log m2 (resp. α log m1 ) sur w2 (resp. w1 ). La figure 5.3 illustre ce cas.
– cas 3 : w1 = ∅ et w2 = ∅ l’opération retourne faux.
Nous appelons par local_run la fonction qui permet d’exécuter sans aucun surcoût de pa-
rallélisme l’intervalle extrait par la fonction extract_seq. Elle été implémenté comme suit :
• local_run : applique l’algorithme séquentiel optimal sur les deux parties extraites par
extract_seq. L’algorithme 5.2.1 représente le local_run.
Théorème 5.2.1. Soit Ws (n) le travail séquentiel de l’algorithme de fusion et soit Tp (n) son
temps d’exécution sur p processeurs de vitesse moyenne Πave . Alors, pour n suffisamment grand,
78 CHAPITRE 5. ALGORITHMES ADAPTATIFS DE TRI PARALLÈLE
on a : 2
Ws (n) 1 log n
Tp (n) = 1+O +O .
p.Πave log n Πave
Démonstration. Lors du vol, l’opération extract_par (la recherche binaire sur le tableau de plus
petite taille) fait au plus O (log n) comparaisons. Le temps de chaque vol est alors O (log n)
. Après le vol, les parties extraites par le voleur et celles sur la victime seront exécutées en
parallèle ; donc la profondeur de l’algorithme est égale à la profondeur de ces parties extraites
additionnée de O (log n). Dans le pire des cas, la moitié du tableau de plus grande taille et
tout le tableau de plus petite taille restent chez la victime ou seront volés par le voleur, dans
ce cas la victime ou le voleur interclasse au plus 3n 4 Donc la profondeur D(n) de
éléments.
2
l’algorithme est D(n) = D( 3n 4
) + O (log n) = O log n . Puisque chaque voleur exécute
5.2. LA FUSION ADAPTATIVE DE LISTES TRIÉES 79
n
l’algorithme séquentiel optimal et que le nombre de extract_seq est au plus O , alors
log n
travailséquentiel effectué par l’algorithme sur p processeurs est au plus W (n) = Ws (n) +
le
O logn n qui est asymptotiquement égal au travail Ws (n) = O(n) de la fusion séquentielle
2
Ws (n) 1 log n
optimale. Grâce au théorème 3.4.2, on a donc Tp ≤ p.Π ave
1 + O log n
+ O Πave
≃
Ws (n)
p.Πave
qui est asymptotiquement optimal. ❏
Algorithme 5.2.2
1 local_run() {
2 Eltype ∗ f irst1 = _f irst1 + _local_seq_debut1 ;
3 Eltype ∗ last1 = _f irst1 + _local_seq_f in1 ;
4 Eltype ∗ f irst2 = _f irst2 + _local_seq_debut2 ;
5 Eltype ∗ last2 = _f irst2 + _local_seq_f in2 ;
6 Eltype ∗ output = _output + _taille_elts_interclasses ;
7 if (f irst1 >= last1) {
8 memcpy(output, f irst2, sizeof(Eltype)*(last2 − f irst2)) ;
9 _taille_elts_interclasses+ = (last2 − f irst2) ;
10 _local_seq_debut2 = _local_seq_f in2 ;
11 }
12 else if (f irst2 >= last2) {
13 memcpy(output, f irst1, sizeof(Eltype)*(last1 − f irst1)) ;
14 _taille_elts_interclasses+ = (last1 − f irst1) ;
15 _local_seq_debut1 = _local_seq_f in1 ;
16 }
17 else {
18 while((f irst1! = last1) && (f irst2! = last2)) {
19 if( ∗ f irst2 < ∗ f irst1) ∗ output + + = ∗ f irst2 + + ;
20 else ∗ output + + = ∗ f irst1 + + ;
22 }
23 _local_seq_debut1 = (f irst1 − _f irst1) ;
24 _local_seq_debut2 = (f irst2 − _f irst2) ;
25 _taille_elts_interclasses = _local_seq_debut1 + _local_seq_debut2 ;
26 }
27 } ;
Algorithme 5.2.1: Algorithme de local_run spécialisé pour la fusion. Les types _f irst1,
_f irst2, _last1, _last2 représentent les débuts et fins des deux tableaux à fusionner ; le
type output représente le tableau final qui doit contenir le résultat de la fusion ; les types
_local_seq_debut1, _local_seq_debut2 représentent les positions courantes des deux tableaux
en entrée ; et le type _taille_elts_interclasses représente le nombre d’éléments déjà interclas-
sés dans le tableau final.
80 CHAPITRE 5. ALGORITHMES ADAPTATIFS DE TRI PARALLÈLE
Le tri par fusion consiste à découper le tableau initial de taille n en deux parties de taille
n/2 qui peuvent être triées en parallèle puis à fusionner ces deux parties. La figure 5.5 montre
une illustration sur un exemple du tri par fusion.
Telles que définies ici, les fusions ne sont pas faites en place : un espace mémoire auxiliaire
de taille n est alloué en début et laisser en fin pour réaliser les fusions 1 .
Nous avons utilisé l’ordonnancement par vol de travail (voir chapitre 3, section 3.4.2.1) et
l’algorithme de fusion parallèle adaptative proposé à la section précédente pour réaliser l’algo-
rithme adaptatif du tri parallèle par fusion. Lors de la découpe du tableau en deux parties, les
tâches à réaliser sur ces deux parties seront volées dynamiquement par vol de travail. Une fois
l’exécution de ces tâches terminée, l’algorithme de fusion parallèle adaptatif est appelé sur les
deux parties triées. La découpe récursive du tableau est limitée au grain α log n ; la constante α
permet d’amortir le coût de synchronisation supposé constant [25].
Le travail de cet algorithme est W tri_f usion (n) = 2.W tri_f usion ( n2 )+Wseqf usion
(n)(1+o(1)) ≃
( 2 ) + O log n = O log3 n . Le
n 2
tri_f usion tri_f usion tri_f usion
Wseq (n) et la profondeur D (n) = D
Ws (n)
temps d’exécution de l’algorithme de tri par fusion parallèle est donc équivalent à p.Π ave
+
3
O logΠave
n
donc asymptotiquement optimal par rapport à l’algorithme séquentiel.
Soit un tableau T [0 . . . n − 1], et un élément quelconque appelé pivot pris dans le tableau, et
un prédicat pred donné. Le but de l’algorithme de partition est d’arriver à la situation suivante :
1
√
Il existe des algorithmes de fusion en place plus complexes, basés sur une découpe en n [45]
5.4. LA PARTITION PARALLÈLE ADAPTATIVE 81
Exemple 5.4.1. Soit T = [10, 5, 2, 8, 20, 6, 32, 3, 7] et pivot = 8 = T [3]. Supposons que le
prédicat est la comparaison ((pred(T [i], pivot)) ≡ (T [i] < pivot) ). Alors
Tf inal = [7,5,2,3,6, 20, 32, 8, 10]
Cet algorithme effectue un travail W = Wseq + nτcopie où τcopie est le coût de l’opération
de copie. Cet algorithme parallèle fait plus d’opérations que l’algorithme séquentiel et en plus
il ne partitionne pas les éléments sur place (car utilise un tableau intermédiaire pour stocker les
éléments partitionnés). En plus du surcoût en nombre d’opérations, il n’est pas adapté pour les
architectures dont le nombre ou la vitesse des processeurs physiques alloués à une application
donnée peuvent varier en cours d’exécution.
Une autre approche naïve consiste à découper récursivement le tableau jusqu’à des blocs
de taille log n, puis de partitionner chaque bloc. Mais il faut ensuite réarranger les blocs pour
obtenir une partition ordonnée, ce réarrangement introduit un surcoût en Θ(n).
82 CHAPITRE 5. ALGORITHMES ADAPTATIFS DE TRI PARALLÈLE
Nous considérons le tableau T comme des juxtapositions de plusieurs blocs de tailles éven-
tuellement différentes. Nous disons qu’un bloc a été traité lorsque tous ses éléments ont été
visités par l’algorithme de partition. Nous désignons par Bg (resp. Bd ) le bloc non traité si-
tué dans la partie extrême gauche (resp. droite) du tableau T privé des blocs traités. Soit lo-
cal_partition(Bg , Bd ) la fonction séquentielle qui parcourt les deux blocs Bg et Bd jusqu’à ce
qu’au moins tous les éléments d’un de ces deux blocs aient été visités. Elle range les éléments
qui ne vérifient pas le prédicat (les éléments qui sont supérieurs par exemple) dans Bd et ceux
qui vérifient le prédicat (les éléments qui sont inférieurs) dans Bg . Notre algorithme parallèle
adaptatif pour la partition est alors le suivant.
Nous désignons par Ps le processus qui initie l’exécution de la partition et par Pv les autres
processus qui font du vol de travail. Ps suit l’algorithme séquentiel de partition, en bénéficiant
éventuellement des opérations anticipées par les autres processus voleurs ; ces opérations cor-
respondent à des intervalles volés qui sont chaînés dans une liste Lv gérée par Ps .
Initialement, Ps démarre la partition séquentielle du tableau T sur l’intervalle [0, n[. Il extrait
deux blocs non traités de taille α. log n (opération extract_seq) : Bg à l’extrémité gauche et Bd
à l’extrémité droite de l’intervalle qui lui reste à partitionner. La constante α est choisie pour
rendre négligeable le coût de synchronisation [25].
• Algorithme séquentiel pour un processus Ps :
1. Ps travaille localement sur deux blocs de taille α. log n en extrayant deux blocs non traités
(Bg et Bd ) à l’extrémité gauche et droite de l’intervalle qui lui reste à faire.
2. Ps exécute local_partition(Bg , Bd ) jusqu’à ce que l’un des blocs au moins soit traité.
3. Soit alors m le nombre d’éléments de l’intervalle que Ps doit encore partitionner.
– Si Bg a été traité et qu’il reste des blocs non traités, Ps extrait le bloc de taille α log m
juste à droite de Bg et repart à 2.
– Si Bd a été traité et qu’il reste des blocs non traités, Ps extrait le bloc de taille α log m
juste à gauche de Bd et repart à 2.
– Si Bg et Bd ont été traités et qu’il reste des blocs non traités, Ps revient à l’étape 1 en
extrayant deux blocs Bg et Bd de taille α log m.
– Sinon Ps va à l’étape 4.
4. Si Lv n’est pas vide, Ps dépile le premier intervalle volé dans la liste Lv . Si ce vol est ter-
miné, il récupère l’information sur les blocs traités et repart à 4. Sinon, Ps se synchronise
avec le processus Pv qui l’a volé le premier ; pour cela il attend éventuellement que Pv ait
terminé son exécution en cours de local_partition (préemption faible).
– Si Pv n’a pas de blocs non traités, Ps récupère l’information sur les blocs traités et
repart à 4.
– Si Pv a un seul bloc non traité, Ps récupère celui-ci et le met dans sa liste BF des blocs
à finaliser et repart à 4.
5.4. LA PARTITION PARALLÈLE ADAPTATIVE 83
– Sinon si Ps a fini le travail de son intervalle gauche (resp. droit), il récupère la moitié
du travail restant à faire par Pv à l’extrême gauche (resp. extrême droite) et repart à
l’étape 1.
5. Réarrangement : Si il ne reste plus que des intervalles volés non traités à gauche (resp.
à droite), Ps ne peut plus extraire de blocs à droite (resp. à gauche), les processus sont
alors inactifs. Les processus déplacent les blocs de la liste BF et les blocs non traités à
des positions cohérentes par rapport au pivot. Si tous les blocs étaient traités, Ps s’arrête
et l’algorithme se termine. Sinon, il reste au sein du tableau un unique intervalle restant à
partitionner : Ps repart alors à l’étape 1 sur cet intervalle.
• Algorithme parallèle pour les processus Pv . Chaque processus possède deux intervalles,
l’un à gauche l’autre à droite.
– Lorsqu’il est inactif, Pv choisit au hasard un processeur jusqu’à trouver un processus actif
Pw sur lequel il reste des blocs à traiter. Il peut s’agir soit de Ps , soit d’un autre processus
voleur. Soit qg (resp. qd ) le nombre d’éléments restant à partitionner dans l’intervalle
gauche (resp. droit) sur Pw .
1. Pv découpe chacun des deux intervalles restants à traiter sur Pw en deux parties de
tailles respectives qg /2 et qd /2 ; il vole la partie droite Ig de l’intervalle gauche et la
partie à gauche Id de l’intervalle droit. Pv insère alors l’information sur l’intervalle
volé dans la liste Lv juste après celle de sa victime Pw .
2. Soit m le nombre d’éléments restant à partitionner sur Pv (initialement, m = qg /2 +
qd /2) ; Pv extrait de Ig (resp. Id ) le bloc Bg le plus à gauche (resp. Bd à droite) non
traité et de taille α log m .
3. Pv applique local_partition(Bg , Bd ) jusqu’à ce que l’un des blocs au moins soit
traité.
4. Si Pw a envoyé un signal de synchronisation à Pv (préemption) ; Pv attend que Pw
ait terminé la découpe de l’intervalle qu’il lui reste à partitionner (cf étape 4 de Ps )
et repart à 2.
5. Sinon, il continue sa partition en extrayant de nouveaux blocs Bg et/ou Bd (identi-
quement aux étapes 1, 2, 3 et 4 de Ps ).
On remarque que si il y a un seul processeur, l’algorithme exécute une partition séquentielle ; il
effectue un travail Wseq (n) (nombre de comparaisons et permutations) identique. Dans la suite
le surcoût de réarrangement, qui limité au bloc BF , n’est pas considéré ; le travail arithmétique
sur p processeurs est aussi Wp (n) = Wseq (n). Le théorème suivant montre alors l’optimalité
asymptotique de cet algorithme de partition en prenant en compte le surcoût d’ordonnancement.
Théorème 5.4.1. Soit Wseq (n) le travail séquentiel de la partition. En négligeant le surcoût de
réarrangement alors, sur p processeurs de vitesse moyenne Πave et pour n suffisamment grand,
le temps Tp (n) est asymptotiquement optimal et vérifie
2
Ws log n
Tp (n) = +O .
p.Πave Πave
Démonstration. L’exécution est structurée par le processus Ps en étapes successives ; d’abord partition-
nement partiel du tableau. Puis lorsque tous les vols sont terminés, les blocs de la liste BF et les blocs
84 CHAPITRE 5. ALGORITHMES ADAPTATIFS DE TRI PARALLÈLE
non traités sont réarrangés (déplacement des éléments) pour former l’intervalle suivant à partitionner
de taille n′ égale au nombre d’éléments non classés dans BF et des blocs non traités. L’étape suivante
correspond alors au partitionnement (récursif séquentiel) de ces n′ éléments restants à partitionner. A
chaque vol correspond au plus un bloc ajouté dans BF ; la taille de chaque bloc dans BF est majorée par
O(log n).
Soit D (1) la profondeur de la première étape de partition sur un nombre non borné de processeurs
identiques. De part la découpe récursive par moitié lors de chaque vol et la taille logarithmique de chaque
bloc extrait pour local_partition, avec une infinité de processeurs, chaque processeur exécute une seule
fois local_partition et traite au moins un bloc, au plus deux. On a donc D (1) = O(log n) et par suite la
profondeur de chacune des étapes est majorée par O(log n). De plus, le nombre de blocs dans BF est au
plus la moitié du nombre de blocs total : donc n′ ≤ n/2 et le nombre total d’étapes est donc majoré par
log n.
Considérons maintenant l’exécution sur p processeurs de la première étape, qui est de profondeur
O(log n). Par le théorème 3.4.2, le nombre de vols durant cette étape est donc O(p log n). Comme la
profondeur de chacune des étapes est majorée par O(log n), on en déduit qu’il y’a au plus O(p log2 n)
vols. Finalement, le théorème 3.4.2 permet
de déduire le temps d’exécution Tp (n) sur les p processeurs
√
Ws (n) p log2 n n
de vitesse Πave : Tp (n) = p.Πave +O Πave . Pour p = o log n , le temps d’exécution est alors
Ws (n)
équivalent à p.Πave ce qui est optimal.
En pratique, p est fixé ; l’algorithme adaptatif de partition est alors asymptotiquement opti-
mal. Dans la section suivante, il est utilisé pour paralléliser le tri introspectif.
Dans le reste de ce chapitre, pour simplifier la présentation, nous supposons que le prédicat
à vérifier est : si l’élément considéré est strictement inférieur au pivot choisi
Le tri introspectif est une amélioration proposée par David Musser [64] de l’algorithme de
tri rapide (Quiksort). L’idée est de combiner le tri rapide au tri par tas (heapsort) pour que la
complexité de l’algorithme résultant reste O (n log n). L’algorithme réalise un tri rapide clas-
sique, au cours duquel le nombre total d’appels récursifs est compté et lorsqu’on réalise ⌈log n⌉
appels récursifs en séquence, le tri par tas remplace le tri rapide sur le reste de la séquence à
trier.
Le tri introspectif (comme le tri rapide) est basé sur une partition en place : un élément pivot
e (pseudo-médiane) est choisi qui est utilisé pour réarranger en temps Θ(n) le tableau en deux
parties, le premier contenant les éléments inférieurs à e, le deuxième ceux supérieurs.
les éléments inférieurs d’une part et ceux supérieurs d’autre part peuvent être triés en parallèle.
Deux seuils sont utilisés dans la boucle principale. Le paramètre depth_limit, clef de l’al-
gorithme séquentiel introspectif est initialisé à log n dans l’appel principal et permet de limiter
le travail du tri introspectif à O (n log n). Si depth_limit == 0, on fait appel à l’algorithme
du tri par tas (ligne 4) qui a toujours une complexité en O (n log n). Le seuil grain permet de
limiter la parallélisation récursive parallèle à des tableaux de taille supérieure à α log n.
Sur la ligne 9 de l’algorithme, le pivot choisi est la médiane des trois valeurs (le premier
élément, l’élément du milieu et le dernier élément du tableau en cours de tri). Sur la ligne 11
tous les processeurs inactifs exécutent l’algorithme adaptatif parallèle de la partition à partir
du pivot fourni. Puis sur la ligne 12, une tâche est créée pour le tri en parallèle des éléments
supérieurs au pivot.
Algorithme 5.5.3
5.6 Expérimentations
Nos expérimentations ont été faites sur deux machines à mémoire partagée NUMA : une
Intel Itanium-2 à 1.5GHz avec 31GB de mémoire composée de deux noeuds quadri-coeurs ;
une AMD Opteron composée de 8 noeuds bi-coeurs. Les algorithmes ont été implantés avec
l’interface adaptative générique ; la constante α a été fixée à α = 100 sur les deux machines
après calibrage expérimental.
Les premières expérimentations consistent à trier un tableau de 108 doubles (les données
sont tirées aléatoirement) en faisant varier le nombre de processeurs utilisés (de 1 à 8 pour
itanium et 1 à 16 pour AMD). Les tableaux 5.1 et 5.2 donnent les temps d’exécution obtenus
par les deux algorithmes (tri par fusion et quicksort) sur les machines Itanium et AMD. Nous
avons réalisé dix exécutions et pour chaque test nous avons pris le minimum, le maximum et la
moyenne ; les résultats sont très stables.
Nous remarquons dans le tableau 5.1 que les deux algorithmes se comportent très bien sur
1 à 8 processeurs, et qu’ils se comportent moins bien sur 9 à 16 processeurs. Ceci est dû à la
contention d’accès à la mémoire sur cette machine NUMA où chaque bi-processeurs partage la
même mémoire. D’ailleurs, lorsque l’on augmente artificiellement le grain de la comparaison à
un temps arithmétique de 1µs (en choisissant alors α = 1), l’accélération obtenue est linéaire :
jusqu’à 15,2 pour 16 processeurs.
On remarque aussi que l’algorithme de tri introspectif (non stable) est meilleur que le tri par
fusion. Dans le tableau 5.2, nous remarquons que les deux algorithmes se comportent très bien,
avec de très bonnes accélérations.
Dans le tableau 5.3, des processus de charges additionnelles sont injectés pour perturber
l’occupation de la machine et simuler le comportement d’une machine réelle, perturbée par
d’autres utilisateurs. Par souci de reproductibilité, chaque expérience sur p ≤ 8 processeurs
est perturbée par 8 − p + 1 processus artificiels sur la machine itanium-2 et par 16 − p + 1
sur la machine AMD. Ainsi, l’un des exécuteurs a sa vitesse divisée par 2, ce qui conduit à
p.Πave ≤ (p − 0, 5).Πmax où πmax est la vitesse d’un coeur dédié. Si Ts est le temps séquentiel,
le temps parallèle optimal théorique serait donc T˜p = p−0,5
Ts
; la dernière ligne du tableau reporte
ce temps pour Ts = 22, 45s. Conformément à la théorie, on constate les performances stables du
tri adaptatif sur cette machine perturbée ; de plus les temps obtenus sont relativement proches à
moins de 30% de l’estimation théorique T˜p .
TAB . 5.1 – Temps d’exécution tri rapide versus tri par fusion parallèle sur AMD opteron 16
coeurs.
5.6. EXPÉRIMENTATIONS 87
TAB . 5.2 – Temps d’exécution tri rapide versus tri par fusion sur IA64 8 coeurs.
TAB . 5.3 – Temps d’exécution du tri rapide adaptatif parallèle perturbé sur la machine AMD
opteron et comparaison à la borne inférieure.
La figure 5.6 montre la performance de notre algorithme de fusion adaptative parallèle par
rapport à l’algorithme de fusion parallèle basé sur une découpe statique en p parties de la biblio-
thèque MCSTL [84]. Elle montre l’accélération obtenue par notre algorithme sur 8 processeurs
de la machine AMD opteron en faisant varier la taille (n) de la séquence de données à trier.
Dans les deux cas l’accélération augmente avec n et est limité lorsque n est petit. Cependant,
pour n > 105 on obtient par notre algorithme une accélération supérieure à 1 par rapport au
temps séquentiel, tant disque pour la fusion parallèle de MCSTL, l’accélération dévient supé-
rieure à 1 lorsque n > 316228. On observe sur cette figure que notre algorithme est au moins
25% supérieur pour n assez grand à la fusion parallèle statique. Ceci s’explique par le mé-
canisme d’adaptation qui garantit qu’un processeur suit l’exécution séquentielle et qui adapte
automatiquement la charge en fonction de la disponibilité des processeurs.
La figure 5.7 montre la performance de notre algorithme de tri par fusion adaptative parallèle
88 CHAPITRE 5. ALGORITHMES ADAPTATIFS DE TRI PARALLÈLE
par rapport à l’algorithme de tri par fusion parallèle. Elle montre l’accélération obtenue par
notre algorithme sur 8 processeurs de la machine AMD opteron en faisant varier la taille (n)
de la séquence de données à trier. Notre algorithme de tri par fusion parallèle repose sur la
fusion parallèle adaptative tant disque l’algorithme de tri par fusion parallèle de la bibliothèque
MCSTL repose sur la fusion parallèle statique. On observe que notre algorithme est au moins
25% plus rapide pour n assez grand. Ceci s’explique de la même manière que l’explication
donnée pour la figure 5.6.
F IG . 5.7 – Comparaison du tri par fusion adaptative avec le tri par fusion statique en fonction
de la taille de la séquence de la machine AMD Opteron
La figure 5.8 montre la performance sur un tableau de taille n = 108 de notre algorithme
de tri par fusion adaptative parallèle par rapport à l’algorithme de tri par fusion parallèle. On
observe que notre algorithme est au moins 25% plus rapide pour n assez grand. Ceci s’explique
aussi de la même manière que l’explication donnée pour la figure 5.6.
F IG . 5.8 – Comparaison du tri par fusion adaptative avec le tri par fusion statique en fonction
du nombre de processeurs de la machine AMD Opteron
5.7. CONCLUSIONS 89
5.7 Conclusions
Dans ce chapitre, nous avons proposé une parallélisation adaptative des algorithmes de tri
par fusion et de tri introspectif, les performances de ce dernier étant bien meilleures en séquen-
tiel. Nous avons donné des analyses théoriques de leurs temps d’exécution.
Grâce au couplage d’un algorithme séquentiel avec un algorithme parallèle à grain fin or-
donnancé par vol de travail, des garanties théoriques de performance sont obtenues par rapport
au temps séquentiel sur des machines à mémoire partagée même lorsqu’elles sont utilisées en
concurrence par d’autres applications.
Les expérimentations menées montrent le bon comportement des algorithmes même sur des
machines dont la charge des processeurs est perturbée ce qui est particulièrement intéressant en
contexte multi-utilisateurs. Les perspectives sont d’une part de compléter les études expérimen-
tales sur la tolérance aux variations de charge en contexte perturbé : un point difficile concerne
la reproductibilité des expérimentations. D’autre part, une autre perspective est de compléter
ce travail par une analyse des défauts de cache [59], avec la comparaison à la parallélisation
adaptative d’algorithmes de tri inconscients à la hiérarchie mémoire (cache-oblivious).
Dans les deux chapitres précédents, nous avons présenté des algorithmes adaptatifs pour
le calcul des préfixes, la fusion de listes triées, partition, et tris, nous allons présenter dans le
chapitre suivant, un schéma générique permettant de construire des algorithmes adaptatifs.
90 CHAPITRE 5. ALGORITHMES ADAPTATIFS DE TRI PARALLÈLE
Chapitre 6
Les techniques présentées dans le chapitre 3 ne prennent pas en compte l’adaptation automa-
tique de la granularité et la minimisation du surcoût arithmétique. Dans ce chapitre, nous allons
présenter une extension de la technique adaptative proposée par Daoudi&al [26] qui permet de
contrôler la granularité du parallélisme en cours d’exécution. Elle est basée sur le couplage d’un
algorithme parallèle à grain fin minimisant la profondeur qui est ordonnancé par vol de travail
et d’un algorithme minimisant le nombre d’opérations (travail). La génération du parallélisme
n’est effectuée qu’en cas d’inactivité d’un processeur. Elle permet d’obtenir une garantie de
performances en temps écoulé par rapport à une exécution de l’algorithme séquentiel dans les
mêmes conditions. Puis à partir de cette technique, nous proposons une interface générique
permettant le développement des algorithmes parallèles adaptatifs.
6.1 Hypothèses
Nous utilisons le couplage de deux algorithmes, l’un séquentiel fseq , et l’autre parallèle
fpar , pour résoudre le même problème. Nous supposons que l’algorithme séquentiel est tel qu’à
tout instant de l’exécution, la séquence des opérations qui termine l’algorithme peut être réali-
sée par un autre algorithme, parallèle à grain fin (e.g. de type découpe récursive). L’opération
qui consiste à extraire une partie du calcul séquentiel pour la traiter (par un autre algorithme
séquentiel du même type) est appelée "extraction de parallélisme" (extract_par) ; après traite-
ment, les résultats d’une part de la partie qui a subi l’extraction et d’autre part du travail extrait
sont ensuite fusionnés (opération join ou finalize).
Plus précisément, étant donné un algorithme séquentiel (resp. parallèle), le résultat r de son
évaluation sur une entrée x est notée r = fseq (x) (resp. fpar (x)). Nous faisons l’hypothèque
qu’une entrée x possède une structure de liste avec un opérateur de concaténation noté ♯ et qu’il
92 CHAPITRE 6. SCHÉMA GÉNÉRIQUE DES ALGORITHMES PARALLÈLES ADAPTATIFS
A tout moment de l’évaluation de fseq (x), il est possible de découper x en x1 ♯x2 . Le résultat
calculé par l’algorithme parallèle est alors fpar (x) = fseq (x1 ) ⊕ fseq (x2 ). Nous supposons que
les deux résultats fseq (x) et fpar (x) sont équivalentes s’ils sont proches au sens d’une métrique
donnée.
Dans le cadre restreint des homomorphismes de liste [12, 14, 40, 44, 13], cette hypothèse
s’écrit alors : fseq (x♯y) = fseq ⊕ fseq (y). Cependant, il existe des techniques qui permettent
de construire un algorithme parallèle pour des problèmes qui ne sont initialement pas des ho-
momorphismes de liste. Par exemple dans [22], le problème du calcul du segment d’entiers de
somme maximale est ainsi transformé en l’évaluation d’un homomorphisme suivi d’un filtrage,
et ce au prix d’une augmentation du nombre d’opérations.
A partir de cette hypothèse, nous donnons dans la section suivant les éléments qui seront
utilisés dans notre schéma générique adaptatif.
Avant de présenter l’algorithme du schéma générique adaptatif, nous définissons dans cette
section les éléments qui doivent être spécialisés pour son utilisation ; autrement dit les structures
et fonctions virtuelles qu’il manipule. Le schéma que nous proposons fait abstraction de tout
type d’architecture parallèle, il est basé sur des structures de données et fonctions abstraites qui
peuvent être instanciées sur un problème spécifique. Nous détaillons ci-dessous chacune des
structures de données ou fonctions du schéma proposé :
• Un descripteur de travail volé stolenwork : c’est une structure de donnée qui représente
le travail volé. Elle peut contenir comme la structure WorkAdapt le type de calcul qui
doit être réalisé, l’information pour accéder aux données d’entrées, l’endroit où stocker
les résultats, l’information sur la progression du calcul en cours (instructions courantes
par exemple), des verrous permettant d’éviter des conflits lors de l’extraction ou lors de
l’écriture des résultats (cohérence), etc.
• Une fonction extract_seq : elle consiste à extraire localement une petite fraction du travail
séquentiel restant pour la traiter par un algorithme séquentiel optimal en évitant tous les
surcoûts liés au parallélisme (synchronisations, arithmétique, ...). Elle retourne vrai si
6.3. SCHÉMA ADAPTATIF GÉNÉRIQUE 93
l’extraction est possible (c’est à dire s’il reste encore du calcul séquentiel à faire) sinon
elle retourne faux.
• Une fonction extract_par : elle consiste à extraire une partie du travail séquentiel en
cours pour la traiter en parallèle (par un autre algorithme séquentiel éventuellement de
type différent). Elle est utilisée pour les vols de travail. Elle retourne vrai si l’extraction
est possible (dans ce cas le vol a été une réussite ) sinon faux (dans ce cas le vol a été un
échec).
• Une fonction local_run : elle exécute le meilleur algorithme séquentiel sur le bloc de
travail extrait par la fonction extract_seq sans aucun surcoût de synchronisation ou arith-
métique.
• Une opération de fusion join : elle consiste à fusionner les résultats de la partie qui a subi
l’extraction et du travail extrait volé (stolen work).
• Une opération finalize : elle consiste à éventuellement mettre à jour (finaliser) le travail
réalisé dans la partie volée qui été extraite.
• Une opération de saut jump : elle permet de faire un saut sur le travail déjà réalisé dans
la partie extraite qui a été volée et de récupérer le travail restant encore à faire dans cette
partie pour l’initialiser comme nouveau travail et de l’exécuter séquentiellement.
Dans toute la suite, nous utilisons l’ordonnancement dynamique par vol de travail basé sur
le principe de travail d’abord [35] pour ordonnancer l’exécution de l’algorithme parallèle sur
des processeurs physiques. Cet ordonnancement est basé sur le couplage dynamique de deux
algorithmes spécifiés pour chaque fonction du programme, l’un séquentiel, l’autre parallèle
récursif à grain fin ordonnancé par vol de travail [38, 26].
F IG . 6.2 – La liste des travaux volés. Les descripteurs v1 , v2 et v3 sont les descripteurs des
travaux qui ont été volés sur le descripteur w1 .
Le voleur Pv commence l’exécution du nouveau travail décrit par w ′ pendant que la victime
Ps continue l’exécution séquentielle sur w réduit à [Id , Ik [ par l’opération extract_par. Pv se
comporte comme Ps en créant une liste pour ses propres voleurs. Notez que w ′ est différent de
6.3. SCHÉMA ADAPTATIF GÉNÉRIQUE 95
l’intervalle [Ik , I⊥ [, puisqu’il comprend le travail parallèle, nécessaire à réaliser qui aurait été
un travail séquentiel dans l’intervalle initial.
l’instruction Ik−1, deux cas apparaissent. Soit le travail volé est terminé et le processeur victime
Ps prépare une tâche de finalisation sur le travail volé terminé et qui sera prête à être volé par un
autre exécuteur, puis ensuite Ps fusionne son résultat avec celui de Pv en exécutant l’opération
′
join. Soit le dernier voleur Pv de Ps a complété l’instruction Il−1 avec k ′ < l < ⊥′ et est en train
d’exécuter l’instruction Il′ , l’instruction de début de w ′ = [Il′ , I⊥′ ′ [. La victime Ps préempte alors
le voleur Pv après l’exécution de Il′ ; après une instruction de synchronisation, Ps envoie son
résultat rs à Pv et récupère le résultat rv de Pv . Ps effectue un saut sur le travail w ′ = [Il′ , Il−1 ′
[
partiellement réalisé par Pv et exécute l’opération join pour compléter w = [Il , I⊥ [ à l’aide du
résultat rv et Pv exécute finalize pour finaliser [Ik′ ′ , I⊥′ ′ [ à l’aide du résultat rs (voire la figure
6.4 qui illustre ces opérations).
Chaque victime Ps gère sa liste de pointeurs des descripteurs localement ; lorsque Ps termine
l’exécution de l’opération join , il accède à la tête de sa liste, enlève le descripteur de travail
correspondant, envoie un signal de fusion (Signal merge) à l’exécuteur exécutant ce descripteur.
Ce dernier recevant le signal complète sa dernière instruction, enchaîne sa liste des descripteurs
volés à la tête de celle de sa victime et vide sa liste ; ensuite il commence l’exécution de finalize.
La figure 6.5 montre l’enchaînement de la liste des descripteurs volés de Pv à la tête de la
liste des descripteurs volés de Ps lors de l’opération de préemption. Ps n’est interrompu que
si il exécute une opération de préemption sur un exécuteur voleur : il attend alors au plus la
terminaison du lacal_run courant en cours d’exécution sur Pv .
6.4. ANALYSE THÉORIQUE 97
1 Init w ← { extract_par(v) }
2 // v est le travail de la victime, w est le travail volé
3 // v initialise w.SignalMerge à false
4 // v initialise w.SignalJump à false
5 w.thiefList ← ∅
6 // Micro-loop
7 while ( { w 6= ∅ }) or ( { w.thiefList 6= ∅ }) do
8 // Nano-loop :
9 while ( { w.extract_seq() }) do
10 ← w. local_run() ;
11 end
12 if { w.SignalMerge = true } then
13 { w.SignalJump ← true }
14 w.workToFinalize.finalize() ;
15 end
16 if { w.thiefList 6= ∅ } then
17 ws ← thiefList.head
18 { w.thiefList.insertHead( ws .thiefList ) ; ws .thiefList ← ∅ }
19 if ({ ws 6= ∅ }) then
20 { ws .SignalMerge ← true }
21 while ( { ws .SignalJump 6= true }) do
22 yield
23 end
24 w.jump() ; w.join(ws .result) ;
25 end
26 else
27 w.jump() ;
28 fork(ws .workToFinalize) ; w.join(ws .result) ;
29 end
30 end
31 end
32 { w.SignalJump ← true }
33 goto 1
Algorithm 1: L’algorithme du schéma adaptatif.
F IG . 6.3 – Illustration des listes distribuées. Les descripteurs v1 , v2 et v3 ont été volés sur w1 ;
les descripteurs v11 et v12 ont été volés sur v1 ; et les descripteurs v31 et v32 ont été volés sur v3 .
Le code de l’algorithme séquentiel doit donc être analysé afin d’identifier les sections cri-
tiques de code qui doivent être exécutées en exclusion mutuelle vis-vis des modifications du
descripteur de travail [I1 , Ik [. La réalisation effective de l’exclusion peut reposer sur l’utilisa-
tion des primitives générales de synchronisation (verrou, sémaphore, compare_and_swap, ...).
Ce surcoût de maintien de cohérence peut s’avérer important vis-vis des opérations de calcul
et masquer le gain en nombre d’opérations arithmétiques grâce à l’utilisation d’un algorithme
séquentiel optimisé à la place d’un algorithme parallèle. Dans ce cas, il est alors nécessaire de
changer l’algorithme séquentiel afin d’augmenter sa granularité et donc diminuer le surcoût de
cohérence : c’est-à-dire augmenter le nombre d’opérations effectuées par accès au descripteur
de travail. Puisque c’est l’opération extract_seq qui permet d’extraire la taille du bloc d’ins-
tructions qui sera traité séquentiellement, nous devons alors analyser le choix de cette taille
pour masquer le surcoût de synchronisation par rapport au nombre d’opérations effectuées. Si
le nombre d’opérations extraites par extract_seq est très grand, il y aura perte de parallélisme
car la fraction extraite sera exécutée séquentiellement : aucun vol ne peut être effectué sur la
fraction extraite donc cela diminue le degré de parallélisme. Si ce nombre est petit, les surcoûts
de synchronisations peuvent masquer le gain de calcul. Donc il faut chercher une bonne mé-
thode pour calculer ce nombre. Une façon de calculer ce nombre est de déterminer d’abord le
6.4. ANALYSE THÉORIQUE 99
F IG . 6.4 – L’exécuteur Ps exécute l’algorithme séquentiel sur son descripteur de travail. L’exé-
cuteur Pv appelle extract_par et travaille sur le descripteur de travail [Ik′ , I⊥′ [
temps en nombre d’opérations sur un nombre non borné de processeurs de l’algorithme paral-
lèle sur l’intervalle restant (la profondeur de l’algorithme). Nous rappelons que la profondeur
de l’algorithme parallèle est la borne inférieure du temps d’exécution de l’algorithme paral-
lèle sur n’importe quel nombre de processeurs. En choisissant ce nombre comme la taille du
bloc d’instructions à extraire par l’opération extract_seq, ceci n’augmentera pas la profondeur
de l’algorithme. Le théorème 6.4.1 suivant montre que ce choix peut permettre à l’algorithme
adaptatif d’atteindre un travail séquentiel asymptotiquement optimal tout en n’augmentant pas
la profondeur de l’algorithme sur un nombre infini de processeurs. Le théorème 6.4.1 donne
une borne du nombre d’opération extract_seq effectué sur un seul exécuteur qui fait un travail
séquentiel.
Théorème 6.4.1. Soit Wseq le nombre d’opération séquentiel du travail restant à faire par un
exécuteur. A chaque opération extract_seq on suppose que D instructions sont extraites où
D est la profondeur de l’algorithme parallèle sur le travail restant. Si les deux hypothèses
suivantes sont vérifiées :
1. D ≥ log Wseq ,
D
2. ∀ǫ > 0, limWseq →∞ ǫ
Wseq
= 0,
alors pour tout δ > 0, le nombre d’appels à extract_seq est asymptotiquement borné par (1 +
δ) logWseq
Wseq
quand Wseq tend vers l’infini.
2
100 CHAPITRE 6. SCHÉMA GÉNÉRIQUE DES ALGORITHMES PARALLÈLES ADAPTATIFS
δ
Démonstration. D’après l’ hypothèse 2, on a ∀δ, ∃w0 , tel que ∀Wseq ≥ w0 , on a D < 2δ Wseq
2+δ
(1). En
2 2 δ 2 2
W
2+δ
multipliant (1) par Wseq , on obtient DWseq2+δ
< 2δ Wseq
2+δ 2+δ 2+δ
, ce qui donne Wseq < 2δ Dseq (2). Pour
le calcul du nombre total d’appels à extract_seq, nous allons diviser la preuve en deux parties : dans
la première partie on considère le nombre d’ extract_seq quand le travail restant est suffisamment gros
et dans la deuxième partie on considère le nombre d’ extract_seq quand il reste peu de travail à effectuer :
2
2+δ
1. Pour un travail w restant suffisamment gros c’est à dire tel que w > Wseq opérations : il y
D opérations extraites à chaque appel à extract_seq , d’après l’hypothèse 1, D ≥
a aumoins
2
2+δ 2 1 2+δ 1
log Wseq = 2+δ log Wseq (3). En prenant l’inverse de (3) on aura D ≤ 2 log Wseq (4), puis
Wseq W Wseq
en multipliant (4) par Wseq , on obtient D ≤ (1 + δ2 ) log W
seq
seq
. Donc, il y a au plus D ≤
δ Wseq
(1 + 2 ) log Wseq appels à extract_seq.
2
2+δ δ Wseq
2. Pour peu de travail restant (w0 ) à faire (grain fin), il y a au plus Wseq < 2 D opérations qui
2
2+δ
seront exécutées (∀Wseq ≥ w0 ), et donc au plus Wseq appels à extract_seq (si chaque appel
2
2+δ δ Wseq
retourne seulement une opérations). Puisque ∀Wseq ≥ w0 , on a Wseq < 2 D (d’après (2)),
2
2+δ δ Wseq
et d’après l’hypothèse 1, D ≥ log Wseq , d’où Wseq < 2 log Wseq . Donc, le nombre d’appels à
δ Wseq
extract_seq dans cette phase est moins que 2 log Wseq .
En additionnant
Wces deux bornes, on obtient que le nombre total d’appels à extract_seq est au plus
1 + 2δ + 2δ log W
seq
seq
.
❏
6.4. ANALYSE THÉORIQUE 101
D’où, le surcoût engendré par l’opération extract_seq dans la boucle nano-loop est asymp-
totiquement borné par logWW seq
seq
. Cette borne est similaire à celle de la partition récursive par vol
de travail quand la récursivité est faite en divisant par deux le travail à chaque étape jusqu’à
un seuil Ω(D), mais avec le prix d’augmenter la profondeur par un facteur ρ > 1. La première
hypothèse semble raisonnable, puisque log Wseq est la borne inférieure de la profondeur poten-
tielle si Wseq est optimal. La seconde hypothèse signifie que le travail global est beaucoup plus
grand que le travail sur le chemin critique, qui est réaliste pour beaucoup d’algorithmes.
Pour certains algorithmes, Wseq n’est pas connu d’avance (par exemmple l’algorithme find_if
de la STL) ou encore le nombre d’opérations en parallèle peut être largement supérieur à Wseq
(par exemple le calcul des préfixes). Pour tenir compte de ceci, un troisième niveau de contrôle
appelé macro-loop [25] est ajouté. La macro-loop est constituée d’un ensemble d’étapes où
dans chaque étape un flot d’instructions de taille inconnue à priori sera exécuté en parallèle.
Soit s1 , s2 , . . . si la taille du flot d’instructions à l’étape i. Pour le choix de la taille du bloc, nous
utilisons la technique présentée n
dans [7]. Dans [7] différents choix de taille ont été étudiés, en
particulier pour s = ρ log n avec 1 < ρ < 2. L’étape i dePla macro-loop de taille si ne com-
mence qu’après terminaison de l’étape i − 1. Pour obtenir i=1,m si ≃ Wseq , dans la suite nous
P
j=1,i−1 sj
posons si = log P (avec s1 initialement égale à une valeur constante). La macro-loop
j=1,i−1 sj
préserve asymptotiquement le travail Wseq tout en augmentant au plus la profondeur potentielle
par un facteur au plus log Wseq . L’algorithme final du schéma adaptatif s’obtient en ajoutant la
macro-loop au deux autres boucles (micro-loop et nano-loop). Nous analysons dans le théorème
102 CHAPITRE 6. SCHÉMA GÉNÉRIQUE DES ALGORITHMES PARALLÈLES ADAPTATIFS
Théorème 6.4.2. Si l’exécution parallèle d’un algorithme sur un nombre infini de processeurs
fait (1 + σ)Wseq opérations avec σ ≥ 0, alors avec une grande probabilité, le temps d’exécution
de cet algorithme sur p processeurs avec l’algorithme [macro-micro-nano] est :
σ+1
Wseq + O D log2 Wseq , quand Wseq → ∞.
Tp =
σ+p
Pour développer des algorithmes parallèles à grain adaptatatif, nous avons développé un
Framework basé sur le schéma générique présenté précédemment. Ce Framework a été déve-
loppé en C++ et utilise Athapascan/Kaapi pour exploiter l’ordonnancement par vol de travail
fourni par celui-ci. Dans l’implémentation de ce FrameWork, nous proposons trois classes gé-
nériques qui peuvent être étendues pour développer des algorithmes parallèles à grain adaptatif.
Ces trois classes sont : la classe WorkAdapt, la classe JumpWork, et la classe FinalizeWork.
Les spécifications de ces classes sont données dans les sections suivantes.
6.5. INTERFACE C++ SUR KAAPI-FRAMEWORK 103
Fonction Spécification
bool extract_seq() permet d’extraire une partie du travail localement, retourne
faux s’il n’y a plus de travail à extraire.
bool extract_par() permet de voler une partie du travail sur le travail restant à faire, retourne
faux s’il n’y a plus de travail à extraire.
void local_run() permet d’exécuter localement l’algorithme séquentiel optimal.
void join(const WorkAdapt* stolenwork ) Permet de faire la fusion du résultat du voleur avec le résultat de la
victime.
void jump(JumpWork* & ) Permet d’effectuer le saut sur le travail qui a été fait par le voleur.
void after_jump(const JumpWork*) Permet d’affecter le travail restant à faire par le voleur qui a été
préempté à la victime qui sera son nouveau travail.
bool extract_nextmacro_work() Permet d’extraire la taille de la macro-loop
bool get_finalize_work(FinalizeWork*& fw) Permet de récupérer le travail à finaliser par le
voleur qui a été préempté.
void get_main_result() Permet de récupérer le résultat local de la victime.
void get_thieft_result() Permet de récupérer le résultat local du voleur.
bool must_jump() Permet d’autoriser tous les exécuteurs à faire un saut sur
leurs voleurs respectifs.
Fonction Spécification
bool extract_seq() permet d’extraire une partie du travail localement, retourne
faux s’il n’y a plus de travail à extraire.
bool extract_par() permet de voler une partie du travail sur le travail restant à faire, retounre
faux s’il n’y a plus de travail à extraire.
void local_run() permet d’exécuter localement l’algorithme séquentiel optimal.
Nous allons illustrer l’utilisation de la classe WorkAdapt sur trois exemples : l’algorithme
transform de la librairie standard C++ (STL), l’algorithme du produit itéré et le calcul de
fibonacci. Nous commençons par l’exemple de transform. L’algorithme transform sur une
séquence consiste à appliquer une même fonction sur chaque élément de la séquence. Dans la
librairie standard C++ (STL) une séquence peut être définie par des itérateurs de début et de
104 CHAPITRE 6. SCHÉMA GÉNÉRIQUE DES ALGORITHMES PARALLÈLES ADAPTATIFS
fin. Un itérateur est un objet en C++ permettant de parcourir les éléments d’une séquence ou
d’un ensemble d’objets de même type. En C++ l’opérateur ++ permet sur un itérateur de passer
à l’élément suivant et l’opérateur * retourne l’élément référencé par l’itérateur. L’algorithme
séquentiel transform est décrit dans l’algorithme 6.5.1.
Algorithme 6.5.4
Nous allons programmer de manière adaptative cet algorithme en utilisant l’interface adap-
tative que nous avons développée. Nous supposons que la séquence utilise des itérateurs à accès
direct. D’une manière classique cet algorithme est facilement parallélisable sur p processeurs,
car la séquence peut être divisée en p parties et chaque processeur exécute indépendamment
sa partie sans avoir besoin de communiquer ses résultats avec d’autres processeurs. A partir
de cette analyse, nous pouvons utiliser seulement trois fonctions de l’interface proposée pour
rendre cet algorithme adaptatif qui sont : extract_seq, extract_par et local_run. Pour le calcul
de la taille du bloc à extraire par la fonction extract_seq, nous devons calculer la profondeur
de cet algorithme sur une infinité de processeurs d’après les analyses théoriques de la section
6.4. Nous représentons par n le nombre d’éléments de la séquence c’est à la différence entre
l’itérateur de début et de fin. La séquence peut être divisée de manière récursive par découpe en
moitié jusqu’à un seuil égal à 1, et à partir de cette taille chaque processeur applique la fonction
sur un élément. La taille initiale de la séquence étant de n donc la hauteur de l’arbre représen-
tant les découpes est log n ce qui représente aussi la profondeur du calcul. Dans la pratique une
constante α est fixée devant la profondeur log n pour amortir les surcoûts de synchronisation. Le
seuil d’arrêt de la fonction extract_par peut être fixé à 1 ou 2 (grain fin) qui augmente le degré
de parallélisme, ce choix n’augmentera pas le surcoût de parallélisme car le seuil α log n de la
fonction extract_seq permet d’amortir ce surcoût. Dans cet exemple, notre descripteur initial
de travail sera représenté par les deux itérateurs de début et de fin. Nous donnons ci-dessous les
implémentations des trois fonctions de l’interface adaptative.
Nous allons appeler par MyTransfomWork la classe implémentant ces fonctions. Dans la
classe, les attributs _first et _last représentent les itérateurs de début et de fin du travail à réaliser.
Les attributs _beg, _end représentent les positions courantes de début et fin du travail en cours
de traitement. Les attributs _beg_local et _end_local permettent de déterminer l’intervalle du
travail à réaliser localement par la fonction local_run. L’attribut _alpha représente la constante
α, et l’attribut _pargrain représente le grain d’extraction du parallélisme.
OutputIterator _out ;
function _fct ;
int _beg, _end ;
int _beg_local, _end_local ;
int _alpha ;
int _pargrain ;
public :
MyTransfomWork(InputIterator first, InputIterator last, OutputIterator out,
int beg, function fct, int alpha=1, int pargrain=2) : WorkAdapt(), _first(first),
_last(last), _out(out), _beg(beg), _fct(fct), _alpha(alpha), _pargrain(pargrain)
{ _end = _last-_first ; }
bool extract_seq() {
if(_beg < _end) {
_beg_local = _beg ; _beg += log2 (_end-_beg) ;
if(_beg > _end) _beg = _end ;
_end_local = _beg ;
return true ;
} else {
return false ;
}
bool local_run() {
std : :transform(_first+_beg_local, _first+_end_local, _out+_beg_local, _fct) ;
}
Après avoir spécialisé ces fonctions, nous lançons le moteur adaptatif sur notre classe conte-
nant les fonctions remplies (algorithme 6.5.2 ligne 5). Le lancement du moteur adaptatif se fait
106 CHAPITRE 6. SCHÉMA GÉNÉRIQUE DES ALGORITHMES PARALLÈLES ADAPTATIFS
à l’aide de la fonction adapt : :run qui permet de faire tourner le schéma adaptatif présenté
dans la section 6.3.
Algorithme 6.5.5
Le deuxième exemple que nous allons illustrer est l’exemple du produit itéré. Le calcul du
produit itéré est le suivant :
– Entrée : un tableau de valeurs contenant n éléments d’un ensemble muni d’une loi interne
associative ⋆.
n−1
– Sortie : res : le résultat du produit itéré tel que : res = ⋆i=0 f (i) où f est une fonction qui
retourne les éléments du tableau.
L’algorithme séquentiel du produit itéré est trivial et est :
for (int i = 1, res =f (0) ; i < n ; i + +) res ⋆ = f (i) ;
La seule différence de cet algorithme avec l’algorithme de transform est qu’il y’a fusion
des résultats calculés par les processeurs dans le premier. Donc pour paralléliser de manière
adaptative nous utiliserons d’autres fonctions en plus des trois autres utilisées dans l’algorithme
adaptatif transform qui sont join, get_result, jump et after_jump. Comme dans l’algorithme
transfom la profondeur de l’algorithme du produit itéré est aussi de log n. Nous donnons ci-
dessous seulement le code des fonctions join, get_result, local_run(), jump et after_jump car
les implémentations pour les deux autres sont similaires à celles de transform.
Nous appelons notre classe MyProdIterWork. L’attribut _local_res contient le résultat lo-
calement calculé et les autres attributs sont les mêmes que ceux de transform. Ci-dessous
l’implémentation de cette classe :
...
...
std : :iterator_traits<InputIterator> : :value_type _local_res
6.5. INTERFACE C++ SUR KAAPI-FRAMEWORK 107
bool local_run() {
InputIterator tmp = proditer_seq(_first+_beg_local, _first+_end_local, _binop) ;
_local_res = BinOp()(_local_res, tmp) ;
}
void get_result() {
return _local_res ;
}
void after_jump(NextJumpWork* j) {
MyNextJumpWork* src = new dynamic_cast<const MyNextJumpWork* >(j) ;
_beg = j->get_beg() ;
_end = j->get_end() ;
}
Le calcul du nème entier Fn de la suite de Fibonacci (voir définition chapitre 2 dans la section
2.6.3) est un cas différent des deux autres exemples. En fait l’entrée de l’algorithme de Fibo-
nacci est un entier (n) tandis que pour les deux exemples l’entrée est un tableau d’éléments.
Pour adapter cet algorithme, nous allons d’abord construire un algorithme séquentiel itératif en
utilisant une file à double tête (deque). L’algorithme séquentiel est le suivant :
6.6 Conclusion
Dans ce chapitre, nous avons spécifié un schéma générique qui permet de développer des
programmes parallèles adaptatifs ayant des garanties d’efficacité sur une grande classe d’archi-
tectures parallèles, en particulier dans le cas pratique usuel où les processeurs sont de vitesse
variable par rapport à l’application, du fait de leur utilisation par d’autres processeurs (sys-
tème ou autres applications). Ce schéma est basé sur un couplage, récursif et dynamique entre
plusieurs algorithmes résolvant un même problème. Nous avons utilisé une liste distribuée de
tâches volées qui permet de minimiser le surcoût de création de tâches et de limiter le surcoût
lié à la récursivité. Cette liste remplace la pile à double tête (deque) utilisé dans l’ordonnan-
cement par vol classique, dans [90] nous avons appelé cet ordonnancement, l’ordonnancement
par vol sans pile (deque-free). Pour garantir des performances optimales, nous avons utilisé trois
niveaux de boucle : la boucle nano-loop qui permet de minimiser le surcoût de synchronisa-
tion ; la boucle micro-loop qui permet de faire le couplage entre un algorithme séquentiel qui
minimise le nombre d’opérations et un algorithme parallèle qui diminue la profondeur de l’al-
gorithme parallèle ; la boucle macro-loop qui permet de borner le surcoût arithmétique et de
garantir une bonne performance pour les algorithmes avec terminaison anticipée. Nous avons
donné une analyse théorique montrant les garanties de performance du schéma générique. Pour
pouvoir utiliser le schéma expérimentalement, nous avons développé une interface générique
dont le moteur exécutif est basé sur Kaapi/Athapascan [39] qui permet de faire le vol de tra-
vail. Un programmeur désirant développer des algorithmes adaptatifs n’a qu’à remplir certaines
fonctions de l’interface. Dans le chapitre qui suit, nous allons utiliser ce schéma générique pour
adapter plusieurs algorithmes de la librairie standard C++ [65, 87].
Chapitre 7
Dans ce chapitre, nous allons présenter une application de notre schéma adaptatif aux algo-
rithmes de la librairie standard C++. Nous commencerons d’abord par présenter dans la section
7.1 un aperçu de la librairie standard C++ [65, 87]. Dans la section 7.2, nous donnons un état
de l’art des bibliothèques parallèles de la STL (Standard Template Library) existantes. Dans la
section 7.3, nous présentons une classification des algorithmes de la STL. Dans la section 7.4,
nous détaillerons les algorithmes que nous avons implémentés de manière adaptative. Enfin,
nous terminerons par des expérimentations que nous avons menées en comparant nos algo-
rithmes adaptatifs à des algorithmes de la librairie standard C++ implémentés dans d’autres
bibliothèque parallèles.
Les patrons de classes (en anglais Templates) offrent la possibilité d’écrire du code géné-
rique en C++. Tous les algorithmes de la librairie standard C++ sont constitués de patrons de
classes. L’implémentation de la STL est essentiellement basée sur des patrons.
Les trois composants de la STL conteneurs, itérateurs, algorithmes sont étroitement liés
et, la plupart du temps, ils interviennent simultanément dans un programme utilisant des conte-
110CHAPITRE 7. APPLICATION DU SCHÉMA GÉNÉRIQUE À LA LIBRAIRIE STANDARD STL
neurs.
Les conteneurs permettent de contenir d’autres objets ou éléments. Les patrons de conte-
neurs sont paramétrés par le type de leurs éléments. Par exemple, on pourra construire une liste
d’entiers, un vecteur de flottants ou une liste de points par les déclarations suivantes :
list<int> l_entier /* liste vide d’éléments de type int */
vector<double> v_flot(10) /* vecteur de taille 10 d’éléments de type double */
list<point> l_point /* liste vide d’éléments de type point */
Conteneur Description
vector Un tableau dynamique offre des opérations efficaces sur la fin de sa séquence
d’éléments, l’accès à un élément du tableau est direct.
deque Une file à double-accès. Elle est optimisée de telle sorte que les opérations
s’appliquant à ses deux extrémités soient efficaces.
list Une liste chaînée. Elle est optimisée pour l’insertion et la suppression d’éléments,
par contre l’accès à un élement est lent.
map Une séquence de paires (clé, valeur) offrant une recherche rapide au moyen de la clé.
Chaque clé est associée à une seule valeur.
multimap C’est un map dans lequel la duplication des clés est autorisée.
set Peut être considéré comme un map dans lequel seules les clés sont définies (pas de valeurs).
multiset C’est un set dans lequel la duplication des clés est autorisée.
Un itérateur est un objet défini généralement par la classe conteneur concernée qui généra-
lise la notion de pointeur en C. A un instant donné, un itérateur possède une valeur qui désigne
un élément donné d’un conteneur ; on dira souvent qu’un itérateur pointe sur un élément d’un
conteneur. Un itérateur peut pointer sur l’élément suivant du même conteneur en lui appliquant
l’operateur++ (incrémentation). Deux itérateurs sur un même conteneur peuvent être compa-
rés par égalité ou inégalité. L’élément pointé par un itérateur peut être obtenu en lui appliquant
l’operateur* (déréférenciation). Tous les conteneurs fournissent un type itérateur associé portant
le nom iterator.
Tous les conteneurs fournissent des valeurs particulières de type iterator, sous forme de
fonctions membres (begin() et end()) qui permettent leurs parcours.
Les deux itérateurs retournés par ces fonctions forment un intervalle semi-ouvert du type
[f irst, last[ où f irst est l’itérateur retourné par begin() et last par end(). Plus généralement,
on peut définir ce qu’on nomme un intervalle d’itérateurs en précisant les bornes sous forme
de deux valeurs itérateur. On dit également que les éléments désignés par cet intervalle forment
7.1. UN APERÇU DE LA LIBRARIE STANDARD C++ 111
une séquence. Cette notion d’intervalles d’itérateur est très utilisée par les algorithmes et par
certaines fonctions membres.
Toutes les classes conteneurs pour lesquelles iterator est au moins bidirectionnel (on peut
donc lui appliquer ++ et --) disposent d’un second itérateur noté reverse_iterator. Il permet
d’explorer le conteneur suivant l’ordre inverse. Il existe également des valeurs particulières
de type reverse_iterator fournies par les fonctions membres rbegin() et rend() ; on peut dire
que rbegin() pointe sur le dernier élément du conteneur, tandis que rend() pointe juste avant le
premier.
Les différents types d’itérateurs que l’on nomme généralement catégories d’itérateurs peuvent
être classés de façon hiérarchique : le tableau 7.2 montre le diagramme d’héritage de classe de
ces différentes catégories d’itérateurs.
Pour qu’on puisse appliquer des opérations de base à un conteneur tels que la copie, le tri,
ou trouver le premier élément de son contenu ayant une valeur donnée, la bibliothèque standard
a fourni des algorithmes permettant de répondre à ces besoins. Ces algorithmes sont fournis
sous forme de patrons de fonctions, paramétrés par le type des itérateurs qui leurs sont fournis
112CHAPITRE 7. APPLICATION DU SCHÉMA GÉNÉRIQUE À LA LIBRAIRIE STANDARD STL
en argument. Un même algorithme peut être appliqué à des conteneurs différents. La section
suivante donne un état de l’art sur la parallélisation des algorithmes de la librairie standard.
La parallélisation des algorithmes de la librairie STL n’est pas une nouvelle idée, elle a
donné lieu à plusieurs travaux. HPC++ Parallel Standard Template Library (PSTL) [52, 51] est
l’une des premières bibliothèques parallèles de la librairie STL : elle fournit des conteneurs de
classes distribués et des iterateurs parallèles permettant la programmation parallèle de quelques
algorithmes de la STL sur des architectures à mémoire partagée et distribuée.
La librairie STAPL (Standard Template Adaptive Parallel Library) fournit aussi des conte-
neurs de classes distribués qui permettent l’écriture des programmes sur des machines à mé-
moire partagée et distribuée. La différence entre STAPL et HPC++ PSTL est que STAPL est
basé sur une approche adaptative. L’approche adaptative dans STAPL [98, 88, 2] est basée sur
une stratégie de combinaison et de sélection d’algorithmes (voir chapitre 3 ). C’est à dire, lors
de l’installation de la bibliothèque, les paramètres de configuration de la machine cible sont
collectés, et les différents algorithmes candidats à la résolution du problème sont testés avec ces
paramètres afin de sélectionner le meilleur algorithme pour la résolution du problème.
Récemment, des bibliothèques parallèles de la librairie STL pour les architectures multi-
cœurs sont apparues. MPTL (Multi-Processing Template Library) [6] est une bibliothèque utili-
sant Pthread pour la parallélisation et implémente plusieurs algorithmes de la librairie STL. Ce-
pendant MPTL n’implémente pas les algorithmes parallèles complexes comme partial_sum
, unique_copy , remove_copy_if , partition , merge. L’algorithme find implé-
menté dans MPTL est une implémentation naïve qui ne garantit pas de bonne performance si
la position du premier élément à chercher se trouve au début du tableau où l’élément doit être
cherché. L’équilibrage de charge dans MPTL est basé sur la méthode Maître-Esclave et est à
grain fixé.
La stratégie de parallélisation appliquée dans la bibliothèque RPA (Range Partition Adap-
tor) [4] est basée sur une technique qui permet de convertir une structure à une dimension (un
bloc, en anglais range) en une structure à deux dimensions (une collection de sous blocs, en
anglais subranges) où chaque sous bloc est exécuté séquentiellement par un processus. Des
fusions éventuelles des résultats des ces sous blocs peuvent être effectuées possiblement en pa-
rallèle. Cette bibliothèque n’implémente que quelques algorithmes simples de la librairie STL
comme for_each , copy , count.
MCSTL (Multi-Core Standard Template Library) [84] très récemment intégré dans la li-
brairie gnu libstdc++ sous le nom de Gnu libstdc++ parallel mode [83] est une bibliothèque
basée sur OpenMP implémentant plusieurs algorithmes parallèles de la librairie STL pour les
architectures multi-cœurs. Pour plusieurs algorithmes, MCSTL propose une parallélisation sta-
tique et dynamique. La parallélisation dynamique dans MCSTL est utilisée pour adapter l’al-
gorithme à la charge de l’environnement d’exécution, elle est basée sur l’ordonnancement par
vol de travail qui place les tâches à grain fixé sur des processeurs inactifs. Cependant quelques
algorithmes implémentés ne bénéficient pas encore de cette parallélisation dynamique comme :
partial_sum , unique_copy , remove_copy_if , merge.
7.3. CLASSIFICATION DES ALGORITHMES DE LA STL 113
La bibliothèque TBB [70, 95] (voir section 2.6) offre des conteneurs parallèles (concur-
rent_queue) et des algorithmes parallèles pour parallel_for, parallel_while, parallel_reduce,
et parallel_scan, qui peuvent être utilisés pour programmer plusieurs algorithmes en parallèle
de la librairie STL. Par exemple l’algorithme de parallel_scan peut être utilisé pour program-
mer l’algorithme partial_sum, il est basé sur une approche récursive similaire à l’algorithme
de Ladner-Fischer (voir section 3.3.4) qui fait 2Wseq opérations.
Par paralléliser les algorithmes de la STL, nous pouvons les classer en 5 catégories de
classes. Le tableau 7.3 présente les cinq catégories de classe.
Classe Algorithmes implémentés
Algorithmes sans fusion copy, copy_bacward, fill, fill_n, for_each, generate,
de résultats generate_n, replace, replace_if, replace_copy,
replace_copy_if, swap_ranges, transform
Algorithmes avec fusion count, count_if, accumulate,
de résultats inner_product, partial_difference
Algorithmes avec terminaison find, find_if, find_end, find_first_of,
anticipée adjacent_find, search, search_n
Algorithmes avec surcoûts partial_sum, remove_copy_if, unique_copy
de parallélisme
Algorithme de partition merge, stable_sort, partition, sort
et de tri
Les algorithmes sans fusion de résultats comprennent tous les algorithmes de la STL où
chaque processeur peut exécuter indépendamment l’intervalle de données qui lui a été affecté.
Après l’exécution, le processeur n’a pas besoin de faire d’autres traitements (communications
ou échanges d’éléments avec un autre processeur par exemple). Donc les surcoûts de com-
munications ou échanges de données sont nuls. Une parallélisation classique de cette classe
d’algorithmes sur p processeurs consiste à diviser la séquence initiale de taille n en p intervalles
de taille np , et chaque processeur exécute localement dans l’intervalle [i ∗ np , (i + 1) ∗ np [ avec
0 ≤ i ≤ p où i est l’identification du processeur. L’inconvénient de cette parallélisation est que
le temps d’exécution final de l’algorithme est le temps d’exécution du processeur le plus lent.
Les algorithmes avec fusion de résultats comprennent tous les algorithmes de la STL où
chaque processeur exécute l’intervalle qui lui a été affecté et sauvegarde son résultat calculé.
Après l’exécution, le processeur envoie le résultat qu’il a calculé à un autre processeur ou re-
çoit le résultat calculé par un autre processeur. Une parallélisation classique de cette classe
d’algorithmes consiste en deux phases : la première phase consiste à exécuter par chaque pro-
cesseur l’algorithme séquentiel de la partie de la séquence qui lui a été allouée ; la seconde
phase consiste à fusionner séquentiellement les résultats obtenus de tous les processeurs par un
seul processeur. Les résultats de tous les processeurs peuvent être fusionnés en parallèle par
114CHAPITRE 7. APPLICATION DU SCHÉMA GÉNÉRIQUE À LA LIBRAIRIE STANDARD STL
les p processeurs, mais les surcoûts de création de tâches ou copies de données peuvent être
pénalisants par rapport à la parallélisation classique.
Les algorithmes avec terminaison anticipée terminent dès qu’un élément ou un ensemble
d’éléments de la séquence en entrée vérifie un prédicat donné même si la fin de la séquence
n’est pas atteinte. La parallélisation de cette classe d’algorithmes est difficile, puisque son temps
d’exécution est non prédictible. Une parallélisation classique de cette classe d’algorithmes
consiste en deux phases : la première phase consiste à exécuter par chaque processeur l’al-
gorithme séquentiel de la partie de la séquence qui lui a été allouée ; la seconde phase consiste à
fusionner séquentiellement les résultats obtenus de tous les processeurs par un seul processeur.
L’inconvénient de cette parallélisation est que si le prédicat donné est vérifié au début de la
séquence alors l’algorithme sur un seul processeur sera beaucoup plus efficace que l’algorithme
sur p processeurs. Par exemple, supposons que la séquence en entrée est désignée par [0, n[, et
que le prédicat est vérifié à la première position. Supposons que le temps d’une opération dure
une unité de temps, alors le temps de l’algorithme sur un seul processeur est T1 = 1 et le temps
sur p processeurs est Tp = np > T1 . Un autre inconvénient aussi est que si les processeurs sont
de vitesses différentes, le temps d’exécution final sera le temps d’exécution du processeur le
plus lent.
Toute parallélisation des algorithmes avec surcoûts de parallélisme sur un nombre de pro-
cesseurs supérieur à un, introduit une augmentation du nombre d’opérations effectuées par rap-
port à l’algorithme séquentiel optimal. Une analyse théorique de l’algorithme de partial_sum
(calcul des préfixes) a été donné dans le chapitre 3 et montre bien que le nombre d’opérations
effectuées dépend du nombre de processeurs pour un algorithme optimal sur p processeurs.
Les algorithmes parallèles unique_copy et remove_copy sont similaires à l’algorithme de cal-
cul des préfixes et de la compression [11]. Toute parallélisation récursive de ces algorithmes
effectue un nombre d’opérations 2 fois supérieur par rapport à l’algorithme séquentiel optimal.
La bibliothèque standard STL fournit deux algorithmes génériques différents de tri d’un
tableau (ensemble disposant d’un itérateur avec accès aléatoire à un élément) : sort (tri in-
trospectif basé sur une partition quicksort) et stable_sort (basé sur un tri par fusion), ce
dernier garantissant l’ordre relatif de deux éléments de même valeur par rapport à la relation
d’ordre choisie.
7.4 Applications
Dans cette section, nous détaillons l’implémentation des algorithmes de la librairie standard
(STL) que nous avons parallélisés avec notre interface présentée au chapitre 6. Nous donnons
pour chaque classe décrite dans le tableau 7.3 les fonctions de l’interface qui ont été utilisées
et comment ces fonctions ont été implémentées. Comme ça été dit dans la section 7.1, une sé-
quence de données peut être représentée en C++ par un intervalle semi-ouvert dont les bornes
sont des itérateurs. Concernant les itérateurs utilisés, nous précisons que tous les algorithmes
implémentés utilisent des itérateurs à accès aléatoires. Nous représentons le descripteur de tra-
7.4. APPLICATIONS 115
vail à l’aide des itérateurs similaire à la représentation de la séquence de données. Avant toute
exécution, le descripteur de travail initial représente la séquence globale en entrée. Pour sim-
plifier la présentation, nous désignons ce descripteur de travail par w = [f, l[ où f représente
l’itérateur qui pointe sur le premier élément de la séquence et l l’itérateur qui pointe sur le
dernier élément de la séquence. Pour les analyses théoriques, nous désignons par n la taille de
l’intervalle représentant la séquence qui n’est autre que la différence entre l’itérateur de début
et de fin (n = l − f ).
1) Algorithmes sans fusion : puisque dans cette catégorie de classe (cf tableau 7.3)
chaque processeur exécute indépendamment son calcul, l’implémentation de trois fonctions de
l’interface proposée dans le chapitre 6 suffira pour rendre adaptatifs les algorithmes de cette
classe. Ces trois fonctions que nous avons implémentées sont : extract_seq, extract_par et
local_run, leurs descriptions sont détaillées ci-dessous :
– extract_seq : tous les algorithmes de cette classe peuvent être exécutés sur un nombre de
processeurs non borné en temps log n. Donc chaque opération extract_seq extrait l’inter-
valle [f ′ , f ′ + β log (l′ − f ′ )[ sur le travail restant à faire séquentiellement représenté par
w ′ = [f ′ , l′ [ où β est un paramètre multiplicatif qui permet de masquer significativement
en pratique les surcoûts de synchronisation par rapport aux surcoûts arithmétiques. En
pratique, nous avons observé que pour les calculs dont la durée d’une opération unitaire
est supérieure à 0.1ms, β = 1 convient et pour ceux dont la durée d’une opération unitaire
est de l’ordre 1ns, β entre 100 et 150 convient.
– extract_par : extrait la moitié du travail restant qui est à la charge du processeur actif
(appelé victime). Pour cela elle modifie le travail restant du processeur victime et construit
un nouveau travail à effectuer en utilisant les informations minimales sur le descripteur
de travail de la victime (itérateur courant de début et de fin). Plus précisément si avant
l’extraction le travail de la victime était représenté par w = [f, l[, alors après l’extraction
le nouveau travail modifié de la victime sera représenté par [f, mid[ et le travail qui sera
extrait est [mid, l[ où mid = l − l−f 2
. Pour tous les algorithmes nous avons fixé le grain
d’extraction du parallélisme à 2 (grain fin).
– local_run : exécute l’appel de l’algorithme séquentiel de la STL sur l’intervalle [f ′ , f ′ +
α log (l′ − f ′ )[ qui a été extrait lors de l’opération extract_seq.
Analyse théorique : nous allons calculer le temps d’exécution de ces algorithmes en utili-
sant le théorème 6.4.2 du chapitre 6 qui a été généralisé pour tous les algorithmes linéaires. On
peut remarquer que pour tous les algorithmes ici, tous les processeurs font une seule passe sur
les intervalles qui les ont été alloués pour effectuer leurs calculs, donc à partir de ce constat,
la constante σ (proportion de surcoût arithmétique dû au parallélisme, voir théorème 6.4.2 )
est nulle. Étant donné que le troisième niveau de boucle (macro-loop) n’a pas été utilisé ici
et en plus aussi les processeurs ne préemptent pas, le surcoût d’ordonnancement est O (log n)
(nombre de vols). D’où le temps d’exécution sur p processeurs est égal à :
Tseq
Tp = + O (log n).
p
116CHAPITRE 7. APPLICATION DU SCHÉMA GÉNÉRIQUE À LA LIBRAIRIE STANDARD STL
Analyse théorique : comme pour les algorithmes sans fusion de résultats nous allons cal-
culer le temps d’exécution de ces algorithmes en utilisant le théorème 6.4.2 du chapitre 6. Aussi
comme pour les algorithmes sans fusion de résultats on peut remarquer que tous les proces-
seurs font une seule passe sur les intervalles qui leur ont été alloués pour effectuer leurs calculs.
Donc à partir de ce constat, la constante σ est nulle. Comme la préemption a été autorisée
ici, le surcoût de préemption s’ajoute au surcoût d’ordonnancement. La profondeur de chaque
algorithme étant de log n, il y aura donc au plus p log n vols sur p processeurs et lors de la pré-
emption chaque processeur victime doit attendre au plus β log n (la taille extraite par l’opération
extract_seq)
unités de temps, donc le surcoût total d’ordonnancement et de préemption est de
2
O log n . D’où le temps d’exécution sur p processeurs est égal à :
Tseq
+ O log2 n .
Tp =
p
3) Les algorithmes avec terminaison anticipée : la difficulté de ces types d’algo-
rithmes est qu’on ne peut pas prédire leurs temps d’exécution. Un exemple typique est l’algo-
rithme find_if qui prend en entrée une séquence de données (un intervalle [f, l[ où f et l sont
des itérateurs) et retourne le premier itérateur N de la séquence vérifiant un prédicat pred (*N)
donné : si pred (*N) est vrai alors l’élément a été trouvé et N ∈ [f, l[ ; sinon si pred (*N)
est faux alors l’élément n’a pas été trouvé et N = l. Alors le travail séquentiel Wseq de l’algo-
rithme find_if est Wseq = N
P
k=1 τpred (k) où τpred (k) est le temps unitaire de la fonction pred
appliquée sur l’élément à la position k. Pour assurer que le travail W exécuté par l’algorithme
parallèle soit proche du travail de l’algorithme séquentiel Wseq , nous avons utilisé la fonction
extract_nextmacro_work de l’interface générique en plus des autres fonctions utilisées pour
7.4. APPLICATIONS 117
l’adaptation des algorithmes avec fusion de résultats. Ainsi, pour la parallélisation adaptative
de cette catégorie de classe, nous avons utilisé les trois niveaux de boucle du schémaPadapta-
i−1
j=1 sj
tif. A la ième étape de la macro-loop, la fonction extract_nextmacro_work extrait Pi−1
log j=1 sj
éléments
Pi−1 qui seront traités en parallèle par l’ensemble des processeurs actifs : on rappelle que
j=1 sj est la taille de la séquence parcourue et dans laquelle l’élément à chercher n’a pas été
trouvé. Tous les processeurs cherchent ensemble dans l’étape i et, si l’élément n’est pas trouvé
dans cette étape, ils avancent dans l’étape i + 1 ; sinon ils s’arrêtent et le calcul est terminé.
La technique de préemption accélère l’algorithme, puisque dès qu’un processeur trouve l’élé-
ment, il arrête tous les processeurs qui lui ont volé du travail (travaillant sur sa partie droite) ;
puisqu’on cherche le premier élément et il a été trouvé à gauche, il est donc inutile de conti-
nuer à droite. Les implémentations des fonctions extract_seq, extract_par, local_run, join,
get_thieft_result, must_jump, jump et afterJump sont similaires à celles des algorithmes
avec fusion de résultats.
Analyse théorique : comme pour les algorithmes sans fusion de résultats nous allons cal-
culer le temps d’exécution de ces algorithmes en utilisant le théorème 6.4.2 du chapitre 6. Aussi
comme pour les algorithmes sans fusion de résultats on peut remarquer que tous les proces-
seurs font une seule passe sur les intervalles qui les ont été alloués pour effectuer leurs calculs.
Donc à partir de ce constat, la constante σ est nulle. La profondeur de chaque algorithme étant
de O (log n), il y aura donc au plus O (p log n) vols sur p processeurs et lors de la préemp-
tion chaque processeur victime doit attendre au plus β log n (la taille extraite par l’opération
extract_seq)unités de temps. Donc, le surcoût total d’ordonnancement et de préemption est
de O log2 n dans une seule étape de la macro-loop. Enfin, il y a au plus O (log n) étapes
dans la macro-loop, donc le surcoût total d’ordonnancement et préemption est O log3 n dans
l’ensemble de l’exécution. D’où le temps d’exécution sur p processeurs :
Tseq
+ O log3 n .
Tp =
p
4) Les algorithmes avec surcoûts de parallélisme : ces types d’algorithmes né-
cessitant deux passes pour leurs traitements en parallèle, nous avons implémenté alors la classe
FinalizeWork de l’interface générique. Dans la STL, il y a trois algorithmes qui appartiennent
à cette catégorie : partial_sum, unique_copy et remove_copy_if. L’algorithme de
partial_sum de la STL est équivalent à l’algorithme du calcul des préfixes donc son implé-
mentation adaptative est la même que celle de l’algorithme adaptatif du calcul parallèle des pré-
fixes présentée dans le chapitre 4. Les implémentations de unique_copy et remove_copy_if
sont similaires à l’implémentation du calcul des préfixes : la seule différence dans ces deux im-
plémentations est que la taille finale du tableau en sortie n’est connue qu’après la fin du calcul.
Pour adapter ces deux algorithmes, nous avons fait une implémentation similaire à celle de l’al-
gorithme processeur-indépendants du traitement du traitement de flux proposé dans [11].
D’abord avant la présentation de l’algorithme qui traite ces cas, nous rappelons que l’algo-
rithme remove_copy_if permet de supprimer dans une séquence les éléments correspon-
dant à un prédicat, et l’algorithme unique_copy permet de supprimer dans une séquence des
éléments contigus égaux. Comme dans le calcul des préfixes, il y un seul processus Ps qui exé-
cute toujours l’algorithme séquentiel et les autres processus Pv exécutent l’algorithme parallèle.
Initialement, le processus Ps démarre le calcul dans l’intervalle initial [1, n[. Mais l’intervalle
118CHAPITRE 7. APPLICATION DU SCHÉMA GÉNÉRIQUE À LA LIBRAIRIE STANDARD STL
[1, n[ peut être volé et découpé récursivement par les processus Pv devenus inactifs. Un proces-
sus actif est toujours en train de traiter un intervalle [a, b[ et place le résultat directement soit
dans le tableau de sortie final pour Ps , soit dans un tableau intermédiaire pour Pv .
Lorsqu’un processus Pv devient inactif, il choisit au hasard un processus jusqu’à trouver un
processus actif (victime), vole la deuxième moitié [ a+b 2
, b[ de l’intervalle restant sur la victime
et démarre le calcul sur ce nouveau intervalle dans un tableau intermédiaire.
Le processus Ps exécute toujours l’algorithme séquentiel, jusqu’à atteindre un intervalle
[a, b[ qui a été volé et traité par un processus Pv dans un tableau intermédiaire [u, v[ de taille
L, Ps préempte alors Pv et effectue un saut (jump) de la manière suivante. Soit i la posi-
tion courante à laquelle pointe Ps dans le tableau de sortie, le tableau intermédiaire [u, v[ peut
être finalisé de manière asynchrone et copié dans le tableau de sortie à la position i. Pendant
ce temps, le processus Ps saute directement pour traiter l’intervalle commençant à la position
b + 1, en écrivant le résultat dans le tableau de sortie final à la position i + L.
Notons que le processus Ps n’est jamais en attente, sauf pour les préemptions (effectuées
en temps constant). Quand Ps atteint la fin du tableau à traiter, c’est à dire l’indice n, tous les
traitements séquentiels sont nécessairement terminés et il reste éventuellement des finalisations
et copies des tableaux intermédiaires dans le tableau de sortie final. Ps participe aux copies (fi-
nalisations) en devenant voleur comme les autres processus.
Les implémentations des fonctions extract_seq, extract_par et extract_nextmacro_work
sont exactement similaires à celles du calcul des préfixes.
La preuve de ce temps d’exécution est similaire à celle du calcul des préfixes. On obtient le
temps d’exécution du calcul des préfixes pour ωc = ωo = 1. On peut aussi observer que lorsque
ωc ≫ ωo , l’accélération obtenue par l’algorithme est linéaire en p.
Enfin, on peut remarquer que pour le théorème général (théorème 6.4.2) la proportion de
surcoût arithmétique dû au parallélisme (σ) est égale à 1 pour partial_sum et à wwoc pour
unique_copy et remove_copy_if.
que celle du tri par fusion adaptatif présentée dans le chapitre 5 et, l’implémentation parallèle
du tri non stable est la même que celle du tri parallèle introspectif présentée dans le chapitre 5.
7.5 Expérimentation
Nos expérimentations ont été faites sur une machine à mémoire partagée NUMA AMD Op-
teron composée de 8 noeuds bi-coeurs. Les algorithmes ont été implantés avec l’interface adap-
tative générique qui utilise l’ordonnancement par vol de travail fourni par Kaapi/Athapascan.
Toutes les exécutions ont été réalisées dix fois et pour chaque test nous avons pris la moyenne.
Nous avons utilisé la version 0.8.0-beta de la bibliothèque MCSTL et la version stable 20_014
de la bibliothèque TBB. Tous les programmes (MCSTL, TBB, Adaptative) ont été compilés
avec le même compilateur gcc 4.2.3 et la même option de compilation -O2. Les données en
entrée sont tirées aléatoirement dans un tableau de taille n. Les données sont de type double. La
constante α a été fixée à α = 100 pour les opérations de durée unitaire petite et à α = 1 sur les
deux machines après calibrage expérimental.
unique_copy. La figure 7.5 compare les temps d’exécution de notre algorithme adapta-
tif unique_copy à l’algorithme statique implémenté dans MCSTL sur un tableau contenant
n = 108 doubles. L’algorithme de MCSTL est basé sur une découpe en p + 1 parties. Le temps
séquentiel moyen de l’algorithme séquentiel de la STL est 0.61s. On observe que l’algorithme
120CHAPITRE 7. APPLICATION DU SCHÉMA GÉNÉRIQUE À LA LIBRAIRIE STANDARD STL
adaptatif unique_copy est meilleur que celui de MCSTL. Ceci s’explique par le fait que dans
une découpe statique, chaque partie peut éventuellement avoir des tailles différentes, car dans
l’algorithme unique_copy on ne connaît la taille du calcul final qu’après la fin du calcul :
notre algorithme s’adapte dynamiquement dans ce contexte. Ceci est garanti par le troisième
niveau de boucle et les techniques de préemption du schéma adaptatif qui permettent de mini-
miser le surcoût arithmétique.
remove_copy_if. La figure 7.6 montre les temps d’exécution obtenus par notre algo-
rithme adaptatif remove_copy_if avec un temps de la fonction de test (prédicat) égal à
16µs et n = 106 . Avec ce temps assez élevé, les performances restent scalables jusqu’à 16 pro-
cesseurs et, l’algorithme atteint la borne inférieure [11]. Ceci est garanti par le troisième niveau
de boucle les techniques de préemption du schéma adaptatif qui permet de minimiser le surcoût
arithmétiques.
find_if. La figure 7.7 montre les performances obtenues par notre algorithme adaptatif
en fonction de la position où se trouve le premier élément vérifiant le prédicat donné. La
taille du tableau en entrée est de n = 106 ; la position k où doit se trouver cet élément est
102 , 103 , 104, 105 , 5.105, 106 . Le temps d’exécution de la fonction testant le prédicat est de
l’ordre de τpred = 35µs. On obtient une accélération égale à 12 sur 16 processeurs pour k = 106 .
On observe que l’algorithme garantit une accélération supérieure ou égale à celle de l’algo-
rithme séquentiel de la STL quelque soit la position où se trouve le premier élément à chercher.
Ceci est garanti par le troisième niveau de boucle du schéma adaptatif qui permettent de détecter
rapidement la terminaison anticipée.
merge. La figure 7.8 compare notre algorithme adaptatif de fusion de deux listes triées
avec l’algorithme de fusion de listes triées de la bibliothèque MCSTL. Elle montre l’accéléra-
tion obtenue par notre algorithme sur 8 processeurs en faisant varier la taille (n) de la séquence
de données à trier. Dans les deux cas, l’accélération augmente avec n et est limitée lorsque n
est petit. Cependant, pour n > 10000, on obtient toujours pour l’algorithme adaptatif une ac-
célération supérieure à 1 par rapport au temps séquentiel, tandis que pour la fusion parallèle
de MCSTL, l’accélération dévient supérieure à 1 lorsque n > 316228. On observe sur cette
figure que notre algorithme est au moins 25% supérieur pour n assez grand à la fusion paral-
lèle statique. Ceci s’explique par le mécanisme d’adaptation qui garantit qu’un processeur suit
l’exécution séquentielle et s’adapte automatiquement à la charge en fonction de la disponibilité
des processeurs.
sort. La figure 7.10 montre la performance sur un tableau de taille n = 108 de notre al-
gorithme de tri rapide (non stable) par rapport à l’algorithme de tri rapide de TBB. On observe
que notre algorithme se comporte mieux que celui de TBB. Ceci s’explique par le fait que notre
algorithme utilise une partition adaptative parallèle tandis que celui de TBB utilise une partition
7.6. CONCLUSION 121
séquentielle.
F IG . 7.3 – partial_sum : comparaison de adaptatif avec TBB pour n = 108 sur des doubles
7.6 Conclusion
Nous avons présenté dans ce chapitre une parallélisation adaptative de plusieurs algorithmes
de la librairie standard C++ (Standard Template Library) avec des conteneurs à accès aléa-
toires. Nous avons donné des analyses théoriques prouvant que les algorithmes parallélisés at-
teignent des performances asymptotiquement optimales avec une grande probabilité. Chaque
algorithme effectue sur p processeurs un nombre optimal d’opérations qui est à un facteur de
1 de la borne inférieure sur p processeurs (e.g. le nombre optimal d’opérations de l’algorithme
2p
partial_sum de la STL est de p+1 Wseq ). Nous avons vérifié aussi expérimentalement que les
algorithmes implémentés sont performants et stables par rapport à des algorithmes implémentés
dans les bibliothèques récentes (TBB[70] et MCSTL[84]) dédiés à la programmation parallèle
sur des architectures muli-cœurs. A notre connaissance, nous sommes les premiers à fournir des
algorithmes optimaux pour : partial_sum , unique_copy , et remove_copy_if.
122CHAPITRE 7. APPLICATION DU SCHÉMA GÉNÉRIQUE À LA LIBRAIRIE STANDARD STL
F IG . 7.7 – Accélération obtenue par l’algorithme adaptatif de find_if pour n = 108 en fonction
des position de l’élément à chercher
Conclusion et perspectives
Dans cette thèse, nous avons spécifié et validé un schéma générique original qui permet de
développer des programmes parallèles ayant des garanties d’efficacité. Il exploite un ordonnan-
cement dynamique de type vol de travail, mais contrairement à l’ordonnancement par vol de
travail classique qui utilise une liste distribuée à double tête (deque) de tâches prêtes à être vo-
lées, notre ordonnancement dynamique utilise une liste distribuée de tâches volées (deque-free)
qui permet de minimiser le surcoût de création de tâches et de limiter le surcoût lié à la récursi-
vité. Ainsi, la génération du parallélisme n’est effectuée qu’en cas d’inactivité d’un processeur.
Lors de l’exécution sur un nombre restreint ou variable de ressources, ce schéma permet de
limiter le surcoût lié à la génération de parallélisme, sans limiter le degré de parallélisme po-
tentiel. Il est basé sur le couplage de deux algorithmes, l’un séquentiel, et l’autre parallèle à
grain fin. Il est adapté aux problèmes pour lesquels la parallélisation entraîne, malgré un gain
de temps, une pénalité en nombre d’opérations ou en performances.
Dans le chapitre 3, nous avons présenté les besoins d’utiliser des algorithmes adaptatifs.
Pour illustrer ces besoins, nous avons utilisé le calcul parallèle des préfixes comme un cas
d’étude. Nous avons d’abord donné une borne inférieure du temps d’exécution de ce calcul sur
des processeurs à vitesses variables, puis nous avons présenté trois algorithmes parallèles de ce
calcul qui ont permis de mettre en évidence les besoins d’algorithmes parallèles adaptatifs. Dans
ce chapitre, nous avons proposé un nouvel algorithme optimal du calcul des préfixes sur des
processeurs identiques, et nous avons montré les avantages et inconvénients de cet algorithme.
Dans le chapitre 4, nous avons proposé un nouvel algorithme parallèle pour le calcul des
préfixes qui s’adapte automatiquement et dynamiquement aux processeurs effectivement dis-
ponibles. Nous avons montré que son temps d’exécution était asymptotiquement optimal. Il est
équivalent à celui de l’algorithme séquentiel lorsqu’un seul processeur est disponible et à celui
d’un algorithme parallèle optimal lorsque p processeurs identiques sont disponibles. Dans le cas
de p processeurs de vitesses variables, son temps est équivalent à celui d’un algorithme optimal
sur p processeurs identiques de vitesse égale à la moyenne des vitesses. Ces résultats théoriques
sont validés par les expérimentations menées sur des machines SMP à 16 et 8 processeurs dans
les quatre cas suivants : processeurs dédiés, processeurs perturbés par des processus addition-
126 CHAPITRE 8. CONCLUSION ET PERSPECTIVES
Dans le chapitre 5, nous avons proposé une parallélisation adaptative de la fusion de deux
listes triées et de l’algorithme de partition. Nous avons utilisé la fusion parallèle adaptative pour
paralléliser d’une manière adaptative l’algorithme de tri par fusion, et nous avons utilisé la par-
tition parallèle adaptative pour paralléliser d’une manière adaptative l’algorithme de tri rapide.
Grâce au couplage d’un algorithme séquentiel avec un algorithme parallèle à grain fin ordon-
nancé par vol de travail, des garanties théoriques de performances sont obtenues par rapport
au temps séquentiel sur des machines à mémoire partagée même lorsqu’elles sont utilisées en
concurrence par d’autres applications. Les expérimentations menées montrent le bon compor-
tement des algorithmes même sur des machines dont la charge des processeurs est perturbée ce
qui est particulièrement intéressant en contexte multi-utilisateur.
Dans le chapitre 6, nous avons présenté l’algorithme décrivant le schéma générique adapta-
tif, et nous l’avons analysé théoriquement. Nous avons montré (théorème 6.4.1) que le surcoût
de parallélisme de ce schéma sur un processeur est asymptotiquement négligeable devant le
nombre d’opérations du meilleur algorithme séquentiel. Dans le théorème 6.4.2 nous avons
montré que pour tout algorithme parallèle de surcoût linéaire utilisant ce schéma algorithmique
générique, le temps parallèle d’exécution est asymptotiquement optimal. Pour pouvoir valider
ce schéma expérimentalement, nous avons développé une interface générique en C++ basée sur
un moteur exécutif implémentant le vol de travail. Cette interface générique a été implantée
sur le noyau exécutif Kaapi et son interface applicative Athapascan. Cette interface permet de
développer des programmes parallèles adaptatifs.
Dans le chapitre 7, nous avons utilisé l’interface générique basée sur le schéma spécifié
pour paralléliser d’une manière adaptative plusieurs algorithme de la librairie standard C++ (
Standard Template Library). Nous avons vérifié aussi expérimentalement que les algorithmes
implémentés sont performants et stables par rapport à des algorithmes implémentés dans les
bibliothèques récentes (TBB[70] et MCSTL[84]) dédiés à la programmation parallèle sur des
architectures muli-cœurs.
Les perspectives que nous envisageons de poursuivre dans cette thèse sont les suivantes :
– Optimisation de l’interface développée : pour pouvoir exécuter efficacement en contexte
distribué, l’interface actuelle devra être améliorée et optimisée. Une des améliorations
pour l’exécution en contexte distribué consiste à minimiser le surcoût de communica-
tion, et cela peut être réalisé en gérant un seuil automatique de calcul qui permettra de
masquer le surcoût de calcul par rapport au surcoût de communication. Puis après cette
optimisation, le schéma devra être expérimenté en contexte distribué pour pouvoir obser-
ver son efficacité. Une autre direction à considérer dans cette partie consiste à supprimer
les verrous, ce qui est important pour un travail de petite taille.
– Implémenter le schéma sur d’autres bibliothèques : pour valider d’avantage l’efficacité de
ce schéma générique, il est important de le valider sur d’autres bibliothèques implantant
le vol de travail comme intel TBB et CilK++, puis de comparer ces différentes implanta-
tions.
127
– Avoir des algorithmes caches et processeurs indépendants : Certains algorithmes déjà im-
plémentés les sont déjà théoriquement comme le calcul des préfixes, partition, fusion.
Mais pour mieux valider, nous devons analyser expérimentalement des défauts de cache
en intégrant l’organisation de la hiérarchie mémoire (mémoire commune ou NUMA)
et selon l’organisation on pourrait observer le comportement des algorithmes adaptatifs
lorsque le nombre de cœurs devient en encore plus grand (32, 64, 128 cœurs par exemple).
Une autre direction de cette partie est de construire des algorithmes de tris caches et pro-
cesseurs indépendants, car les algorithmes implémentés pour le moment ne les sont pas.
– Utilisation du schéma pour des applications de simulation 3D : Une direction dans cette
partie est d’utiliser des algorithmes déjà implémenté dans des situations réelles sur des
vraies applications comme les applications de simulation 3D (ce travail peut être réalisé
par exemple en utilisant SOFA [96]). Déjà des travaux ont été réalisées dans cette direc-
tion par Soares et al [86] sur des applications 3D à temps contraint (octree).
128 CHAPITRE 8. CONCLUSION ET PERSPECTIVES
Bibliographie
[1] Kunal Agrawal, Yuxiong He, and Charles E. Leiserson. Adaptive work stealing with
parallelism feedback. In PPoPP ’07 : Proceedings of the 12th ACM SIGPLAN symposium
on Principles and practice of parallel programming, pages 112–120, New York, NY, USA,
2007. ACM.
[2] Ping An, Alin Jula, Silvius Rus, Steven Saunders, Tim Smith, Gabriel Tanase, Nathan Tho-
mas, Nancy Amato, and Lawrence Rauchwerger. Stapl : An adaptive, generic parallel c++
library. In Languages and Compilers for Parallel Computing, pages 195–210. Springer
Berlin / Heidelberg, 2003.
[3] Nimar S. Arora, Robert D. Blumofe, and C. Greg Plaxton. Thread scheduling for multi-
programmed multiprocessors. Theory Comput. Syst., 34(2) :115–144, 2001.
[4] Matthew H. Austern, Ross A. Towle, and Alexander A. Stepanov. Range partition adap-
tors : a mechanism for parallelizing stl. SIGAPP Appl. Comput. Rev., 4(1) :5–6, 1996.
[5] David A. Bader, Varun Kanade, and Kamesh Madduri. Swarm : A parallel programming
framework for multicore processors. In International Parallel and Distributed Processing
Symposium (IPDPS’07), pages 1–8, Long Beach, California, USA, March 2007. IEEE.
[6] Didier Baertschiger. Multi-processing template library. Master’s thesis, Université de
Genève, Switzerland, 2006.
[7] O. Beaumont, E.M. Daoudi, N. Maillard, P. Manneback, and J.-L. Roch. Tradeoff to
minimize extra-computations and stopping criterion tests for parallel iterative schemes. In
3rd International Workshop on Parallel Matrix Algorithms and Applications (PMAA04),
CIRM, Marseille, France, October 2004.
[8] Michael A. Bender and Michael O. Rabin. Online scheduling of parallel programs on
heterogeneous systems with applications to cilk. Theory Comput. Syst., 35(3) :289–304,
2002.
[9] Petra Berenbrink, Tom Friedetzky, and Leslie Ann Goldberg. The natural work-stealing
algorithm is stable. SIAM J. Comput., 32(5) :1260–1279, 2003.
[10] Julien Bernard, Jean-Louis Roch, Paoli Serge de and Miguel Santana. Adaptive encoding
of multimedia streams on mpsoc. In LNCS 3994 Springer-Verlag, editor, ICCS’06 In-
ternational Conference on Computational Science (4), workshop Real-Time Systems and
Adaptive Applications, pages 999–1006, Reading, UK, May 2006.
[11] Julien Bernard, Jean-Louis Roch, and Daouda Traore. Processor-oblivious parallel stream
computations. In Proceedings of the 16th Euromicro Conference on Parallel, Distribu-
130 BIBLIOGRAPHIE
ted and Network-Based Processing (PDP’08), pages 72–76, Toulouse, France, Frebruary
2008. IEEE Computer Society.
[12] R. S. Bird. An introduction to the theory of lists. In Proceedings of the NATO Advanced
Study Institute on Logic of programming and calculi of discrete design, pages 5–42, New
York, NY, USA, 1987. Springer-Verlag New York, Inc.
[13] Holger Bischof, Sergei Gorlatch, and Emanuel Kitzelmann. Cost optimality and predic-
tability of parallel programming with skeletons. Parallel Processing Letters, 13(4) :575–
587, 2003.
[14] Holger Bischof, Sergei Gorlatch, and Roman Leshchinskiy. Generic parallel program-
ming using c++ templates and skeletons. In Springer-Verlag LNCS 3016, editor, Domain-
Specific Program Generation, pages 107–126, 2004.
[15] G. E. Blelloch. Scans as primitive parallel operations. IEEE Trans. Comput.,
38(11) :1526–1538, 1989.
[16] G. E. Blelloch, C. E. Leiserson, B. M. Maggs, C. G. Plaxton, S. J. Smith, and M. Zagha.
An experimental analysis of parallel sorting algorithms. Theory of Computing Systems,
31(2) :135–167, / 1998.
[17] Guy E. Blelloch. Prefix sums and their applications. Technical Report CMU-CS-90-190,
School of Computer Science, Carnegie Mellon University, November 1990.
[18] R. D. Blumofe and C. E. Leiserson. Space-efficient scheduling of multithreaded compu-
tations. SIAM Journal on Computing, 27(1) :202–229, 1998.
[19] C.A.R. Quicksort. The Computer Journal, 5(1) :10–16, 1962.
[20] Christophe Cerin, Jean-Christophe Dubacq, and Jean-Louis Roch. Methods for partitio-
ning data and to improve parallel execution time for sorting on heterogeneous clusters.
In LNCS 3947 Springer-Verlag, editor, International conference on Grid and Pervasive
Computing, IGC’2006, pages 175–186, Tunghia, Taiwa, May 2006.
[21] Christophe Cérin, Hazem Fkaier, and Mohamed Jemni. Accessing hardware performance
counters in order to measure the influence of cache on the performance of integer sorting.
In IPDPS ’03 : Proceedings of the 17th International Symposium on Parallel and Distri-
buted Processing, page 274.1, Washington, DC, USA, 2003. IEEE Computer Society.
[22] Cole. Parallel programming, list homomorphism and the maximum segment sum problem.
In PARCO : Proceedings of the International Conference on Parallel Computing. North-
Holland, 1993.
[23] Van-Dat Cung, Vincent Danjean, Jean-Guillaume Dumas, Thierry Gautier, Guillaume
Huard, Bruno Raffin, Christophe Rapine, Jean-Louis Roch, and Denis Trystram. Adap-
tive and hybrid algorithms : classification and illustration on triangular system solving. In
JG Dumas, editor, Transgressive Computing TC’2006, pages 131–148, Granada, Spain,
April 2006.
[24] Van-Dat Cung, Jean-Guillaume Dumas, Thierry Gautier, Guillaume Huard, Bruno Raffin,
Christophe Rapine, Jean-Louis Roch, and Denis Trystram. Adaptive algorithms : theory
and application. In SIAM PP’06, editor, SIAM Parallel Processing 2006, Mini-Symposium
MS1 : Adaptive algorithms for scientific computing, pages 49–50, San Francisco, USA,
February 2006.
BIBLIOGRAPHIE 131
[25] Vincent Danjean, Roland Gillard, Serge Guelton, Jean-Louis Roch, and Thomas Roche.
Adaptive loops with kaapi on multicore and grid : Applications in symmetric cryptogra-
phy. In ACM PASCO’07, London, Canada, July 2007.
[26] El-Mostafa Daoudi, Thierry Gautier, Aicha Kerfali, Rémi Revire, and Jean-Louis Roch.
Algorithmes parallèles à grain adaptatif et applications. Technique et Science Informa-
tiques, 24 :1—20, 2005.
[27] Giorgos Dimitrakopoulos. High-speed parallel-prefix vlsi ling adders. IEEE Trans. Com-
put., 54(2) :225–231, 2005. Member-Dimitris Nikolos.
[28] J. Dongarra and V. Eijkhout. Self-adapting numerical software for next generation appli-
cations, 2002.
[29] Mathias Doreille, François Galilée, and Jean-Louis Roch. Construction dynamique du
graphe de flot de données en Athapascan. In RenPar’9, Lausanne, Suisse, May 1997.
[30] Jean-Guillaume Dumas, Clément Pernet, and Jean-Louis Roch. Adaptive triangular sys-
tem solving. In W. Decker, M. Dewar, E. Kaltofen, and S. Watt, editors, Dagstuhl Seminar
Proceedings – Challenges in Symbolic Computation Software, Dagstuhl, Germany, July
2006.
[31] Andrea C. Dusseau, David E. Culler, Klaus Erik Schauser, and Richard P. Martin. Fast
parallel sorting under logP : Experience with the CM-5 :. IEEE Transactions on Parallel
and Distributed Systems, 7(8) :791–805, 1996.
[32] Omer Egecioglu and Cetin Kaya Koc. Parallel prefix computation with few proces-
sors. CANDM : An International Journal : Computers & Mathematics, with Applications,
24(4) :77–84, 1992.
[33] Faith E. Fich. New bounds for parallel prefix circuits. In STOC ’83 : Proceedings of the
fifteenth annual ACM symposium on Theory of computing, pages 100–109, New York, NY,
USA, 1983. ACM.
[34] M.J. Flynn. Some computer organizations and their effectiveness. IEEE Trans. Comput.,
21(9) :948–960, 1972.
[35] M. Frigo, C.E. Leiserson, and K.H. Randall. The implementation of the cilk-5 multithrea-
ded language. In SIGPLAN Conf. PLDI, pages 212–223, 1998.
[36] Matteo Frigo, Charles E. Leiserson, Harald Prokop, and Sridhar Ramachandran. Cache-
oblivious algorithms. In Proceedings of the 40th IEEE Symposium on Foundations of
Computer Science (FOCS 99), pages 285–297, New York, USA, October 1999.
[37] François Galilée, Jean-Louis Roch, Gerson Cavalheiro, and Matthias Doreille.
Athapascan-1 : On-line Building Data Flow Graph in a Parallel Language. In IEEE,
editor, International Conference on Parallel Architectures and Compilation Techniques,
PACT’98, pages 88–95, Paris, France, October 1998.
[38] T. Gautier, J.-L. Roch, and F. Wagner. Fine grain distributed implementation of a dataflow
language with provable performances. In PAPP 2007 4th Int. Workshop on Practical
Aspects of High-Level Parallel Programming, China, May 2007.
[39] Thierry Gautier, Xavier Besseron, and Laurent Pigeon. Kaapi : A thread scheduling run-
time system for data flow computations on cluster of multi-processors. In ACM PASCO,
pages 15–23, London, Canada, 2007.
132 BIBLIOGRAPHIE
[40] S. Gorlatch. Systematic Efficient Parallelization of Scan and Other List Homomorphisms.
In L. Bouge, P. Fraigniaud, A. Mignotte, and Y. Robert, editors, Proceedings of the Eu-
ropean Conference on Parallel Processing, Euro-Par’96, volume 1124, pages 401–408.
Springer-Verlag, 1996.
[41] Ananth Grama, George Karypis, Vipin Kumar, and Anshul Gupta. Introduction to Parallel
Computing. Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 2002.
[42] P. Heidelberger, A. Norton, and John T. Robinson. Parallel quicksort using fetch-and-add.
IEEE Trans. Comput., 39(1) :133–138, 1990.
[43] David R. Helman and Joseph JáJá. Prefix computations on symmetric multiprocessors.
Journal of Parallel and Distributed Computing, 61(2) :265–278, 2001.
[44] Zhenjiang Hu, Hideya Iwasaki, and Masato Takeichi. An accumulative parallel skeleton
for all. In European Symposium on Programming, pages 83–97, 2002.
[45] Bing-Chao Huang and Michael A. Langston. Practical in-place merging. Commun. ACM,
31(3) :348–352, 1988.
[46] Samir Jafar, Thierry Gautier, Axel W. Krings, and Jean-Louis Roch. A check-
point/recovery model for heterogeneous dataflow computations using work-stealing. In
LNCS Springer-Verlag, editor, EUROPAR’2005, Lisboa, Portugal, August 2005.
[47] Samir Jafar, Axel W. Krings, Thierry Gautier, and Jean-Louis Roch. Theft-induced
checkpointing for reconfigurable dataflow applications. In IEEE, editor, IEEE Elec-
tro/Information Technology Conference , (EIT 2005), Lincoln, Nebraska, May 2005. This
paper received the EIT’05 Best Paper Award.
[48] Samir Jafar, Laurent Pigeon, Thierry Gautier, and Jean-Louis Roch. Self-adaptation of
parallel applications in heterogeneous and dynamic architectures. In IEEE, editor, ICT-
TA’06 IEEE Conference on Information and Communication Technologies : from Theory
to Applications, pages 3347–3352, Damascus, Syria, April 2006.
[49] Joseph JáJá. An introduction to parallel algorithms. Addison Wesley Longman Publishing
Co., Inc., Redwood City, CA, USA, 1992.
[50] Minsoo Jeon and Dongseung Kim. Parallelizing merge sort onto distributed memory pa-
rallel computers. In ISHPC ’02 : Proceedings of the 4th International Symposium on High
Performance Computing, pages 25–34, London, UK, 2002. Springer-Verlag.
[51] E. Johnson and D. Gannon. Programming with the hpc++ parallel standard template li-
brary, 1997.
[52] Elizabeth Johnson and Dennis Gannon. HPC++ : Experiments with the parallel standard
template library. In International Conference on Supercomputing, pages 124–131, 1997.
[53] Buisson Jérémy. Un modèle pour l’adaptation dynamique des programmes parallèles.
In RenPar’16/CFSE’4/SympAAA’2005/Journées Composants, Le Croisic, France, Avril
2005.
[54] Lampros Kalampoukas, Dimitris Nikolos, Costas Efstathiou, Haridimos T. Vergos, and
John Kalamatianos. High-speed parallel-prefix modulo 2n - 1 adders. IEEE Trans. Com-
put., 49(7) :673–680, 2000.
[55] C. P. Kruskal, L. Rudolph, and M. Snir. A complexity theory of efficient parallel algo-
rithms. Theoretical Computer Science, 71 :95–132, 1990.
BIBLIOGRAPHIE 133
[56] CLYDE P KRUSKAL, LARRY RUDOLPH, and MARC SNIR. The power of parallel
prefix. IEEE Transactions on Computers, 34(10) :965–968, 1985.
[57] Bradley C. Kuszmaul. A segmented parallel-prefix vlsi circuit with small delays for small
segments. In SPAA ’05 : Proceedings of the seventeenth annual ACM symposium on
Parallelism in algorithms and architectures, pages 213–213, New York, NY, USA, 2005.
ACM.
[58] Richard E. Ladner and Michael J. Fischer. Parallel prefix computation. J. ACM,
27(4) :831–838, 1980.
[59] LaMarca and Ladner. The influence of caches on the performance of sorting. In SODA :
ACM-SIAM Symposium on Discrete Algorithms (A Conference on Theoretical and Expe-
rimental Analysis of Discrete Algorithms), 1997.
[60] Yen-Chun Lin and Jun-Wei Hsiao. A new approach to constructing optimal parallel prefix
circuits with small depth. J. Parallel Distrib. Comput., 64(1) :97–107, 2004.
[61] Yen-Chun Lin and Chin-Yu Su. Faster optimal parallel prefix circuits : new algorithmic
construction. J. Parallel Distrib. Comput., 65(12) :1585–1595, 2005.
[62] Jigang Liu, Fenglien Lee, and Kai Qian. A parallel prefix convex hill algorithm using
maspar. In PDPTA ’02 : Proceedings of the International Conference on Parallel and
Distributed Processing Techniques and Applications, pages 1089–1095. CSREA Press,
2002.
[63] Frank Mueller. A library implementation of posix threads under unix. In In Proceedings
of the USENIX Conference, pages 29–41, 1993.
[64] David R. Musser. Introspective sorting and selection algorithms. Software - Practice and
Experience, 27(8) :983–993, 1997.
[65] David R. Musser, Gilmer J. Derge, and Atul Saini. STL tutorial and reference guide,
second edition. Addison-Wesley, Boston, MA, USA, 2001.
[66] Yanik Ngoko. Les poly-algorithmes pour une programmation efficace des problèmes nu-
mériques. exemple du produit des matrices. Master’s thesis, Laboratoire d’Informatique
de Grenoble, Grenoble, 2005.
[67] Victor Y. Pan and Franco P. Preparata. Work-preserving speed-up of parallel matrix com-
putations. SIAM J. Comput., 24(3) :811–821, 1995.
[68] Swann perraneau. Mesure, caractérisation et injection de charge à l’usage des machines
parallèles. Master’s thesis, Laboratoire d’Informatique de Grenoble, Grenoble, 2008.
[69] Brigitte Plateau, Anne Rasse, Jean-Louis Roch, and Jean-Pierre Verjus. Parallé-
lisme, 1994. available at http ://www-id.imag.fr/Laboratoire/Membres/Roch_Jean-
Louis/perso_html/polycops/poly-parallelisme-2a.pdf.
[70] James Reinders. Intel Threading Building Blocks - Outfitting C++ for Multi-core Proces-
sor Parallelism. O’Reilly, 2007.
[71] Rémi Revire. Ordonnancement de graphe dynamique de tâches sur architecture de grande
taille. Régulation par dégénération séquentielle et distribuée . PhD thesis, Institut National
Polytechnique de Grenoble, Septembre 2004.
134 BIBLIOGRAPHIE
[72] John R. Rice. The algorithm selection problem. Advances in Computers, 15 :65–118,
1976.
[73] Jean-Louis Roch. Complexité parallèle et algorithmique pram. In Gérard Authié, Afonso
Ferreira, Jean-Louis Roch, Gilles Villard, Jean Roman, Catherine Roucairol, and Bernard
Virot, editors, Algorithmes Parallèles : Analyse et Conception, chapter 5, pages 105–126.
Hermès, 1994.
[74] Jean-Louis Roch. Complexité parallèle, 1995. available at http ://www-
id.imag.fr/Laboratoire/Membres/Roch_Jean-Louis/perso_html/polycops/poly-
complexite-par.pdf.
[75] Jean-Louis Roch. Parallel efficient algorithms and their programming,
1997. available at http ://www-id.imag.fr/Laboratoire/Membres/Roch_Jean-
Louis/perso_html/polycops/polycop-algo-par.pdf.
[76] Jean-Louis Roch. Ordonnancement de programmes parallèles sur grappes : théorie versus
pratique. In Actes du Congrès International ALA 2001, Université Mohamm V, pages 131–
144, Rabat, Maroc, May 2001.
[77] Jean-Louis Roch and Daouda Traore. Un algorithme adaptatif optimal pour le calcul
parallèle des préfixes. In INRIA, editor, CARI’2006, Cotonou, Benin, November 2006.
[78] Jean-Louis Roch, Daouda Traoré, and Julien Bernard. On-line adaptive parallel prefix
computation. In LNCS 4128 Springer-Verlag, editor, EUROPAR’2006, pages 843–850,
Dresden, Germany, August 2006.
[79] Jean-Louis Roch and Gilles Villard. Parallel computer algebra (tutorial). In ISSAC ’97 :
Proceedings of the 1997 international symposium on Symbolic and algebraic computation,
New York, NY, USA, July 1997. ACM Press.
[80] P. Sanders and S. Winkel. Super scalar sample sort. In 12th Annual European Symposium
on Algorithms, ESA, pages 14–17, Bergen, Norway, September 2004.
[81] Peter Sanders and Jesper Larsson Träff. Parallel prefix (scan) algorithms for mpi. In
Recent Advances in Parallel Virtual Machine and Message Passing Interface, pages 49–
57. Springer Berlin Heidelberg, LNCS 4192, 2006.
[82] Hongzhang Shan, Jaswinder P. Singh, Leonid Oliker, and Rupak Biswas. A comparison of
three programming models for adaptive applications on the origin2000. In Supercompu-
ting ’00 : Proceedings of the 2000 ACM/IEEE conference on Supercomputing (CDROM),
page 11, Washington, DC, USA, 2000. IEEE Computer Society.
[83] Johannes Singler and Benjamin Konsik. The gnu libstdc++ parallel mode : software engi-
neering considerations. In IWMSE ’08 : Proceedings of the 1st international workshop on
Multicore software engineering, pages 15–22, New York, NY, USA, 2008. ACM.
[84] Johannes Singler, Peter Sanders, and Felix Putze. The multi-core standard template library.
In Springer-Verlag LNCS 4641, editor, Euro-Par 2007, August 2007.
[85] Marc Snir. Depth-size trade-offs for parallel prefix computation. J. Algorithms, 7(2) :185–
201, 1986.
[86] Luciano Soares, Clément Ménier, Bruno Raffin, and Jean-Louis Roch. Work stealing for
time-constrained octree exploration : Application to real-time 3d modeling. In EGPGV,
Lugano,Switzerland, May 2007.
BIBLIOGRAPHIE 135
[87] Bjarne Stroustrup. The C++ Programming Language. Addison-Wesley Longman Publi-
shing Co., Inc., Boston, MA, USA, 2000.
[88] Nathan Thomas, Gabriel Tanase, Olga Tkachyshyn, Jack Perdue, Nancy M. Amato, and
Lawrence Rauchwerger. A framework for adaptive algorithm selection in stapl. In PPoPP
’05 : Proceedings of the tenth ACM SIGPLAN symposium on Principles and practice of
parallel programming, pages 277–288, New York, NY, USA, 2005. ACM.
[89] Daouda Traoré, Jean-Louis Roch, and Christophe Cérin. Algorithmes adaptatifs de tri
parallèle. In RenPar’18 / SympA’2008 / CFSE’6, Fribourg, Switzerland, Feb. 2008.
[90] Daouda Traoré, Jean-Louis Roch, Nicolas Maillard, Thierry Gautier, and Julien Bernard.
Deque-free work-optimal parallel stl algorithms. In LNCS Springer-Verlag, editor, EU-
ROPAR’2008, Canary Island, Spain, August 2008.
[91] Philippas Tsigas and Yi Zhang. A simple, fast parallel implementation of quicksort and
its performance evaluation on sun enterprise 10000. In Proceedings of the 11th Euromi-
cro Conference on Parallel, Distributed and Network-Based Processing (PDP’03), pages
372–381, Genova, Italy, February 2003. IEEE Computer Society.
[92] H. T. Vergos, D. Nikolos, and C. Efstathiou. High speed parallel-prefix modulo 2n+1
adders for diminished-one operands. In Proceedings of the 15th IEEE Symposium on
Computer Arithmetic (ARITH ’01), pages 211–217, 2001.
[93] David W. Walker and Jack J. Dongarra. Mpi : a standard message passing interface.
Supercomputer, 12 :56–68, 1996.
[94] Haigeng Wang, Alexandru Nicolau, and Kai-Yeng S. Siu. The strict time lower bound
and optimal schedules for parallel prefix with resource constraints. IEEE Transactions on
Computers, 45(11) :1257–1271, 1996.
[95] Site web de intel tbb. http ://www.threadingbuildingblocks.org/.
[96] Site web de SOFA. http ://www.sofa-framework.org/.
[97] R. Clint Whaley, Antoine Petitet, and Jack J. Dongarra. Automated empirical optimiza-
tions of software and the atlas project. Parallel Computing, 27(1-2) :3–35, 2001.
[98] Hao Yu and Lawrence Rauchwerger. An adaptive algorithm selection framework for re-
duction parallelization. IEEE Trans. Par. Dist. Syst., 17(10) :1084–1096, 2006.
[99] Haikun Zhu, Chung-Kuan Cheng, and Ronald Graham. On the construction of zero-
deficiency parallel prefix circuits with minimum depth. ACM Trans. Des. Autom. Electron.
Syst., 11(2) :387–409, 2006.
Résumé :
Cette thèse porte sur la construction d’algorithmes et de programmes parallèles qui s’adapte automa-
tiquement à la plate-forme d’exécution (nombre de processeurs, vitesses des processeurs, ...) et ce, de
manière dynamique inconsciente (en anglais oblivious). La construction que nous proposons est basée
sur la technologie développée au sein de l’équipe Moais consistant au couplage récursif et dynamique :
d’un algorithme séquentiel (qui minimise le nombre d’opérations, mais pas le temps parallèle) ; et d’un
algorithme parallèle à grain fin (qui minimise le temps parallèle sur un nombre non borné de ressources,
mais pas le nombre d’opérations). Les deux algorithmes sont entrelacés à la volée par un ordonnan-
cement à grain fin de type vol de travail. Outre une analyse théorique du couplage (borne inférieure,
optimalité asymptotique), nous proposons une implantation " générique " que nous instancions sur dif-
férents exemples (un nouvel algorithme parallèle adaptatif de calcul des préfixes, algorithmes adaptatifs
de fusion, de partition et tris, plusieurs algorithmes adaptatifs de la librairie standard C++). Dans cette
thèse, nous proposons aussi un nouvel algorithme parallèle statique optimal du calcul des préfixes.
Mots clés : algorithme parallèle, parallélisme, ordonnancement par vol de travail, préfixe.
Abstract :
This thesis focuses on the building of algorithms and parallel programs that obliviously adapts the exe-
cution platform (number of processors, speeds of processors, ...). The building that we propose is based
on the technology developed in the Moais team ; it consists on the recursive and dynamic coupling of
two algorithms : one sequential that minimizes the work (the number of operations), but not the parallel
time ; one parallel that minimizes the depth (parallel time) on an unbounded number of resources, but
not the work. The two algorithms are interleaved on-line based on a work-stealing schedule. The contri-
bution of this thesis consists in a theoretical analysis of coupling (lower bound, asymptotic optimality in
some cases), and a "generic" implementation of the coupling scheme witch is applied to several examples
(new on-line adaptive parallel prefix computation, adaptive merging and sorting, adaptive parallelization
of several STL algorithms). In this thesis, we also propose a new strict optimal parallel static algorithm
for prefix computation.