j4 Handout
j4 Handout
j4 Handout
Techniques d’indexation
DALIBO
L'expertise PostgreSQL
24.01
Table des matières
Sur ce document . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Chers lectrices & lecteurs, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
À propos de DALIBO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Licence Creative Commons CC‑BY‑NC‑SA . . . . . . . . . . . . . . . . . . . . . . . . . 2
Marques déposées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Versions de PostgreSQL couvertes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1/ Techniques d’indexation 5
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.2 Introduction aux index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.3 Utilité d’un index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.4 Index et lectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.5 Index : inconvénients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.6 Index : contraintes pratiques à la création . . . . . . . . . . . . . . . . . . . . 11
1.1.7 Types d’index dans PostgreSQL . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Fonctionnement d’un index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.1 Structure d’un index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.2 Un index n’est pas magique… . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.3 Index B‑tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.4 Concrètement… . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2.5 Index multicolonnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3 Méthodologie de création d’index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.3.1 L’index ? Quel index ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.3.2 Index et clés étrangères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4 Index inutilisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.4.1 Index utilisable mais non utilisé . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.4.2 Index inutilisable à cause d’une fonction . . . . . . . . . . . . . . . . . . . . . 27
1.4.3 Index inutilisable à cause d’un LIKE ‘…%’ . . . . . . . . . . . . . . . . . . . . 29
1.4.4 Index inutilisable car invalide . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.5 Indexation B‑tree avancée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.5.1 Index partiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.5.2 Index partiels : cas d’usage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.5.3 Index partiels : utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.5.4 Index fonctionnels : principe . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.5.5 Index fonctionnels : conditions . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.5.6 Index fonctionnels : maintenance . . . . . . . . . . . . . . . . . . . . . . . . . 40
1.5.7 Index couvrants : principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.5.8 Index couvrants : inconvénients et compatibilité . . . . . . . . . . . . . . . . . 42
1.5.9 Classes d’opérateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.5.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
iii
DALIBO Formations
1.6 Quiz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.7 Travaux pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.7.1 Index « simples » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.7.2 Sélectivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.7.3 Index partiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.7.4 Index fonctionnels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.7.5 Cas d’index non utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.8 Travaux pratiques (solutions) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1.8.1 Index « simples » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1.8.2 Sélectivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
1.8.3 Index partiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.8.4 Index fonctionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
1.8.5 Cas d’index non utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
iv Techniques d’indexation
DALIBO Formations
Sur ce document
Formation Module J4
Titre Techniques d’indexation
Révision 24.01
PDF https://dali.bo/j4_pdf
EPUB https://dali.bo/j4_epub
HTML https://dali.bo/j4_html
Slides https://dali.bo/j4_slides
TP https://dali.bo/j4_tp
TP (solutions) https://dali.bo/j4_solutions
Nos formations PostgreSQL sont issues de nombreuses années d’études, d’expérience de terrain et
de passion pour les logiciels libres. Pour Dalibo, l’utilisation de PostgreSQL n’est pas une marque
d’opportunisme commercial, mais l’expression d’un engagement de longue date. Le choix de l’Open
Source est aussi le choix de l’implication dans la communauté du logiciel.
Au‑delà du contenu technique en lui‑même, notre intention est de transmettre les valeurs qui animent
et unissent les développeurs de PostgreSQL depuis toujours : partage, ouverture, transparence, créati‑
vité, dynamisme… Le but premier de nos formations est de vous aider à mieux exploiter toute la puis‑
sance de PostgreSQL mais nous espérons également qu’elles vous inciteront à devenir un membre
actif de la communauté en partageant à votre tour le savoir‑faire que vous aurez acquis avec nous.
Nous mettons un point d’honneur à maintenir nos manuels à jour, avec des informations précises et
des exemples détaillés. Toutefois malgré nos efforts et nos multiples relectures, il est probable que ce
document contienne des oublis, des coquilles, des imprécisions ou des erreurs. Si vous constatez un
souci, n’hésitez pas à le signaler via l’adresse [email protected] !
À propos de DALIBO
Techniques d’indexation 1
DALIBO Formations
Remerciements
Ce manuel de formation est une aventure collective qui se transmet au sein de notre société depuis
des années. Nous remercions chaleureusement ici toutes les personnes qui ont contribué directement
ou indirectement à cet ouvrage, notamment :
Jean‑Paul Argudo, Alexandre Anriot, Carole Arnaud, Alexandre Baron, David Bidoc, Sharon Bonan,
Franck Boudehen, Arnaud Bruniquel, Pierrick Chovelon, Damien Clochard, Christophe Courtois, Marc
Cousin, Gilles Darold, Jehan‑Guillaume de Rorthais, Ronan Dunklau, Vik Fearing, Stefan Fercot, Pierre
Giraud, Nicolas Gollet, Dimitri Fontaine, Florent Jardin, Virginie Jourdan, Luc Lamarle, Denis Laxalde,
Guillaume Lelarge, Alain Lesage, Benoit Lobréau, Jean‑Louis Louër, Thibaut Madelaine, Adrien Nayrat,
Alexandre Pereira, Flavie Perette, Robin Portigliatti, Thomas Reiss, Maël Rimbault, Julien Rouhaud,
Stéphane Schildknecht, Julien Tachoires, Nicolas Thauvin, Be Hai Tran, Christophe Truffier, Cédric
Villemain, Thibaud Walkowiak, Frédéric Yhuel.
Cette formation est sous licence CC‑BY‑NC‑SA2 . Vous êtes libre de la redistribuer et/ou modifier aux
conditions suivantes :
– Paternité
– Pas d’utilisation commerciale
– Partage des conditions initiales à l’identique
Vous n’avez pas le droit d’utiliser cette création à des fins commerciales.
Si vous modifiez, transformez ou adaptez cette création, vous n’avez le droit de distribuer la création
qui en résulte que sous un contrat identique à celui‑ci.
Vous devez citer le nom de l’auteur original de la manière indiquée par l’auteur de l’œuvre ou le ti‑
tulaire des droits qui vous confère cette autorisation (mais pas d’une manière qui suggérerait qu’ils
vous soutiennent ou approuvent votre utilisation de l’œuvre). À chaque réutilisation ou distribution
de cette création, vous devez faire apparaître clairement au public les conditions contractuelles de
sa mise à disposition. La meilleure manière de les indiquer est un lien vers cette page web. Chacune
de ces conditions peut être levée si vous obtenez l’autorisation du titulaire des droits sur cette œuvre.
Rien dans ce contrat ne diminue ou ne restreint le droit moral de l’auteur ou des auteurs.
Cela inclut les diapositives, les manuels eux‑mêmes et les travaux pratiques. Cette formation peut
également contenir quelques images et schémas dont la redistribution est soumise à des licences
différentes qui sont alors précisées.
2
http://creativecommons.org/licenses/by‑nc‑sa/2.0/fr/legalcode
2 Techniques d’indexation
DALIBO Formations
Marques déposées
PostgreSQL® Postgres® et le logo Slonik sont des marques déposées3 par PostgreSQL Community As‑
sociation of Canada.
Ce document ne couvre que les versions supportées de PostgreSQL au moment de sa rédaction, soit
les versions 12 à 16.
Sur les versions précédentes susceptibles d’être encore rencontrées en production, seuls quelques
points très importants sont évoqués, en plus éventuellement de quelques éléments historiques.
Sauf précision contraire, le système d’exploitation utilisé est Linux.
3
https://www.postgresql.org/about/policies/trademarks/
Techniques d’indexation 3
1/ Techniques d’indexation
1
https://unsplash.com/@qwitka
5
DALIBO Formations
1.1 INTRODUCTION
1.1.1 Objectifs
Les index ne sont pas des objets qui font partie de la théorie relationnelle. Ils sont des objets physiques
qui permettent d’accélérer l’accès aux données. Et comme ils ne sont que des moyens d’optimisation
des accès, les index ne font pas non plus partie de la norme SQL. C’est d’ailleurs pour cette raison que
la syntaxe de création d’index est si différente d’une base de données à une autre.
La création des index est à la charge du développeur ou du DBA, leur création n’est pas automatique,
sauf exception.
Pour Markus Winand, c’est d’abord au développeur de poser les index, car c’est lui qui sait comment
ses données sont utilisées. Un DBA d’exploitation n’a pas cette connaissance, mais il connaît généra‑
lement mieux les différents types d’index et leurs subtilités, et voit comment les requêtes réagissent
en production. Développeur et DBA sont complémentaires dans l’analyse d’un problème de perfor‑
mance.
6 Techniques d’indexation
DALIBO Formations
Le site de Markus Winand, Use the index, Luke2 , propose une version en ligne de son livre SQL Perfor‑
mance Explained, centré sur les index B‑tree (les plus courants). Une version française est par ailleurs
disponible sous le titre SQL : au cœur des performances.
® – Un index permet de :
– trouver un enregistrement dans une table directement
– récupérer une série d’enregistrements dans une table
– voire tout récupérer dans l’index (Index Only Scan)
– Un index facilite :
– certains tris
– certains agrégats
– Obligatoires et automatique pour clés primaires & unicité
– conseillé pour clés étrangères (FK)
Les index ne changent pas le résultat d’une requête, mais l’accélèrent. L’index permet de pointer
l’endroit de la table où se trouve une donnée, pour y accéder directement. Parfois c’est toute une
plage de l’index, voire sa totalité, qui sera lue, ce qui est généralement plus rapide que lire toute la
table.
Le cas le plus favorable est l’Index Only Scan : toutes les données nécessaires sont contenues dans
l’index, lui seul sera lu et PostgreSQL ne lira pas la table elle‑même.
PostgreSQL propose différentes formes d’index :
– index classique sur une seule colonne d’une table ;
– index composite sur plusieurs colonnes d’une table ;
– index partiel, en restreignant les données indexées avec une clause WHERE ;
– index fonctionnel, en indexant le résultat d’une fonction appliquée à une ou plusieurs colonnes
d’une table ;
– index couvrants, contenant plus de champs que nécessaire au filtrage, pour ne pas avoir besoin
de lire la table, et obtenir un Index Only Scan.
La création des index est à la charge du développeur. Seules exceptions : ceux créés automatiquement
quand on déclare des contraintes de clé primaire ou d’unicité. La création est alors automatique.
Les contraintes de clé étrangère imposent qu’il existe déjà une clé primaire sur la table pointée, mais
ne crée pas d’index sur la table portant la clé.
2
https://use‑the‑index‑luke.com
Techniques d’indexation 7
DALIBO Formations
– Avec index :
L’index est une structure de données qui permet d’accéder rapidement à l’information recherchée.
À l’image de l’index d’un livre, pour retrouver un thème rapidement, on préférera utiliser l’index du
livre plutôt que lire l’intégralité du livre jusqu’à trouver le passage qui nous intéresse. Dans une base
de données, l’index a un rôle équivalent. Plutôt que de lire une table dans son intégralité, la base
de données utilisera l’index pour ne lire qu’une faible portion de la table pour retrouver les données
recherchées.
Pour la requête d’exemple (avec une table de 20 millions de lignes), on remarque que l’optimiseur
n’utilise pas le même chemin selon que l’index soit présent ou non. Sans index, PostgreSQL réalise un
parcours séquentiel de la table :
EXPLAIN SELECT * FROM test WHERE id = 10000;
QUERY PLAN
----------------------------------------------------------------------
Gather (cost=1000.00..193661.66 rows=1 width=4)
Workers Planned: 2
-> Parallel Seq Scan on test (cost=0.00..192661.56 rows=1 width=4)
Filter: (id = 10000)
Lorsqu’il est présent, PostgreSQL l’utilise car l’optimiseur estime que son parcours ne récupérera
qu’une seule ligne sur les 20 millions que compte la table :
EXPLAIN SELECT * FROM test WHERE id = 10000;
QUERY PLAN
----------------------------------------------------------------------------
Index Only Scan using idx_test_id on test (cost=0.44..8.46 rows=1 width=4)
Index Cond: (id = 10000)
Mais l’index n’accélère pas seulement la simple lecture de données, il permet également d’accélérer
les tris et les agrégations, comme le montre l’exemple suivant sur un tri :
EXPLAIN SELECT id FROM test
WHERE id BETWEEN 1000 AND 1200 ORDER BY id DESC;
8 Techniques d’indexation
DALIBO Formations
QUERY PLAN
--------------------------------------------------------------------------------
Index Only Scan Backward using idx_test_id on test
(cost=0.44..12.26 rows=191 width=4)
Index Cond: ((id >= 1000) AND (id <= 1200))
La présence d’un index ralentit les écritures sur une table. En effet, il faut non seulement ajouter ou
modifier les données dans la table, mais il faut également maintenir le ou les index de cette table.
Les index dégradent surtout les temps de réponse des insertions. Les mises à jour et les suppressions
(UPDATE et DELETE) tirent en général parti des index pour retrouver les lignes concernées par les
modifications. Le coût de maintenance de l’index est secondaire par rapport au coût de l’accès aux
données.
Soit une table test2 telle que :
CREATE TABLE test2 (
id INTEGER GENERATED BY DEFAULT AS IDENTITY PRIMARY KEY,
valeur INTEGER,
commentaire TEXT
);
La table est chargée avec pour seul index présent celui sur la clé primaire :
INSERT INTO test2 (valeur, commentaire)
SELECT i, 'commentaire ' || i FROM generate_series(1, 10000000) i;
INSERT 0 10000000
Durée : 35253,228 ms (00:35,253)
INSERT 0 10000000
Durée : 44410,775 ms (00:44,411)
Techniques d’indexation 9
DALIBO Formations
Un index supplémentaire est encore créé, mais cette fois sur une colonne de type texte :
INSERT 0 10000000
Durée : 207075,335 ms (03:27,075)
On peut comparer ces temps à l’insertion dans une table similaire dépourvue d’index :
INSERT 0 10000000
Durée : 14758,503 ms (00:14,759)
Enfin, la place disque utilisée par ces index n’est pas négligeable :
\di+ *test2*
Liste des relations
Schéma | Nom | Type | Propriétaire | Table | Taille | …
--------+-----------------------+-------+--------------+-------+--------+-
public | idx_test2_commentaire | index | postgres | test2 | 387 MB |
public | idx_test2_valeur | index | postgres | test2 | 214 MB |
public | test2_pkey | index | postgres | test2 | 214 MB |
SELECT pg_size_pretty(pg_relation_size('test2')),
pg_size_pretty(pg_indexes_size('test2')) ;
pg_size_pretty | pg_size_pretty
----------------+----------------
574 MB | 816 MB
Pour ces raisons, on ne posera pas des index systématiquement avant de se demander s’ils seront
utilisés. L’idéal est d’étudier les plans de ses requêtes et de chercher à optimiser.
10 Techniques d’indexation
DALIBO Formations
® – Lourd…
– Si fragmentation :
– Paramètres :
– maintenance_work_mem (sinon : fichier temporaire !)
– max_parallel_maintenance_workers
Techniques d’indexation 11
DALIBO Formations
L’index est inutilisable et doit être supprimé et recréé, ou bien réindexé. Pour les détails, voir la docu‑
mentation officielle3 .
Une supervision peut détecter des index invalides avec cette requête, qui ne doit jamais rien rame‑
ner :
Réindexation :
Comme les tables, les index sont soumis à la fragmentation. Celle‑ci peut cependant monter assez
haut sans grande conséquence pour les performances. De plus, le nettoyage des index est une des
étapes des opérations de VACUUM4 .
Une reconstruction de l’index est automatique lors d’un VACUUM FULL de la table.
Certaines charges provoquent une fragmentation assez élevée, typiquement les tables gérant des files
d’attente. Une réindexation reconstruit totalement l’index. Voici quelques variantes de l’ordre :
(En cas d’échec, on trouvera là aussi des index invalides, suffixés avec _ccnew, à côté des index pré‑
existants toujours fonctionnels et que PostgreSQL n’a pas détruits.)
Paramètres :
La rapidité de création d’un index dépend essentiellement de la mémoire accordée, définie dans
maintenance_work_mem. Si elle ne suffit pas, le tri se fera dans des fichiers temporaires plus lents.
Sur les serveurs modernes, le défaut de 64 Mo est ridicule, et on peut monter aisément à :
Attention de ne pas saturer la mémoire en cas de création simultanée de nombreux gros index (lors
d’une restauration avec pg_restore notamment).
Si le serveur est bien doté en CPU, la parallélisation de la création d’index peut apporter un gain en
temps appréciable. La valeur par défaut est :
SET max_parallel_maintenance_workers = 2 ;
12 Techniques d’indexation
DALIBO Formations
Par défaut un CREATE INDEX créera un index de type B‑tree, de loin le plus courant. Il est stocké
sous forme d’arbre balancé, avec de nombreux avantages :
– les performances se dégradent peu avec la taille de l’arbre (les temps de recherche sont en
O(log(n)), donc fonction du logarithme du nombre d’enregistrements dans l’index) ;
– l’accès concurrent est excellent, avec très peu de contention entre processus qui insèrent simul‑
tanément.
Toutefois les B‑tree ne permettent de répondre qu’à des questions très simples, portant sur la co‑
lonne indexée, et uniquement sur des opérateurs courants (égalité, comparaison). Cela couvre tout
de même la majorité des cas.
Contrainte d’unicité et index :
Un index peut être déclaré UNIQUE pour provoquer une erreur en cas d’insertion de doublons. Mais
on préférera généralement déclarer une contrainte d’unicité (notion fonctionnelle), qui technique‑
ment, entraînera la création d’un index.
Par exemple, sur cette table personne :
$ CREATE TABLE personne (id int, nom text);
$ \d personne
Table « public.personne »
Colonne | Type | Collationnement | NULL-able | Par défaut
---------+---------+-----------------+-----------+------------
id | integer | | |
nom | text | | |
$ \d personne
Table « public.personne »
Colonne | Type | Collationnement | NULL-able | Par défaut
---------+---------+-----------------+-----------+------------
id | integer | | |
nom | text | | |
Index :
"personne_id_idx" UNIQUE, btree (id)
Techniques d’indexation 13
DALIBO Formations
La contrainte d’unicité est alors implicite. La suppression de l’index se fait sans bruit :
DROP INDEX personne_id_idx;
$ \d personne
Table « public.personne »
Colonne | Type | Collationnement | NULL-able | Par défaut
---------+---------+-----------------+-----------+------------
id | integer | | |
nom | text | | |
Index :
"unique_id" UNIQUE CONSTRAINT, btree (id)
ERREUR: n'a pas pu supprimer index unique_id car il est requis par contrainte
unique_id sur table personne
ASTUCE : Vous pouvez supprimer contrainte unique_id sur table personne à la
place.
D’autres types d’index que B‑tree existent, destinés à certains types de données ou certains cas
d’optimisation précis.
14 Techniques d’indexation
DALIBO Formations
Pour comprendre ce qu’est un index, l’index dans une publication scientifique au format papier offre
une analogie simple.
Lorsque l’on recherche un terme particulier dans un ouvrage, il est possible de parcourir l’intégralité
de l’ouvrage pour chercher les termes qui nous intéressent. Ceci prend énormément de temps, va‑
riable selon la taille de l’ouvrage. Ce type de recherche trouve son analogie sous la forme du parcours
complet d’une table (Seq Scan).
Une deuxième méthode pour localiser ces différents termes consiste, si l’ouvrage en dispose, à utiliser
l’index de celui‑ci. Un tel index associe un terme à un ensemble de pages où celui‑ci est présent. Ainsi,
pour trouver le terme recherché, il est uniquement nécessaire de parcourir l’index (qui ne dépasse
généralement pas quelques pages) à la recherche du terme, puis d’aller visiter les pages listées dans
l’index pour extraire les informations nécessaires.
Dans un SGBD, le fonctionnement d’un index est très similaire à celui décrit ici. En effet, comme dans
une publication, l’index est une structure de données à part, qui n’est pas strictement nécessaire à
l’exploitation des informations, et qui est utilisée pour faciliter la recherche dans l’ensemble de don‑
nées. Cette structure de données possède un coût de maintenance, dans les deux cas : toute modifi‑
cation des données peut entraîner des modifications afin de maintenir l’index à jour.
Techniques d’indexation 15
DALIBO Formations
Bien souvent, la création d’index est vue comme le remède à tous les maux de performance subis par
une application. Il ne faut pas perdre de vue que les facteurs principaux affectant les performances
vont être liés à la conception du schéma de données, et à l’écriture des requêtes SQL.
Pour prendre un exemple caricatural, un schéma EAV (Entity‑Attribute‑Value, ou entité‑clé‑valeur) ne
pourra jamais être performant, de part sa conception. Bien sûr, dans certains cas, une méthodologie
pertinente d’indexation permettra d’améliorer un peu les performances, mais le problème réside là
dans la conception même du schéma. Il est donc important dans cette phase de considérer la ma‑
nière dont le modèle va influer sur les méthodes d’accès aux données, et les implications sur les per‑
formances.
De même, l’écriture des requêtes elles‑mêmes conditionnera en grande partie les performances obser‑
vées sur l’application. Par exemple, la mauvaise pratique (souvent mise en œuvre accidentellement
via un ORM) dite du « N+1 » ne pourra être corrigée par une indexation correcte : celle‑ci consiste à
récupérer une collection d’enregistrement (une requête) puis d’effectuer une requête pour chaque
enregistrement afin de récupérer les enregistrements liés (N requêtes). Dans ce type de cas, une join‑
ture est bien plus performante. Ce type de comportement doit encore une fois être connu de l’équipe
de développement, car il est plutôt difficile à détecter par une équipe d’exploitation.
De manière générale, avant d’envisager la création d’index supplémentaires, il convient de
s’interroger sur les possibilités de réécriture des requêtes, voire du schéma.
16 Techniques d’indexation
DALIBO Formations
L’index B‑tree est le plus simple conceptuellement parlant. Sans entrer dans les détails, un index B‑
tree est par définition équilibré : ainsi, quelle que soit la valeur recherchée, le coût est le même lors du
parcours d’index. Ceci ne veut pas dire que toute requête impliquant l’index mettra le même temps !
En effet, si chaque clé n’est présente qu’une fois dans l’index, celle‑ci peut être associée à une multi‑
tude de valeurs, qui devront alors être cherchées dans la table.
L’algorithme utilisé par PostgreSQL pour ce type d’index suppose que chaque page peut contenir au
moins trois valeurs. Par conséquent, chaque valeur ne peut excéder un peu moins d’1/3 de bloc, soit
environ 2,6 ko. La valeur en question correspond donc à la totalité des données de toutes les colonnes
de l’index pour une seule ligne. Si l’on tente de créer ou maintenir un index sur une table ne satisfaisant
pas ces prérequis, une erreur sera reportée, et la création de l’index (ou l’insertion/mise à jour de la
ligne) échouera. Si un index de type B‑tree est tout de même nécessaire sur les colonnes en question,
il est possible de créer un index fonctionnel sur une fonction de hachage des valeurs. Dans un tel cas,
seul l’opérateur = pourra bénéficier d’un parcours d’index.
Techniques d’indexation 17
DALIBO Formations
1.2.4 Concrètement…
Ce schéma présente une vue simplifiée d’une table (en blanc, avec ses champs id et name) et d’un
index B‑tree sur id (en bleu), tel que le créerait :
CREATE INDEX mon_index ON ma_table (id) ;
18 Techniques d’indexation
DALIBO Formations
se séparent en deux quand elles sont pleines. Ce processus remplit progressivement la racine. Lorsque
la racine est pleine, elle se divise en deux nœuds internes, et une nouvelle racine est crée au‑dessus.
Ce processus permet de garder un arbre équilibré.
Recherchons le résultat de :
SELECT name FROM ma_table WHERE id = 22
Même en parcourant les deux structures de données, si la valeur recherchée représente une assez
petite fraction des lignes totales, le nombre d’accès disques sera donc fortement réduit. En revanche,
au lieu d’effectuer des accès séquentiels (pour lesquels les disques durs classiques sont relativement
performants), il faudra effectuer des accès aléatoires, en sautant d’une position sur le disque à une
autre. Le choix est fait par l’optimiseur.
Supposons désormais que nous souhaitions exécuter une requête sans filtre, mais exigeant un tri, du
type :
SELECT id FROM ma_table ORDER BY id ;
L’index peut nous aider à répondre à cette requête. En effet, toutes les feuilles sont liées entre elles,
et permettent ainsi un parcours ordonné. Il nous suffit donc de localiser la première feuille (la plus
à gauche), et pour chaque clé, récupérer les lignes correspondantes. Une fois les clés de la feuille
traitées, il suffit de suivre le pointeur vers la feuille suivante et de recommencer.
L’alternative consisterait à parcourir l’ensemble de la table, et trier toutes les lignes afin de les obtenir
dans le bon ordre. Un tel tri peut être très coûteux, en mémoire comme en temps CPU. D’ailleurs,
de tels tris débordent très souvent sur disque (via des fichiers temporaires) afin de ne pas garder
l’intégralité des données en mémoire.
Techniques d’indexation 19
DALIBO Formations
Pour les requêtes utilisant des opérateurs d’inégalité, on voit bien comment l’index peut là aussi être
utilisé. Par exemple, pour la requête suivante :
SELECT * FROM ma_table WHERE id <= 10 AND id >= 4 ;
Il suffit d’utiliser la propriété de tri de l’index pour parcourir les feuilles, en partant de la borne infé‑
rieure, jusqu’à la borne supérieure.
Dernière remarque : ce schéma ne montre qu’une entrée d’index pour 22, bien qu’il pointe vers deux
lignes. En fait, il y avait bien deux entrées pour 22 avant PostgreSQL 13. Depuis cette version, Post‑
greSQL sait dédupliquer les entrées.
Il est possible de créer un index sur plusieurs colonnes. Il faut néanmoins être conscient des requêtes
supportées par un tel index. Admettons que l’on crée une table d’un million de lignes avec un index
sur trois champs :
CREATE TABLE t1 (c1 int, c2 int, c3 int, c4 text);
VACUUM ANALYZE t1 ;
L’index est optimal pour répondre aux requêtes portant sur les premières colonnes de l’index :
EXPLAIN SELECT * FROM t1 WHERE c1 = 1000 and c2=500 and c3=2000 ;
20 Techniques d’indexation
DALIBO Formations
QUERY PLAN
---------------------------------------------------------------------------
Index Scan using t1_c1_c2_c3_idx on t1 (cost=0.42..8.45 rows=1 width=22)
Index Cond: ((c1 = 1000) AND (c2 = 500) AND (c3 = 2000))
QUERY PLAN
---------------------------------------------------------------------------------
Index Only Scan using t1_c1_c2_c3_idx on t1 (cost=0.42..6.33 rows=95 width=12)
Index Cond: ((c1 = 1000) AND (c2 = 500))
Mais si les premières colonnes de l’index ne sont pas spécifiées, alors l’index devra être parcouru en
grande partie.
Cela reste plus intéressant que parcourir toute la table, surtout si l’index est petit et contient toutes les
données du SELECT. Mais le comportement dépend alors de nombreux paramètres, comme les sta‑
tistiques, les estimations du nombre de lignes ramenées et les valeurs relatives de seq_page_cost
et random_page_cost :
SET random_page_cost TO 0.1 ; SET seq_page_cost TO 0.1 ; -- SSD
QUERY PLAN
---------------------------------------------------------------------------------
Index Scan using t1_c1_c2_c3_idx on t1 (...) (...)
Index Cond: (c3 = 2000)
Buffers: shared hit=3899
Planning:
Buffers: shared hit=15
Planning Time: 0.218 ms
Execution Time: 67.081 ms
QUERY PLAN
---------------------------------------------------------------------------------
Seq Scan on t1 (cost=0.00..18871.00 rows=9600 width=22) (...)
Filter: (c3 = 2000)
Rows Removed by Filter: 990000
Buffers: shared hit=6371
Planning Time: 0.178 ms
Execution Time: 114.572 ms
Concernant les range scans (requêtes impliquant des opérateurs d’inégalité, tels que <, <=, >=, >),
celles‑ci pourront être satisfaites par l’index de manière quasi optimale si les opérateurs d’inégalité
Techniques d’indexation 21
DALIBO Formations
sont appliqués sur la dernière colonne requêtée, et de manière sub‑optimale s’ils portent sur les pre‑
mières colonnes.
Cet index pourra être utilisé pour répondre aux requêtes suivantes de manière optimale :
SELECT * FROM t1 WHERE c1 = 20 ;
SELECT * FROM t1 WHERE c1 = 20 AND c2 = 50 AND c3 = 400 ;
SELECT * FROM t1 WHERE c1 = 10 AND c2 <= 4 ;
Il pourra aussi être utilisé, mais de manière bien moins efficace, pour les requêtes suivantes, qui bé‑
néficieraient d’un index sur un ordre alternatif des colonnes :
SELECT * FROM t1 WHERE c1 = 100 AND c2 >= 80 AND c3 = 40 ;
SELECT * FROM t1 WHERE c1 < 100 AND c2 = 100 ;
Les index multicolonnes peuvent aussi être utilisés pour le tri comme dans les exemples suivants. Il
n’y a pas besoin de trier (ce peut être très coûteux) puisque les données de l’index sont triées. Ici le
cas est optimal puisque l’index contient toutes les données nécessaires :
SELECT * FROM t1 ORDER BY c1 ;
SELECT * FROM t1 ORDER BY c1, c2 ;
SELECT * FROM t1 ORDER BY c1, c2, c3 ;
Il est donc nécessaire d’avoir une bonne connaissance de l’application (ou de passer du temps à ob‑
server les requêtes consommatrices) pour déterminer comment créer des index multicolonnes perti‑
nents pour un nombre maximum de requêtes.
22 Techniques d’indexation
DALIBO Formations
La première chose à garder en tête est que l’on indexe pas le schéma de données, c’est‑à‑dire les
tables, mais en fonction de la charge de travail supportée par la base, c’est‑à‑dire les requêtes. En
effet, comme nous l’avons vu précédemment, tout index superflu a un coût global pour la base de
données, notamment pour les opérations DML.
La méthodologie elle‑même est assez simple. Selon le principe qu’un index sert à une (ou des) re‑
quête(s), la première chose à faire consiste à identifier celle(s)‑ci. L’équipe de développement est dans
une position idéale pour réaliser ce travail : elle seule peut connaître le fonctionnement global de
l’application, et donc les colonnes qui vont être utilisées, ensemble ou non, comme cible de filtres
ou de tris. Au delà de la connaissance de l’application, il est possible d’utiliser des outils tels que pg‑
Badger, pg_stat_statements et PoWA pour identifier les requêtes particulièrement consommatrices,
et qui pourraient donc potentiellement nécessiter un index. Ces outils seront présentés plus loin dans
cette formation.
Une fois les requêtes identifiées, il est nécessaire de trouver les index permettant d’améliorer celles‑
ci. Ils peuvent être utilisés pour les opérations de filtrage (clause WHERE), de tri (clauses ORDER BY,
GROUP BY) ou de jointures. Idéalement, l’étude portera sur l’ensemble des requêtes, afin notamment
de pouvoir décider d’index multi‑colonnes pertinents pour le plus grand nombre de requêtes, et éviter
ainsi de créer des index redondants.
Techniques d’indexation 23
DALIBO Formations
De manière générale, l’ensemble des colonnes étant la source d’une clé étrangère devraient être in‑
dexées, et ce pour deux raisons.
La première concerne les jointures. Généralement, lorsque deux tables sont liées par des clés étran‑
gères, il existe au moins certaines requêtes dans l’application joignant ces tables. La colonne « cible »
de la clé étrangère est nécessairement indexée, c’est un prérequis dû à la contrainte unique nécessaire
à celle‑ci. Il est donc possible de la parcourir de manière triée.
La colonne source devrait être indexée elle aussi : en effet, il est alors possible de la parcourir de ma‑
nière ordonnée, et donc de réaliser la jointure selon l’algorithme Merge Join (comme vu lors du mo‑
dule sur les plans d’exécution5 ), et donc d’être beaucoup plus rapide. Un tel index accélérera de la
même manière les Nested Loop, en permettant de parcourir l’index une fois par ligne de la relation
externe au lieu de parcourir l’intégralité de la table.
De la même manière, pour les DML sur la table cible, cet index sera d’une grande aide : pour chaque
ligne modifiée ou supprimée, il convient de vérifier, soit pour interdire soit pour « cascader » la modi‑
fication, la présence de lignes faisant référence à celle touchée.
S’il n’y a qu’une règle à suivre aveuglément ou presque, c’est bien celle‑ci : les colonnes faisant partie
d’une clé étrangère doivent être indexées !
Deux exceptions : les champs ayant une cardinalité très faible et homogène (par exemple, un champ
homme/femme dans une population équilibrée) ; et ceux dont on constate l’inutilité après un certain
temps, par des valeurs à zéro dans pg_stat_user_indexes.
5
https://dali.bo/j0_html
24 Techniques d’indexation
DALIBO Formations
C’est l’optimiseur SQL qui choisit si un index doit ou non être utilisé. Il est tout à fait possible que
PostgreSQL décide qu’utiliser un index donné n’en vaut pas la peine par rapport à d’autres chemins.
Il faut aussi savoir identifier les cas où l’index ne peut pas être utilisé.
L’optimiseur possède forcément quelques limitations. Certaines sont un compromis par rapport au
temps que prendrait la recherche systématique de toutes les optimisations imaginables. Il y aussi
le problème des estimations de volumétries, qui sont d’autant plus difficiles que la requête est com‑
plexe.
Quant à un vrai bug, si le cas peut être reproduit, il doit être remonté aux développeurs de PostgreSQL.
D’expérience, c’est rarissime.
Techniques d’indexation 25
DALIBO Formations
parcourir une grande partie de la table, il peut décider de ne pas utiliser l’index : l’utilisation de celui‑ci
serait alors trop coûteux.
Autrement dit, l’index n’est pas assez discriminant pour que ce soit la peine de faire des allers‑retours
entre lui et la table. Le seuil dépend entre autres des volumétries de la table et de l’index et du rap‑
port entre les paramètres random_page_cost et seq_page_cost (respectivement 4 et 1 pour
un disque dur classique peu rapide, et souvent 1 et 1 pour du SSD, voire moins).
Il y a un meilleur chemin :
Un index sur un champ n’est qu’un chemin parmi d’autres, en aucun cas une obligation, et une requête
contient souvent plusieurs critères sur des tables différentes. Par exemple, un index sur un filtre peut
être ignoré si un autre index permet d’éviter un tri coûteux, ou si l’optimiseur juge que faire une join‑
ture avant de filtrer le résultat est plus performant.
Index redondant :
Il existe un autre index doublant la fonctionnalité de celui considéré. PostgreSQL favorise naturelle‑
ment un index plus petit, plus rapide à parcourir. À l’inverse, un index plus complet peut favoriser
plusieurs filtres, des tris, devenir couvrant…
VACUUM trop ancien :
Dans le cas précis des Index Only Scan, si la table n’a pas été récemment nettoyée, il y aura trop d’allers‑
retours avec la table pour vérifier les informations de visibilité (heap fetches). Un VACUUM permet de
mettre à jour la Visibility Map pour éviter cela.
Statistiques périmées :
Il peut arriver que l’optimiseur se trompe quand il ignore un index. Des statistiques périmées sont une
cause fréquente. Pour les rafraîchir :
ANALYZE (VERBOSE) nom_table;
Si cela résout le problème, ce peut être un indice que l’autovacuum ne passe pas assez souvent
(voir pg_stat_user_tables.last_autoanalyze). Il faudra peut‑être ajuster les paramètres
autovacuum_analyze_scale_factor ou autovacuum_analyze_threshold sur les
tables.
Statistiques pas assez fines :
Les statistiques sur les données peuvent être trop imprécises. Le défaut est un histogramme de 100
valeurs, basé sur 300 fois plus de lignes. Pour les grosses tables, augmenter l’échantillonnage sur les
champs aux valeurs peu homogènes est possible :
ALTER TABLE ma_table ALTER ma_colonne SET STATISTICS 500 ;
La valeur 500 n’est qu’un exemple. Monter beaucoup plus haut peut pénaliser les temps de planifi‑
cation. Ce sera d’autant plus vrai si on applique cette nouvelle valeur globalement, donc à tous les
champs de toutes les tables (ce qui est certes le plus facile).
Estimations de volumétries trompeuses :
Par exemple, une clause WHERE sur deux colonnes corrélées (ville et code postal par exemple), mène
à une sous‑estimation de la volumétrie résultante par l’optimiseur, car celui‑ci ignore le lien entre les
26 Techniques d’indexation
DALIBO Formations
deux champs. Vous pouvez demander à PostgreSQL de calculer cette corrélation avec l’ordre CREATE
STATISTICS (voir le module de formation J26 ou la documentation officielle7 ).
Compatibilité :
Il faut toujours s’assurer que la requête est écrite correctement et permet l’utilisation de l’index.
Un index peut être inutilisable à cause d’une fonction plus ou moins explicite, ou encore d’un mau‑
vais typage. Il arrive que le critère de filtrage ne peut remonter sur la table indexée à cause d’un CTE
matérialisé, d’un DISTINCT, ou d’une vue complexe.
Nous allons voir quelques problèmes classiques.
QUERY PLAN
-------------------------------------------------------------
Index Scan using clients_pkey on clients
Index Cond: (client_id = 3)
QUERY PLAN
-------------------------------------------------------------
Seq Scan on clients
Filter: ((client_id)::numeric = '3'::numeric)
6
https://dali.bo/j2_html
7
https://docs.postgresql.fr/current/sql‑createstatistics.html
Techniques d’indexation 27
DALIBO Formations
QUERY PLAN
-------------------------------------------------------------
Index Scan using clients_pkey on clients
Index Cond: (client_id = 3)
QUERY PLAN
-------------------------------------------------------------
Index Scan using clients_pkey on clients
Index Cond: (client_id = '3'::bigint)
alors PostgreSQL n’utilisera pas l’index sur ma_date. Il faut réécrire la requête ainsi :
SELECT * FROM ma_table WHERE ma_date >='2014-01-01' AND ma_date<'2015-01-01' ;
Dans l’exemple suivant, on cherche les commandes dont la date tronquée au mois correspond au 1er
janvier, c’est‑à‑dire aux commandes dont la date est entre le 1er et le 31 janvier. Pour un humain, la
logique est évidente, mais l’optimiseur n’en a pas connaissance.
EXPLAIN ANALYZE
SELECT * FROM commandes
WHERE date_trunc('month', date_commande) = '2015-01-01';
QUERY PLAN
------------------------------------------------------------------------
Gather (cost=1000.00..8160.96 rows=5000 width=51)
(actual time=17.282..192.131 rows=4882 loops=1)
Workers Planned: 3
Workers Launched: 3
-> Parallel Seq Scan on commandes (cost=0.00..6660.96 rows=1613 width=51)
(actual time=17.338..177.896 rows=1220 loops=4)
Filter: (date_trunc('month'::text,
(date_commande)::timestamp with time zone)
= '2015-01-01 00:00:00+01'::timestamp with time zone)
Rows Removed by Filter: 248780
Planning time: 0.215 ms
Execution time: 196.930 ms
28 Techniques d’indexation
DALIBO Formations
QUERY PLAN
----------------------------------------------------------
Index Scan using commandes_date_commande_idx on commandes
(cost=0.42..118.82 rows=5554 width=51)
(actual time=0.019..0.915 rows=4882 loops=1)
Index Cond: ((date_commande >= '2015-01-01'::date)
AND (date_commande <= '2015-01-31'::date))
Planning time: 0.074 ms
Execution time: 1.098 ms
Dans certains cas, la réécriture est impossible (fonction complexe, code non modifiable…). Nous ver‑
rons qu’un index fonctionnel peut parfois être la solution.
Ces exemples semblent évidents, mais il peut être plus compliqué de trouver dans l’urgence la cause
du problème dans une grande requête d’un schéma mal connu.
– Solution :
Si vous avez un index « normal » sur une chaîne texte, certaines recherches de type LIKE n’utiliseront
pas l’index. En effet, il faut bien garder à l’esprit qu’un index est basé sur un opérateur précis. Ceci est
généralement indiqué correctement dans la documentation, mais pas forcément très intuitif.
Si un opérateur non supporté pour le critère de tri est utilisé, l’index ne servira à rien :
CREATE INDEX ON fournisseurs (commentaire);
EXPLAIN ANALYZE SELECT * FROM fournisseurs WHERE commentaire LIKE 'ipsum%';
QUERY PLAN
---------------------------------------------------------------------
Seq Scan on fournisseurs (cost=0.00..225.00 rows=1 width=45)
(actual time=0.045..1.477 rows=47 loops=1)
Filter: (commentaire ~~ 'ipsum%'::text)
Rows Removed by Filter: 9953
Planning time: 0.085 ms
Execution time: 1.509 ms
Techniques d’indexation 29
DALIBO Formations
Nous verrons qu’il existe d’autre classes d’opérateurs, permettant d’indexer correctement la requête
précédente, et que varchar_pattern_ops est l’opérateur permettant d’indexer la requête précé‑
dente.
Dans le cas où un index a été construit avec la clause CONCURRENTLY, nous avons vu qu’il peut ar‑
river que l’opération échoue et l’index existe mais reste invalide, et donc inutilisable. Le problème ne
se pose pas pour un échec de REINDEX … CONCURRENTLY, car l’ancienne version de l’index est
toujours là et utilisable.
30 Techniques d’indexation
DALIBO Formations
Un index partiel est un index ne couvrant qu’une partie des enregistrements. Ainsi, l’index est beau‑
coup plus petit. En contrepartie, il ne pourra être utilisé que si sa condition est définie dans la re‑
quête.
Pour prendre un exemple simple, imaginons un système de « queue », dans lequel des événements
sont entrés, et qui disposent d’une colonne traite indiquant si oui ou non l’événement a été traité.
Dans le fonctionnement normal de l’application, la plupart des requêtes ne s’intéressent qu’aux évé‑
nements non traités :
CREATE TABLE evenements (
id int primary key,
traite bool NOT NULL,
type text NOT NULL,
payload text
);
Techniques d’indexation 31
DALIBO Formations
ELSE 'COMMANDE'
END
FROM generate_series(1, 10000) as i);
\d evenements
Table « public.evenements »
Colonne | Type | Collationnement | NULL-able | Par défaut
---------+---------+-----------------+-----------+------------
id | integer | | not null |
traite | boolean | | not null |
type | text | | not null |
payload | text | | |
Index :
"evenements_pkey" PRIMARY KEY, btree (id)
Typiquement, différents applicatifs vont être intéressés par des événements d’un certain type, mais
les événements déjà traités ne sont quasiment jamais accédés, du moins via leur état (une requête
portant sur traite IS true sera exceptionnelle et ramènera l’essentiel de la table : un index est
inutile).
Ainsi, on peut souhaiter indexer le type d’événement, mais uniquement pour les événements non
traités :
CREATE INDEX index_partiel on evenements (type) WHERE NOT traite ;
Si on recherche les événements dont le type est « FACTURATION », sans plus de précision, l’index ne
peut évidemment pas être utilisé :
EXPLAIN SELECT * FROM evenements WHERE type = 'FACTURATION' ;
QUERY PLAN
----------------------------------------------------------------
Seq Scan on evenements (cost=0.00..183.12 rows=50 width=69)
Filter: (type = 'FACTURATION'::text)
En revanche, si la condition sur l’état de l’événement est précisée, l’index sera utilisé :
EXPLAIN SELECT * FROM evenements WHERE type = 'FACTURATION' AND NOT traite ;
QUERY PLAN
----------------------------------------------------------------------------
Bitmap Heap Scan on evenements (cost=8.22..54.62 rows=25 width=69)
Recheck Cond: ((type = 'FACTURATION'::text) AND (NOT traite))
-> Bitmap Index Scan on index_partiel (cost=0.00..8.21 rows=25 width=0)
Index Cond: (type = 'FACTURATION'::text)
32 Techniques d’indexation
DALIBO Formations
Sur ce jeu de données, on peut comparer la taille de deux index, partiels ou non :
CREATE INDEX index_complet ON evenements (type);
idxname | pg_size_pretty
---------------+----------------
index_complet | 88 kB
index_partiel | 16 kB
Par exemple, dans les requêtes précédentes, un critère traite IS FALSE à la place de NOT
traite n’utilise pas l’index (en effet, il ne s’agit pas du même critère à cause de NULL : NULL =
false renvoie NULL, mais NULL IS false renvoie false).
Par contre, des conditions mathématiquement plus restreintes que l’index permettent son utilisa‑
tion :
CREATE INDEX commandes_recentes_idx
ON commandes (client_id) WHERE date_commande > '2015-01-01' ;
QUERY PLAN
------------------------------------------------------
Index Scan using commandes_recentes_idx on commandes
Index Cond: (client_id = 17)
Filter: (date_commande > '2016-01-01'::date)
Mais cet index partiel ne sera pas utilisé pour un critère précédant 2015.
De la même manière, si un index partiel contient une liste de valeurs, IN ()ou NOT IN (), il est en
principe utilisable :
CREATE INDEX commandes_1_3 ON commandes (numero_commande)
WHERE mode_expedition IN (1,3);
QUERY PLAN
---------------------------------------------
Index Scan using commandes_1_3 on commandes
Filter: (mode_expedition = 1)
Techniques d’indexation 33
DALIBO Formations
QUERY PLAN
-----------------------------------------------
Index Scan using commandes_not34 on commandes
Filter: (mode_expedition = 1)
Le cas typique d’utilisation d’un index partiel est celui de l’exemple précédent : une application avec
des données chaudes, fréquemment accédées et traitées, et des données froides, qui sont plus desti‑
nées à de l’historisation ou de l’archivage. Par exemple, un système de vente en ligne aura probable‑
ment intérêt à disposer d’index sur les commandes dont l’état est différent de clôturé : en effet, un tel
système effectuera probablement des requêtes fréquemment sur les commandes qui sont en cours
de traitement, en attente d’expédition, en cours de livraison mais très peu sur des commandes déjà
livrées, qui ne serviront alors plus qu’à de l’analyse statistique.
De manière générale, tout système est susceptible de bénéficier des index partiels s’il doit gérer des
données à état dont seul un sous‑ensemble de ces états est activement exploité par les requêtes à
optimiser. Par exemple, toujours sur cette même table, des requêtes visant à faire des statistiques sur
les expéditions pourraient tirer parti de cet index :
CREATE INDEX index_partiel_expes ON evenements (id) WHERE type = 'EXPEDITION' ;
QUERY PLAN
----------------------------------------------------------------------------------
Aggregate (cost=106.68..106.69 rows=1 width=8)
-> Index Only Scan using index_partiel_expes on evenements (cost=0.28..98.34
↪ rows=3337 width=4)
Nous avons mentionné précédemment qu’un index est destiné à satisfaire une requête ou un en‑
semble de requêtes. Donc, si une requête présente fréquemment des critères de ce type :
WHERE une_colonne = un_parametre_variable
AND une_autre_colonne = une_valeur_fixe
34 Techniques d’indexation
DALIBO Formations
alors il peut être intéressant de créer un index partiel pour les lignes satisfaisant le critère :
WHERE une_autre_colonne = une_valeur_fixe
Ces critères sont généralement très liés au fonctionnel de l’application : du point de vue de
l’exploitation, il est souvent difficile d’identifier des requêtes dont une valeur est toujours fixe.
Encore une fois, l’appropriation des techniques d’indexation par l’équipe de développement permet
d’améliorer grandement les performances de l’application.
– Préférer :
En général, un index partiel doit indexer une colonne différente de celle qui est filtrée (et donc connue).
Ainsi, dans l’exemple précédent, la colonne indexée (type) n’est pas celle de la clause WHERE. On
pose un critère, mais on s’intéresse aux types d’événements ramenés. Un autre index partiel pourrait
porter sur id WHERE NOT traite pour simplement récupérer une liste des identifiants non traités
de tous types.
L’intérêt est d’obtenir un index très ciblé et compact, et aussi d’économiser la place disque et la charge
CPU de maintenance. Il faut tout de même que les index partiels soient notablement plus petits que
les index « génériques » (au moins de moitié). Avec des index partiels spécialisés, il est possible de
« précalculer » certaines requêtes critiques.
Techniques d’indexation 35
DALIBO Formations
À partir du moment où une clause WHERE applique une fonction sur une colonne, un index sur la
colonne ne permet plus un accès à l’enregistrement.
C’est comme demander à un dictionnaire Anglais vers Français : « Quels sont les mots dont la traduc‑
tion en français est ‘fenêtre’ ? ». Le tri du dictionnaire ne correspond pas à la question posée. Il nous
faudrait un index non plus sur les mots anglais, mais sur leur traduction en français.
C’est exactement ce que font les index fonctionnels : ils indexent le résultat d’une fonction appliquée
à l’enregistrement.
L’exemple classique est l’indexation insensible à la casse : on crée un index sur UPPER (ou LOWER) de
la chaîne à indexer, et on recherche les mots convertis à la casse souhaitée.
Il est facile de créer involontairement des critères comportant des fonctions, notamment avec des
manipulations de dates. Il a été vu plus haut qu’il vaut mieux placer la transformation du côté de la
constante. Par exemple, la requête suivante retourne toutes les commandes de l’année 2011, mais
la fonction extract est appliquée à la colonne date_commande (type date) et l’index est inutili‑
sable.
L’optimiseur ne peut donc pas utiliser un index :
CREATE INDEX ON commandes (date_commande) ;
QUERY PLAN
--------------------------------------------------------------------------
Gather
Workers Planned: 2
-> Parallel Seq Scan on commandes
Filter: (EXTRACT(year FROM date_commande) = '2011'::numeric)
QUERY PLAN
--------------------------------------------------------------------------
36 Techniques d’indexation
DALIBO Formations
QUERY PLAN
--------------------------------------------------------------------------
Bitmap Heap Scan on commandes
Recheck Cond: (EXTRACT(year FROM date_commande) = '2011'::numeric)
-> Bitmap Index Scan on annee_commandes_idx
Index Cond: (EXTRACT(year FROM date_commande) = '2011'::numeric)
Sans ces restrictions, l’endroit dans lequel la donnée est insérée dans l’index serait potentiellement
différent à chaque exécution, ce qui est évidemment incompatible avec la notion d’indexation.
Pour revenir à l’exemple précédent : pour calculer l’année, on peut aussi imaginer un index avec la
fonction to_char, une autre fonction hélas fréquemment utilisée pour les conversions de date. Au
moment de la création d’un tel index, PostgreSQL renvoie l’erreur suivante :
CREATE INDEX annee_commandes_idx2
ON commandes ((to_char(date_commande,'YYYY')::int));
En effet, to_char() n’est pas immutable, juste « stable » et cela dans toutes ses variantes :
magasin=# \df+ to_char
Liste des fonctions
Techniques d’indexation 37
DALIBO Formations
La raison est que to_date accepte des paramètres de formatage qui dépendent de la session (nom
du mois, virgule ou point décimal…). Ce n’est pas une très bonne fonction pour convertir une date ou
heure en nombre.
La fonction extract, elle, est bien immutable quand il s’agit de convertir commande.date_commande
de date vers une année, comme dans l’exemple plus haut.
\sf extract (text, date)
CREATE OR REPLACE FUNCTION pg_catalog."extract"(text, date)
RETURNS numeric
LANGUAGE internal
IMMUTABLE PARALLEL SAFE STRICT
AS $function$extract_date$function$
De même, extract est immutable avec une entrée de type timestamp without time zone.
Les choses se compliquent si l’on manipule des heures avec fuseau horaire. En effet, il est conseillé de
toujours privilégier la variante timestamp with time zone. Cette fois, l’index fonctionnel basé
avec extract va poser problème :
DROP INDEX annee_commandes_idx ;
-- Nouvelle table d'exemple avec date_commande comme timestamp with time zone
-- La conversion introduit implicitement le fuseau horaire de la session
CREATE TABLE commandes2 (LIKE commandes INCLUDING ALL);
ALTER TABLE commandes2 ALTER COLUMN date_commande TYPE timestamp with time zone ;
INSERT INTO commandes2 SELECT * FROM commandes ;
-- Reprise de l'index fonctionnel précédent
CREATE INDEX annee_commandes2_idx
ON commandes2(extract('year' from date_commande) ) ;
En effet la fonction extract n’est pas immutable pour le type timestamp with time zone :
magasin=# \sf extract (text, timestamp with time zone)
CREATE OR REPLACE FUNCTION pg_catalog."extract"(text, timestamp with time zone)
RETURNS numeric
LANGUAGE internal
STABLE PARALLEL SAFE STRICT
AS $function$extract_timestamptz$function$
Pour certains timestamps autour du Nouvel An, l’année retournée dépend du fuseau horaire. Le pro‑
blème se poserait bien sûr aussi si l’on extrayait les jours ou les mois.
38 Techniques d’indexation
DALIBO Formations
Il est possible de « tricher » en figeant le fuseau horaire dans une fonction pour obtenir un type inter‑
médiaire timestamp without time zone, qui ne posera pas de problème :
Ce contournement impose de modifier le critère de la requête. Tant qu’on y est, il peut être plus clair
d’enrober l’appel dans une fonction que l’on définira immutable.
QUERY PLAN
--------------------------------------------------------------------------
Index Scan using annee_commandes2_paris_idx on commandes2
Index Cond: ((EXTRACT(year FROM (date_commande AT TIME ZONE
↪ 'Europe/Paris'::text)))::integer = 2021)
Le nom de la fonction est aussi une indication pour les utilisateurs dans d’autres fuseaux.
Certes, on a ici modifié le code de la requête, mais il est parfois possible de contourner ce problème
en passant par des vues qui masquent la fonction.
Signalons enfin la fonction date_part : c’est une alternative possible à extract, avec les mêmes
soucis et contournement.
À partir de PostgreSQL 16, une autre possibilité existe avec date_trunc car la variante avec ti-
mestamp without time zoneest devenue immutable :
QUERY PLAN
--------------------------------------------------------------------------
Index Scan using annee_commandes2_paris_idx3 on commandes2
Index Cond: (date_trunc('year'::text, date_commande, 'Europe/Paris'::text) =
↪ '2021-01-01 00:00:00+01'::timestamp with time zone)
Techniques d’indexation 39
DALIBO Formations
Statistiques :
Après la création de l’index fonctionnel, un ANALYZE nom_table est conseillé : en effet, l’optimiseur
ne peut utiliser les statistiques déjà connues pour le résultat d’une fonction. Par contre, PostgreSQL
peut créer des statistiques sur le résultat de la fonction pour chaque ligne. Ces statistiques seront
visibles dans la vue système pg_stats (tablename contient le nom de l’index, et non celui de la
table !).
Ces statistiques à jour sont d’ailleurs un des intêrêts de l’index fonctionnel, même si l’index lui‑même
est superflu. Dans ce cas, à partir de PostgreSQL 14, on pourra utiliser CREATE STATISTICS sur
l’expression pour ne pas avoir à créer et maintenir un index entier.
Avertissements :
La fonction ne doit jamais tomber en erreur ! Il ne faut pas tester l’index qu’avec les don‑
¾ nées en place, mais aussi avec toutes celles susceptibles de se trouver dans le champ
concerné. Sinon, il y aura des refus d’insertion ou de mise à jour. Des ANALYZE ou VA-
CUUM pourraient aussi échouer, avec de gros problèmes sur le long terme.
40 Techniques d’indexation
DALIBO Formations
Un parcours d’index classique (Index Scan) est en fait un aller/retour entre l’index et la table : on va
chercher un enregistrement dans l’index, qui nous donne son adresse dans la table, on accède à cet
enregistrement dans la table, puis on passe à l’entrée d’index suivante. Le coût en entrées‑sorties peut
être énorme : les données de la table sont habituellement éparpillées dans tous les blocs. Le Bitmap
Index Scan permet juste de mitiger le problème.
Un index couvrant (covering index) supprime le problème à la source en plaçant dans l’index non seule‑
ment les champs servant de critères de recherche, mais aussi les champs résultats.
Un index couvrant peut ainsi permettre un Index Only Scan car il n’a plus besoin d’interroger la table.
Pour pouvoir en bénéficier, il faut que toutes les colonnes retournées par la requête soient présentes
dans l’index. S’il en manque une seule, l’Index Only Scan est impossible.
Autre intérêt de l’Index Only Scan : les enregistrements cherchés étant contigus dans l’index (puisqu’il
est trié), le nombre d’accès disque est bien plus faible, ce qui peut apporter des gains de performances
énormes en sélection. Il est tout à fait possible d’obtenir dans des cas extrêmes des gains de l’ordre
d’un facteur 10 000.
Les index couvrants peuvent être explicitement déclarés avec la clause INCLUDE :
CREATE TABLE t (id int NOT NULL, valeur int) ;
VACUUM t ;
QUERY PLAN
--------------------------------------------------------------------------------
Index Only Scan using t_pk on t (cost=0.42..1.44 rows=1 width=4)
(actual time=0.034..0.035 rows=1 loops=1)
Index Cond: (id = 555555)
Heap Fetches: 0
Techniques d’indexation 41
DALIBO Formations
Dans cet exemple, il n’y a pas eu d’accès à la table. L’index est unique mais contient aussi la colonne
valeur.
Noter le VACUUM, nécessaire pour garantir que la visibility map de la table est à jour et
b permet ainsi un Index Only Scan sans aucun accès à la table (clause Heap Fetches à 0).
Par abus de langage, on peut dire d’un index multicolonne sans clause INCLUDE qu’il est « couvrant »
s’il répond complètement à la requête.
Dans les versions antérieures à la 11, le principe reste donc valable : il suffit de déclarer les colonnes
dans des index multicolonne :
CREATE INDEX t_idx ON t (id, valeur) ;
La clause INCLUDE a l’avantage de pouvoir se greffer sur des index uniques ou de clés et ainsi
d’économiser des créations d’index, ainsi que d’éviter le tri des champs dans la clause INCLUDE.
® – Inconvénients :
– limite d’enregistrement (2,6 ko)
– index plus gros
– empêche la déduplication → index encore plus gros
– Compatibilité : B‑tree, GiST, SP‑GiST (v14)
– Ne pas oublier un VACUUM fréquent
Il faut garder à l’esprit que l’ajout de colonnes à un index augmente sa taille. Cela peut avoir un impact
sur les performances des requêtes qui n’utilisent pas les colonnes supplémentaires. Il faut également
être vigilant à ce que la taille des enregistrements avec les colonnes incluses ne dépassent pas 2,6 ko.
Au‑delà de cette valeur, les insertions ou mises à jour échouent.
Enfin, la déduplication (apparue en version 13) n’est pas active sur les index couvrants, ce qui a un
impact supplémentaire sur la taille de l’index sur le disque et en cache. Ça n’a pas trop d’importance
si l’index principal contient surtout des valeurs différentes, mais s’il y en a beaucoup moins que de
lignes, il serait dommage de perdre l’intérêt de la déduplication. Là encore, le planificateur peut igno‑
rer l’index s’il est trop gros. Il faut tester avec les données réelles, et comparer avec des index multico‑
lonne, avec ou sans INCLUDE.
42 Techniques d’indexation
DALIBO Formations
Les méthodes d’accès aux index doivent inclure le support de cette fonctionnalité. C’est le cas pour le
B‑tree ou le GiST, et pour le SP‑GiST en version 14.
– Plus généralement :
– nombreux autres opérateurs pour d’autres types d’index
Un opérateur sert à indiquer à PostgreSQL comment il doit manipuler un certain type de données. Il
y a beaucoup d’opérateurs par défaut, mais il est parfois possible d’en prendre un autre.
Pour l’indexation, il est notamment possible d’utiliser un jeu « alternatif » d’opérateurs de comparai‑
son.
Le cas d’utilisation le plus fréquent dans PostgreSQL est la comparaison de chaîne LIKE
'chaine%'. L’indexation texte « classique » utilise la collation par défaut de la base (en France,
généralement fr_FR.UTF-8 ou en_US.UTF-8) ou la collation de la colonne de la table si elle
diffère. Cette collation contient des notions de tri. Les règles sont différentes pour chaque collation.
Et ces règles sont complexes.
Par exemple, le ß allemand se place entre ss et t (et ce, même en français). En danois, le tri est très
particulier car le å et le aa apparaissent après le z.
-- Cette collation doit exister sur le système
CREATE COLLATION IF NOT EXISTS "da_DK" (locale='da_DK.utf8');
x
----
s
ss
Techniques d’indexation 43
DALIBO Formations
ß
t
zz
å
aa
Il faut être conscient que cela a une influence sur le résultat d’un filtrage :
WITH ls(x) AS (VALUES ('aa'),('å'),('t'),('s'),('ss'),('ß'), ('zz') )
SELECT * FROM ls
WHERE x > 'z' COLLATE "da_DK" ;
x
----
aa
å
zz
Il serait donc très complexe de réécrire le LIKE en un BETWEEN, comme le font habituellement tous
les SGBD : col_texte LIKE 'toto%' peut être réécrit comme coltexte >= 'toto' and
coltexte < 'totp' en ASCII, mais la réécriture est bien plus complexe en tri linguistique sur
Unicode par exemple. Même si l’index est dans la bonne collation, il n’est pas facilement utilisable :
CREATE INDEX ON textes (livre) ;
EXPLAIN SELECT * FROM textes WHERE livre LIKE 'Les misérables%';
QUERY PLAN
--------------------------------------------------------------------------------
Gather (cost=1000.00..525328.76 rows=75173 width=123)
Workers Planned: 2
-> Parallel Seq Scan on textes (cost=0.00..516811.46 rows=31322 width=123)
Filter: (livre ~~ 'Les misérables%'::text)
Ce nouvel index est alors construit sur la comparaison brute des valeurs octales de tous les caractères
qu’elle contient. Il devient alors trivial pour l’optimiseur de faire la réécriture :
EXPLAIN SELECT * FROM textes WHERE livre LIKE 'Les misérables%';
QUERY PLAN
-------------------------------------------------------------------------------
Index Scan using textes_livre_idx1 on textes (cost=0.69..70406.87 rows=75173
↪ width=123)
Index Cond: ((livre ~>=~ 'Les misérables'::text) AND (livre ~<~ 'Les
↪ misérablet'::text))
Filter: (livre ~~ 'Les misérables%'::text)
Cela convient pour un LIKE 'critère%', car le début est fixe, et l’ordre de tri n’influe pas sur
le résultat. Par contre cela ne permet toujours pas d’indexer LIKE %critère%. Noter la clause
Filter qui filtre en deuxième intention ce qui a pu être trouvé dans l’index.
Il existe quelques autres cas d’utilisation d’opclass alternatives, notamment pour utiliser d’autres
types d’index que B‑tree. Deux exemples :
44 Techniques d’indexation
DALIBO Formations
Pour plus de détails à ce sujet, se référer à la section correspondant aux classes d’opérateurs8 .
1.5.10 Conclusion
® – Responsabilité de l’indexation
– Compréhension des mécanismes
– Différents types d’index, différentes stratégies
L’indexation d’une base de données est souvent un sujet qui est traité trop tard dans le cycle de
l’application. Lorsque celle‑ci est gérée à l’étape du développement, il est possible de bénéficier de
l’expérience et de la connaissance des développeurs. La maîtrise de cette compétence est donc idéa‑
lement transverse entre le développement et l’exploitation.
Le fonctionnement d’un index B‑tree est somme toute assez simple, mais il est important de bien
l’appréhender pour comprendre les enjeux d’une bonne stratégie d’indexation.
PostgreSQL fournit aussi d’autres types d’index moins utilisés, mais très précieux dans certaines si‑
tuations : BRIN, GIN, GiST, etc.
8
https://www.postgresql.org/docs/current/static/indexes‑opclass.html
Techniques d’indexation 45
DALIBO Formations
1.6 QUIZ
https://dali.bo/j4_quiz
®
46 Techniques d’indexation
DALIBO Formations
Cette série de question utilise la base magasin. La base magasin peut être téléchargée depuis https:
//dali.bo/tp_magasin (dump de 96 Mo, pour 667 Mo sur le disque au final). Elle s’importe de manière
très classique (une erreur sur le schéma public déjà présent est normale), ici dans une base nommée
aussi magasin :
curl -L https://dali.bo/tp_magasin -o magasin.dump
pg_restore -d magasin magasin.dump
Toutes les données sont dans deux schémas nommés magasin et facturation.
Créer la requête affichant l’intégralité des commandes passées au mois de janvier 2014.
Nous souhaitons désormais afficher les résultats à l’utilisateur par ordre de date croissante.
Réécrire la requête par ordre de date croissante. Afficher de nouveau son plan. Que constate‑t‑
on ?
Maintenant, étudions l’impact des index pour une opération de jointure. Le besoin fonctionnel est
désormais de lister toutes les commandes associées à un client (admettons, dont le client_id vaut
3), avec les informations du client lui‑même.
Techniques d’indexation 47
DALIBO Formations
1.7.2 Sélectivité
48 Techniques d’indexation
DALIBO Formations
Toutes les données sont dans deux schémas nommés magasin et facturation.
Pour répondre aux exigences de stockage, l’application a besoin de pouvoir trouver rapidement les
produits dont le volume est compris entre certaines bornes (nous négligeons ici le facteur de forme,
qui est problématique dans le cadre d’un véritable stockage en entrepôt !).
Écrire une requête permettant de renvoyer l’ensemble des produits (table magasin.produits)
dont le volume ne dépasse pas 1 litre (les unités de longueur sont en mm, 1 litre = 1 000 000
mm³).
Quel index permet d’optimiser cette requête ? (Utiliser une fonction est possible, mais pas obli‑
gatoire.)
Techniques d’indexation 49
DALIBO Formations
Écrire une requête pour obtenir les commandes dont la quantité est comprise entre 1 et 8 pro‑
duits.
Faire le test avec les commandes dont la quantité est comprise entre 1 et 4 produits.
50 Techniques d’indexation
DALIBO Formations
Tout d’abord, nous positionnons le search_path pour chercher les objets du schéma magasin :
SET search_path = magasin;
Considérons le cas d’usage d’une recherche de commandes par date. Le besoin fonctionnel est le
suivant : renvoyer l’intégralité des commandes passées au mois de janvier 2014.
Créer la requête affichant l’intégralité des commandes passées au mois de janvier 2014.
QUERY PLAN
-----------------------------------------------------------------------
Seq Scan on commandes (cost=0.00..25158.00 rows=19674 width=50)
(actual time=2.436..102.300 rows=19204 loops=1)
Filter: ((date_commande >= '2014-01-01'::date)
AND (date_commande < '2014-02-01'::date))
Rows Removed by Filter: 980796
Buffers: shared hit=10158
Planning time: 0.057 ms
Execution time: 102.929 ms
Réécrire la requête par ordre de date croissante. Afficher de nouveau son plan. Que constate‑t‑
on ?
QUERY PLAN
-----------------------------------------------------------------------------
Sort (cost=26561.15..26610.33 rows=19674 width=50)
(actual time=103.895..104.726 rows=19204 loops=1)
Techniques d’indexation 51
DALIBO Formations
On constate ici que lors du parcours séquentiel, 980 796 lignes ont été lues, puis écartées car ne cor‑
respondant pas au prédicat, nous laissant ainsi avec un total de 19 204 lignes. Les valeurs précises
peuvent changer, les données étant générées aléatoirement. De plus, le tri a été réalisé en mémoire.
On constate de plus que 10 158 blocs ont été parcourus, ici depuis le cache, mais ils auraient pu l’être
depuis le disque.
Création de l’index :
CREATE INDEX idx_commandes_date_commande ON commandes(date_commande);
QUERY PLAN
----------------------------------------------------------
Index Scan using idx_commandes_date_commande on commandes
(cost=0.42..822.60 rows=19674 width=50)
(actual time=0.015..3.311 rows=19204
Index Cond: ((date_commande >= '2014-01-01'::date)
AND (date_commande < '2014-02-01'::date))
Buffers: shared hit=254
Planning time: 0.074 ms
Execution time: 4.133 ms
Le temps d’exécution a été réduit considérablement : la requête est 25 fois plus rapide. On constate
notamment que seuls 254 blocs ont été parcourus.
Pour la requête avec la clause ORDER BY, nous obtenons le plan d’exécution suivant :
QUERY PLAN
----------------------------------------------------------
Index Scan using idx_commandes_date_commande on commandes
(cost=0.42..822.60 rows=19674 width=50)
(actual time=0.032..3.378 rows=19204
Index Cond: ((date_commande >= '2014-01-01'::date)
AND (date_commande < '2014-02-01'::date))
Buffers: shared hit=254
52 Techniques d’indexation
DALIBO Formations
Celui‑ci est identique ! En effet, l’index permettant un parcours trié, l’opération de tri est ici « gra‑
tuite ».
Écrire la requête affichant commandes.nummero_commande et clients.type_client
pour client_id = 3. Afficher son plan. Que constate‑t‑on ?
QUERY PLAN
--------------------------------------------------------------------------
Nested Loop (cost=0.29..22666.42 rows=11 width=101)
(actual time=8.799..80.771 rows=14 loops=1)
Buffers: shared hit=10161
-> Index Scan using clients_pkey on clients
(cost=0.29..8.31 rows=1 width=51)
(actual time=0.017..0.018 rows=1 loops=1)
Index Cond: (client_id = 3)
Buffers: shared hit=3
-> Seq Scan on commandes (cost=0.00..22658.00 rows=11 width=50)
(actual time=8.777..80.734 rows=14 loops=1)
Filter: (client_id = 3)
Rows Removed by Filter: 999986
Buffers: shared hit=10158
Planning time: 0.281 ms
Execution time: 80.853 ms
QUERY PLAN
--------------------------------------------------------------------------------
Nested Loop (cost=4.80..55.98 rows=11 width=101)
(actual time=0.064..0.189 rows=14 loops=1)
Buffers: shared hit=23
-> Index Scan using clients_pkey on clients
(cost=0.29..8.31 rows=1 width=51)
(actual time=0.032..0.032 rows=1 loops=1)
Index Cond: (client_id = 3)
Buffers: shared hit=6
-> Bitmap Heap Scan on commandes (cost=4.51..47.56 rows=11 width=50)
(actual time=0.029..0.147
rows=14 loops=1)
Recheck Cond: (client_id = 3)
Techniques d’indexation 53
DALIBO Formations
On constate ici un temps d’exécution divisé par 160 : en effet, on ne lit plus que 17 blocs pour la com‑
mande (3 pour l’index, 14 pour les données) au lieu de 10 158.
1.8.2 Sélectivité
Écrire une requête renvoyant l’intégralité des clients qui sont du type entreprise (‘E’), une autre
pour l’intégralité des clients qui sont du type particulier (‘P’).
Les requêtes :
SELECT * FROM clients WHERE type_client = 'P';
SELECT * FROM clients WHERE type_client = 'E';
QUERY PLAN
--------------------------------------------------------------------
Seq Scan on clients (cost=0.00..2276.00 rows=89803 width=51)
(actual time=0.006..12.877 rows=89800 loops=1)
Filter: (type_client = 'P'::bpchar)
Rows Removed by Filter: 10200
Planning time: 0.374 ms
Execution time: 16.063 ms
QUERY PLAN
--------------------------------------------------------------------------
Bitmap Heap Scan on clients (cost=154.50..1280.84 rows=8027 width=51)
(actual time=2.094..4.287 rows=8111 loops=1)
Recheck Cond: (type_client = 'E'::bpchar)
Heap Blocks: exact=1026
54 Techniques d’indexation
DALIBO Formations
L’optimiseur sait estimer, à partir des statistiques (consultables via la vue pg_stats), qu’il y a ap‑
proximativement 89 000 clients particuliers, contre 8 000 clients entreprise.
Dans le premier cas, la majorité de la table sera parcourue, et renvoyée : il n’y a aucun intérêt à utiliser
l’index.
Dans l’autre, le nombre de lignes étant plus faible, l’index est bel et bien utilisé (via un Bitmap Scan,
ici).
Sur la base fournie pour les TPs, les lots non livrés sont constamment requêtés. Notamment, un
système d’alerte est mis en place afin d’assurer un suivi qualité sur les lots expédié depuis plus
de 3 jours (selon la date d’expédition), mais non réceptionné (date de réception à NULL).
Écrire la requête correspondant à ce besoin fonctionnel (il est normal qu’elle ne retourne rien).
Le plans (ci‑dessous avec ANALYZE) opère un Seq Scan parallélisé, lit et rejette toutes les lignes, ce
qui est évidemment lourd :
QUERY PLAN
---------------------------------------------------------------
Gather (cost=1000.00..17764.65 rows=1 width=43) (actual time=28.522..30.993 rows=0
↪ loops=1)
Workers Planned: 2
Workers Launched: 2
-> Parallel Seq Scan on lots (cost=0.00..16764.55 rows=1 width=43) (actual
↪ time=24.887..24.888 rows=0 loops=3)
Filter: ((date_reception IS NULL) AND (date_expedition < (now() - '3
↪ days'::interval)))
Rows Removed by Filter: 335568
Planning Time: 0.421 ms
Execution Time: 31.012 ms
Techniques d’indexation 55
DALIBO Formations
On peut optimiser ces requêtes sur les critères de recherche à l’aide des index partiels suivants :
EXPLAIN (ANALYZE)
SELECT * FROM lots
WHERE date_reception IS NULL
AND date_expedition < now() - '3d'::interval;
QUERY PLAN
---------------------------------------------------------------
Index Scan using lots_date_expedition_idx on lots (cost=0.13..4.15 rows=1
↪ width=43) (actual time=0.008..0.009 rows=0 loops=1)
Index Cond: (date_expedition < (now() - '3 days'::interval))
Planning Time: 0.243 ms
Execution Time: 0.030 ms
Il est intéressant de noter que seul le test sur la condition indexée (date_expedition) est présent
dans le plan : la condition date_reception IS NULL est implicitement validée par l’index par‑
tiel.
Attention, il peut être tentant d’utiliser une formulation de la sorte pour ces requêtes :
D’un point de vue logique, c’est la même chose, mais l’optimiseur n’est pas capable de réécrire cette
requête correctement. Ici, le nouvel index sera tout de même utilisé, le volume de lignes satisfaisant
au critère étant très faible, mais il ne sera pas utilisé pour filtrer sur la date :
QUERY PLAN
-------------------------------------------------------------------
Index Scan using lots_date_expedition_idx on lots
(cost=0.12..4.15 rows=1 width=43)
(actual time=0.007..0.007 rows=0 loops=1)
Filter: ((now() - (date_expedition)::timestamp with time zone) >
'3 days'::interval)
Planning time: 0.204 ms
Execution time: 0.132 ms
La ligne importante et différente ici concerne le Filter en lieu et place du Index Cond du plan
précédent. Ici tout l’index partiel (certes tout petit) est lu intégralement et les lignes testées une à
une.
C’est une autre illustration des points vus précédemment sur les index non utilisés.
56 Techniques d’indexation
DALIBO Formations
Ce TP utilise la base magasin. La base magasin peut être téléchargée depuis https://dali.bo/tp_mag
asin (dump de 96 Mo, pour 667 Mo sur le disque au final). Elle s’importe de manière très classique (une
erreur sur le schéma public déjà présent est normale), ici dans une base nommée aussi magasin :
curl -L https://dali.bo/tp_magasin -o magasin.dump
pg_restore -d magasin magasin.dump
Toutes les données sont dans deux schémas nommés magasin et facturation.
Écrire une requête permettant de renvoyer l’ensemble des produits (table magasin.produits)
dont le volume ne dépasse pas 1 litre (les unités de longueur sont en mm, 1 litre = 1 000 000
mm³).
Quel index permet d’optimiser cette requête ? (Utiliser une fonction est possible, mais pas obli‑
gatoire.)
L’option la plus simple est de créer l’index de cette façon, sans avoir besoin d’une fonction :
CREATE INDEX ON produits((longueur * hauteur * largeur));
En général, il est plus propre de créer une fonction. On peut passer la ligne entière en paramètre pour
éviter de fournir 3 paramètres. Il faut que cette fonction soit IMMUTABLE pour être indexable :
CREATE OR REPLACE function volume (p produits)
RETURNS numeric
AS $$
SELECT p.longueur * p.hauteur * p.largeur;
$$ language SQL
PARALLEL SAFE
IMMUTABLE ;
(Elle est même PARALLEL SAFE pour la même raison qu’elle est IMMUTABLE : elle dépend unique‑
ment des données de la table.)
On peut ensuite indexer le résultat de cette fonction :
CREATE INDEX ON produits (volume(produits)) ;
Il est ensuite possible d’écrire la requête de plusieurs manières, la fonction étant ici écrite en SQL et
non en PL/pgSQL ou autre langage procédural :
SELECT * FROM produits WHERE longueur * hauteur * largeur < 1000000 ;
SELECT * FROM produits WHERE volume(produits) < 1000000 ;
En effet, l’optimiseur est capable de « regarder » à l’intérieur de la fonction SQL pour déterminer que
les clauses sont les mêmes, ce qui n’est pas vrai pour les autres langages.
En revanche, la requête suivante, où la multiplication est faite dans un ordre différent, n’utilise pas
l’index :
Techniques d’indexation 57
DALIBO Formations
et c’est notamment pour cette raison qu’il est plus propre d’utiliser la fonction.
De part l’origine « relationnel‑objet » de PostgreSQL, on peut même écrire la requête de la manière
suivante :
SELECT * FROM produits WHERE produits.volume < 1000000;
QUERY PLAN
-------------------------------------------------------------------------
Seq Scan on lignes_commandes
(cost=0.00..89331.51 rows=15710 width=74)
(actual time=0.024..1395.705 rows=6 loops=1)
Filter: ((numero_lot_expedition)::numeric = '190774'::numeric)
Rows Removed by Filter: 3141961
Buffers: shared hit=97 read=42105
Planning time: 0.109 ms
Execution time: 1395.741 ms
Le moteur fait un parcours séquentiel et retire la plupart des enregistrements pour n’en conserver que
6.
Créer un index pour améliorer son exécution.
L’index n’est pas utilisé à cause de la conversion bigint vers numeric. Il est important d’utiliser les
bons types :
EXPLAIN (ANALYZE,BUFFERS)
SELECT * FROM lignes_commandes
WHERE numero_lot_expedition = '190774' ;
QUERY PLAN
--------------------------------------------------------------------------
Index Scan using lignes_commandes_numero_lot_expedition_idx
on lignes_commandes
(cost=0.43..8.52 rows=5 width=74)
(actual time=0.054..0.071 rows=6 loops=1)
Index Cond: (numero_lot_expedition = '190774'::bigint)
Buffers: shared hit=1 read=4
Planning time: 0.325 ms
Execution time: 0.100 ms
58 Techniques d’indexation
DALIBO Formations
Sans conversion la requête est bien plus rapide. Faites également le test sans index, le Seq Scan sera
également plus rapide, le moteur n’ayant pas à convertir toutes les lignes parcourues.
Écrire une requête pour obtenir les commandes dont la quantité est comprise entre 1 et 8 pro‑
duits.
QUERY PLAN
---------------------------------------------------------------------------
Seq Scan on lignes_commandes
(cost=0.00..89331.51 rows=2504357 width=74)
(actual time=0.108..873.666 rows=2512740 loops=1)
Filter: ((quantite >= 1) AND (quantite <= 8))
Rows Removed by Filter: 629227
Buffers: shared hit=16315 read=25887
Planning time: 0.369 ms
Execution time: 1009.537 ms
La table pg_stats nous donne des informations de statistiques. Par exemple, pour la répartition
des valeurs pour la colonne quantite:
SELECT * FROM pg_stats
WHERE tablename='lignes_commandes' AND attname='quantite'
\gx
…
n_distinct | 10
most_common_vals | {0,6,1,8,2,4,7,9,5,3}
most_common_freqs | {0.1037,0.1018,0.101067,0.0999333,0.0999,0.0997,
0.0995,0.0992333,0.0978333,0.0973333}
…
Ces quelques lignes nous indiquent qu’il y a 10 valeurs distinctes et qu’il y a environ 10 %
d’enregistrements correspondant à chaque valeur.
Avec le prédicat quantite BETWEEN 1 and 8, le moteur estime récupérer environ 80 % de la
table. Il est donc bien plus coûteux de lire l’index et la table pour récupérer 80 % de la table. C’est
pourquoi le moteur fait un Seq Scan qui moins coûteux.
Faire le test avec les commandes dont la quantité est comprise entre 1 et 4 produits.
Techniques d’indexation 59
DALIBO Formations
QUERY PLAN
------------------------------------------------------------------------
Bitmap Heap Scan on lignes_commandes
(cost=26538.09..87497.63 rows=1250503 width=74)
(actual time=206.705..580.854 rows=1254886 loops=1)
Recheck Cond: ((quantite >= 1) AND (quantite <= 4))
Heap Blocks: exact=42202
Buffers: shared read=45633
-> Bitmap Index Scan on lignes_commandes_quantite_idx
(cost=0.00..26225.46 rows=1250503 width=0)
(actual time=194.250..194.250 rows=1254886 loops=1)
Index Cond: ((quantite >= 1) AND (quantite <= 4))
Buffers: shared read=3431
Planning time: 0.271 ms
Execution time: 648.414 ms
(9 rows)
Cette fois, la sélectivité est différente et le nombre d’enregistrements moins élevé. Le moteur passe
donc par un parcours d’index.
Cet exemple montre qu’on indexe selon une requête et non selon une table.
60 Techniques d’indexation
Les formations Dalibo
61
DALIBO Formations
Téléchargement gratuit
Les versions électroniques de nos publications sont disponibles gratuitement sous licence open
source ou sous licence Creative Commons.
62 Techniques d’indexation