Les index de tables PostgreSQL

Intérêt

L'utilisation d'index est une façon habituelle d'améliorer les performances d'une base de données.
Un index permet au serveur de retrouver une ligne spécifique bien plus rapidement.
Les index ajoutent aussi une surcharge de calcul au système de base de données dans son ensemble.
Ils doivent donc être utilisés avec discernement.

Le principe des index de tables est comparable à celui de l'index présent dans un livre : les termes et concepts fréquemment recherchés par les lecteurs sont listés par ordre alphabétique à la fin du livre. Le lecteur qui recherche un mot particulier peut facilement parcourir l'index, puis aller directement à la page (ou aux pages) indiquée(s). De la même façon que l'auteur doit anticiper les sujets que les lecteurs risquent de rechercher, il est de la responsabilité du programmeur de prévoir les index qui sont utiles.

Le principe des index

Cette figure illustre la façon dont sont recherchés des champs indexés par une valeur numérique.

Création d'un index

CREATE INDEX construit un index sur les colonnes spécifiées de la table visée.
Un champ d'index peut être une expression calculée à partir des valeurs d'une ou plusieurs colonnes de la ligne de table. Ceci permet d'accélérer l'accès à des données obtenues par transformation des données basiques, par exemple un index sur upper(col) utilisera l'index pour la clause WHERE upper(col) = 'LOUIS'.
Les méthodes d'indexation possibles sont B-TREE (arbres balancés), HASH (hachage), GIST (arbres de recherche généralisés) et GIN.
La clause WHERE permet de restreindre l'indexation à une certaine portion de la table
La clause UNIQUE imposera d'indexer une colonne dont la valeur est unique sur la partie indexée.

Les fonctions et opérateurs utilisés dans la définition d'index doivent être immutables, c'est à dire que leur résultat ne doit dépendre que de leurs arguments et jamais d'une influence externe (par exemple le contenu d'une autre table ou l'heure). Cette restriction permet de s'assurer que le comportement de l'index est strictement défini.

Il est possible de définir des méthodes d'indexation utilisateur.

La clause WHERE a la même syntaxe que celle utilisée lors d'un SELECT.

La clause UNIQUE entraînera une erreur si l'indexation est appliquée sur des valeurs répétées.

Création d'un index

La syntaxe générale de création est :

CREATE [ UNIQUE ] INDEX [ CONCURRENTLY ] nom ON table
    [ USING méthode ]
    ( { colonne | ( expression ) } [ classeop ]
    [ ASC | DESC ] [ NULLS { FIRST | LAST } ] [, ...] )
    [ WITH ( parametre_stockage = valeur [, ... ] ) ]
    [ TABLESPACE espacelogique ]
    [ WHERE prédicat ]

Exemple :

CREATE INDEX villes_idx ON villes (nom)
       WHERE nom like '_____';

pour qu'un index puisse être utilisé sur une recherche de type LIKE 'prefixe%' il faudra créer l'index avec l'option text_pattern_ops comme par exemple :

CREATE INDEX villes_idx ON villes (nom text_pattern_ops)

Création d'un index

L'indexation est une opération qui peut être assez longue surtout sur des grosses tables.
Par défaut durant l'indexation la lecture est autorisée mais pas l'écriture.
La clause CONCURRENTLY permet d'activer simultanément écriture et indexation.
Il est possible de créer plusieurs index sur la même colonne permettant ainsi d'accélérer le traitement sur plusieurs modes de recherche de la colonne.

Rendre l'écriture et l'indexation possible augmente considérablement la durée de l'indexation (2 à 3 fois plus long). Cette fonctionnalité sera donc à n'utiliser que s'il est absolument nécessaire de réaliser simultanément les 2 opérations.

Maintenance d'un index

L'appel de ANALYSE nom_table collecte les informations sur la distribution des valeurs dans la table. Cette information est nécessaire pour estimer le nombre de lignes retournées par une requête.
Préfixer une requête par EXPLAIN n'exécutera pas la requête, mais indiquera la façon dont le planificateur traitera la commande.
Si un index est pertinent pour une requête donnée, celui-ci devra apparaître dans le rapport fourni par EXPLAIN.
L'appel de REINDEX {TABLE|INDEX} nom_table_ou_index régénérera les index visés.
L'appel de DROP INDEX nom_index détruira un index.

L'opération de reindexation n'est à priori nécessaire que dans quelques rares circonstances telle que la réduction significative du nombre de lignes dans une table. Dans ce cas cette opération réduira la taille de cet index au strict nécessaire en éliminant ainsi toute référence sur des lignes mortes.

Exemple d'utilisation des index

Création de 2 index, le premier sur le nom des villes, le second sur les villes dont le nom contient 5 caractères :

CREATE INDEX villes_nom_idx ON villes (nom);
CREATE INDEX villes_len_idx ON villes (nom)
       WHERE nom like '_____';

analyse d'une requête de recherche par nom d'une ville :

EXPLAIN SELECT * FROM villes WHERE nom = 'Toulouse';
                                 QUERY PLAN                                  
--------------------------------------------------------------------
 Index Scan using villes_nom_idx on villes  (cost=0.00..8.27
                                             rows=1 width=50)
   Index Cond: ((nom)::text = 'Toulouse'::text)
(2 lignes)

Pour la lisibilité il est également possible de forcer l'affichage dans l'un des formats TEXT (par défaut), JSON, XML ou YAML par la directive (FORMAT nom_du_format) comme l'illustre l'exemple suivant :

EXPLAIN (FORMAT JSON) SELECT * FROM villes WHERE nom = 'Toulouse';
                   QUERY PLAN                   
------------------------------------------------
 [                                             +
   {                                           +
     "Plan": {                                 +
       "Node Type": "Index Scan",              +
       "Scan Direction": "Forward",            +
       "Index Name": "villes_nom_idx",         +
       "Relation Name": "villes",              +
       "Alias": "villes",                      +
       "Startup Cost": 0.00,                   +
       "Total Cost": 8.27,                     +
       "Plan Rows": 1,                         +
       "Plan Width": 50,                       +
       "Index Cond": "(nom = 'Toulouse'::text)"+
     }                                         +
   }                                           +
 ]
(1 ligne)

Exemple d'utilisation des index

analyse d'une requête de recherche par de nom de ville à 5 caractères :

EXPLAIN SELECT * FROM villes WHERE nom LIKE '_____';
                                 QUERY PLAN                                      
--------------------------------------------------------------------
 Bitmap Heap Scan on villes  (cost=43.07..435.52 rows=1476 width=50)
   Recheck Cond: ((nom)::text ~~ '_____'::text)
   ->  Bitmap Index Scan on villes_len_idx  (cost=0.00..42.71
                                             rows=1476 width=0)
(3 lignes)

analyse d'une requête de recherche par de nom de ville à 2 caractères :

EXPLAIN SELECT * FROM villes WHERE nom LIKE '__';
                        QUERY PLAN                         
-----------------------------------------------------------
 Seq Scan on villes  (cost=0.00..832.48 rows=383 width=50)
   Filter: ((nom)::text ~~ '__'::text)
(2 lignes)

On remarque que les requêtes indexées utilisent bien les index comme le fait like '_____' ce qui n'est pas le cas lors de recherche non indexée comme pour l'opérateur like '__'.

Clusteriser une table sur un index

Le but d'un index est de minimiser le parcours d'une table.
Hélas dans certains cas l'utilisation d'un index conduit malgré tout à un chargement quasi complet dans le cache de la table à parcourir.
Ceci se produit notamment :
- lorsque l'index pointe plusieurs valeurs réparties sur différentes pages,
- et si les pages visées contiennent une majorité de valeurs hors de l'index à parcourir.
Pour éviter cela il suffit d'écrire la table dans l'ordre de parcours de l'index. C'est la clusterisation.

Exemple de clusterisation de la table villes :

CLUSTER villes USING villes_nom_idx;
CLUSTER

L'opération de clusterisation n'est possible que sur les index de type BTREE.

Pour obtenir de l'aide

Les index sur le site officiel de PostgreSQL :

Les index : docs.postgresql.fr/current/indexes.html
Examiner les index : docs.postgresql.fr/current/indexes-examine.html

Autres sites

Explications générales sur le fonctionnement des bases de données : ducmanhphan.github.io/2020-01-19-How-relational-database-works
Comment améliorer les temps de réponse des requêtes avec EXPLAIN : www.bortzmeyer.org/explain-postgresql.html

Aide interne par `psql` :

pour afficher les index présents sur la base de données :
```
\diS+
```
pour afficher les caractéristiques d'un index particulier :
```
\diS+ nom_index
```
pour afficher la table concernée par un index particulier :
```
\dS+ nom_index
```

Formation développement avancé PostgreSQL

Les index de tables

Intérêt

Le principe des index

Création d'un index

Création d'un index

Création d'un index

Maintenance d'un index

Exemple d'utilisation des index

Exemple d'utilisation des index

Clusteriser une table sur un index

Pour obtenir de l'aide

Les index sur le site officiel de PostgreSQL :

Autres sites

Aide interne par psql :

Aide interne par `psql` :