Formation administration PostgreSQL

La maintenance des données

Introduction

Comme tout ce qui contient des données importantes, les bases de données PostgreSQL doivent être sauvegardées régulièrement.
Il existe trois approches fondamentalement différentes pour sauvegarder les données :
- la sauvegarde format SQL ou dans un format compatible avec pg_restore,
- la sauvegarde au niveau du système de fichiers,
- l'archivage continu.

Il n'y a pas de méthode de sauvegarde qui soit meilleure qu'une autre. Chacune est à utiliser dans le contexte le plus approprié.

La sauvegarde SQL

Le principe est de produire un fichier de commandes SQL contenant la liste des commandes permettant la régénération complète de la base de données.
L'intérêt de cette approche est :
- d'être indépendant de la version de PostgreSQL,
- d'être indépendant de l'architecture matérielle.
La commande pg_dump remplit cette fonction.
pg_dump produit en sortie (par STDOUT) le flux textuel correspondant à l'ensemble des commandes SQL.

Exemple :

pg_dump ma_database > mon_fichier_de_sauvegarde

Cette approche permet également de faire des échanges de données vers des systèmes SQL autres que PostgreSQL, bien sûr en cas d'utilisations de spécificités PostgreSQL une tâche de portage est à prévoir.

La sauvegarde SQL

pg_dump est un client PostgreSQL permettant ainsi des connexions distantes.
Il est possible de limiter la sauvegarde à un schéma, à une table ...
Pour se connecter il faudra lui indiquer :
- un nom de machine (ou adresse IP) (option -h)
- un numéro de port (option -p),
- un nom d'utilisateur (option -U),
- éventuellement un mot de passe qui sera automatiquement demandé.
Pour permettre la sauvegarde pg_dump doit disposer des droits de lecture sur l'ensemble des éléments à sauvegarder.
Il est donc plus pratique d'effectuer les sauvegardes en administrateur de PostgreSQL.

le client pg_dump ne dispose évidemment d'aucun droit particulier, le serveur ne pratiquant l'authentification que sur les informations lui étant transmises lors de la connexion. Il sera grandement facilité de se connecter à partir du compte UNIX postgres, car la commande se comportera comme psql, et le mécanisme des sockets UNIX se mettra en œuvre à moins que celui-ci soit interdit par la configuration (voir le fichier pg_hba.conf).

La sauvegarde SQL

Les sauvegardes créées par pg_dump sont cohérentes.
La sauvegarde représente une image de la base de données au moment où commence l'exécution de pg_dump.
pg_dump ne bloque pas les autres opérations sur la base à l'exception de celles nécessitant un verrou exclusif.
Dans ce cas, selon l'ordre d'arrivée :
- soit la sauvegarde débutera dès que le verrou sera relâché,
- soit la sauvegarde prendra le verrou, puis le relâchera une fois l'action terminée.

Les modifications structurelles des tables ALTER TABLE sont parmi les opérations bloquantes ou bloquées.

La sauvegarde SQL

pg_dump ne sauvegarde qu'une seule base de données.
Les informations des rôles et des tablespaces portant sur le cluster ne sont pas sauvegardées.
La commande pg_dumpall permet une sauvegarde de tout le contenu d'un cluster.
pg_dumpall exigera d'être lancé en administrateur.
L'option --clean permet de supprimer les bases de données avant de les régénérer.

Exemple :

pg_dumpall -U postgres --clean > fichier_du_cluster

L'option --globals-only permet de ne sauvegarder que les informations globales : utilisateurs et tablespaces.

La sauvegarde des OIDs n'est plus disponible depuis la version 12.

La restauration SQL

Les fichiers créés par pg_dump peuvent être lus par psql.
Le mécanisme couramment utilisé est celui des flux :
```
cat mon_fichier_de_sauvegarde | psql ma_database
```
La base de données ma_database n'est pas créée par cette commande :
- elle peut être créée par exemple à partir de template0 par la commande :
```
createdb -T template0 base_de_donnees
```
- les différents rôles utilisés par la restauration doivent exister.
En cas d'erreur lors du chargement d'un fichier, son analyse se poursuit. Pour modifier ce comportement 2 modes sont possibles :
- l'activation de l'arrêt sur erreur par l'option --set ON_ERROR_STOP=on,
- la restauration en mode transaction par l'option --single-transaction.

Il est souvent préférable d'annuler une sauvegarde plutôt que d'avoir une restauration partielle de la base de données. C'est la raison pour laquelle le mode de restauration dans une transaction est le mieux approprié.

Si l'option --create à été utilisée avec pg_dump alors il ne sera pas nécessaire de créer la base car l'instruction de création est dans se cas contenue dans le fichier de sauvegarde.

La restauration SQL

La souplesse des commandes UNIX permet de faire :
- des transferts directs d'un serveur vers un autre :
```
pg_dump ma_database | psql -h autre_serveur la_bdd
```
- de la compression à la volée :
```
pg_dump ma_database | bzip2 > mon_fichier_arch.bz2
```
- du découpage en petits fichiers :
```
pg_dump ma_database | split -b 100m - mon_fichier
```
- des archivages planifiés par mise en place de commandes dans la crontab
- ...

Il est très souvent pratique de réaliser des procédures de synchronisation automatiques entre différents serveurs PostgreSQL. Ceci est facilement réalisable par ajout d'une ligne dans la crontab. Par exemple pour faire une synchronisation toutes les nuits de dimanche à lundi à 3:00 il suffit d'insérer :

0 3 * * 1 pg_dump ma_database | psql -h serveur_mirroir db_mirroir.

La restauration par `pg_restore`

La commande pg_restore permet de réaliser des restaurations partielles.
Il sera ainsi possible de remettre en place :
- une table, une vue,
- un schéma, ...
Pour être applicable il faudra disposer d'une archive générée par pg_dump dans l'un des formats suivants :
- custom précisé par l'option --format=custom,
- directory précisé par l'option --format=directory,
- tar précisé par l'option --format=tar.

Seul le format SQL accessible par --format=plain depuis pg_dump (format par défaut) ne permet pas de restauration par pg_restore.

La restauration par `pg_restore`

Exemple de sauvegarde de la base de données test_postgres dans le fichier test_postgres.tar au format tar :

pg_dump --username=postgres --dbname=test_postgres\
              --verbose --format=tar --file=test_postgres.tar
pg_dump: last built-in OID is 16383
pg_dump: reading extensions
pg_dump: identifying extension members
pg_dump: reading schemas
...

Exemple de restauration de la table villes du schéma geo_france de la base de données test_postgres située dans le fichier généré précédemment :

pg_restore --username=postgres --dbname=test_postgres\
                 --table=villes --schema=geo_france\
                 --verbose test_postgres.tar
pg_restore: connecting to database for restore
pg_restore: creating TABLE "geo_france.villes"
pg_restore: processing data for table "geo_france.villes"

Si le schéma n'est pas précisé alors toutes les tables du nom indiqué seront restaurées.

L'option --clean de pg_restore permet de détruire les objets avant de les régénérer.

Le chiffrement des données

Pour réaliser des archives chiffrées on aura recours à l'utilisation de commandes externes telles que gpg.
Pour réaliser des archives compressées on aura recours à l'utilisation de commandes externes telles que gzip, bzip2, xz...
La commande ci dessous permet de réaliser l'opération de compression + chiffrement du contenu complet d'un cluster :
```
pg_dumpall -U postgres | xz |\
      gpg -r marc -o - --encrypt dump_all.xz.gpg
```
La commande ci dessous permet de réaliser l'opération inverse de déchiffrement + décompression + restauration d'un cluster :
```
gpg -r marc -o - dump_all.xz.gpg |\
      xz -d | psql -U postgres
```

Pour pouvoir utiliser gpg il sera nécessaire d'avoir configuré au préalable l'environnement de stockage des clefs de chiffrement. Cesi peut se faire par l'utilisation de la commande pass comme suit :

pass init username

La commande pass est disponible depuis les dépôts de password-store.

Archivage par système de fichier

Une technique de sauvegarde consiste à copier les fichiers utilisés par PostgreSQL pour le stockage des données.
L'emplacement de ces fichiers varie d'une distribution à l'autre, sous DEBIAN ils sont par défaut dans /var/lib/postgresql/version/cluster.
N'importe quelle méthode de sauvegarde peut être utilisée, par exemple :
```
tar -jcf archive.tar.bz2 /var/lib/potgresql/9.0/ma_db
```
Une base de donnée active ne peut être sauvegardée.
L'ensemble de la base de données doit être sauvée.
Il sera donc impératif d'arrêter le serveur pour utiliser cette technique.

Il ne faut pas oublier les tablespaces qui sont généralement situées sur des partitions différentes.

On pourrait être tenté de ne sauvegarder et restaurer que certaines tables ou bases de données particulières. Ce n'est pas utilisable sans les fichiers journaux de validation pg_xact/* qui contiennent l'état de la validation de chaque transaction. Un fichier de table n'est utilisable qu'avec cette information. Il est impossible de ne restaurer qu'une table et les données pg_xact associées car cela rendrait toutes les autres tables du serveur inutilisables. Les sauvegardes du système de fichiers fonctionnent, de ce fait, uniquement pour les sauvegardes et restaurations complètes d'un cluster de bases de données.

Archivage par système de fichier

La commande rsync peut être utilisée pour un archivage.
Afin de limiter le temps d'arrêt du serveur il est conseillé de procéder ainsi :
- exécution de rsync serveur actif.
- arrêt du serveur
- exécution de rsync serveur arrêté.
- réactivation du serveur.
Une sauvegarde des fichiers de données sera généralement plus volumineuse qu'une sauvegarde SQL, mais la restauration sera plus rapide.

L'utilisation de la commande rsync en 2 étapes permet de considérablement réduire le temps d'arrêt du serveur PostgreSQL car les modifications suite à l'arrêt du serveur seront mineures entre les deux passages par rsync.

Archivage par fichiers CSV

La commande PostgreSQL COPY permet de manipuler des fichiers CSV.
L'avantage de ce format est sa lisibilité et sa compacité.
La structure de la table ne sera pas archivée par ce mécanisme.
Le chemin précisé pour le fichier est le chemin d'accès à ce fichier par le serveur.
La commande COPY existe :
- sous la forme de l'archivage COPY TO,
- sous la forme de la restauration COPY FROM.

Archivage par fichiers CSV

Syntaxe de la commande en archivage :

COPY {nom_table [(colonne [, ...])]|(requête)}
   TO '/chemin/vers/fichier'
   [WITH (option [, ...])]

Syntaxe de la commande en restauration :

COPY nom_table [(colonne [, ...])]
   FROM '/chemin/vers/fichier'
   [WITH (option [, ...])]

Si le nom du fichier utilisé est STDIN en restauration ou STDOUT en archivage l'opération sera réalisée en flux depuis le client.

Si une commande SQL est fournie à la place d'un nom de table, le résultat de cette commande sera utilisé pour la sauvegarde. C'est le moyen permettant de faire des sauvegardes partielles de tables ou de vues.

Archivage par fichiers CSV

Les options de la commande `copy`

nom	description
`FORMAT {text\|csv\|binary}`	format de transfert
`OIDS`	si présent les OIDs des lignes seront exportés
`DELIMITER 'délimiteur'`	caractère de séparation
`NULL 'chaîne_null'`	chaîne représentant la valeur NULL
`HEADER`	placera une ligne d'en-tête en CSV seulement
`QUOTE 'guillemet'`	caractère guillemet à utiliser pour mettre entre guillemets
`ESCAPE 'échappement'`	caractère d'échappement à utiliser
`FORCE_QUOTE {(colonne [, ...])\|*}`	force la mise entre guillemets sur les colonnes indiquées
`FORCE_NOT_NULL {(colonne [, ...])\|*}`	force les valeurs à ne pas être nulles

Le format par défaut text.

Archivage par fichiers CSV

Exemple d'exportation simple :

COPY departements TO '/tmp/departements.txt'
   WITH DELIMITER '|';

Exemple d'exportation partielle de table :

COPY (SELECT id_dept,nom,cp,lat,lon,pop FROM villes
   ORDER by id_dept,nom) TO '/tmp/villes.txt';

Exemple d'importation simple :

COPY departements FROM '/tmp/departements.txt'
   WITH DELIMITER '|';

Exemple d'importation organisée :

COPY villes (id_dept, nom, cp, lat, lon, pop)
   FROM '/tmp/villes.txt';

Avant d'importer une table avec COPY celle-ci doit exister au préalable.

Archivage par fichiers CSV

Il est également possible de vider partiellement une table tout en stockant les données supprimées dans un fichier CSV.
Pour cela il faudra utiliser la commande DELETE accompagnée de la directive RETURNING liste de colonnes.

Exemple d'exportation partielle avec suppression des lignes exportées :

COPY (DELETE FROM villes
   WHERE nom ILIKE '%lille%' RETURNING nom,pop,lon,lat)
   TO '/tmp/villes_part.txt'
   WITH (FORMAT CSV,
         FORCE_QUOTE (nom), -- afin de tester les quotes
         HEADER true);      -- on veut la ligne d'entête

Contenu du fichier /tmp/villes_part.txt :

nom,pop,lon,lat
"Lille",225784,3.0666,50.6332
"Lillebonne",9310,0.55,49.5167
"Lillemer",225,-1.8666,48.5666
...

Avant d'importer une table avec COPY celle-ci doit exister au préalable.

Montée en version

Le problème de mise à jour de l'espace de stockage se pose lors de montée de version majeure.
Ceci ne concerne pas les versions dont seul le dernier chiffre change :
- le passage de 11 à 12 exige une mise à jour,
- le passage de 11.1 à 11.4 n'exige pas de mise à jour.
Depuis le version 8.4 l'utilitaire pg_upgrade permet de réaliser cette opération.
Cette commande effectue au préalable la vérification de la possibilité de montée en version.
l'option --link permet de réaliser une arborescence fondée sur des liens physiques permettant ainsi d'éviter une consommation excessive de temps et d'espace.

Il est cependant toujours possible de réaliser ce transfert uniquement via la commande pg_dumpall.

Montée en version

Pour utiliser pg_upgrade il faut :
- interrompre le service associé au cluster à monter en version,
- créer un cluster dans la nouvelle version par initdb,
- appliquer la commande pg_upgrade avec les arguments suivants :
  - l'ancien répertoire des binaires : -b old_bin_directory,
  - le nouveau répertoire des binaires : -B new_bin_directory,
  - l'ancien répertoire des données : -d old_data_directory,
  - le nouveau répertoire des données : -D new_data_directory.

Exemple :

pg_upgrade -b /usr/pgsql/11/bin -B /usr/pgsql/12/bin \
       -d /var/lib/pg_sql/11/data -D /var/lib/pg_sql/12/data

Il conviendra bien sûr d'invoquer la commande pg_upgrade depuis la machine hébergeant le cluster à migrer et sous le nom de l'utilisateur approprié (le plus souvent postgres).

Formation administration PostgreSQL

La maintenance des données

Introduction

La sauvegarde SQL

La sauvegarde SQL

La sauvegarde SQL

La sauvegarde SQL

La restauration SQL

La restauration SQL

La restauration par `pg_restore`

La restauration par `pg_restore`

Le chiffrement des données

Archivage par système de fichier

Archivage par système de fichier

Archivage par fichiers CSV

Archivage par fichiers CSV

Archivage par fichiers CSV

Les options de la commande `copy`

Archivage par fichiers CSV

Archivage par fichiers CSV

Montée en version

Montée en version

Pour obtenir de l'aide

Sur le site officiel de PostgreSQL :

Aide sous UNIX :

Formation administration PostgreSQL

La maintenance des données

Introduction

La sauvegarde SQL

La sauvegarde SQL

La sauvegarde SQL

La sauvegarde SQL

La restauration SQL

La restauration SQL

La restauration par pg_restore

La restauration par pg_restore

Le chiffrement des données

Archivage par système de fichier

Archivage par système de fichier

Archivage par fichiers CSV

Archivage par fichiers CSV

Archivage par fichiers CSV

Les options de la commande copy

Archivage par fichiers CSV

Archivage par fichiers CSV

Montée en version

Montée en version

Pour obtenir de l'aide

Sur le site officiel de PostgreSQL :

Aide sous UNIX :

La restauration par `pg_restore`

La restauration par `pg_restore`

Les options de la commande `copy`