Comment convertir un fichier PDF en document texte sous Linux

Contrairement à un fichier texte, vous ne pouvez pas modifier directement un PDF. Il existe plusieurs façons de générer des fichiers PDF à l'aide de texte. Mais que faire si vous voulez aller dans l'autre sens et convertir des PDF en fichiers texte ?

Heureusement, Linux vous permet de modifier facilement ces fichiers depuis le terminal. Cet article montrera comment convertir un fichier PDF en un document texte sous Linux.

Convertir un PDF en texte à partir du terminal

Poppler est une bibliothèque logicielle utilisée pour rendre et modifier des fichiers PDF. Il contient un utilitaire, connu sous le nom de pdftotext , qui permet aux utilisateurs de générer des fichiers texte à partir de PDF. Étant donné que poppler-utils ne fait pas partie des packages Linux standard, vous devrez l'installer manuellement à l'aide d'un gestionnaire de packages.

Sur Ubuntu et Debian :

 sudo apt install poppler-utils

Pour installer Poppler sur Arch Linux :

 sudo pacman -S poppler

L'installation du package poppler-utils sur CentOS, Fedora et d'autres distributions basées sur RHEL est facile.

 sudo dnf install poppler-utils
sudo yum install poppler-utils

Convertir un PDF entier en texte

La syntaxe de base de la commande pdftotext est :

 pdftotext [options] pdffile textfile

…où pdffile est le chemin absolu ou relatif vers le fichier PDF, et textfile est le nom du fichier de sortie.

Par exemple, pour convertir lorem-ipsum.pdf en un fichier texte :

 pdftotext lorem-ipsum.pdf text.txt

Si le fichier que vous convertissez comporte des filigranes ou du texte non aligné, vous pouvez les supprimer dans la sortie en utilisant l'indicateur -nodiag .

 pdftotext -nodiag lorem-ipsum.pdf random.text

Traiter les pages dans une plage spécifique

Utilisez les indicateurs -f et -l si vous souhaitez convertir des pages comprises dans une plage spécifique. Par exemple, pour convertir les pages une à cinq de lorem-ipsum.pdf en texte :

 pdftotext -f 1 -l 5 lorem-ipsum.pdf output.txt

Pour convertir uniquement la première page du fichier PDF :

 pdftotext -f 1 -l 1 lorem-ipsum.pdf output.txt

Convertir des fichiers PDF protégés par mot de passe en texte

Pdftotext peut même convertir des fichiers PDF protégés par mot de passe en fichiers texte. Les indicateurs -upw et -opw , qui représentent respectivement le mot de passe utilisateur et le mot de passe propriétaire , prennent en charge le processus d'authentification lors de la conversion des fichiers PDF.

 pdftotext -upw password lorem-ipsum.pdf output.txt
pdftotext -opw password lorem-ipsum.pdf output.txt

Assurez-vous de remplacer le mot de passe par le mot de passe du fichier PDF.

Vous pouvez également combiner plusieurs indicateurs pour obtenir la sortie souhaitée. Par exemple, pour convertir les pages 1 à 3 d'un PDF protégé par mot de passe en texte :

 pdftotext -f 1 -l 3 -upw password lorem-ipsum.pdf output.txt

Connexe : Comment convertir un fichier PDF en images sous Linux

Convertir graphiquement un PDF en un fichier texte

Si travailler avec la ligne de commande n'est pas votre tasse de thé, vous pouvez convertir des fichiers PDF en fichiers texte à l'aide d'un logiciel graphique comme Calibre. Il s'agit d'une application de gestion de livres électroniques que vous pouvez utiliser pour afficher, organiser et modifier des fichiers PDF sur votre système.

Calibre est disponible sur les référentiels officiels des distributions Linux et tout le monde peut le télécharger à l'aide d'un gestionnaire de packages.

Pour installer Calibre sur Ubuntu et Debian :

 sudo apt install calibre

Sur ArchLinux :

 sudo pacman -S calibre

Sur les distributions basées sur RHEL telles que CentOS et Fedora, vous pouvez télécharger Calibre en utilisant DNF ou Yum.

 sudo dnf install calibre
sudo yum install calibre

Comment utiliser Calibre pour convertir des fichiers PDF

Une fois installé, lancez Caliber sur votre système à l'aide du menu Applications . Alternativement, vous pouvez démarrer Calibre à partir du terminal en tapant :

 calibre

Pour générer des fichiers texte à l'aide de PDF avec Calibre :

  1. Cliquez sur l'option Ajouter des livres dans le menu.
    ajout de livres dans calibre linux
  2. Recherchez et sélectionnez le fichier PDF que vous souhaitez convertir.
    convertir des fichiers pdf en fichiers texte
  3. Mettez en surbrillance le fichier PDF dans le panneau central et sélectionnez Convertir des livres dans le menu.
    calibre sous linux
  4. Dans la liste déroulante Format de sortie , sélectionnez TXT .
    sélection de fichiers pdf à convertir
  5. Enfin, cliquez sur OK pour continuer.

Calibre va maintenant commencer à convertir le fichier PDF spécifié en un document texte. Vous pouvez vérifier l'état du processus en cliquant sur l'option Tâches , située en bas à droite de la fenêtre.

Travailler avec des fichiers PDF sous Linux

Lorsque vous souhaitez partager un document avec quelqu'un, le convertir en PDF avant le partage est le moyen le plus efficace. Auparavant, les utilisateurs devaient installer une visionneuse PDF dédiée sur leur système pour afficher les fichiers PDF, mais maintenant, presque tous les navigateurs sont livrés avec une visionneuse PDF intégrée.

Vous pouvez trouver plusieurs applications qui permettent à un utilisateur de visualiser et de modifier facilement des fichiers PDF. De nombreuses installations Linux sont livrées avec LibreOffice, une suite logicielle bureautique, qui peut être utilisée comme éditeur de PDF.