Comment convertir une page Web en un fichier PDF ou des images sous Linux

Vous voulez savoir comment capturer une page Web et l'enregistrer sous forme de document PDF ou d'image à l'aide du terminal ? Heureusement, Linux dispose d'une pléthore d'utilitaires que vous pouvez utiliser pour automatiser la tâche de conversion de documents HTML en fichiers PDF et images.

Cet article vous présentera wkhtmltopdf et wkhtmltoimage, des utilitaires dont vous avez besoin pour faciliter votre travail.

Comment convertir du HTML en PDF

Si vous cherchez à capturer des pages Web et à les convertir en fichier PDF, l'utilitaire wkhtmltopdf vous aidera. Wkhtmltopdf est un outil de ligne de commande open source utilisé pour convertir des pages Web en documents PDF.

Étant donné que l'outil fonctionne sans tête dans le terminal Linux, vous n'aurez besoin d'aucun pilote Web ni d'un cadre d'automatisation de navigateur comme Selenium.

Installer wkhtmltopdf sur Linux

Wkhtmltopdf ne fait pas partie des packages standard préinstallés sur Linux. Vous devrez l'installer manuellement à l'aide du gestionnaire de packages de votre système.

Pour installer wkhtmltopdf sur des distributions basées sur Ubuntu et Debian :

 sudo apt install wkhtmltopdf

Sur les distributions basées sur Arch comme Manjaro Linux :

 sudo pacman -S wkhtmltopdf

L'installation de wkhtmltopdf sur des distributions basées sur RHEL comme Fedora et CentOS est également facile.

 sudo dnf install wkhtmltopdf

Syntaxe de base

La syntaxe de base de la commande est :

 wkhtmltopdf webpage filename

…où page Web est l'URL de la page Web que vous souhaitez convertir et nom de fichier est le nom du fichier PDF de sortie.

Pour convertir la page d'accueil Google en document PDF :

 wkhtmltopdf https://google.com google.pdf

Production:

À l'ouverture du fichier PDF, vous remarquerez que wkhtmltopdf a précisément rendu la page Web dans un document.

L'indicateur –copies est une bouée de sauvetage si vous voulez que votre fichier de sortie ait plusieurs copies de la page Web. Notez que lors de l'impression de plusieurs copies, wkhtmltopdf ne générera pas plusieurs fichiers PDF, mais ajoutera plutôt des pages supplémentaires à un seul document.

Pour créer trois copies de la page d'accueil Google :

 wkhtmltopdf --copies 3 https://google.com google.pdf

Le fichier PDF de sortie contiendra trois pages comme spécifié dans la commande susmentionnée.

Ajouter un filtre en niveaux de gris à la sortie

Pour ajouter un filtre en niveaux de gris au fichier PDF, utilisez l'indicateur -g ou –grayscale avec la commande :

 wkhtmltopdf -g https://google.com google.pdf
wkhtmltopdf --grayscale https://google.com google.pdf

Fichier de sortie:

Changer l'orientation du PDF

Par défaut, wkhtmltopdf génère le fichier PDF en disposition verticale c'est-à-dire en portrait. Pour modifier ce comportement par défaut et capturer des pages Web en mode paysage, utilisez l'indicateur –orientation avec la commande :

 wkhtmltopdf --orientation landscape https://google.com google.pdf

Production:

Notez que la version paysage du document a une zone d'espace blanc plus grande par rapport à la version portrait.

Ne pas inclure d'images lors de la conversion

Lors de la génération de la sortie, si vous ne voulez pas que wkhtmltopdf affiche les images présentes dans une page Web, utilisez l'indicateur –no-images :

 wkhtmltopdf --no-images https://google.com google.pdf

Production:

Connexe : Meilleurs outils pour éditer un fichier PDF n'importe où

Comment convertir une page Web en images

L'utilitaire wkhtmltoimage fait partie du package wkhtmltopdf. Si vous travaillez sur un rapport et que vous souhaitez inclure des images d'un site Web, cet outil fonctionnera en votre faveur. Le terminal Linux vous permet non seulement de capturer plus facilement les images, mais vous offre également une gamme d'options vous permettant de personnaliser votre sortie.

Syntaxe de base

Wkhtmltoimage a une syntaxe similaire à wkhtmltopdf :

 wkhtmltoimage webpage filename

…où page Web est l'URL d'un site Web et nom de fichier est le nom de l'image de sortie.

Convertir une page Web en image

En continuant avec l'exemple ci-dessus, convertissons la page d'accueil de Google en images.

 wkhtmltoimage https://google.com google.png

Production:

Vous pouvez également spécifier un format de fichier personnalisé que vous souhaitez que l'image de sortie ait. Wkhtmltoimage prend en charge les extensions de fichier suivantes :

  • JPEG/JPG
  • PNG
  • SVG

Par exemple, si vous souhaitez générer une image JPG, remplacez simplement l'extension de fichier par JPG dans la commande :

 wkhtmltoimage https://google.com google.jpg

Connexes : JPG vs JPEG : quelle est la différence entre ces formats de fichiers image ?

Capture de pages Web à l'aide du terminal Linux

Vous devez avoir une visionneuse PDF installée sur votre système Linux si vous souhaitez afficher les fichiers PDF générés par wkhtmltopdf. Alors que la plupart des distributions Linux sont livrées avec un éditeur PDF préinstallé, vous pouvez choisir et installer manuellement un éditeur PDF qui correspond à vos besoins.