Comment convertir une page Web en un fichier PDF ou des images sous Linux
Vous voulez savoir comment capturer une page Web et l'enregistrer sous forme de document PDF ou d'image à l'aide du terminal ? Heureusement, Linux dispose d'une pléthore d'utilitaires que vous pouvez utiliser pour automatiser la tâche de conversion de documents HTML en fichiers PDF et images.
Cet article vous présentera wkhtmltopdf et wkhtmltoimage, des utilitaires dont vous avez besoin pour faciliter votre travail.
Comment convertir du HTML en PDF
Si vous cherchez à capturer des pages Web et à les convertir en fichier PDF, l'utilitaire wkhtmltopdf vous aidera. Wkhtmltopdf est un outil de ligne de commande open source utilisé pour convertir des pages Web en documents PDF.
Étant donné que l'outil fonctionne sans tête dans le terminal Linux, vous n'aurez besoin d'aucun pilote Web ni d'un cadre d'automatisation de navigateur comme Selenium.
Installer wkhtmltopdf sur Linux
Wkhtmltopdf ne fait pas partie des packages standard préinstallés sur Linux. Vous devrez l'installer manuellement à l'aide du gestionnaire de packages de votre système.
Pour installer wkhtmltopdf sur des distributions basées sur Ubuntu et Debian :
sudo apt install wkhtmltopdf
Sur les distributions basées sur Arch comme Manjaro Linux :
sudo pacman -S wkhtmltopdf
L'installation de wkhtmltopdf sur des distributions basées sur RHEL comme Fedora et CentOS est également facile.
sudo dnf install wkhtmltopdf
Syntaxe de base
La syntaxe de base de la commande est :
wkhtmltopdf webpage filename
…où page Web est l'URL de la page Web que vous souhaitez convertir et nom de fichier est le nom du fichier PDF de sortie.
Pour convertir la page d'accueil Google en document PDF :
wkhtmltopdf https://google.com google.pdf
Production:
À l'ouverture du fichier PDF, vous remarquerez que wkhtmltopdf a précisément rendu la page Web dans un document.
Imprimer plusieurs copies de la page Web
L'indicateur –copies est une bouée de sauvetage si vous voulez que votre fichier de sortie ait plusieurs copies de la page Web. Notez que lors de l'impression de plusieurs copies, wkhtmltopdf ne générera pas plusieurs fichiers PDF, mais ajoutera plutôt des pages supplémentaires à un seul document.
Pour créer trois copies de la page d'accueil Google :
wkhtmltopdf --copies 3 https://google.com google.pdf
Le fichier PDF de sortie contiendra trois pages comme spécifié dans la commande susmentionnée.
Ajouter un filtre en niveaux de gris à la sortie
Pour ajouter un filtre en niveaux de gris au fichier PDF, utilisez l'indicateur -g ou –grayscale avec la commande :
wkhtmltopdf -g https://google.com google.pdf
wkhtmltopdf --grayscale https://google.com google.pdf
Fichier de sortie:
Changer l'orientation du PDF
Par défaut, wkhtmltopdf génère le fichier PDF en disposition verticale c'est-à-dire en portrait. Pour modifier ce comportement par défaut et capturer des pages Web en mode paysage, utilisez l'indicateur –orientation avec la commande :
wkhtmltopdf --orientation landscape https://google.com google.pdf
Production:
Notez que la version paysage du document a une zone d'espace blanc plus grande par rapport à la version portrait.
Ne pas inclure d'images lors de la conversion
Lors de la génération de la sortie, si vous ne voulez pas que wkhtmltopdf affiche les images présentes dans une page Web, utilisez l'indicateur –no-images :
wkhtmltopdf --no-images https://google.com google.pdf
Production:
Comment convertir une page Web en images
L'utilitaire wkhtmltoimage fait partie du package wkhtmltopdf. Si vous travaillez sur un rapport et que vous souhaitez inclure des images d'un site Web, cet outil fonctionnera en votre faveur. Le terminal Linux vous permet non seulement de capturer plus facilement les images, mais vous offre également une gamme d'options vous permettant de personnaliser votre sortie.
Syntaxe de base
Wkhtmltoimage a une syntaxe similaire à wkhtmltopdf :
wkhtmltoimage webpage filename
…où page Web est l'URL d'un site Web et nom de fichier est le nom de l'image de sortie.
Convertir une page Web en image
En continuant avec l'exemple ci-dessus, convertissons la page d'accueil de Google en images.
wkhtmltoimage https://google.com google.png
Production:
Vous pouvez également spécifier un format de fichier personnalisé que vous souhaitez que l'image de sortie ait. Wkhtmltoimage prend en charge les extensions de fichier suivantes :
- JPEG/JPG
- PNG
- SVG
Par exemple, si vous souhaitez générer une image JPG, remplacez simplement l'extension de fichier par JPG dans la commande :
wkhtmltoimage https://google.com google.jpg
Capture de pages Web à l'aide du terminal Linux
Vous devez avoir une visionneuse PDF installée sur votre système Linux si vous souhaitez afficher les fichiers PDF générés par wkhtmltopdf. Alors que la plupart des distributions Linux sont livrées avec un éditeur PDF préinstallé, vous pouvez choisir et installer manuellement un éditeur PDF qui correspond à vos besoins.