Mon PDF contient 600 pages avec des images de texte. Il a 2 couches.
Couche 1: image couleur de fond
Couche 2: image de texte
Je souhaite supprimer tous les calques d'image d'arrière-plan du total des fichiers PDF, comme indiqué dans l'image.
Pourriez-vous me suggérer un logiciel/outil?
Vue d'ensemble
Ce que vous recherchez, ce sont des outils tels que Scan Tailor et npaper qui sont capables de seuillage , suppression du bruit et suppression du bruit =. Les deux outils fonctionnent avec des images plutôt que des fichiers PDF, mais vous pouvez facilement convertir les différents formats utilisés par ces applications et PDF à l'aide des outils décrits à la fin de cette réponse.
ScanTailor
Vous pouvez trouver un tutoriel vidéo ici . Une documentation plus complète est disponible sur le wiki officiel . Vous serez probablement plus intéressé par la page sur mode de sortie noir et blanc et paramètres de filtrage .
Unpaper
Je n'ai pas encore travaillé avec unpaper
moi-même. D'après ce que j'ai compris, il comporte beaucoup plus de fonctionnalités que ScanTailor, mais il est également beaucoup plus difficile à maîtriser.
Il n'y a pas d'interface graphique et vous devrez vous appuyer sur des commutateurs de ligne de commande pour effectuer votre travail. D'autre part, cela signifie que les conversions avec unpaper
peuvent facilement être automatisées à l'aide de scripts.
Vous pouvez trouver quelques exemples de script concernant la conversion d'une numérisation en noir et blanc et la suppression de l'arrière-plan ici .
Quelques outils utiles pour travailler avec unpaper et ScanTailer
Je n'ai pas assez de temps pour rédiger un tutoriel complet sur ScanTailor et unpaper¹, mais voici quelques conseils concernant la conversion entre .pdf
et les formats d'image pris en charge par ces outils:
vous pouvez utiliser pdfimages
pour convertir les documents PDF en fichiers à une seule page .ppm
pouvant être lus par unpaper
.
Exemple d'utilisation:
pdfimages *.pdf ./extracted-images
ScanTailor ne prend pas les fichiers .ppm
en entrée. Vous devrez les convertir dans un autre format comme le .png
first sans perte. mogrify
de la suite d'outils imagemagick
peut le faire pour vous.
Exemple d'utilisation:
mogrify -format png *.ppm
Le format de sortie de ScanTailor et unpaper sont des fichiers .tiff
d'une page. Afin de les reconvertir en .pdf
, je suggérerais d'utiliser tiffcp
et tiff2pdf
.
Exemple d'utilisation:
tiffcp *.tiff all.tiff
tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
Installation
Cette commande installera tous les outils mentionnés ci-dessus:
Sudo apt-get install scantailor unpaper poppler-utils libtiff-tools
¹: si vous lisez ceci, n'hésitez pas à rédiger une réponse plus détaillée basée sur ScanTailor et/ou unpaper.
peut-être que Maître PDF éditeur peut vous aider, même si je n'ai pas encore trouvé comment le faire automatiquement sur les 600 pages.
Je viens de trouver une solution très simple:
installez gscan2pdf
.
Ouvrez gscan2pdf
et importez le PDF.
outils-> seuil. La valeur par défaut de 80% a bien fonctionné pour moi.
enregistrer le PDF dans un autre emplacement.