web-dev-qa-db-fra.com

Comment puis-je supprimer l'arrière-plan de page en niveaux de gris d'une numérisation de document PDF tout en préservant le texte? (Binarisation)

Mon PDF contient 600 pages avec des images de texte. Il a 2 couches.

  • Couche 1: image couleur de fond

  • Couche 2: image de texte

Je souhaite supprimer tous les calques d'image d'arrière-plan du total des fichiers PDF, comme indiqué dans l'image.

enter image description here

Pourriez-vous me suggérer un logiciel/outil?

enter image description here

8
Raghu G

Vue d'ensemble

Ce que vous recherchez, ce sont des outils tels que Scan Tailor et npaper qui sont capables de seuillage , suppression du bruit et suppression du bruit =. Les deux outils fonctionnent avec des images plutôt que des fichiers PDF, mais vous pouvez facilement convertir les différents formats utilisés par ces applications et PDF à l'aide des outils décrits à la fin de cette réponse.

ScanTailor

Vous pouvez trouver un tutoriel vidéo ici . Une documentation plus complète est disponible sur le wiki officiel . Vous serez probablement plus intéressé par la page sur mode de sortie noir et blanc et paramètres de filtrage .

Unpaper

Je n'ai pas encore travaillé avec unpaper moi-même. D'après ce que j'ai compris, il comporte beaucoup plus de fonctionnalités que ScanTailor, mais il est également beaucoup plus difficile à maîtriser.

Il n'y a pas d'interface graphique et vous devrez vous appuyer sur des commutateurs de ligne de commande pour effectuer votre travail. D'autre part, cela signifie que les conversions avec unpaper peuvent facilement être automatisées à l'aide de scripts.

Vous pouvez trouver quelques exemples de script concernant la conversion d'une numérisation en noir et blanc et la suppression de l'arrière-plan ici .


Quelques outils utiles pour travailler avec unpaper et ScanTailer

Je n'ai pas assez de temps pour rédiger un tutoriel complet sur ScanTailor et unpaper¹, ​​mais voici quelques conseils concernant la conversion entre .pdf et les formats d'image pris en charge par ces outils:

  • vous pouvez utiliser pdfimages pour convertir les documents PDF en fichiers à une seule page .ppm pouvant être lus par unpaper.

    Exemple d'utilisation:

    pdfimages *.pdf ./extracted-images

  • ScanTailor ne prend pas les fichiers .ppm en entrée. Vous devrez les convertir dans un autre format comme le .pngfirst sans perte. mogrify de la suite d'outils imagemagick peut le faire pour vous.

    Exemple d'utilisation:

    mogrify -format png *.ppm

  • Le format de sortie de ScanTailor et unpaper sont des fichiers .tiff d'une page. Afin de les reconvertir en .pdf, je suggérerais d'utiliser tiffcp et tiff2pdf .

    Exemple d'utilisation:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
    

Installation

Cette commande installera tous les outils mentionnés ci-dessus:

Sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹: si vous lisez ceci, n'hésitez pas à rédiger une réponse plus détaillée basée sur ScanTailor et/ou unpaper.

8
Glutanimate

peut-être que Maître PDF éditeur peut vous aider, même si je n'ai pas encore trouvé comment le faire automatiquement sur les 600 pages.

1
Presbitero

Je viens de trouver une solution très simple:

  • installez gscan2pdf.

  • Ouvrez gscan2pdf et importez le PDF.

  • outils-> seuil. La valeur par défaut de 80% a bien fonctionné pour moi.

  • enregistrer le PDF dans un autre emplacement.

1
Noam