J'ai un PDF qui contient une image numérisée d'un document. Je souhaite enregistrer le contenu de ce PDF sous forme d'image, afin de pouvoir l'exécuter ensuite via un programme OCR n'acceptant que les fichiers de type .jpg, .png et .gif.
Comment enregistrer/convertir ce PDF dans l'un de ces formats d'image?
EDIT: Une façon que j’ai trouvée est de cliquer sur chaque page. Copier dans le presse-papier. Collez dans Paint.net, puis enregistrez. Cependant, cela est fastidieux car il apparaît que vous ne pouvez sélectionner qu’une page à la fois dans Acrobat Reader.
S'il vous plaît prêter une attention particulière à la réponse de de pooryorick , dans laquelle il indique comment la réponse de sleske est en réalité une bien meilleure réponse à ce problème particulier.
Utilisez GhostScript . Cette commande fonctionne pour moi:
gs -dBATCH -dNOPAUSE -sDEVICE=png16m -dGraphicsAlphaBits=4 -dTextAlphaBits=4 -r150 -sOutputFile=output%d.png input.pdf
Il existe plusieurs pseudo-périphériques png différenciant la profondeur de couleur: pngmono, pnggray, png16, png256, png16m et pngalpha. Choisissez celui qui vous convient le mieux.
Vous pouvez également utiliser jpeg, mais à moins que vous n'ayez un problème d'espace disque, vous voulez une qualité aussi élevée que celle que vous pouvez gérer pour votre OCR, et ce n'est pas du jpeg.
GhostScript ne prend plus en charge gif, mais je ne vois pas pourquoi vous auriez besoin de cela, avec le support de png256.
Installez Imagemagick . Ouvrez une fenêtre ou un terminal cmd:
convert myfile.pdf myfile.jpg
La sortie sera un fichier jpg pour chaque page de votre pdf, test-0.jpg, test-1.jpg, etc.
Il y a aussi pdfimages
à partir des outils Xpdf (disponibles sur le site de XpdfReader ). Il ne convertira pas une page entière PDF en une image, mais extraira les images incorporées à partir d'un fichier PDF.
Ceci est utile si le PDF contient du texte et des images et que vous ne voulez que les images. De plus, les images sont extraites dans leur format d'origine, ce qui évite toute perte de qualité (contrairement aux programmes qui affichent la totalité de la page, puis la convertissent au format JPEG, par exemple). Selon vos besoins, cela pourrait être utile.
Utilisation simple:
pdfimages -j -list mydocument.pdf mydocument-images
Ceci lira le fichier d'entrée mydocument.pdf
, extraira toutes les images et les écrira dans des fichiers individuels nommés mydocument-images-0000.jpg
, mydocument-images-0001.jpg
etc.
L'option -j
permet d'écrire des images compressées au format JPEG incorporées sous forme de fichiers JPEG et non de fichiers PBM/PGM/PPM (non compressés et volumineux). Notez que les images peuvent toujours être écrites en tant que fichiers PBM/PGM/PPM, si c'est ainsi qu'elles ont été stockées dans le fichier d'entrée PDF.
Vous pouvez le faire en utilisant Adobe Reader:
À l'exception de la réponse mentionnant pdfimages, toutes les autres réponses omettent de mentionner que leurs solutions transcodent réellement les images incorporées. C'est-à-dire que ces solutions ne permettent pas simplement d'extraire l'image d'origine, mais de la modifier, éventuellement au détriment de l'image, au cours du processus. Seul pdfimages extrait l'image d'origine. Ceci est vrai pour Ghostscript, Imagemagick, Adobe Reader, PDFFill, PDF Xchange Viewer, Aperçu pour OS X et la plupart des autres logiciels PDF.
PDFill PDF Tools est probablement le moyen le plus simple de convertir vos PDF en images sous Windows. Cela vous permettra d'exporter toutes les pages du PDF pour séparer les images en un seul coup. Il propose également de nombreuses autres fonctionnalités disponibles gratuitement, qui ne sont disponibles que dans les autres PDF lecteurs si vous achetez la version commerciale ou "Pro".
Utilisez le bouton "Convertir PDF en images" (bouton n ° 10) dans la capture d'écran ci-dessous.
Si vous avez besoin de concaténer les images en une image très haute de sorte que vous ne devez alimenter qu'un seul fichier avec votre programme OCR, vous pouvez utiliser IrfanView
Puisque vous n’avez pas inclus de balise OS, je vais inclure une réponse OSX:
Les fichiers PDF s'ouvrent par défaut dans Preview.app, ce qui vous permet d'utiliser File -> Save-As
:
Aussi PDF Xchange Viewer (Gratuit) effectuera une exportation dans un fichier. Fichier → Exporter → Exporter vers une image.
Non seulement cela, mais je pense que c'est la meilleure visionneuse gratuite PDF pour Windows, et qui dispose de quelques fonctionnalités de balisage Nice. J'ai une licence pour Adobe Acrobat et je la préfère encore, sauf si je fais beaucoup de modifications, ce qui est rarement le cas.
Acrobat Professional (non libre) effectue les opérations suivantes:
Avancé-> Traitement de document-> Exporter toutes les images ...
Si le fichier fait moins de 5 Mo et que vous n'êtes pas inquiet pour la confidentialité, alors un service en ligne pratique à http://www.go2convert.com/ peut être utilisé. beaucoup de conversions graphiques (y compris pdf en jpeg)