Comment puis-je transformer un fichier multi-pages en pdf?

Question

J'ai un gigantesque fichier .tif.

J'ai numérisé dans un livre il y a quelques jours et j'ai accidentellement numérisé comme une multi-page .tif. Je veux vraiment le transformer en un fichier .pdf plus accessible.

Avez-vous une idée de la façon dont cela peut être fait?

mpy · Answer

Si vous voulez bien convertir le format de fichier (sans effectuer le texte interrogeable (via OCR comme indiqué par Jonathan Ben-Avraham), ce sera une tâche parfaite pour convert du ImageMagick Package (disponible pour différentes plateformes: Win, Linux, Mac).

Utilisez simplement cette commande pour convertir votre fichier TIFF multi-pages

convert multi-page.tif book.pdf

Cependant, vous devriez employer le -compress Paramètre. Si vous avez une TIF colorée 24 bits, vous pouvez utiliser LZW (sans perte) ou JPEG (perte), par exemple.

convert -compress LZW multi-page.tif book.pdf

Si votre TIFF est noir et blanc (s'il vous plaît assurez-vous qu'il est vraiment enregistré avec seulement 1 bit Colordepth), j'utilise habituellement -compress Fax.

Voici un exemple de fichier d'échantillon de 5 pages, avec un texte de texte - le rapport réel entre les algorithmes de compression dépend bien sûr du contenu de votre fichier:

24bit JPEG: 1294kB 24bit LZW: 1759kB 1bit Fax: 135kB

Après cette conversion, vous pouvez toujours exécuter un outil OCR (comme Adobe Acrobat Pro) pour effectuer la recherche de texte - et à copier.

Jonathan Ben-Avraham · Answer

TIFF (format de fichier image étiqueté) est un format orienté pixel destiné aux images. Afin d'obtenir uniquement les données de caractères d'un fichier TIFF, vous devez utiliser un programme OCR (Optical Chararacter Recognition). Tous les programmes OCR ont un taux d'erreur. Le format des pages (en-tête, pieds de page, les titres de section, etc.) affectent également la capacité d'OCR à deviner avec précision les caractères.

La langue et en particulier le système d'écriture et des polices affectent également la précision de l'OCR. Si le livre a une police inhabituelle non occidentale avec des ligatures, les chances de faire de la sortie OCR Goot sont proches de zéro.

Si le livre n'est pas principalement du texte, par exemple, un livre avec de nombreux coups d'écran ou d'autres images importantes, alors OCR ne vous aidera pas.

Certains programmes OCR open source sont disponibles, en fonction du système d'exploitation que vous utilisez. Google Drive a un service OCR gratuit. WMMV.

En supposant que le livre original que vous avez numérisé est au format papier, TIFF est à peu près le mieux que vous puissiez faire de n'importe quel événement. Vous pouvez rendre la taille du document plus gérable en compressant le fichier TIFF. Essayez la compression JPEG avec différents niveaux de compression pour optimiser la taille du document contre la lisibilité.