Je souhaite convertir un document DJVU en un document PDF, en séparant et en préservant le calque de texte et le images tout en conservant la structure du DJVU. Comment puis-je faire cela dans Ubuntu?
(J'utiliserai alors Caliber pour convertir en ePub/Mobi, donc s'il y avait un plug-in Caliber pour tout ce processus, ce serait parfait pour moi!)
Note1: L'impression à partir d'Evince, l'exportation à partir de DJview ou quoi que ce soit utilisant le package ddjv , sont pas solutions adéquates lorsqu’elles éliminent le calque de texte et ne sauvegardent que des images.
Note2: Utiliser DJVULibre semble extraire uniquement le calque de texte et les images ne sont pas extraites . De même, copier le texte "manuellement" perd la structure du document et les images.
Utilisez simplement DJView et exportez au format PDF
Ouvrez le fichier djvu dans evince
Sélectionnez print ----> print to file
change .ps en .pdf et cliquez sur Imprimer
Installer
djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3
Aller au terminal et écrire
Sudo apt-get install libtiff-tools
Allez au répertoire où le fichier djvu est présent. Cliquez avec le bouton droit de la souris. Allez à “Open In Terminal” option. Clique dessus. Un terminal va s'ouvrir.
Dans ce terminal, écris
ddjvu -format=tiff file_name.djvu file_name.tiff
tiff2pdf -j -o file_name.pdf file_name.tiff
Il existe également un convertisseur en ligne convertisseur DjVu en PDF
Voici une solution qui nécessiterait des outils moins courants:
Nous pouvons utiliser la commande djvu2hocr
(du paquet ocrodjvu
) pour extraire le calque de texte caché du fichier DjVu (il ne fait pas de ROC ou similaire, il extrait simplement le calque de texte avec une géométrie), à savoir:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
intervention corrige les noms de classe dans la sortie hOCR (qui est un simple fichier HTML)
Nous extrayons maintenant la page DjVu au format TIFF avec:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
afin que nous terminions avec ces fichiers dans notre dossier de travail:
sample.djvu
pg10.html
pg10.tif
C'est ici que pdfbeads
entre en jeu et nous exécutons simplement:
pdfbeads -o pg10.pdf
alors ce programme astucieux s’occupe de tout ce qui se trouve dans ce dossier (fichiers HTML et TIFF avec le même nom de base) et produit un fichier de sortie PDF avec certains sous-produits:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
qui est identique au fichier DjVu en entrée et contient un calque de texte:
Résumé des commentaires:
Les longs commentaires ci-dessous expliquent comment représenter des images plus petites à partir d'une page de document DjVu en tant qu'objets séparés, ce qui est difficilement possible car la page de document DjVu n'est en elle-même qu'une seule image avec un calque de texte facultatif, sans aucune "information" sur les images plus petites en tant qu'objets séparés. Si le document DjVu contient des images couleur, elles seront généralement placées sur le calque d'arrière-plan. dans ce cas, l'utilisateur peut utiliser des outils tels que ddjvu
(extraire uniquement le calque d'arrière-plan) et imagemagick
(rognage automatique) pour générer uniquement des images au lieu d'un canevas complet, mais cette opération ne peut pas être automatisée pour créer PDF
Une autre approche plus saine, mais plus lente, consiste à utiliser des outils d'interface graphique OCR classiques. gscan2pdf
(> 1.0) est suggéré comme candidat possible pour Linux PC
Il existe djvu2pdf mais il s’appuie sur ghostscript, il peut donc s'agir d’une autre option d’impression. Je vous suggère tout de même d'y jeter un coup d'œil, juste au cas où il serait plus intelligent que je ne le crédite.
Ce n'est pas dans le dépôt mais vous pouvez télécharger un deb depuis le site du fabricant: http://0x2a.at/s/projects/djvu2pdf
** Insérez ici un avis obligatoire concernant le téléchargement/l'installation d'éléments extérieurs au dépôt **
En utilisant DJVULibre , il est possible d’extraire la couche de texte à l’aide de la commande terminal
:
djvutxt myfile.djvu > myfile-ocr.txt
ou djvused myfile.djvu -e 'print-pure-txt' > myfile.txt
(les deux font la même chose, et ont été trouvés ici )
Le formatage nécessite quelques efforts (car de nombreux symboles ne sont pas convertis correctement) et les images ne sont pas récupérées .
Le moyen le plus simple: utilisez gscan2pdf pour importer le fichier djvu, puis faites-le en OCR avec tesseract, puis enregistrez-le au format PDF. Le texte OCR dans le pdf peut être légèrement différent du djvu original, et la conversion peut prendre un certain temps, mais cette méthode est une évidence et elle fonctionne.