web-dev-qa-db-fra.com

Conversion de PDF en HTML

Existe-t-il un .dll que je peux utiliser qui utilise un fichier PDF comme entrée et un fichier HTML comme sortie? Je souhaite convertir de PDF en HTML. Mon collègue dit qu'il est très difficile d'aller étape par étape, d'obtenir du texte/une police/une image/des marges/des liens, etc. à partir de PDF puis de créer un nouveau fichier HTML avec le même contenu. Il dit que c'est presque Je pensais donc - s'il y a une DLL que je peux utiliser comme référence pour le faire?

23
petko_stankoski

Écrire un programme pour le faire n'est certainement pas anodin. Si vous ne trouvez pas de bibliothèque .NET pour faire cela (je ne pouvais pas, du moins pas gratuitement), je voudrais juste télécharger ceci et l'invoquer par programme pour obtenir mon html.

Si vous avez du temps à perdre et/ou PDFToHtml ne produit pas de sortie acceptable pour vous, vous pouvez tiliser iText pour écrire le programme vous-même. C'est une bibliothèque pdf gratuite très mature. Je l'ai utilisé dans le passé pour manipuler des PDF (fusionner, créer, etc.).

[~ # ~] mise à jour [~ # ~]

Comme indiqué dans le commentaire de Quandary, la bibliothèque PDFSharp offre une licence plus détendue (MIT) par rapport à la licence commerciale ou AGPL offerte par iText. Gardez cela à l'esprit lorsque vous choisissez votre bibliothèque. Je n'ai pas utilisé la bibliothèque PDFSharp moi-même et je ne sais pas comment ils se comparent en termes de fonctionnalités.

11
Icarus

Vous pouvez télécharger cet outil gratuit: PDFToHTML

Ensuite, dans votre programme, lancez simplement un nouveau processus et exécutez l'exécutable en passant le fichier PDF. Je viens de le tester maintenant et cela semble fonctionner correctement.

8
Tudor

Si cela ne vous dérange pas de payer, Aspose offre une très bonne solution, c'est ce que nous utilisons dans mon entreprise.

http://www.aspose.com/categories/.net-components/aspose.pdf-for-.net/key-features.aspx

6
Calum