Comment extraire le texte du PDF document en utilisant PHP ?
(Je ne peux pas utiliser d'autres outils, je n'ai pas d'accès root)
J'ai trouvé certaines fonctions fonctionnant avec du texte brut, mais elles ne gèrent pas bien les caractères Unicode:
http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html
Téléchargez le fichier class.pdf2text.php @ https://Pastebin.com/dvwySU1a (Mis à jour le 5 avril 2014) ou http://www.phpclasses.org/browse/file/31030.html (inscription requise)
Code:
include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf');
$a->decodePDF();
echo $a->output();
La classe ne fonctionne pas avec tous les pdf que j'ai testés, essayez et vous aurez peut-être de la chance :)
Si ce qui précède ne fonctionne pas, essayez http://pdfparser.org/
Accueil du projet ( Problème avec SSL Cert)
Je sais que ce sujet est assez ancien, mais ce besoin est toujours d'actualité. J'ai lu de nombreux documents, forums et scripts et en ai créé un nouveau qui prend en charge les fichiers PDF compressés et non compressés:
https://Gist.github.com/smalot/6183152
J'espère que ça aide tout le monde