web-dev-qa-db-fra.com

Conversion de PDF en HTML avec pdf2htmlEX: la sortie est-elle conviviale pour le référencement?

Mon équipe et moi-même mettons en œuvre le conversion pdf2htmlEX pour convertir et afficher plus de 200 000 documents pdf (disponibles dans notre base de données) sur notre site Web.

Le code HTML produit par pdf2htmlEX sera placé "dans une page", explorable par les moteurs de recherche pour un maximum de 3 pages de chaque document. Aujourd'hui, pour vous informer, nous affichons une collection de fichiers PNG au lieu des fichiers PDF eux-mêmes.

La bibliothèque pdf2HTMLEx fonctionne très bien en termes d’exécution UX, mais le texte HTML généré est rempli de balises <span> et <div> et risque d’être difficile à comprendre par Google.

Comme ça:

21. The model of perfect competition is more useful for analy <span class="_ _0"> <span>zing situations in which firms <span class="_ _1"></span> </div><div class="t m0 x5 h2 y35 ff2 fs1 fc0 sc0 ls1 ws0">a. engage in price wars in order to secure a position in the market  </div>

Mes questions sont:

  • Cela posera-t-il des problèmes de positionnement dans Google SE? À votre avis, vaut-il mieux que d’avoir une liste des PNG?
  • Ou bien ce "sale" HTML ressemblera-t-il à une mauvaise technique de référencement, ce qui nous exposerait à des risques de pénalisation?
3
riccardo80

En termes de référencement, tout texte vaut mieux que rien (le png). La sortie de pdf2HTMLEx est en effet horrible pour les humains, mais pour les robots (comme le robot Google), son site vient d'être fortement marqué et la plupart du temps, les robots ignorent les marquages ​​(sauf les cas de couleur du texte, visibilité, tailles de police, etc.). affecter la lisibilité).

Le problème le plus important n’est toutefois pas lié au nombre trop élevé de balises, mais plutôt à la façon dont les mots importants/clés finissent souvent par être divisés en balises.

Cela dit, il existe une autre alternative, pdf.js, qui utilise des calques pour le texte qui peuvent répondre à certaines de vos préoccupations. Essayez les résultats de pdf2htmlex et pdf.js et voyez lequel vous convient le mieux.

1
Gopalakrishna Palem

Je ne vais pas dire "allez-y" car je n'ai pas utilisé cette bibliothèque en particulier - je vous laisserai donc en déduire :)

Nous utilisons DOMpdf pour une raison similaire (donne une vue simple du produit) et Google l’indexe très bien. Nous n'optons pas pour l'option de téléchargement forcé, elle est simplement affichée via la visionneuse intégrée et les utilisateurs peuvent choisir de la sauvegarder. Comme pdf2HTMLEx, le balisage est très "confus" et cryptique, mais Google ne semble pas avoir de problème avec cela.

En fait, nous avons récemment ajouté nofollows et robots.txt à la zone de génération PDF, car les bots le frappaient trop. Google a commencé à classer quelques-unes des PDF vues plus élevées que le produit lui-même. Il est vrai qu'il y a une petite icône dans SERP indiquant qu'il s'agit d'un PDF, et souvent, ils peuvent trouver le produit réel ci-dessous ... mais le problème est que lorsqu'un humain passe à l'intérieur. Ils voient le PDF dans le navigateur, mais il n’ya pas de navigation évidente ni de bouton "Retour au produit" sans l’ajouter au fichier PDF généré.

1
dhaupin

Si vous vous inquiétez des divs et des span, ils peuvent être supprimés. Je recommanderais de passer le code HTML via un outil tel que Pandoc .

Pandoc est un convertisseur de fichier en ligne de commande. Une fois que vous avez le PDF, vous pouvez utiliser le convertisseur Pandoc pour convertir le code HTML en Markdown, puis le reconvertir en HTML. Cela devrait supprimer toutes les balises inutiles et nettoyer le balisage de façon spectaculaire.

Si vous utilisez bash, cette ligne devrait le faire.

cat example.html | pandoc --from=html --to=markdown | pandoc --from=markdown --to=html

En ce qui concerne le référencement, je ne suis pas sûr que cela importera beaucoup. Ce qui compte le plus, c'est le balisage sémantique et la qualité du contenu. La qualité sera aussi bonne que le PDF et je doute que l'outil html2pdf vous fournisse de toute façon un balisage très sémantique. Ce qui importe le plus, c’est que votre texte soit lisible par une machine et, quelles que soient les balises span et div, il devrait l'être.

1