web-dev-qa-db-fra.com

Les moteurs de recherche analysent-ils les PDF et, le cas échéant, existe-t-il des règles à suivre pour les créer?

Le site Web sur lequel je travaille contient quelques centaines de PDF. Je ne pense pas avoir jamais vu aucun d'entre eux revenir dans une recherche, mais il y a des liens vers directement à partir du site. Ils sont également pleins de mots-clés car ce sont des documents de produit.

Y a-t-il quelque chose de spécial à faire pour que Google ou d'autres moteurs de recherche les explorent?

Existe-t-il des règles strictes pour la création de PDF permettant à Google de les aimer davantage? Par exemple, devrais-je les exécuter via ghostscript pour nettoyer les balises PDF brisées que Adobe a créées lors de la génération?

22
Ben Hoffman

Google indexe définitivement PDF fichiers et vous pouvez simplement rechercher des fichiers PDF en ajoutant filetype:pdf à votre requête de recherche ( exemple ).

Je dirais que les principales choses à faire pour optimiser un PDF afin qu'il soit facilement indexé sont les suivantes:

  • Donnez-lui un nom de fichier significatif
  • Complétez toutes les propriétés de métadonnées du document (titre, auteur, mots-clés, etc.)
  • Assurez-vous que votre PDF est composé de texte et non d'images numérisées.
  • Assurez-vous d'avoir un bon contenu avec une utilisation correcte des titres, comme vous le feriez avec un document HTML.

Pour plus de conseils, lisez Optimisation PDF Documents et Onze conseils pour optimiser les fichiers PDF sur les moteurs de recherche

17
Dan Diplo

Je ne suis pas sûr des autres moteurs de recherche, mais pour Google, la règle principale serait de ne pas les exclure via robots.txt.

This était leur première annonce de prise en charge de la recherche PDF.

1
intlect

Tout comme rendre votre site Web compatible ne peut pas nuire à votre référencement, rendre votre PDF accessible ne peut pas nuire. Le vérificateur d'accessibilité intégré d'Adobe est loin d'être parfait, mais au moins la réparation de ces zones vous permettra de commencer.

Je passe probablement 5 minutes sur chaque 4 ou 5, principalement des PDF au format texte que nous mettons en ligne. Le temps augmente uniformément en fonction du nombre de pages et de la complexité de ces pages.

En supposant que vous ayez Adobe Acrobat Pro pour effectuer vos modifications:

  • Exécuter une vérification complète de l'accessibilité. (Vérification rapide est assez inutile pour moi)
  • Mettre à jour les méta-informations dans les propriétés du document (mots-clés, sujet, langue, etc.)
  • Assurez-vous que les tags sont ajoutés
  • Assurez-vous que le texte est étiqueté en tant que texte, les images en tant qu'images, les éléments d'arrière-plan en tant qu'arrière-plan
  • Étiquetez les peluches inutiles (comme la décoration ou le design)
  • Ajouter un bon texte alternatif aux images
  • Assurez-vous que, dans l'ordre de lecture, le texte est correctement commandé
  • Dans la barre d'outils de contenu, assurez-vous que le texte n'est pas dupliqué ou mal traduit
  • Utiliser le scanner OCR sur des pages numérisées

Pour l'édition plus avancée comme les tableaux et les erreurs vraiment bizarres d'Adobe, nous utilisons un plugin appelé CommonLook. CommonLook fait le travail, mais je le déteste presque autant que les outils Adobe.

Familiarisez-vous avec l'outil Retoucher l'ordre de lecture, la barre d'outils Tags, la barre d'outils Ordre de lecture et la barre d'outils Contenu. Mon travail nécessite des documents entièrement conformes avant de pouvoir être utilisés sur le Web, mais tout le monde pourrait tirer parti de simples balises et propriétés de document.

1
MrChrister