Je sais que Google explore des sites Web, y compris des PDF, mais le contenu de ces derniers affecte-t-il les classements SEO?
Nous souhaitons mettre des fichiers PDF sur notre site Web, mais nous ne voulons pas que nos résultats fassent un plongeon.
Je sais que je peux simplement ajouter une directive robots.txt pour les exclure, mais je préférerais ne pas le faire si je n'en ai pas besoin (et franchement, je ne fais pas confiance aux robots pour ne pas les indexer en tous cas).
Aux yeux de Google, n PDF n'est qu'une autre page Web - une page Web qui offre une excellente occasion de faire passer votre contenu au-dessus de vos concurrents et vice versa.
La raison pour laquelle je dis est que Google classe PDF fichiers dans les SERP. Il est certain qu’il analyse les fichiers PDF. Si le contenu de PDF est récent et pertinent, la réputation de votre site Web s'en trouvera améliorée. Il est toujours préférable de protéger les fichiers PDF des robots d'exploration si vous pensez qu'ils seraient destructeurs.
User-agent: *
# Block the /pdfs/directory.
Disallow: /pdfs/
# Block pdf files. Non-standard but works for major search engines
Disallow: *.pdf
<a href="something.pdf" rel="nofollow">Download PDF</a>
x-robot-tags
pour les empêcher d’indexer HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)
Si vous suivez les deux premiers points. Le PDF n'affectera pas votre référencement, peu importe ce qu'il contient.
Si le contenu du PDF est lié au contenu du site, il ne va pas diluer le thème du site. Ils sont lus par les moteurs de recherche; par exemple, la recherche "test filetype: pdf" fera apparaître les PDF contenant le mot "test".
Pour reformuler la question afin de faciliter la réponse, si le contenu du PDF était au format HTML, le site serait-il endommagé? De manière générale, le contenu est bon.
Si le contenu PDF est unique, vous ne devriez pas avoir de problème. Si le contenu de PDF est identique à celui d'une autre page, vous risquez d'avoir un problème.
Dans cette situation, j'utiliserais un lien canonique. Malheureusement, les PDF ne vous permettent pas de spécifier un lien canonique, mais comme indiqué dans la this Google Webmaster Tools answer:
Si vous pouvez configurer votre serveur, vous pouvez utiliser les en-têtes HTTP rel = "canoniques" pour indiquer l'URL canonique des documents HTML et d'autres fichiers tels que les fichiers PDF.