J'ai un lien vers le document PDF sur une page Web publique. Comment empêcher les moteurs de recherche d’indexer ce lien et le document PDF?
La seule idée à laquelle j'ai pensé est d'utiliser CAPTCHA. Cependant, je me demande s’il existe des mots magiques qui indiquent à un moteur de recherche de ne pas indexer le lien et le document PDF? Les options utilisant PHP ou JavaScript conviennent également.
Juste pour clarifier. Je ne veux pas chiffrer PDF et le protéger avec un mot de passe. Je veux juste le rendre invisible pour les moteurs de recherche, mais pas pour les utilisateurs.
Pour éviter que votre fichier PDF (ou tout autre fichier non HTML) soit répertorié dans les résultats de la recherche, vous ne pouvez utiliser que l'en-tête de réponse HTTP X-Robots-Tag
, par exemple:
X-Robots-Tag: noindex
Vous pouvez le faire en ajoutant l'extrait suivant au fichier .htaccess ou httpd.conf du site:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
Notez que pour que ce qui précède fonctionne, vous devez pouvoir modifier les en-têtes HTTP du fichier en question. Ainsi, vous ne pourrez peut-être pas le faire, par exemple, sur GitHub Pages .
Notez également que robots.txt n'empêche pas d’afficher votre page dans les résultats de recherche.
Cela empêche le bot d'explorer votre page, mais si un tiers crée un lien vers votre fichier PDF à partir de leur site Web , votre page sera toujours répertoriée. .
Si vous empêchez le bot d'explorer votre page à l'aide de robots.txt , il n'aura pas la chance de voir la balise de réponse X-Robots-Tag: noindex
. Par conséquent, ne jamais jamais interdire une page dans robots.txt si vous utilisez l'en-tête X-Robots-Tag
. Plus d'informations peuvent être trouvées sur Google Developers: balise Meta Robots .
Il y a plusieurs façons de le faire (les combiner est évidemment un moyen sûr de le faire):
1) Utilisez robots.txt pour bloquer les fichiers des moteurs de recherche:
User-agent: *
Disallow: /pdfs/ # Block the /pdfs/directory.
Disallow: *.pdf # Block pdf files. Non-standard but works for major search engines.
2) Utilisez rel="nofollow"
sur les liens vers ces PDF
<a href="something.pdf" rel="nofollow">Download PDF</a>
3) Utilisez l'en-tête HTTP x-robots-tag: noindex
pour empêcher les robots d'exploration de les indexer. Placez ce code dans votre fichier . Htaccess:
<FilesMatch "\.pdf$">
header set x-robots-tag: noindex
</FilesMatch>
Si vos instances de développement optimisées par nginx apparaissent dans les résultats de recherche Google, il existe un moyen simple et rapide d’empêcher les moteurs de recherche d’analyser votre site. Ajoutez la ligne suivante au bloc d’emplacement de votre fichier de configuration virtualhost pour le bloc que vous souhaitez empêcher l’analyse.
add_header X-Robots-Tag "noindex, nofollow, nosnippet, noarchive";
Vous pouvez utiliser le fichier robots.txt . Vous pouvez en lire plus ici .
Je ne sais pas si ce seuil peut apporter de la valeur à qui que ce soit, mais nous avons récemment rencontré un problème indiquant que notre boîte GSA sur site ne souhaitait pas indexer le fichier PDF.
Le support technique de Google a résolu le problème. Le problème est lié au fait que ce document PDF a un ensemble de propriétés personnalisées (Fichier -> Propriétés du document -> Personnalisé (onglet)).
name: robots
value: noindex
ce qui l'a empêché d'être correctement indexé par GSA.
Si vous avez accès au document et pouvez modifier ses propriétés, cela pourrait fonctionner ... au bail pour GSA.