Quels sont les mécanismes htaccess pour empêcher les moteurs de recherche d’indexer les fichiers PDF?

Question

Il existe déjà divers messages sur la manière de bloquer certains fichiers (dans mon cas, les PDF) à partir d'un moteur de recherche comme Google. Le plus pertinent pour cet article était ici: Comment protéger le fichier PDF de l'indexation . Cependant, dans cet article, la réponse finale n’a jamais été tout à fait claire. Basé sur ces trois sites:

Je pense avoir compris la recommandation. Essentiellement, nous devrions ne pas utiliser le fichier robots.txt pour interdire l'analyse/l'indexation des fichiers. Nous devrions plutôt utiliser X-Robots-Tag.

Cela m'amène à trois questions, ce qui est vraiment pour que je puisse être absolument sûr que ce qui suit va marcher.

Question 1: Supposons que je veuille interdire l'indexation par un moteur de recherche sur les fichiers d'un sous-dossier de mon site, www.mysite.com/secret

Je créerais un fichier .htaccess dans le sous-dossier avec les éléments suivants:

Header set X-Robots-Tag "noindex, nofollow"

Sinon, si je souhaite interdire l'accès au sous-dossier secret aux fichiers PDF uniquement, j'utiliserais (à nouveau dans un fichier .htaccess distinct du sous-dossier):

<FilesMatch ".doc$"> Header set X-Robots-Tag "index, noarchive, nosnippet" </FilesMatch>

Question 2: Y at-il un avantage à faire de même pour le fichier principal .htaccess dans le répertoire racine du site Web? Si tel est le cas, comment modifiez-vous les deux instructions ci-dessus pour les sous-répertoires? Sur le site de Google, ils suggèrent:

<Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>

Est-ce que je le change en "secret/\.pdf$"instead? Je ne suis pas sûr des barres obliques.

Question 3: Supposons que j’ai un document séparé PDF sur une page distincte reliant le PDF dans le dossier secret. Même avec le bloc de balises .htaccess x-robots en place, la liaison tierce interrompt-elle la commande de non-indexation?

Stephen Ostermiller · Accepted Answer

Vous avez fait vos recherches et vous semblez bien maîtriser la situation. Pour résumer:

L'utilisation de robots.txt empêcherait les moteurs de recherche d'explorer les fichiers PDF. Si des sites tiers sont directement liés aux fichiers PDF, les moteurs de recherche peuvent alors inclure les URL dans l'index de recherche (mais ne pourront toujours pas indexer leur contenu.)

L'utilisation de X-Robots-Tag "noindex, nofollow" empêchera les moteurs de recherche d'indexer les fichiers PDF, même s'ils peuvent les analyser. Les sites tiers liant directement aux fichiers n'entraîneront toujours pas l'indexation des fichiers PDF.

Vous ne pouvez pas utiliser les méthodes les deux. Si vous bloquez les fichiers PDF avec robots.txt, les moteurs de recherche ne verront jamais l'en-tête et pourront toujours indexer les URL.

Votre première correspondance FilesMatch semble correcte si vous substituez pdf à doc. La règle à l'intérieur semble autoriser l'indexation, vous pouvez donc avoir mal collé.

Si vous voulez le mettre dans le répertoire racine, vous devrez utiliser secret/.*\.pdf$ à la place. Le seul avantage à le faire pourrait être de centraliser toutes vos règles en un seul endroit.