J'ai un sous-répertoire que je voudrais masquer des robots d'exploration de moteur de recherche.
Une façon de procéder consiste à utiliser un robots.txt
dans le répertoire racine du serveur (de manière standard). Cependant, toute personne connaissant l'URL du site Web et disposant de connaissances de base sur le Web peut accéder au contenu de robots.txt et localiser les répertoires non autorisés.
J'ai pensé à un moyen d'éviter cela, mais je ne sais pas si cela fonctionnera.
Soit X
le nom du sous-répertoire que je veux exclure. Une façon d'arrêter les robots Web d'indexer le répertoire X
et en même temps de rendre plus difficile l'identification d'un répertoire X
à partir de la racine robots.txt
de la racine, consiste à ajouter le robots.txt
in le répertoire X
au lieu du répertoire racine.
Si je suis cette solution, j'ai les questions suivantes:
robots.txt
dans le sous-répertoire? (étant donné que, un robots.txt
existe déjà et dans le répertoire racine également)Si robots.txt
se trouve dans le sous-répertoire X
, dois-je utiliser des chemins relatifs ou absolus ?:
User-agent: *
Disallow: /X/
ou
User-agent: *
Disallow: /
Non, les robots d'indexation Web ne liront ni n'obéiront à un fichier robots.txt dans un sous-répertoire. Comme décrit sur le site quasi-officiel robotstxt.org :
Où le mettre
La réponse courte: dans le répertoire de niveau supérieur de votre serveur Web.
ou sur pages d'aide de Google ( l'emphase mienne):
Un fichier
robots.txt
est un fichier à la racine de votre site qui indique les parties de votre site que vous ne souhaitez pas voir accessibles par les robots d'exploration des moteurs de recherche.
Dans tous les cas, utiliser un fichier robots.txt pour masquer les pages sensibles des résultats de recherche est de toute façon une mauvaise idée, puisque les moteurs de recherche peuvent indexer des pages non autorisées dans robots.txt = si d'autres pages pointent vers elles. Ou, comme décrit sur la page d'aide Google liée ci-dessus:
Vous ne devez pas utiliser le fichier robots.txt pour masquer vos pages Web dans les résultats de recherche Google. En effet, d'autres pages pourraient pointer vers votre page et votre page pourrait être indexée de cette façon, en évitant le fichier robots.txt.
Alors, que devriez-vous faire à la place?
Vous pouvez laisser les moteurs de recherche explorer les pages (s’ils les trouvent), mais inclure une balise méta robots avec le contenu noindex,nofollow
. Cela indiquera aux moteurs de recherche de ne pas indexer ces pages, même s'ils y trouvent des liens, et de ne pas suivre d'autres liens à partir de ces pages. (Bien entendu, cela ne fonctionnera que pour les pages Web HTML.)
Pour les ressources non HTML, vous pouvez configurer votre serveur Web (par exemple, à l'aide d'un fichier .htaccess
]) afin qu'il envoie le en-tête HTTP X-Robots-Tag avec le même contenu.
Vous pouvez configurer l'authentification par mot de passe pour protéger les pages sensibles. En plus de protéger les pages des visiteurs humains non autorisés, cela éloignera efficacement les robots d'exploration de Web.
Votre robots.txt
devrait être dans le répertoire racine et ne pas avoir d'autre nom. Selon le spécification standard :
Ce fichier doit être accessible via HTTP sur l'URL locale "/robots.txt".