Je veux écrire un fichier robots.txt pour mon site Web et permettre aux robots célèbres (Google, Bing et Yahoo) d'explorer mon site Web, mais refuser le reste.
Je souhaite savoir si j'ajoute User-agent: Googlebot
, de faux robots Googlebot pourront-ils consulter mon site Web? Est-il même possible de simuler un bot?
Que les robots explorent ou non votre robots.txt
est entièrement un système basé sur votre honneur. Rien de ce que vous mettez dans ce fichier n'empêchera un "faux" robot d'exploration de faire quoi que ce soit.
En ce qui concerne User-agent:
, cette valeur est également entièrement volontaire. Vous pouvez demander à votre navigateur, ou à tout autre client HTTP, d'envoyer la valeur souhaitée pour cet en-tête.
Voici un fichier robots.txt qui permettra à Google, Bing et Yahoo d'explorer le site tout en interdisant toute autre exploration:
User-Agent: *
Disallow: /
User-Agent: googlebot
Disallow:
User-Agent: bingbot
Disallow:
User-agent: Slurp
Disallow:
Certains robots ignorent le fichier robots.txt et analysent ce qu'ils veulent. Certains robots imitent Googlebot ou un autre robot légitime. Certains robots empruntent l'identité des agents utilisateurs du navigateur, tels qu'Internet Explorer ou Firefox.
Il y a procédure permettant de vérifier qu'un agent utilisateur de Googlebot est bien un robot de recherche Google . Cela implique d'effectuer des requêtes DNS sur l'adresse IP à partir de laquelle le robot a visité.
Il existe également le concept de spider trap , qui est un endroit sur votre site Web que les utilisateurs ne trouveraient pas, mais que les robots d'exploration chercheraient. Un piège araignée peut être utilisé pour identifier les robots qui se font passer pour des agents utilisateurs du navigateur.
Comme mentionné, les agents utilisateurs peuvent être usurpés, ce qui rend le blocage de l'accès peu fiable (dans Google Chrome, vous pouvez ouvrir les outils de développement et naviguer dans les "remplacements" pour modifier votre agent d'utilisateur). robots.txt
ne dissuadera personne ayant suffisamment de connaissances pour usurper l'identité d'un agent utilisateur d'un moteur de recherche majeur.
Bien qu'il n'offre aucune protection contre les agents utilisateurs falsifiés, l'ajout de directives aux fichiers de configuration de votre serveur (par exemple .htaccess
) pour bloquer les agents d'utilisateur vous offrirait davantage de protection ... bien que je ne sois pas sûr de la raison vouloir le faire.