web-dev-qa-db-fra.com

Comment ajouter une règle juste pour un bot spécifique à robots.txt?

J'ai un petit site Web, pour lequel le robots.txt actuel ressemble à ceci:

User-agent: *
Disallow:
Sitemap: https://www.myawesomesite.com/sitemap.xml

Maintenant, je veux ajouter une autre règle comme celle-ci (dans le but de rejeter SomeStupidBot pour explorer mon site Web):

User-agent: SomeStupidBot
Disallow: /
Sitemap: https://www.myawesomesite.com/sitemap.xml

Je ne sais pas comment je combine les deux rules ci-dessus en un robots.txt.

1
JohnJ

Pour les combiner, vous ajoutez simplement le deuxième bloc de règles (groupe) au fichier, avec un espace, comme suit:

User-agent: *
Disallow:

User-agent: SomeStupidBot
Disallow: /

Sitemap: https://www.myawesomesite.com/sitemap.xml

L'ordre n'a pas d'importance (le plus spécifique - basé sur la longueur - gagne). Un seul bloc est traité par le bot.

Notez que la directive Sitemap ne fait pas partie du groupe. C'est une directive indépendante qui apparaît souvent à la fin du fichier (bien que l'emplacement importe peu).

Comme @MEGA l'a déjà indiqué, le premier groupe est superflu dans ce cas. Cependant, c'est à vous de décider si vous le gardez (il y aura généralement quelque chose vous ne voulez pas que d'autres robots explorent).

2
MrWhite

Par défaut, tous les robots sont autorisés à explorer toutes les parties de votre site avec ou sans le premier code que vous avez fourni.
Pour interdire un bot, ajoutez simplement le deuxième code:

User-agent: SomeStupidBot
Disallow: /

et enlever:

User-agent: *
Disallow:

Je ne suis pas un expert de robots.txt, mais si je comprends bien, c'est comme cela que cela se passe.

1
MEGA