J'ai un petit site Web, pour lequel le robots.txt
actuel ressemble à ceci:
User-agent: *
Disallow:
Sitemap: https://www.myawesomesite.com/sitemap.xml
Maintenant, je veux ajouter une autre règle comme celle-ci (dans le but de rejeter SomeStupidBot
pour explorer mon site Web):
User-agent: SomeStupidBot
Disallow: /
Sitemap: https://www.myawesomesite.com/sitemap.xml
Je ne sais pas comment je combine les deux rules
ci-dessus en un robots.txt
.
Pour les combiner, vous ajoutez simplement le deuxième bloc de règles (groupe) au fichier, avec un espace, comme suit:
User-agent: *
Disallow:
User-agent: SomeStupidBot
Disallow: /
Sitemap: https://www.myawesomesite.com/sitemap.xml
L'ordre n'a pas d'importance (le plus spécifique - basé sur la longueur - gagne). Un seul bloc est traité par le bot.
Notez que la directive Sitemap
ne fait pas partie du groupe. C'est une directive indépendante qui apparaît souvent à la fin du fichier (bien que l'emplacement importe peu).
Comme @MEGA l'a déjà indiqué, le premier groupe est superflu dans ce cas. Cependant, c'est à vous de décider si vous le gardez (il y aura généralement quelque chose vous ne voulez pas que d'autres robots explorent).
Par défaut, tous les robots sont autorisés à explorer toutes les parties de votre site avec ou sans le premier code que vous avez fourni.
Pour interdire un bot, ajoutez simplement le deuxième code:
User-agent: SomeStupidBot
Disallow: /
et enlever:
User-agent: *
Disallow:
Je ne suis pas un expert de robots.txt, mais si je comprends bien, c'est comme cela que cela se passe.