Ma robots.txt
dans les outils pour les webmasters de Google affiche les valeurs suivantes:
User-agent: *
Allow: /
Qu'est-ce que ça veut dire? Je n'ai pas assez de connaissances à ce sujet, alors je cherche votre aide. Je souhaite autoriser tous les robots à explorer mon site Web. Est-ce la bonne configuration?
Ce fichier autorisera l’accès de tous les robots d'exploration
User-agent: *
Allow: /
Cela permet essentiellement à tous les agents utilisateurs (*) d'accéder à toutes les parties du site (les /).
Si vous voulez autoriser chaque bot à tout analyser, c'est le meilleur moyen de le spécifier dans votre fichier robots.txt:
User-agent: *
Disallow:
Notez que le champ Disallow
a une valeur vide, ce qui signifie selon la spécification :
Toute valeur vide indique que toutes les URL peuvent être récupérées.
Votre chemin (avec Allow: /
au lieu de Disallow:
) fonctionne aussi, mais Allow
ne fait pas partie de la spécification originale de robots.txt , de sorte qu’il n’est pas supporté par tous les bots (beaucoup le supportent, cependant, - comme le Googlebot ). Cela dit, les champs non reconnus doivent être ignorés, et pour les bots qui ne reconnaissent pas Allow
, le résultat serait le même dans ce cas de toute façon: si rien n'est interdit d'explorer (avec Disallow
), tout est autorisé à être exploré.
Cependant, officiellement (selon la spécification originale), il s’agit d’un enregistrement invalide, car au moins un champ Disallow
est requis:
Au moins un champ interdire doit être présent dans un enregistrement.
Je crois comprendre que cette question est assez ancienne et que ses réponses sont plutôt bonnes. Mais, voici mes deux cents par souci de complétude.
Selon le document officiel documentation , il existe quatre façons d’autoriser un accès complet des robots à votre site.
Spécifiez un assortiment global avec un segment interdit, comme mentionné par @unor. Donc, votre /robot.txt
ressemble à ça.
User-agent: *
Disallow:
Créer un /robot.txt
fichier sans contenu. Ce qui permettra par défaut d'autoriser tout pour tous les types de Bots
.
Ne créez pas de /robot.txt
tout à fait. Ce qui devrait donner exactement les mêmes résultats que les deux précédents.
À partir de la documentation des robots pour les balises méta , vous pouvez utiliser la balise méta suivante sur toutes vos pages de votre site pour indiquer à la Bots
que ces pages ne sont pas censées être indexées.
<META NAME="ROBOTS" CONTENT="NOINDEX">
Pour que cela soit appliqué à l'ensemble de votre site, vous devrez ajouter cette balise méta pour toutes vos pages. Et cette balise devrait strictement être placée sous votre balise HEAD
de la page. En savoir plus sur cette balise meta ici .
Cela signifie que vous autorisez chaque (*
) user-agent/crawler pour accéder à la racine (/
) de votre site. Tu vas bien.