web-dev-qa-db-fra.com

Google ne peut pas accéder à un fichier robots.txt inexistant

J'ai créé un site Web il y a quelques semaines et j'essaie de le faire explorer par Google. Lors de la connexion à la console de recherche Google (outils pour les webmasters) et dans les cas suivants:

Explorer> Erreurs d'exploration

Il rapporte:

Google n'a pas pu explorer votre site, car nous n'avons pas pu accéder au fichier robots.txt de votre site. Plus d'informations.

Dans le lien "Plus d'infos", Google indique que je n'ai pas besoin d'un fichier robots.txt. Par conséquent, je ne suis pas sûr de ce que je dois faire pour que le site soit indexé sur Google.

Cela affecte-t-il l'indexation de mon site? Comment puis-je résoudre ce problème?

3
Mike

Vous n'avez pas besoin d'un fichier robots.txt pour que le site entre l'index de Google.

Puisque Google vérifie chaque site pour un robots.txt, votre site renvoie un 404 error qui renverra les notifications comportant des erreurs d'analyse. Ignorez simplement cette erreur ou créez un viderobots.txt afin que votre site Web renvoie 200 OK status.

Il est à noter qu'un site renvoyant un 404 status n'est pas un ERROR impliquant que votre site doit être corrigé. Pour les pages inexistantes, un serveur répondant avec un statut 404 signifie que le serveur fonctionne comme prévu. .

3
grg

Après avoir lu les questions et les commentaires, je suggérerais de faire l’une des choses suivantes:

  1. Créez un fichier robots.txt contenant une seule ligne. Peut-être quelque chose comme ça:

    # Ça marche

  2. Ou, si vous ne voulez pas vraiment de fichier robots.txt, configurez votre serveur de sorte que toutes les demandes adressées à robots.txt génèrent un code d'état HTTP 410, ce qui signifie que le fichier a disparu et qu'il ne devrait plus jamais être demandé.

Si votre serveur est Apache, vous pouvez facilement ajouter le contenu suivant à .htaccess dans le dossier racine du document de votre site ou à l’intérieur des balises directory où le répertoire est la racine du document dans la configuration du serveur principal.

RewriteEngine On
RewriteRule ^robots\.txt$ - [R=410,NC,L]

Ainsi, toute demande adressée à robots.txt (quel que soit le casse des lettres) produira un code d'état HTTP 410.

J'ai ajouté une barre oblique avant le point dans le nom du fichier pour en faire un caractère littéral au lieu d'un caractère de traitement de règles.

L'avantage d'avoir un simple fichier robots.txt par rapport à aucun fichier robots.txt est que vos journaux d'erreurs ne seront pas remplis avec des requêtes à robots.txt.

1
Mike