Comment corriger l'erreur de fichier robots.txt dans mon GWT?

Question

Dans les outils pour les webmasters de mon blog, il existe une notification dans la section Erreurs d'analyse. Google n'a pas pu analyser votre site, car nous n'avons pas pu accéder au fichier robots.txt.

Le fichier robots.txt de mon blog est:

User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Allow: / Sitemap: http://example.blogspot.com/feeds/posts/default?orderby=UPDATED

Je ne pense pas que les détails du fichier ci-dessus soient faux, mais je ne comprends pas pourquoi j'ai reçu une notification aussi dangereuse.

Comment puis-je résoudre ce problème?

user29671 · Accepted Answer

Si vous avez un message indiquant que "Google ne peut pas analyser votre site car nous n'avons pas pu accéder au fichier robots.txt" ". Ensuite, ce n'est pas le contenu du fichier robots.txt qui est en cause, c'est que Google n'a tout simplement pas pu accéder au fichier. Et lorsque Google ne peut pas accéder à un fichier robots.txt, il n'analyse pas le site.

Utiliser fetch en tant que Googlebot dans les Outils pour les webmasters est une bonne idée. Si votre fichier robots.txt est correctement récupéré, il pourrait s'agir d'un problème antérieur. Si ce n'est pas le cas, vous devez évidemment chercher plus loin pour garantir un accès à Googlebot.

zigojacko · Answer

Il n’existe pas de commande officielle telle que Allow dans robots.txt. Par défaut, tout est autorisé. (Cependant, il est possible d'utiliser Allow pour donner des exceptions lorsque vous n'autorisez pas plusieurs chemins de répertoire dans une route. Souvent, cela n'est toutefois pas obligatoire).

Non pas que je pense que cela cause un problème.

Il n'y a aucune raison de spécifier l'agent utilisateur Mediapartners-Google, cela aussi, c'est juste dire autoriser l'exploration de tout.

Tous vos robots.txt besoins de ce qui précède sont les suivants: -

User-Agent: * Disallow: /search/ User-agent: Mediapartners-Google Disallow: / Sitemap: http://latest-seo-news-updates.blogspot.com/feeds/posts/default?orderby=UPDATED

Les outils pour les webmasters Google vont signaler un avertissement indiquant que X nombre d'URL de votre site ont été bloquées par votre robots.txt si vous n'autorisez pas les bots à accéder à une partie de votre site. Dans ce cas, vous êtes à /search/. Vous pouvez développer cette notification pour afficher spécifiquement les URL bloquées. Vous constaterez peut-être que seules celles que vous souhaitez interdire sont mises en garde par Google Webmaster Tools.

Vous pouvez également exécuter une application telle que Xen pour analyser votre site et déterminer quelles URL peuvent être spécifiquement analysées. Vous pouvez également extraire Googlebot et tester votre fichier robots.txt à partir de Google Webmaster Tools, qui vous alertera de tout problème ultérieur ou au moins des détails complets à ce sujet.

Edit: Après clarification, ajout de la directive Disallow pour l'agent utilisateur Mediapartners-Google.

user35036 · Answer

User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Allow: /

L'erreur est due au moyen Disallow: /search * du moteur en saisissant le commentaire/la recherche, vous les empêchez en fait de figurer dans l'index de recherche de votre site. Prenez note du code ci-dessus:

User-agent: Mediapartners-Google Disallow:

Disallow: signifie que vous laissez les robots adsense ramper partout sans restriction.

The Allow: / ne peut pas être interprété par des bots plus anciens mais il est bien interprété par google bot.