Googlebot crawler: URL limitée par le fichier robots.txt - Comment corriger les entrées dans le fichier robots.txt?

Question

J'ai récemment remarqué que Google ne mettait pas en cache toutes les pages de mon site Web. En utilisant l'outil de diagnostic Google pour les webmasters, j'ai réalisé que certaines de mes pages étaient restreintes par des entrées dans mon fichier robots.txt.

Je sais que certaines personnes peuvent s'inquiéter de l'utilisation de caractères génériques, etc., mais mon infrastructure Web génère des URL dynamiques - il n'y a donc pas d'autre moyen de "mettre en correspondance" un ensemble d'URL.

J'ai inclus à la fois mon fichier robots.tx et une liste des URL ignorées ici. J'espère que quelqu'un pourra repérer les règles qui limitent l'accès de Googlebots aux URL.

Tout d’abord, voici une liste (tronquée) d’URL restreintes:

URL Detail Detected http://www.example.com/community/groups/cat-lovers-united.html?filter=events URL restricted by robots.txt 10/4/10 http://www.example.com/community/knowledge-center/questions/newbie/1/how-to-love-your-cat.html URL restricted by robots.txt 10/4/10 http://www.example.com/community/news/comments/1 URL restricted by robots.txt 10/4/10 http://www.example.com/feeds/blogposts?request_type=comments&id=2 URL restricted by robots.txt 10/4/10 http://www.example.com/news/106/related-headlines?page=1 URL restricted by robots.txt 10/2/10 http://www.example.com/news/search?category=agriculturals&keywords=argentina URL restricted by robots.txt 10/6/10 http://www.example.com/news/submissions/list?site=ibnlive.in.com URL restricted by robots.txt 9/30/10

Voici mon fichier robots.txt:

User-Agent: * Disallow: /api Disallow: /api/ Disallow: /logout Disallow: /logout/ Disallow: /login Disallow: /login/ Disallow: /registration Disallow: /registration/ Disallow: /admin/* Disallow: /news/submit Disallow: /*/new Disallow: /*/createnew Disallow: /*/edit Disallow: /*/edit/* Disallow: /*/editprofile Disallow: /*/delete Disallow: /*/delete/* Disallow: /*/update Disallow: /*/update/ Disallow: /*/submit Disallow: /*/submit/ Disallow: /*/report Disallow: /*/report/* Disallow: /search Disallow: /search/ Disallow: /controllers/* Disallow: /community/members/*/joinNetwork Disallow: /community/admin/* Disallow: /lostpassword Disallow: /lostpassword/ Disallow: /registrationComplete Disallow: /registrationComplete/ Disallow: /accountActivate Disallow: /accountActivate/ Disallow: /generate-token Disallow: /create-widget Disallow: /buttons Disallow: /accountDeleted Disallow: /accountSuspended Disallow: /news/submit Disallow: /news/process-submission Disallow: /news/submit/success Disallow: /news/errorpage Disallow: /community/members/*/mailinglist/add Disallow: /community/members/*/editprofile Disallow: /community/members/*/joinNetwork Disallow: /community/users/*/follow Disallow: /community/users/*/unfollow Disallow: /trustnetwork/createtoken Disallow: /trustnetwork/applytoken Disallow: /community/members/*/mail/* Disallow: /community/mail/* Disallow: /community/blogs/blogposts/unpublished/* Disallow: /community/blogs/blogposts/reported/* Disallow: /tools/pipeline/vote-submitted.html Disallow: /community/classifieds/replies/* Disallow: /report Disallow: /thumbvote Disallow: /like Disallow: /dislike Disallow: /voteRemove Disallow: /flagAsInteresting Disallow: /addFavorite Disallow: /recommend/* Disallow: /completed-recommendation.html Disallow: /rate Disallow: /notify Disallow: /addTestimonial Disallow: /comments/update/* Disallow: /comments/great-comment Disallow: /community/members/admin/* Disallow: /community/blogs/blogposts/comments/moderated/* Disallow: /community/blogs/blogposts/comments/reported/* Disallow: /community/articles/reported/fetch/* Disallow: /community/articles/reported/comments/moderated/* Disallow: /community/articles/comments/reported/* Disallow: /community/groups/*/requests Disallow: /community/groups/*/moderation Disallow: /community/groups/*/headlineMgmt Disallow: /community/groups/*/pollMgmt Disallow: /community/groups/*/join Disallow: /community/groups/*/leave Disallow: /community/groups/*/shout Disallow: /community/groups/*/topics/reply/* Disallow: /community/groups/*/banUser Disallow: /countries/cities Disallow: /country/schools Disallow: /community/knowledge-center/answers/accept Disallow: /community/knowledge-center/answers/unAccept Disallow: /requestPassword Disallow: /restorePassword Disallow: /restoredPassword Disallow: /changePassword Disallow: /changedPassword Disallow: /adverts/replies/mailbox Disallow: /security/error403 Disallow: /home/error404 Disallow: /home/disabled-notification Disallow: /home/error500 Disallow: /*? Allow: / Sitemap: http://www.example.com/sitemap-index.xml

Cela me semble correct, mais il est évident qu’il doit y avoir quelque chose dans le fichier robots.txt qui limite l’accès à plusieurs pages. Je serai très reconnaissant si quelqu'un peut repérer les lignes incriminées dans mon fichier robots.txt

blunders · Answer

Vous avez répondu à votre propre question, mais comme vous l'avez fait remarquer, "Interdit:/ * ?" est la source de vos problèmes. Le " * " est une regex, ou un motif express régulier, ce qui signifie fondamentalement toute chaîne de texte d'une longueur quelconque, " * ? " signifie la même chose, mais limite le modèle à la réponse la plus courte possible, et dans le cas de robots.txt, je ne vois pas comment " * ?" expression aurait un sens.

Lecture de ROBOTS.TXT

La ligne interdire la liste des pages que vous souhaitez bloquer.

La ligne User-Agent répertorie les robots que vous souhaitez bloquer.

ERRORS_IN_YOUR_ROBOTS.TXT

(1) Toute utilisation de * dans "/ * /" peut ou peut ne pas être utilisée correctement, tous les "Refuser:/INSERT_XYZ/*" sont incorrects, tout ce dont vous avez besoin est "Refuser:/INSERT_XYZ /"

(2) "Interdit:/*?" devrait être "Disallow: /" car la référence est faite aux annuaires, pas aux agents; avec "User-Agent: *" c'est correct, et "User-Agent: /" serait faux. Mais puisque vous souhaitez que votre site soit en partie crawlé, supprimez-le.

(3) Tous les "Disallow:/INSERT_XYZ" devraient probablement être "Disallow:/INSERT_XYZ /" s'ils font référence à un répertoire.

La page Web de Google destinée aux webmasters de Robots.txt est ici .

NOTE: Vous devriez également rechercher ces méta-tags sur Google: noindex , nofollow, noarchive, nocache

Share With Irfan · Answer

Ceci est mon expérience avec crawl errol par robots.txt. Il y a quelques mois, j'ai trouvé un message du type "URL restreinte par le fichier robots.txt". Mon site est Blogger (* .blogspot.com). Je demande mon problème à Google Webmaster et ils m'envoient la réponse à propos de mes robots txt comme vous pouvez le lire:

rayhanzhampiet.blogspot.com:

"Google n'a pas pu analyser l'URL en raison d'une restriction robots.txt: votre fichier robots.txt peut interdire complètement Googlebot; il peut également interdire l'accès au répertoire dans lequel se trouve cette URL; ou peut interdire spécifiquement l'accès à l'URL Ce n’est souvent pas une erreur. Quelqu'un peut-il me dire comment annuler la restriction robots.txt?

Aide de Top Contributor Webmaster:

Hey rayhanzhampiet, je suppose que nous traitons avec votre blog sur blogger * com (blogspot * com)? Si c'est le cas, vous n'avez rien à faire à propos des restrictions de robots.txt.,

Voici votre fichier robots.txt: Agent utilisateur: Mediapartners-Google Disallow:

User-agent: * Disallow:/search - ne restreint que les choses dupliquées que même vous ne voulez pas garder indexées, voir toutes les URL restreintes ayant/search/dans leur chemin, comme spécifié dans votre fichier robots.txt?

Ils sont restreints parce qu'ils dupliquent ce que l'on voit déjà dans les messages et sur la page d'accueil, par exemple ici:

http://rayhanzhampiet.blogspot.com/search/label/Tips-Blogging Vous reconnaissez avoir vu tout cela auparavant -> sur vos publications originales qui ne sont pas restreintes et donc indexées ;-)

/ search/doit être restreint pour éviter les doublons dans l'index et, comme je l'ai dit, vous souhaitez même les restreindre à des robots pour votre propre bien. Cette restriction est appliquée par défaut sur blogspot * com (et les domaines qui utilisent Blogger comme le vôtre, bien entendu) et ne nécessite aucune résolution, ce n'est pas une erreur (les messages dans webmastertools sont diagnostiqués uniquement ici).

J'espère que les personnes (blogueuses) qui ont un problème avec robots.txt, comme moi, sauront qu'elles n'ont pas besoin d'être résolues.

Merci aux Pro Webmasters,