web-dev-qa-db-fra.com

Googlebot crawler: URL limitée par le fichier robots.txt - Comment corriger les entrées dans le fichier robots.txt?

J'ai récemment remarqué que Google ne mettait pas en cache toutes les pages de mon site Web. En utilisant l'outil de diagnostic Google pour les webmasters, j'ai réalisé que certaines de mes pages étaient restreintes par des entrées dans mon fichier robots.txt.

Je sais que certaines personnes peuvent s'inquiéter de l'utilisation de caractères génériques, etc., mais mon infrastructure Web génère des URL dynamiques - il n'y a donc pas d'autre moyen de "mettre en correspondance" un ensemble d'URL.

J'ai inclus à la fois mon fichier robots.tx et une liste des URL ignorées ici. J'espère que quelqu'un pourra repérer les règles qui limitent l'accès de Googlebots aux URL.

Tout d’abord, voici une liste (tronquée) d’URL restreintes:

URL Detail Detected
http://www.example.com/community/groups/cat-lovers-united.html?filter=events URL restricted by robots.txt 10/4/10
http://www.example.com/community/knowledge-center/questions/newbie/1/how-to-love-your-cat.html URL restricted by robots.txt 10/4/10
http://www.example.com/community/news/comments/1 URL restricted by robots.txt 10/4/10
http://www.example.com/feeds/blogposts?request_type=comments&id=2 URL restricted by robots.txt 10/4/10
http://www.example.com/news/106/related-headlines?page=1 URL restricted by robots.txt 10/2/10
http://www.example.com/news/search?category=agriculturals&keywords=argentina URL restricted by robots.txt 10/6/10
http://www.example.com/news/submissions/list?site=ibnlive.in.com URL restricted by robots.txt 9/30/10

Voici mon fichier robots.txt:

User-Agent: *
Disallow: /api
Disallow: /api/
Disallow: /logout
Disallow: /logout/
Disallow: /login
Disallow: /login/
Disallow: /registration
Disallow: /registration/
Disallow: /admin/*
Disallow: /news/submit
Disallow: /*/new
Disallow: /*/createnew
Disallow: /*/edit
Disallow: /*/edit/*
Disallow: /*/editprofile
Disallow: /*/delete
Disallow: /*/delete/*
Disallow: /*/update
Disallow: /*/update/
Disallow: /*/submit
Disallow: /*/submit/
Disallow: /*/report
Disallow: /*/report/*
Disallow: /search
Disallow: /search/
Disallow: /controllers/*
Disallow: /community/members/*/joinNetwork
Disallow: /community/admin/*
Disallow: /lostpassword
Disallow: /lostpassword/
Disallow: /registrationComplete
Disallow: /registrationComplete/
Disallow: /accountActivate
Disallow: /accountActivate/
Disallow: /generate-token
Disallow: /create-widget
Disallow: /buttons
Disallow: /accountDeleted
Disallow: /accountSuspended
Disallow: /news/submit
Disallow: /news/process-submission
Disallow: /news/submit/success
Disallow: /news/errorpage
Disallow: /community/members/*/mailinglist/add
Disallow: /community/members/*/editprofile
Disallow: /community/members/*/joinNetwork
Disallow: /community/users/*/follow
Disallow: /community/users/*/unfollow
Disallow: /trustnetwork/createtoken
Disallow: /trustnetwork/applytoken
Disallow: /community/members/*/mail/*
Disallow: /community/mail/*
Disallow: /community/blogs/blogposts/unpublished/*
Disallow: /community/blogs/blogposts/reported/*
Disallow: /tools/pipeline/vote-submitted.html
Disallow: /community/classifieds/replies/*
Disallow: /report
Disallow: /thumbvote
Disallow: /like
Disallow: /dislike
Disallow: /voteRemove
Disallow: /flagAsInteresting
Disallow: /addFavorite
Disallow: /recommend/*
Disallow: /completed-recommendation.html
Disallow: /rate
Disallow: /notify
Disallow: /addTestimonial
Disallow: /comments/update/*
Disallow: /comments/great-comment
Disallow: /community/members/admin/*
Disallow: /community/blogs/blogposts/comments/moderated/*
Disallow: /community/blogs/blogposts/comments/reported/*
Disallow: /community/articles/reported/fetch/*
Disallow: /community/articles/reported/comments/moderated/*
Disallow: /community/articles/comments/reported/*
Disallow: /community/groups/*/requests
Disallow: /community/groups/*/moderation
Disallow: /community/groups/*/headlineMgmt
Disallow: /community/groups/*/pollMgmt
Disallow: /community/groups/*/join
Disallow: /community/groups/*/leave
Disallow: /community/groups/*/shout
Disallow: /community/groups/*/topics/reply/*
Disallow: /community/groups/*/banUser
Disallow: /countries/cities
Disallow: /country/schools
Disallow: /community/knowledge-center/answers/accept
Disallow: /community/knowledge-center/answers/unAccept
Disallow: /requestPassword
Disallow: /restorePassword
Disallow: /restoredPassword
Disallow: /changePassword
Disallow: /changedPassword
Disallow: /adverts/replies/mailbox
Disallow: /security/error403
Disallow: /home/error404
Disallow: /home/disabled-notification
Disallow: /home/error500
Disallow: /*?
Allow: /

Sitemap: http://www.example.com/sitemap-index.xml

Cela me semble correct, mais il est évident qu’il doit y avoir quelque chose dans le fichier robots.txt qui limite l’accès à plusieurs pages. Je serai très reconnaissant si quelqu'un peut repérer les lignes incriminées dans mon fichier robots.txt

3
morpheous

Vous avez répondu à votre propre question, mais comme vous l'avez fait remarquer, "Interdit:/ * ?" est la source de vos problèmes. Le " * " est une regex, ou un motif express régulier, ce qui signifie fondamentalement toute chaîne de texte d'une longueur quelconque, " * ? " signifie la même chose, mais limite le modèle à la réponse la plus courte possible, et dans le cas de robots.txt, je ne vois pas comment " * ?" expression aurait un sens.

Lecture de ROBOTS.TXT

    La ligne interdire la liste des pages que vous souhaitez bloquer.
    La ligne User-Agent répertorie les robots que vous souhaitez bloquer.

ERRORS_IN_YOUR_ROBOTS.TXT

    (1) Toute utilisation de * dans "/ * /" peut ou peut ne pas être utilisée correctement, tous les "Refuser:/INSERT_XYZ/*" sont incorrects, tout ce dont vous avez besoin est "Refuser:/INSERT_XYZ /"
    (2) "Interdit:/*?" devrait être "Disallow: /" car la référence est faite aux annuaires, pas aux agents; avec "User-Agent: *" c'est correct, et "User-Agent: /" serait faux. Mais puisque vous souhaitez que votre site soit en partie crawlé, supprimez-le.
    (3) Tous les "Disallow:/INSERT_XYZ" devraient probablement être "Disallow:/INSERT_XYZ /" s'ils font référence à un répertoire.

La page Web de Google destinée aux webmasters de Robots.txt est ici .

NOTE: Vous devriez également rechercher ces méta-tags sur Google: noindex , nofollow, noarchive, nocache

2
blunders

Ceci est mon expérience avec crawl errol par robots.txt. Il y a quelques mois, j'ai trouvé un message du type "URL restreinte par le fichier robots.txt". Mon site est Blogger (* .blogspot.com). Je demande mon problème à Google Webmaster et ils m'envoient la réponse à propos de mes robots txt comme vous pouvez le lire:

  • rayhanzhampiet.blogspot.com:

"Google n'a pas pu analyser l'URL en raison d'une restriction robots.txt: votre fichier robots.txt peut interdire complètement Googlebot; il peut également interdire l'accès au répertoire dans lequel se trouve cette URL; ou peut interdire spécifiquement l'accès à l'URL Ce n’est souvent pas une erreur. Quelqu'un peut-il me dire comment annuler la restriction robots.txt?

  • Aide de Top Contributor Webmaster:

Hey rayhanzhampiet, je suppose que nous traitons avec votre blog sur blogger * com (blogspot * com)? Si c'est le cas, vous n'avez rien à faire à propos des restrictions de robots.txt.,

Voici votre fichier robots.txt: Agent utilisateur: Mediapartners-Google Disallow:

User-agent: * Disallow:/search - ne restreint que les choses dupliquées que même vous ne voulez pas garder indexées, voir toutes les URL restreintes ayant/search/dans leur chemin, comme spécifié dans votre fichier robots.txt?

Ils sont restreints parce qu'ils dupliquent ce que l'on voit déjà dans les messages et sur la page d'accueil, par exemple ici:

http://rayhanzhampiet.blogspot.com/search/label/Tips-Blogging Vous reconnaissez avoir vu tout cela auparavant -> sur vos publications originales qui ne sont pas restreintes et donc indexées ;-)

/ search/doit être restreint pour éviter les doublons dans l'index et, comme je l'ai dit, vous souhaitez même les restreindre à des robots pour votre propre bien. Cette restriction est appliquée par défaut sur blogspot * com (et les domaines qui utilisent Blogger comme le vôtre, bien entendu) et ne nécessite aucune résolution, ce n'est pas une erreur (les messages dans webmastertools sont diagnostiqués uniquement ici).

J'espère que les personnes (blogueuses) qui ont un problème avec robots.txt, comme moi, sauront qu'elles n'ont pas besoin d'être résolues.

Merci aux Pro Webmasters,

0