Nous rencontrons le problème suivant: Googlebot encountered extremely large numbers of links on your site.
Le site est un site de commerce électronique et compte environ 12 millions de pages indexées dans Google. Parmi les exemples fournis, la majorité des liens proviennent de facettes et de requêtes de recherche internes. Les facettes utilisent rel = "canonique" pour la version non facettée et sont définies sur "Aucune URL" via les paramètres d'URL. Les pages de recherche ne sont pas indexées et sont définies sur "Pas d'URL via les paramètres d'URL et ont été bloquées jusqu'à récemment via un fichier robots.txt. Malgré le blocage des facettes/pages de recherche via les paramètres d'URL, l'utilisation de canonique et de noindex est toujours en cours d'exploration de Googlebot.
J'ai entendu dire que je devrais aussi bloquer les facettes via robots.txt, mais nos pages de recherche ont été interdites dans robots.txt et Google ne l'a pas honoré.
Quelles autres options dois-je avoir pour résoudre ce problème?
Regrading @John Mueller a répondu à un problème similaire: Résolution "Googlebot a rencontré un nombre extrêmement élevé de liens sur votre site." Il dit que le message est envoyé avant que les nouvelles URL ne soient explorées, c'est-à-dire les robots. Les balises txt et noindex, ou rel = canonical ne sont pas connues à ce stade. Étant donné que les facettes sont bloquées depuis 2012, Google ne doit pas rechercher ces URL uniques dans l'exploration interne de notre site. Cela signifie-t-il que les internautes créent des liens externes vers ces liens facettés, fournissant ainsi à Google cette liste d'URL facettées?
J'ai discuté avec John Mueller à propos du fichier robots.txt, des paramètres d'URL, des canoniques et de la non-indexation. L'utilisation de "paramètres d'URL" dans GWT est une suggestion forte pour Googlebot, mais pas absolue. Googlebot vérifie toujours les URL de manière ininterrompue. Ainsi, en fonction du nombre d’URL, la vérification peut être assez visible. De plus, comme les "paramètres d'URL" étaient configurés pour ne pas analyser les requêtes et les facettes de recherche, Googlebot serait limité à la fréquence d'analyse des URL. Cela signifie qu'il faudra plus de temps pour les rediffuser et les supprimer de l'index de Google. En ce qui concerne le fichier robots.txt, étant donné que nous bloquions les pages de recherche via le fichier robots.txt, Googlebot ne réexaminerait pas les URL pour afficher le noindex. Donc, supprimer les pages de recherche de robots.txt était le bon choix.
En raison du nombre de pages de recherche/pages de facettes, le traitement des URL prendra un certain temps. John Mueller nous donne un délai d’une demi-année à trois quarts d’année pour être redirigé et abandonné naturellement.
Solution: John Mueller suggère d'utiliser l'outil urgent "Supprimer l'URL" de Google présent dans GWT: Supprimer l'URL .
Voici le lien vidéo de la réponse de John Mueller aux heures de bureau du webmaster de Google .
Ce n'est pas un problème qui doit être résolu. Tout site comportant un grand nombre de pages reçoit ce message. Google vous indique cela au cas où vous auriez publié accidentellement des URL, en particulier des URL avec un contenu en double.
Tant que vous souhaitez publier vos URL et que vous gérez les doublons de manière appropriée, il ne s'agit pas d'un avertissement sur lequel vous devez porter une plus grande attention. J'ai travaillé avec de grands sites qui avaient cet avertissement depuis des années, mais qui ont toujours bénéficié d'un bon classement et de beaucoup de trafic sur les moteurs de recherche.
Cela peut ne pas adresser directement votre avertissement de nombre de liens, mais vous avez dit quelque chose:
Les facettes utilisent rel = "canonique" pour la version non facettée et sont définies sur "Aucune URL" via les paramètres d'URL.
Certains canoniques utilisent effectivement des facettes. Avez-vous pensé à changer votre tactique de paramètre d'URL? Vous pouvez "apprendre" à Gbot à utiliser les facettes dans GWT> Explorer> Paramètres d'URL. Vous pouvez spécifier des relations de chaîne de requête telles que sélectionner, trier, rétrécir, spécifier, traduire et paginer. Selon Mueller, cela ne résoudra pas l'avertissement, mais aussi selon lui:
si vous nous envoyez 5 à 100 fois plus d'URL que de contenu, vous risquez de ne pas être en mesure de récupérer le nouveau contenu aussi rapidement que nous le pourrions si nous pouvions explorer plus efficacement.
Donc, si on prend un membre, définir les paramètres d'URL à cette fin pourrait rendre une analyse plus efficace ... ou au moins permettre à Gbot de comprendre ce qu'il est sur le point de rencontrer. Il semblerait que les désactiver soit un moyen facile de s’en sortir plutôt que le "bon" moyen, en particulier pour un acteur majeur disposant d’un grand nombre de facettes et d’identificateurs de requête comme Walmart.
Une autre pensée concerne également vos canoniques eux-mêmes ... remarquant sur votre rel=next
dans la catégorie Android tab pc, par exemple, qui regorge de chaînes de requête telles que facet=
cat_id=
etc C'est peut-être juste moi, mais cela semble contre-intuitif de définir un ensemble canonique de chaînes de requêtes sans que le bot puisse comprendre la logique des paramètres elle-même.
Encore une fois, ce n'est pas une réponse directe à votre question, et je ne suis pas un expert en trafic, mais il me semble que cela pourrait avoir un impact sur le Gbot, même si c'était pré-compréhensif.