Lors d’un audit technique de référencement, j’utilisais Google Search Console et ScreamingFrog crawl pour examiner les erreurs d’état. Cependant, il existe un écart important entre le nombre de pages connues de Google et celles découvertes par ScreamingFrog (sans aucune limitation ni modification des paramètres de l'araignée).
J'ai 350 pages globales en ScreamingFrog et 7,2K pages en CGC. Pareil pour les différentes erreurs d'état, et il y a une discordance sur quel outil trouve quoi. Par exemple, GSC trouve 16 404, mais ce sont des pages totalement différentes des découvertes de ScreamigFrog 404 (une seule se chevauche).
Avez-vous vécu la même chose?
Après plus de deux heures de jeu avec les paramètres de ScreamingFrog Spider, le mieux que je puisse faire était d’augmenter le nombre de pages explorées à 700 (sur 7,5 Ko sur le site Web). J'ai extrait Toutes les pages connues de GSC et les ai téléchargées en mode liste dans ScreamingFrog pour l'exploration.
L'inconvénient est que, pour certains types de pages, GSC ne m'a donné que les 1000 premières pages, mais cela a fonctionné. J'ai réussi à explorer 6,5K sur 7,5K, ce qui est faisable.
Merci à tous pour votre aide, en particulier à Dan Sharp. Très appréciée.
La raison pour laquelle GSC et SF trouvent probablement 404 URL différentes est probablement due à un échec de la réponse du serveur. Si l'un des robots Web tente de charger une page mais ne répond pas, il signalera 404. Cela peut se produire si la bande passante ou le serveur de votre hébergeur Web est surchargé.
Pour vérifier le statut de vos pages Web, vous pouvez utiliser un vérificateur de statut d'en-tête tel que: http://tools.seobook.com/server-header-checker/
Tant que la page sera chargée depuis votre serveur, elle affichera le véritable statut de l'en-tête.
J'ai mis en place une FAQ sur les raisons courantes pour lesquelles une analyse et GSC (ou le site Google: requêtes d'index) risquent de ne pas correspondre -
Il convient également de mentionner que le commentaire ci-dessus est obsolète - SEO Spider peut rendre les pages (et voir le code JavaScript exécuté) de la même manière que les moteurs de recherche.
J'espère que cela pourra aider!
Btw - Je pense que je suis censé divulguer que je suis le fondateur de Screaming Frog. Ceci est une FAQ, et répondant à des questions directes, et ne se veut pas promotionnel.
Par exemple, GSC trouve 16 404 pages, mais ce sont des pages totalement différentes des 404 découvertes par ScreamigFrog (un seul chevauchement).
Les 404 signalés par ces différents outils seront toujours différents, en raison des différences dans la façon dont ces outils détectent les URL.
Screaming Frog (SF) parcourt votre site à partir d'une URL racine spécifique. Ainsi, les 404 signalés ne seront constitués que de liens internes menant vers des pages inexistantes.
Considérant que GSC va également signaler 404 où tout lien entrant à partir d'un site externe/tiers est lié à une page inexistante sur votre site. Cela pourrait être énorme.
Si vous supprimez une page de votre site (ainsi que tous les liens internes vers cette page), vous ne vous attendez pas à ce que SF le signale jamais en tant que 404 (car il n'y a pas de lien vers celle-ci). Cependant, si GSC a déjà exploré cette page, vous vous attendez maintenant à ce qu'elle le signale en tant que 404 (qu'il y ait ou non des liens internes), ce qui est correct.
Vous pouvez vous attendre à ce que GSC contienne le sur-ensemble de 404 (y compris tous ceux trouvés par SF). Toutefois, cela dépend de la date à laquelle et de la profondeur avec laquelle Google a analysé votre structure de liens interne.