Comment Google détecte-t-il et indexe-t-il les URL qui ne sont pas liées ou dans le sitemap?

Question

Je peux voir que plusieurs URL de mon site Web sont explorées par Google. Je le vois en utilisant site: dans la recherche Google.

Je me demandais quels sont tous les lieux possibles à partir desquels Google sélectionne ces URL? J'ai vérifié que de nombreuses URL crawlées ne figuraient pas dans le sitemap et nous n'avons pas non plus mis de lien vers ces URL sur une autre page. Comment Google découvrirait-il un tel contenu?

Puis-je quand même vérifier toutes mes URL indexées par Google et obtenir des informations sur la manière dont Google a découvert ces pages?

Henry Visotski · Accepted Answer

Il existe de nombreux endroits où Google peut aller pour indexer les pages de votre site. Votre sitemap et ce qui se trouve sur votre site actif ne constituent qu’une petite partie de celle-ci. Votre sitemap XML est simplement un signal à Google, à Bing et aux autres moteurs de recherche pour indexer vos pages les plus importantes et prendre note du nouveau contenu (si vous utilisez un CMS et un plugin qui met à jour automatiquement le sitemap.)

Lorsque Google accède à votre site, il utilise toutes sortes de liens, pas seulement des liens de niveau page. Il peut indexer des fichiers, des taxonomies, plusieurs versions de pages ... Dans un CMS comme Drupal, où tout est un nœud, il peut même indexer des parties de pages.

C'est pourquoi il est important que vous connaissiez votre CMS et son fonctionnement sur le backend. Vous devez utiliser une combinaison de méta noindex, de canonisation, de redirections, de robots.txt et de Search Console/Bing Webmaster pour contrôler ce qui est analysé/indexé et ce qui ne l'est pas.

Utiliser Search Console pour examiner les liens entrants, Open Site Explorer de Moz pour analyser le linkscape de chaque page et un outil tel que Screaming Frog SEO Spider (le premier est gratuit, le deuxième et le troisième sont freemium) vous permettront d'analyser les deux. liens internes et externes. Entre tout cela, vous devriez pouvoir diagnostiquer la source.

user49591 · Answer

Récemment, nous avons eu le même problème et je me demandais comment Google avait connaissance d'une URL interne sur mon site.

Le répertoire en question pour moi était/piwik (une alternative open source à Google Analytics).

Donc, Google explore également les liens dans vos fichiers source (comme le HTML). S'il y a des liens, comme dans <meta> ou <script> urls in here </script>, Google va explorer et indexer.