web-dev-qa-db-fra.com

Comment Googlebot trouve-t-il une nouvelle page sur un site Web?

Je me demandais comment Google identifiait un nouvel article ou un nouveau contenu sur un site Web.

Quelle est la méthode utilisée pour le faire pour tous les sites Web?

4
neo

Conceptuellement, Google utilise un analyseur HTML DOM. Cela a pour effet de décomposer un code HTML de page Web en une structure de base et d'attribuer un identifiant à chaque balise HTML. Cet ID représente l'ordre des balises HTML du début à la fin. Toute dépendance entre des éléments HTML telle qu'une balise li dépend d'une balise ul, toute relation parent-enfant entre des éléments HTML telle qu'une imbrication. li balises, toute relation de bloc de contenu entre des éléments HTML, telle qu'une balise p, suivie d'une balise d'en-tête telle que h1. Cette structure est représentée à l'aide d'un langage tel que XML, qui est traditionnel.

Gardez à l'esprit que les analyseurs HTML à XML existent depuis très longtemps.

Une fois les éléments séparés, toute balise a peut être décomposée en ses éléments. Chaque fois qu'une page est analysée, la première chose à faire est que tous les liens sont stockés dans l'index dans une table de liens. Cette table de liens est une table relationnelle ayant une relation avec une table d'URL. La table d'URL stocke les URL de pages tandis que la table de liens établit simplement des relations entre les enregistrements de la table d'URL avec le texte du lien. Si vous n'êtes pas familier avec les bases de données relationnelles, cela peut ne pas avoir de sens. À cette fin, chaque tableau est comme une feuille de calcul. Une feuille a des URL. Une feuille comporte un lien texte et des références à des enregistrements dans la feuille URL.

Un lien dans l'index comporte trois éléments de base; l'URL source (référence), l'URL cible (référence) et le texte du lien. Si un lien est stocké dans un index dans lequel seule la page à partir de laquelle elle a été analysée (source) possède une URL dans l'index, ce qui signifie que l'URL cible n'a pas encore été extraite. Il s'agit d'un lien sans attache. L'URL vers laquelle le lien pointe (cible) est ensuite placée dans la file d'attente d'extraction pour que la page soit extraite, indexée, etc. Si la page cible ne peut pas être extraite, il s'agit d'un lien rompu qui reste dans l'index en tant que lien rompu. référence.

C'est un processus récursif, ce qui signifie qu'il commence et se termine à plusieurs reprises; récupérer des pages, analyser des pages et indexer des pages. Pour les moteurs de recherche, ces processus sont décomposés en processus indépendants. Certains processus de moteur de recherche sont basés sur la file d'attente, ce qui signifie qu'ils prennent un enregistrement dans une file d'attente (liste ou base de données) et le traitent, ou sur le déclencheur, ce qui signifie qu'un événement déclencheur démarre le processus, ou le traitement par lots, ce qui signifie qu'il exécute un processus sur la base de données entière.

Les pages sont extraites d'une file d'URL. Une fois la page extraite et stockée, un événement déclencheur est défini pour analyser la page. Une fois la page analysée, divers autres processus sont déclenchés, notamment celui qui traite les liens. Chaque processus basé sur un déclencheur est considéré comme temps réel. Cela contraste avec l'algorithme PageRank qui est basé sur des lots et s'exécute périodiquement.

Ce processus s'appelle l'exploration. C'est comme une araignée qui explore le Web. Au fur et à mesure que chaque page est extraite, analysée et que les URL cibles de lien ajoutées à la file d'attente à extraire, la plupart des pages sont découvertes très facilement. Pour les pages restantes sans lien, le plan Sitemap est utilisé. Bien qu'il ne soit généralement pas nécessaire qu'un site ait un plan du site, cela peut aider le moteur de recherche à savoir qu'il est capable d'extraire correctement toutes les pages du site. Les sitemaps sont principalement utilisés pour vérifier si un site peut être correctement analysé. Pour toute page répertoriée dans le plan Sitemap qui ne contient pas de lien cible, l'URL est soumise, comme lue à partir du plan Sitemap, à la file d'attente d'extraction pour garantir que le moteur de recherche comporte autant de pages qu'il est possible d'extraire de n'importe quel site.

C'est ça. C'est un processus simple qui existe depuis très longtemps et qui fonctionne incroyablement bien.

Les pages sont périodiquement récupérées. Ceci est basé sur un concept de réseau TTL signifiant Time To Live. C'est simplement un nombre représentant des secondes. Par exemple, 5 minutes correspondent à 300 secondes et 24 heures à 86400 secondes. Bien que personne ne sache quel est le temps initial [TTL> pour une page Web, ce TTL est ajusté pour chaque paginé à partir d'une période plus longue ou plus courte, selon que le les pages changent ou pas. Un processus permet de déterminer si le contenu de la page change ou le contenu modélisé avec un algorithme pour déterminer quelles modifications ont une valeur ou non. Cela signifie que les liens dans une barre latérale ne peuvent pas raccourcir le temps TTL d'une page tant qu'une modification apportée au contenu le sera.

Il est important de le savoir, car c’est ainsi qu’un moteur de recherche détermine, en partie, la fraîcheur d’une page. Bien sûr, toute nouvelle page est également fraîche. Si une page change fréquemment, elle est récupérée plus souvent en utilisant le temps TTL comme déclencheur. Plus le temps TTL est court, plus la page est régénérée, analysée, indexée, etc. Chaque fois qu'une page est récupérée, le temps TTL est raccourci pour déterminer la fréquence d'affichage d'une page. devrait être récupéré. C’est le raccourcissement et l’allongement du TTL qui permet d’extraire correctement la page en fonction de sa fréquence de modification. Il y a un maximum TTL. Par exemple, toute page qui ne change pas sera vérifiée à l'aide de la durée de vie maximale. Cela permet à un moteur de recherche de traiter rapidement toute page.

La fraîcheur TTL heure existe pour chaque page et affecte la façon dont les liens se trouvent sur cette page. Les pages avec des temps TTL plus courts auront des liens trouvés plus rapidement que les pages avec des temps TTL plus longs.

La raison pour laquelle cela est important pour cette réponse est due aux liens. Plus souvent qu'autrement, les pages qui sont fraîches ont des liens vers d'autres pages qui peuvent aussi être fraîches. Les blogs en sont un excellent exemple. Obtenez-vous l'image? Ces liens sont soumis à la file d’extraction exactement comme avant, ce qui rend la découverte des liens beaucoup plus rapide.

5
closetnoc

Si vous avez une nouvelle page, vous avez probablement un lien vers celle-ci. Google visite souvent votre page et attrape le lien. S'il s'agit d'un nouveau contenu, cela peut prendre plus de temps, car je ne pense pas que Google examine le contenu aussi souvent que les liens. C'est pourquoi ils recommandent un plan du site. Lorsque vous modifiez une page de manière significative, vous pouvez mettre à jour votre sitemap et par conséquent informer Google que le contenu de la page a été modifié.

Vous pouvez rechercher dans vos fichiers journaux pour voir à quelle fréquence googlebot visite votre page. Vous pouvez également voir les mêmes informations dans Google Webmaster Tools.

Cela étant dit, il est impossible d'accéder à une page ne contenant aucun lien, car il est impossible pour Google de savoir qu'elle existe, sauf si cette page est liée à un tiers.

1
Rob

Il le fait en suivant:

  1. vérifier le plan du site pour de nouveaux liens
  2. sur les pages indexées existantes, une fois qu'elles sont réindexées, tous les liens de cette page sont analysés/indexés. Ainsi, vous pouvez mettre de nouveaux liens sur des pages existantes pour la visibilité
  3. à quelle vitesse cela se produit dépend de la vitesse d'exploration de votre site. Cela peut prendre quelques heures à quelques jours avant que Google commence à indexer ces nouvelles pages.
0
abhinsit