Pourquoi Googlebot continue-t-il de revenir à des pages qui ont été revenus 410 pendant une longue période?

Question

C'était au début de 2018, il y a presque deux ans, quand j'ai pris sa retraite, un tas de pages de mon site n'était plus nécessaire/pertinent/maintenu/etc. Je l'ai fait en retournant un statut HTTP de 410. À ma surprise, GoogleBot continue de revenir à ces pages à intervalles très réguliers, juste pour obtenir 410 ans encore et encore et encore. Pour 2 ans. J'ai vérifié et ces pages ne sont plus dans l'index, mais je suis curieux de savoir pourquoi le robot pense toujours que la page "pourrait" être disponible? Est-ce que quelqu'un connaît un bon blog/une bonne discussion qui explique comment 410 ans fonctionnent vraiment?

Stephen Ostermiller · Accepted Answer

Une fois que GoogleBot trouve une URL de travail, elle jamais l'oublie. Il reviendra toujours pour la ramper périodiquement. Peu importe le statut qu'il revient. Peu importe que cela a toujours des liens avec elle ou non. J'ai des URL qui ont été une redirection permanente pendant 15 ans. Googlebot les rampe toujours de temps en temps.

La logique semble être que les anciennes URL sont occasionnellement ressuscitées. Googlebot pourrait aussi vérifier parfois. Le nombre de liens dans l'URL détermine la fréquence à laquelle il va être rampé. Si vous parvenez à supprimer chaque lien interne et externe à l'URL, il sera basculé beaucoup moins fréquemment.

GoogleBot a même un mode d'analyse spécial pour les anciennes URL sans liens. Parfois, je trouverai GoogleBot demandant des centaines de telles anciennes URL de mon site au cours d'une journée. Lorsque GoogleBot est dans ce mode sanitaire, il semble ployer les URL par ordre de longueur. Les URL les plus courtes sont rampa en premier.

Cela ne devrait pas être rien à craindre:

Tant que l'URL renvoie un statut "410 parti" et que cela lui permet d'être rampé, il n'y a aucun danger que Google indexera l'URL. Googlebot vérifie simplement pour vous assurer que la page est toujours partie.
Les URL de statut 404 et 410 ne consomment généralement pas de nombreuses ressources de serveur. Ce sont de très petites réponses. Ils n'ont généralement pas besoin de recherches de base de données. Ils ne déclenchent généralement pas de demandes de ressources supplémentaires pour JS, CSS et images.
Google prévoit de trouver des erreurs 404 et 410 sur des sites Web correctement configurés. Servir ces pages d'erreur à Googlebot ne fera aucune mal au reste de votre site. Peu importe qu'il y ait 100 ou 10 millions d'URL d'erreur selon John Mueller de Google