Comment contrôler l'ancien taux d'exploration de pages indexées

Question

J'ai un site où l'utilisateur peut créer sa page de profil avec son URL spécifique. Chaque URL spécifique sera accessible au public, ce qui signifie qu'elle sera également prête à être explorée par les moteurs de recherche. Aujourd'hui, je reçois aujourd'hui un minimum de 1 000 nouvelles pages de profil et 10 à 40 pages indexées par Google en 24 heures. C'est bon.

Voici mon problème:

Mais les pages déjà indexées sont à nouveau explorées par Google après un certain temps. Mais ce n’est pas nécessaire et le site compte maintenant entre 300 000 et 400 000 pages.

Donc, je ne veux pas que le moteur de recherche soit analysé encore et encore pour les anciennes pages de profil, sauf s’il ya une nouvelle mise à jour et qu’il est correct d’explorer les nouvelles pages. Aussi, j'utilise déjà la redirection 410 pour les pages de profil expirées.

Ce serait formidable si vous suggérez que le moteur de recherche se concentre uniquement sur les nouvelles pages de profil plutôt que sur les anciennes.

Luke Rehmann · Answer

Vous pouvez envisager d’ajouter une balise de fréquence de changement à votre sitemap XML: http://www.sitemaps.org/protocol.html

Un autre élément à prendre en compte serait de s’assurer que les en-têtes modifiés en dernier correspondent à la date de création (ou de modification) du compte de l’utilisateur et, si cela fonctionne pour votre application, de mettre en cache les en-têtes associés: http: //www.mobify. com/blog/débutants-guide-à-http-cache-en-têtes /

Mike · Answer

Si vous ne l'avez pas déjà fait, créez un compte auprès de Google Webmaster Tools, ajoutez-y votre domaine, accédez-y, accédez à votre domaine, sélectionnez l'icône d'engrenage, accédez à Paramètres du site, puis sélectionnez "Limiter le taux d'analyse maximal de Google", puis sélectionnez une option. valeur que vous êtes d'accord avec. Probablement la valeur la plus basse fonctionne bien pour vous qui peut être 0,002 demande par seconde (une pause de 500 secondes entre les demandes).

Une autre chose à essayer est la directive "Crawl-delay" pour robots.txt qui vous permet de spécifier le temps d’attente entre deux requêtes du même serveur et je pense que ce temps est mesuré en secondes. Je ne sais pas non plus si tous les moteurs de recherche le prennent en charge. Voici un lien pour plus d'informations sur le délai d'analyse:

https://en.wikipedia.org/wiki/Robots_exclusion_standard#Crawl-delay_directive

Je recommande également de continuer à attribuer le statut HTTP 410 aux URL pour lesquelles vous ne souhaitez plus indexer.

Si d'autres pages de votre site renvoient aux anciennes pages, vous souhaiterez peut-être ajouter rel="nofollow" à chaque balise d'ancrage menant à une ancienne page afin que Google ne tente pas accidentellement de l'explorer.