Mon serveur gère bien mes visiteurs, mais récemment, j'ai constaté qu'il existe de nombreux robots moteurs de recherche qui explorent mon site et que mon serveur est très occupé à servir ces robots.
Mon site génère plus de 1000 messages chaque jour, il est donc normal que les robots explorent souvent mon site.
Cependant, est-il possible de diminuer la fréquence pour les robots qui explorent mon site? Ou juste dire aux robots de parcourir mes nouveaux messages? Il semble qu'ils explorent mon site de plus en plus souvent et que mon serveur devienne lent quand ils visitent mon site.
Vous devez également spécifier un délai d'analyse dans le fichier robots.txt pour tous les autres moteurs de recherche (Yandex et Baidu peuvent être assez agressifs dans leur analyse). Ajoute ça:
User-agent: *
Crawl-delay: 5
Le délai d'analyse est en secondes. Assurez-vous de ne pas aller trop haut - 5 à 10 secondes maximum devraient alléger considérablement la charge du serveur. Si vous avez 1000 nouvelles pages par jour, vous voulez que les moteurs de recherche puissent les trouver toutes.
Cependant, la meilleure méthode pour Google (et peut-être Bing) consiste toujours à utiliser leurs outils de webmaster, car Google ignore la directive crawl-delay du fichier robots.txt.
Je pense que ce document d'aide de Google devrait résoudre mon problème:
Changer le taux d'analyse:
- Sur la page d'accueil de Webmaster Tools, cliquez sur le site souhaité.
- Cliquez sur l'icône représentant une roue dentée, puis sur Paramètres du site.
- Dans la section Taux d'analyse, sélectionnez l'option souhaitée.
Le nouveau taux d'analyse sera valide pendant 90 jours.
Le standard de facto pour indiquer aux robots ce qu’il faut analyser est robots.txt .
Faites en sorte que les URL de vos publications correspondent à un modèle permettant de générer un fichier robots.txt ne sélectionnant que les nouvelles publications. Vous pouvez le générer automatiquement avec un script, par exemple. à la volée (script CGI) ou dans un travail par lots que vous exécutez toutes les heures, ou d'une autre manière.