web-dev-qa-db-fra.com

Existe-t-il un moyen de forcer Alexa ia_archiver à ralentir l'exploration de mon site Web?

Le robot ia_archiver d'Alexa est le contributeur principal de la collection Web "Wayback Machine" d'Internet Archive. Mon site Web présente également des avantages. Il y a d'autres robots qui font aussi d'autres choses utiles.

Quel est un moyen rapide et facile de faire en sorte que ia_archiver explore mon site plus lentement, afin de charger moins le serveur? Je n'ai pas testé la directive Crawl-delay : si vous en avez et que cela fonctionne, dites-le-moi, s'il vous plaît. Si cela ne fonctionne pas, laissez un commentaire. Si vous n'avez jamais testé Crawl-delay, veuillez plutôt recommander une autre solution dont la mise en œuvre prend quinze minutes ou moins. Peut-être existe-t-il des solutions faciles à mettre en œuvre solution logicielle qui me permettront d’étouffer les hits trop rapides de ia_archiver?

Veuillez supposer que mon site Web tourne sous Apache 2.4.3 sous Debian Linux 6.0.6 sur un serveur dédié que j’administre.

3
unforgettableid

L'analyse des archives Internet est effectuée à la fois par Alex et par les propres robots d'exploration d'Internet Archive. La prise en charge de la directive Crawl-Delay dans le fichier robots.txt est un hasard entre les deux parce que la directive ne fait pas partie du standard officiel robots.txt. De plus, selon mon expérience, la façon dont les deux sociétés traitent la directive Crawl-Delay quand elles l'acceptent semble changer avec le temps. J'ai essayé de le faire par le passé et j'ai constaté que parfois la directive Crawl-Delay était respectée par les deux, parfois une seule l'a respectée, et d'autres fois non plus, et il ne semble pas y avoir de tendance à quand il est respecté ou non. La seule chose que je peux suggérer qui fonctionnera définitivement est d'ajouter une directive disallow à la fois pour le robot Alexa et le robot ia_.

1
Chris Rutherfurd