Comment rendre impossible le grattage de son propre contenu via wget, httrack, etc., tout en autorisant l'exploration via googlebot?
Cela devrait être fait sans montrer à Googlebot d'autres contenus, comme à d'autres agents utilisateurs.
Et, mieux vaut éviter la reconnaissance IP dans vos conseils, si cela est en général possible!
Dans la configuration actuelle, cela fonctionne déjà sur la reconnaissance IP et le serveur tombe périodiquement en panne. La configuration est comme:
Le principal goulot d'étranglement est actuellement mod_security et, en partie, le passage de mod_security à Tomcat. Le changement de configuration est en dehors de la variété, y compris les solutions viables.
Il est presque impossible d’exclure complètement les tiers. La première ligne de défense est un fichier robots.txt:
User-Agent: Googlebot
Disallow:
User-Agent: *
Disallow: /
Cela interdira tous les robots d'exploration, à l'exception de Googlebot, qui obéissent au fichier robots.txt.