web-dev-qa-db-fra.com

Exclure les tiers, mais autoriser l'exploration de Google

Comment rendre impossible le grattage de son propre contenu via wget, httrack, etc., tout en autorisant l'exploration via googlebot?

Cela devrait être fait sans montrer à Googlebot d'autres contenus, comme à d'autres agents utilisateurs.

Et, mieux vaut éviter la reconnaissance IP dans vos conseils, si cela est en général possible!

Dans la configuration actuelle, cela fonctionne déjà sur la reconnaissance IP et le serveur tombe périodiquement en panne. La configuration est comme:

  • première couche: nginx comme cache,
  • deuxième couche: Apache avec mod_security. mod_security fait la reconnaissance IP et gère le trafic,
  • troisième couche: Tomcat avec CMS).

Le principal goulot d'étranglement est actuellement mod_security et, en partie, le passage de mod_security à Tomcat. Le changement de configuration est en dehors de la variété, y compris les solutions viables.

3
Evgeniy

Il est presque impossible d’exclure complètement les tiers. La première ligne de défense est un fichier robots.txt:

User-Agent: Googlebot
Disallow: 

User-Agent: *
Disallow: /

Cela interdira tous les robots d'exploration, à l'exception de Googlebot, qui obéissent au fichier robots.txt.

2