web-dev-qa-db-fra.com

Est-il possible de ralentir la fréquence d'analyse de Baiduspider?

On a beaucoup parlé de la fréquence d'exploration de l'araignée Baidu. C'est vrai: "Baiduspider rampe comme un fou."

J'ai vécu ce phénomène sur des sites avec lesquels je travaille. Dans au moins un cas, j'ai constaté que Baiduspider explorait à peu près à la même fréquence que Googlebot, malgré le fait que Baidu génère environ 0,1% du trafic que Google.

J'aimerais garder ces visites sur mon site, aussi peu qu'elles soient (peut-être un jour, elles grandiront?), Mais je ne peux pas justifier d'autoriser une charge aussi lourde sur mon serveur.

La réponse acceptée à la question liée ci-dessus suggère Outils pour les webmasters Baid offre la possibilité de limiter le taux d'analyse, mais j'hésite à ouvrir cette boîte de Pandore (uniquement en chinois).

Quelqu'un at-il déjà l'expérience de la limitation du taux d'analyse de Baiduspider avec BWT? Y a-t-il un autre moyen de limiter cette charge?

17
samthebrand

Excellente question, et de nombreux webmasters pourraient être intéressés, car l'araignée Baidu est notoirement agressive et peut zapper les ressources des serveurs ...

Comme indiqué dans les nouvelles de la recherche Web de Baidu, le l'araignée de Baidu ne prend pas en charge le paramètre de notification de délai d'analyse , mais vous oblige à vous enregistrer et à vérifier votre site avec sa plateforme Baidu Webmaster Tools, comme indiqué ici sur son site. Cela semble être la seule option pour contrôler la fréquence d'exploration directement avec Baidu.

Le problème est que d'autres robots de spam utilisent les agents utilisateurs de Baidu (répertoriés ici sous le numéro 2) pour spider votre site, comme indiqué dans la FAQ ici sous le numéro 4. Donc, demander un taux d'analyse plus lent avec Baidu peut ne pas tout résoudre.

Par conséquent, si vous décidez d'utiliser les outils pour les webmasters de Baidu, il peut être judicieux de comparer également ses agents utilisateurs avec les adresses IP connues pour leur être associées, en utilisant une ressource telle que Bots vs Browsers Database , ou en utilisant une recherche DNS inversée

Les seules autres options sont soit de bloquer tous les agents utilisateurs Baidu, et donc de sacrifier le trafic potentiel de Baidu, ou de tenter de limiter les demandes excessives en utilisant quelque chose comme mod_qos pour Apache, qui prétend gérer:

  • Nombre maximal de demandes simultanées adressées à un emplacement/ressource (URL) ou à un hôte virtuel.
  • Limitation de la bande passante, telle que le nombre maximum de requêtes autorisées par seconde pour une URL ou le nombre maximum/minimum de kilo-octets téléchargés par seconde.
  • Limite le nombre d'événements de demande par seconde (conditions de demande spéciales).
  • Il peut également "détecter" des personnes très importantes (VIP) pouvant accéder au serveur Web sans restrictions ou avec moins de restrictions.
  • Ligne de requête générique et filtre d’entête pour refuser les opérations non autorisées. Limitation et filtrage des données du corps de la requête (requiert mod_parp).
  • Limitations sur le niveau de connexion TCP, par exemple, le nombre maximal de connexions autorisées à partir d'une adresse IP source unique ou d'un contrôle de maintien dynamique.
  • Préfère les adresses IP connues lorsque le serveur est à court de connexions libres TCP.

Je n'ai pas trouvé d'expériences rapportées avec Baidu Webmaster Tools, dont le chargement est lent et qui a des problèmes de traduction (pas de version anglaise non plus). Cela pourrait être utile, mais basé sur l'opinion bien sûr.

11
dan

Après de nombreuses recherches et expérimentations à ce sujet, j'ai finalement mordu la balle et créé un compte Baidu Webmaster Tools. Son assez simple à utiliser lorsque armé avec Google Translate dans une autre fenêtre. Vous devrez peut-être activer Firebug pour pouvoir copier-coller du texte en chinois à partir de boutons que vous ne pouvez pas capturer à partir du mode de navigateur normal.

Une fois la configuration terminée, vous devez attendre quelques jours pour que l'analyse des données apparaisse, puis vous pouvez personnaliser le taux d'analyse. Il apparaît dans une section intitulée "Pression" à laquelle vous devriez pouvoir accéder avec cette URL:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Notez que vous ne pourrez utiliser cette URL que si vous avez configuré un compte Baidu Webmaster Tools et que vous avez associé l'URL de votre site Web à votre compte pour le site Web en question. Ici, vous verrez un curseur avec votre taux d'analyse actuel au centre (dans mon cas, 12676 demandes par jour. Faites-le glisser vers la gauche afin de réduire le taux d'analyse.

Je ne sais pas encore si cela respecte votre demande. Cela vous donne un avertissement qui dit quelque chose comme ça. "Nous vous recommandons d'utiliser le taux par défaut d'analyse du site Baidu. Seulement si votre site Web rencontre des problèmes avec notre analyse, utilisez cet outil pour l'ajuster. Pour maintenir l'analyse normale de votre site, Baidu prendra en compte votre ajustement du taux d'analyse. conditions du site et ne peut donc pas garantir de régler en fonction de votre demande. "

5
user35703