web-dev-qa-db-fra.com

Pourquoi Google télécharge-t-il des fichiers binaires à partir de mon site Web et utilise-t-il la bande passante?

Depuis la mi-août 2014 environ, plusieurs serveurs de Google téléchargent tous les (très) gros fichiers binaires de mon site Web, environ une fois par semaine. Les adresses IP apparaissent toutes comme appartenant à Google et ressemblent à ceci: google-proxy-66-249-88-199.google.com. Ce sont des requêtes GET et elles affectent grandement le trafic de mon serveur.

Avant cela, je ne voyais aucun trafic provenant de ces adresses IP proxy Google. Cela semble donc être quelque chose de relativement nouveau. Je vois tous les types de trafic provenant d'autres adresses IP de Google, qui sont tous googlebot et HEAD demandes uniquement.

Cela ne m'inquiète pas, si ce n'est que Google télécharge environ tous les fichiers environ toutes les semaines. La bande passante utilisée commence à devenir excessive.

Comme je suppose que bon nombre de ces fichiers sont des exécutables Windows, Google les télécharge peut-être pour effectuer des analyses de programmes malveillants. Même si cela est vrai, cela doit-il vraiment arriver chaque semaine?

Exemple de trafic depuis les adresses IP de Google proxy en novembre jusqu'à présent:

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

Mise à jour # 1: J'ai oublié de mentionner que les fichiers en question sont déjà dans le fichier robots.txt du site. Pour faire en sorte que la configuration de robots.txt fonctionne correctement, j’ai également utilisé le testeur robots.txt de Google Webmaster Tools, qui indique que les fichiers sont définitivement bloqués pour tous les robots Google, à une exception près: Adsbot-Google. Je ne suis pas sûr de savoir de quoi il s'agit non plus. ET j'ai cherché sur Google certains fichiers, et ils n'apparaissent pas dans les résultats de recherche.

Mise à jour n ° 2: Exemple: entre 17h12 et 17h18, heure normale du Pacifique le 17 novembre, environ une demi-douzaine d'IP (tous Google-proxy) ont effectué des opérations GET sur tous les fichiers binaires en question, soit 27 total. Le 4 novembre entre 14h09 et 14h15 HNP, ces mêmes IP ont fondamentalement fait la même chose.

Mise à jour n ° 3: À ce stade, il semble clair que, bien qu'il s'agisse d'adresses IP Google valides, elles font partie du service proxy de Google et ne font pas partie du système d'analyse Web de Google. S'agissant d'adresses proxy, il est impossible de déterminer l'origine des demandes GET, ni de savoir si elles proviennent d'un endroit ou de plusieurs. Sur la base de la nature sporadique des GET, il ne semble pas y avoir de néfaste; c'est probablement une personne qui décide de télécharger tous les fichiers binaires à l'aide du service proxy de Google. Malheureusement, ce service semble être complètement non documenté, ce qui n’aide en rien. Du point de vue de l'administrateur du site, les procurations sont plutôt gênantes. Je ne veux pas les bloquer, car ils ont des utilisations légitimes. Mais ils peuvent aussi être mal utilisés.

9
boot13

J'ai fait des recherches pour cette question et j'ai trouvé des éclaircissements intéressants, tels que:

1. Est-ce un faux robot? -> https://stackoverflow.com/questions/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249 -81-131-google-c

Conclusion de l'utilisateur:

Ces "robots" ne sont pas des robots, mais font partie de l'aperçu en direct du site Web utilisé dans le moteur de recherche Google.

J'ai essayé ceci, pour montrer l'un de mes sites Web dans l'aperçu et oui, voilà, reçu un message IP bloqué.

Si vous souhaitez que les utilisateurs puissent afficher un aperçu de votre site Web, vous devez accepter ces "robots".

Comme d'autres l'ont dit: "le domaine racine de cette URL est google.com et ne peut pas être facilement falsifié".

Conclusion: Vous pouvez faire confiance à ces robots ou robots et il est utilisé pour afficher un aperçu de la recherche dans Google.

Nous savons que la prévisualisation en direct ne télécharge pas vos fichiers, passons donc à la question 2.

2. Cela fait-il partie des services Google? -> Ce proxy Google est-il un faux robot d'exploration: google-proxy-66-249-81-131.google.com?

Conclusion:

Je pense que certaines personnes utilisent les services Google (Google Translate, Google Mobile, etc.) pour accéder à des sites Web (bloqués) (dans des écoles, etc.), mais également pour des attaques par le DOS et des activités similaires.

Mon hypothèse est la même que ci-dessus. Quelqu'un essaie d'utiliser un service Google pour accéder à vos fichiers, tel qu'un traducteur.

Si, comme vous le dites, les fichiers sont déjà bloqués par le fichier robots.txt, il ne peut s'agir que d'une demande manuelle.

EDIT: Pour adresser le commentaire OP de manière approfondie:

Les robots peuvent-ils ignorer le fichier robots.txt? Oui. Voici une liste Je ne pense pas que Google le fasse, ce qui signifie qu'il peut s'agir d'autres robots utilisant des proxies de Google.

Cela peut-il être un mauvais bot? Oui, et pour cela je recommande:

.htaccess interdisant:

 RewriteCond %{REMOTE_Host} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

Ce code peut interdire les adresses IP ou les agents utilisateurs.

Ou utilisez un piège à araignée, en vedette ici

Je garde mon avis qu'il s'agit d'une demande manuelle.

3
nunorbatista