web-dev-qa-db-fra.com

Ce proxy Google est-il un faux robot d'exploration: google-proxy-66-249-81-131.google.com?

Récemment, j'ai découvert que certaines variantes d'un proxy google visitaient mes sites. Je doute que ces robots soient des robots légaux de Google, car ces robots ne sont PAS toujours derrière un proxy (comme le nom d’hôte le décrit) et s’identifient en tant que navigateur. Le nom d'hôte a le même format/que Googlebot, mais la chaîne "proxy" y est ajoutée.

Ma classe de blocage PHP bloque ces robots, mais est-il correct de bloquer ceux-ci? Que sont-ils et sont-ils de google ou est-ce faux?

Voici quelques informations sur l'un de ces robots:

BlockedIp Notifier Report - IP:66.249.81.131:: has been blocked

Ticket ID : {EVNT_136877_2013040520130402_33147_10348}  
Event type : Access blocked  
Event date : 04/05/2013 - 19:17:47 (server date-time)  
Event counter : First occurring  
Processed url : http://streambutler.net/  
From url : http://www.google.com/search  
Domain : streambutler.net 
Domain IP : 95.170.70.213  
Visitor IP : 66.249.81.131  
Proxy IP : 66.249.81.131  

Critical : Yes  
Action required : No  


Additional information
Problem : Bad Proxy - via 66.249.81.131 
Hostname : google-proxy-66-249-81-131.google.com 
Block : Yes 
Refferer : http://www.google.com/search 
AgentString : Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.4 (KHTML, like G... 
Browser : Chrome 22.0.1229 
Platform : Linux 
Robot : No 
Mobile : No 
Tablet : No 
Console : No 
Crawler : No 
Agent_type : browser 
Agent_name : chrome 
Agent_version : 22.0.1229 
Os_type : linux 
Os_name : linux 
Agent_languagetag : en 
Status : ok 
Request : 66.249.81.131 
Languagecode : us 
Country : United States 
Region : California 
City : Mountain View 
Zipcode : 94043 
Latitude : 37.406 
Longitude : -122.079 
Timezone : -07:00 

Available from  : \'http 
Areacode : 0 
Dmacode : 0 
Continentcode : na 
Currencycode : USD 
Currencysymbol : $ 
Currencysymbol_utf8 : $ 
Currencyconverter : 1 
Extended : 1 
Organization : NULL 

autres variantes trouvées

  • google-proxy-66-249-81-131.google.com (s'identifie comme Firefox 6.0?)
  • google-proxy-66-249-81-148.google.com (tente d'accéder à un fichier javascript)
  • google-proxy-66-249-81-131.google.com
  • google-proxy-66-249-81-111.google.com (tente d'accéder à un fichier javascript)
  • google-proxy-66-249-81-164.google.com

Le premier de la liste est étrange, Firefox 6.0 sous Windows 7 et la même adresse IP que l'exemple ci-dessus, mais n'est-ce pas un proxy dans le journal suivant? Si c'est un proxy mobile, c'est très bizarre ou pas?

Ticket ID : {EVNT_164838_2013040520130402_33147_10348}  
Event type : Access blocked  
Event date : 04/05/2013 - 19:19:07 (server date-time)  
Event counter : First occurring  
Processed url : http://streambutler.net/  
From url : Unknown or direct link  
Domain : streambutler.net 
Domain IP : 95.170.70.213  
Visitor IP : 66.249.81.131  
Proxy IP : (not present)  

Critical : Yes  
Action required : No  


Additional information
Problem : Blocked Server IP address (analysis) - 66.249.81.131 
Hostname : google-proxy-66-249-81-131.google.com 
Block : Yes 
Refferer : (direct access) 
AgentString : Mozilla/5.0 (Windows NT 6.1; rv:6.0) Gecko/20110814 Firefox/6.0 ... 
Browser : Firefox 6.0 
Platform : Windows 7 
Robot : No 
Mobile : No 
Tablet : No 
Console : No 
Crawler : No 
Agent_type : browser 
Agent_name : firefox 
Agent_version : 6.0 
Os_type : windows 
Os_name : windows 7 
Agent_languagetag : en 
Status : ok 
Request : 66.249.81.131 
Languagecode : us 
Country : United States 
Region : California 
City : Mountain View 
Zipcode : 94043 
Latitude : 37.406 
Longitude : -122.079 
Timezone : -07:00 
Available from  : \'http 
Areacode : 0 
Dmacode : 0 
Continentcode : na 
Currencycode : USD 
Currencysymbol : $ 
Currencysymbol_utf8 : $ 
Currencyconverter : 1 
Extended : 1 
Organization : NULL 

Quelqu'un a des infos à ce sujet?

3
Codebeat

Compris! Ces "robots" ne sont pas des robots, mais font partie de l'aperçu en direct du site Web utilisé dans le moteur de recherche Google.

J'ai essayé ceci, pour montrer l'un de mes sites Web dans l'aperçu et oui, voilà, reçu un message IP bloqué.

Si vous souhaitez que les utilisateurs puissent afficher un aperçu de votre site Web, vous devez accepter ces "robots".

Comme d'autres l'ont dit: "le domaine racine de cette URL est google.com et il ne peut pas être facilement usurpé".

Conclusion: Vous pouvez faire confiance à ces robots ou robots et il est utilisé pour afficher un aperçu de la recherche Google.

0
Codebeat

Celles-ci ne sont pas fausses et sont utilisées. Il s'agit de procurations privées utilisées par les membres du personnel pour diverses tâches/audits/examens manuels. Elles ne doivent pas être bloquées ...

3
Simon Hayter

J'ai également constaté que le proxy Google avait accédé à mon site Web à plusieurs reprises (plus de 30 ans) dans la même seconde:

66.249.81.106 - - [30/Aug/2013:01:26:35 +0200] "GET /index.php HTTP/1.1" 200 280329
66.249.81.106 - - [30/Aug/2013:01:26:35 +0200] "GET /index.php HTTP/1.1" 200 280329
66.249.81.106 - - [30/Aug/2013:01:26:35 +0200] "GET /index.php HTTP/1.1" 200 280329
66.249.81.106 - - [30/Aug/2013:01:26:35 +0200] "GET /index.php HTTP/1.1" 200 280329

...

et monter mon serveur charges. C'était étrange car dans le fichier robots.txt, j'ai défini:

Crawl-delay: 1

(crawler (google) doit accéder au site à une fréquence maximale de 1 requêtes par seconde (cca), Google n'ignore pas ce paramètre).

J'ai donc essayé de créer un script PHP pour bloquer les IP de Google (toutes les) si l'adresse IP le fait pendant plus de 30 secondes, mais j'ai découvert quelque chose de différent. Avec ce code, je cherchais l'adresse IP du visiteur:

function get_visitor_ip_address($server)
{
    foreach (array('HTTP_CLIENT_IP', 'HTTP_X_FORWARDED_FOR', 'HTTP_X_FORWARDED', 'HTTP_X_CLUSTER_CLIENT_IP', 'HTTP_FORWARDED_FOR', 'HTTP_FORWARDED', 'REMOTE_ADDR') as $key)
    {
        //if (array_key_exists($key, $_SERVER) === true)
        if ($server->testIp($key))
        {
            //foreach (explode(',', $_SERVER[$key]) as $ip)
            foreach (explode(',', $server->getEscaped($key)) as $ip)
            {
                $ip = trim($ip); // just to be safe
                if (filter_var($ip, FILTER_VALIDATE_IP, FILTER_FLAG_IPV4 | FILTER_FLAG_NO_PRIV_RANGE | FILTER_FLAG_NO_RES_RANGE) !== false) return $ip;
                if (filter_var($ip, FILTER_VALIDATE_IP, FILTER_FLAG_IPV6 | FILTER_FLAG_NO_PRIV_RANGE | FILTER_FLAG_NO_RES_RANGE) !== false) return $ip;
            }
        }
    }
}

mais ce code a renvoyé une adresse IP différente (généralement au Moyen-Orient, en Afrique ou dans des lieux similaires, par exemple 197.132.255.244). Cela provient de mes PHP journaux

IP address 197.132.255.244 banned at 2013-08-30 01:26:35 for the 1. time exceeding 30 visits in a second, banned for 30 minutes

Intéressant, mon serveur Apache a stocké l'adresse IP du proxy Google dans mes journaux d'accès, pas le 197.132.255.244). Voir les journaux Apache au début, même date et heure, etc ... testé plusieurs fois

>>>

Pendant que mon script PHP recherche l'adresse IP de plusieurs façons, notez les différents paramètres du serveur dans le code PHP:

'HTTP_CLIENT_IP', 'HTTP_X_FORWARDED_FOR', 'HTTP_X_FORWARDED', 'HTTP_X_CLUSTER_CLIENT_IP', 'HTTP_FORWARDED_FOR', 'HTTP_FORWARDED', 'REMOTE_ADDR'

et cela trouve et enregistre l'adresse "correcte" IP - 197.132.255.244 (testé plusieurs fois avec différents attaquants)

http://whois.domaintools.com/197.132.255.244

>>>

Ma conclusion:

Je pense que certaines personnes utilisent les services Google (Google Translate, Google Mobile, etc.) pour accéder à des sites Web (bloqués) (dans des écoles, etc.), mais également pour des attaques par le DOS et des activités similaires. Comment?

Par ici:

http://www.gmodules.com/ig/proxy?url=http://www.yoursite.com
http://www.google.com/translate?langpair=de|en&u=www.yoursite.com 

(changez de site Web au lieu de www.votresite.com)

ou d'autres moyens:

http://www.tech-recipes.com/rx/1322/use_google_proxy_bypass_blocked_site/

Je pense que c’est à vous de choisir et de bloquer l’adresse IP d’origine (197.132.255.244) à l’aide de cette fonction PHP, qui fonctionne même lorsque l'attaquant utilise un proxy Google. affichez le message court "vous avez dépassé nos limites" ou la page vide/erreur, comme je le fais ...

ou vous bloquez l'adresse IP du proxy Google (66.249.81.106 ou similaire), par exemple directement dans le fichier .httaccess, si le proxy dépasse les limites autorisées. Vous ne bloquerez pas le robot Google avec cela, mais vous pourrez désactiver la fonctionnalité si un utilisateur réel (et non un attaquant) souhaite traduire votre page Web, etc.

2
Andy

J'ai eu une expérience similaire à celle de @James et @FFrewin; Lors du test d'une nouvelle application/URL "secrète", j'ai soudainement constaté une masse de trafic provenant de divers mandataires Google. Après quelques expériences, il apparaît que (au moins) Chrome sur Android utilise ces serveurs dans le cadre de leur fonctionnalité "Économiseur de données". La description indique: "Lorsque Data Saver est activé, Chrome utilise les serveurs de Google pour accélérer et réduire les chargements de page". Lorsque j'ai désactivé Data Saver, le trafic proxy a disparu.

Donc, ces procurations ne sont pas (ou du moins ne sont pas complètement) néfastes. Les bloquer pourrait altérer ou empêcher les utilisateurs mobiles d’atteindre votre site.

1
ras

Je suis tombé sur ce fil en recherchant une poignée d'entrées de journal inhabituelles. Ils sont enregistrés en tant que proxy Google de la même manière que la question publiée. Mais le référent dans le journal IIS indique google.com/search et a inclus un UserAgent qui a l'air réel. Cependant, s'il s'agissait d'un véritable robot, ils n'auraient pas besoin d'imiter un agent.

MAIS le client est que ce site n'est pas en ligne et n'est pas encore à la recherche de google. En fait, je pensais avoir téléchargé un virus il y a un jour ou deux, et je dois avoir tapé à la main cette adresse complète lors du test du site. Alors, voici quelqu'un qui utilise un traqueur de frappe et tente de suivre toutes mes activités, mais on dirait qu'ils essaient de se cacher derrière le proxy de recherche Google? J'aime l'hypothèse sur l'adresse 197.

La racine:/monitor/getAccount est simplement un noeud final de tâche sur lequel je clique de temps en temps pour vérifier une nouvelle version de code à tester. Aucun utilisateur ou Google ne trouverait jamais ceci:

    2018-03-09 06:56:29 10.138.0.4 GET /monitor/getAccount - 80 - 66.249.80.26 Mozilla/5.0+(X11;+Linux+x86_64)+AppleWebKit/537.36+(KHTML,+like+Gecko;+Google+Web+Preview)+Chrome/41.0.2272.118+Safari/537.36 - http://www.google.com/search app.tru-stats.com 200 0 1236 0 426 31203
0
James

Lorsque vos serveurs sont attaqués par des robots, recherchez toujours leur adresse IP sur Google avant de les bloquer.

Une recherche sur "adresse IP 66.249.81.131" indique qu'il s'agit d'une adresse IP appartenant à Google.

Lorsqu'une recherche d'adresse IP ne renvoie pas la société sur laquelle vous souhaitez explorer votre site, il est fort probable que vous la bloquiez.

0
Michael d

Voici le problème avec UserAgent et la raison pour laquelle il s'agit probablement d'un robot d'exploration légitime:

Les serveurs Web peuvent être configurés pour répondre à n’importe quel en-tête dans les demandes de page Web, y compris UserAgent. Si les webbots de Google avaient tous la même apparence, je pourrais avoir un site Web louche qui ressemble à une encyclopédie d'informations utiles pour les webbots, tout en offrant une merde complète aux utilisateurs habituels avec divers autres UserAgents, l'objectif étant d'obtenir un score élevé sur toutes sortes de recherches Google. . Je suis à peu près sûr que Google est plus intelligent que cela. Ils utiliseront toutes sortes de robots avec toutes sortes de UserAgents pour vérifier le contenu. Google peut également utiliser les informations extraites de telles analyses pour détecter des sites intelligents qui aromatiseront leur contenu de manière utile pour différents navigateurs.

Après tout, le domaine racine de cette URL est google.com et ne peut pas être facilement falsifié.

De plus, l'accès à des fichiers javascript est tout à fait normal pour un robot Web. Il cherche plus d'URL dans le javascript. Vous pouvez empêcher Google d'analyser vos scripts en utilisant <script rel="nofollow" src="code.js"></script>.

0
Octopus

Je suis arrivé ici après avoir trouvé des journaux dans mon pare-feu Web provenant de rate-limited-proxy-66-249-90-176.google.com.

Ce qui me rend méfiant à propos de ces journaux, c’est qu’ils se sont produits dans des conditions très particulières. Je testais une URL secrète sur mon application Web pour voir comment le pare-feu répondrait. C'était la première fois que ces URL secrètes étaient utilisées et il était impossible pour quiconque de les connaître. Le pare-feu a consigné mes appels à ces URL avec mon adresse IP comme prévu - mais après environ 30 secondes, j'ai vu des entrées de journaux supplémentaires dans les mêmes URL secrètes, mais cette fois à partir d'une autre adresse IP - qui m'est inconnue.

Je pensais que c'était possible, car c'est moi seul qui aurait pu essayer ces URL. Ensuite, j'ai fait une recherche d'adresse IP. L'hôte ci-dessus est sorti: rate-limited-proxy-66-249-90-176.google.com.

Ensuite, j'ai pensé que cela pourrait se produire parce que j'utilise le DNS de Google pour me connecter à Internet - et je n'aimais pas du tout l'idée que Google suivrait et testait les URL que je tapais sur mon navigateur - j'ai donc modifié le DNS de ma connexion. paramètres pour utiliser ceux de mon FAI local et réessayé. Mais quand j'ai essayé une nouvelle URL secrète, après 20 à 30 secondes, j'ai trouvé un deuxième appel à partir des adresses IP de ce même Google.

Enfin, j'ai activé une connexion VPN et j'ai essayé à nouveau avec de nouvelles URL secrètes. Cette fois-ci, seules mes demandes ont été envoyées à mon application Web. Ce n'est pas le proxy Google qui m'a suivi.

Les conclusions sont les vôtres ...

0
FFrewin

Pour info, j'ai aussi reçu une attaque DOS de google-proxy:

Host 66.249.82.43 43.82.249.66.in-addr.arpa pointeur de nom de domaine google-proxy-66-249-82-43.google.com.

extraits du journal:

Jun  9 21:19:43 gemelos kernel: PAX: From 66.249.82.43: execution attempt in: (null), 00000000-00000000 00000000
Jun  9 21:19:43 gemelos kernel: PAX: terminating task: /usr/sbin/Apache2(Apache2):25541, uid/euid: 81/81, PC: 00795f72, SP: b01666ec
Jun  9 21:19:43 gemelos kernel: PAX: bytes at PC: ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ??
Jun  9 21:19:43 gemelos kernel: PAX: bytes at SP-4: a2be3e6c a262fa66 1d620670 00000000 0000000c a3315e34 00000005 1d9ba84c a2be3e6c a2614bb8 1d9baadc 00000003 00010006 a2b222c7 a3316880 a12977a8 1d9baaf0 36183700 1d9ba84c a31a7d26 a1939349
Jun  9 21:19:43 gemelos kernel: grsec: From 66.249.82.43: bruteforce prevention initiated for the next 30 minutes or until service restarted, stalling each fork 30 seconds.  Please investigate the crash report for /usr/sbin/Apache2[Apache2:25541] uid/euid:81/81 gid/egid:81/81, parent /usr/sbin/Apache2[Apache2:29657] uid/euid:0/0 gid/egid:0/0
Jun 10 00:03:40 gemelos kernel: grsec: denied resource overstep by requesting 18 for RLIMIT_Nice against limit 0 for /usr/bin/namecoind[namecoind:27085] uid/euid:105/105 gid/egid:122/122, parent /sbin/init[init:1] uid/euid:0/0 gid/egid:0/0
Jun 10 03:58:05 gemelos kernel: PAX: From 66.249.82.43: execution attempt in: <anonymous mapping>, 00000000-0001f000 00000000
Jun 10 03:58:05 gemelos kernel: PAX: terminating task: /usr/sbin/Apache2(Apache2):27985, uid/euid: 81/81, PC:    (nil), SP: b01666ec
Jun 10 03:58:05 gemelos kernel: PAX: bytes at PC: ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ??
Jun 10 03:58:05 gemelos kernel: PAX: bytes at SP-4: 1d746620 a262fa66 1d6f34c0 00000000 0000000c a3315e34 00000005 1d7bb4dc a2be3e6c a2614bb8 1d7bb76c 00000003 00010006 a2b222c7 a3316880 a07a23c8 1d7bb780 36183700 1d7bb4dc a31a7d26 a1939349
Jun 10 03:58:05 gemelos kernel: grsec: From 66.249.82.43: bruteforce prevention initiated for the next 30 minutes or until service restarted, stalling each fork 30 seconds.  Please investigate the crash report for /usr/sbin/Apache2[Apache2:27985] uid/euid:81/81 gid/egid:81/81, parent /usr/sbin/Apache2[Apache2:29657] uid/euid:0/0 gid/egid:0/0
0
neofutur