Je remarque que je reçois des accès
66.249.66.198 - - [01/Jul/2011:17:13:46 +0200] "GET /img/clip.incubus.torrent.phtml HTTP/1.1" 404 143 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.198 - - [01/Jul/2011:17:13:48 +0200] "GET /img/clip.global.deejays.download.phtml HTTP/1.1" 404 143 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
ces fichiers n'existent pas et il n'y a aucun fichier sur mon site qui a ce contenu (j'espère).
Pourquoi googlebot teste-t-il ces liens?
inversez le DNS et le whois déclarent que 66.249.66.198 est vraiment googlebot.
Si le nom de domaine est nouveau (vous l'avez récemment acheté), Google peut toujours essayer d'obtenir les anciennes URL (non pas parce qu'il se souvient de ces liens (il désindexera ces liens qui ne fonctionnent pas pendant longtemps)), mais parce qu'il est toujours un site qui a des liens vers ce domaine)
Chaque fois que ces liens ont été publiés, il est possible qu’une typo se trouve dans une URL (nom de domaine) et qu’ils pointent vers votre domaine (par exemple, hellokitten.com
au lieu de hellkitten.com
).
Je doute fort que Google vérifie les programmes malveillants en utilisant SO de nombreuses URL différentes, qui se ressemblent beaucoup.
Les URL que vous avez affichées jusqu'à présent suggèrent qu'elles sont probablement liées à un site torrent. Comme nous le savons, Google n’aime plus les sites de torrent. Peut-être a-t-il eu des soupçons (je ne sais pas de quoi il s'agit) et a vérifié sur votre site les URL communes trouvées sur d'autres sites.
Probablement parce que quelqu'un y est lié une fois.
Je ne connais pas beaucoup le fonctionnement de ces araignées, mais Google est très sophistiqué. Il pourrait y avoir un certain nombre de raisons. J'imagine que googlebot essaie d'établir une relation entre votre site et une relation avec ces fichiers. Peut-être soupçonne-t-il qu'ils sont liés et le teste-t-il.