Nous avons un système hébergeant de nombreux sites Web pour nos clients, et à l'intérieur de ce système, il existe une méthode permettant aux clients non-actifs de consulter leurs sites avant de les activer. Dites que le lien ressemble à quelque chose comme ceci: ourbigcompany.com/customer/domain=thisisanewsiteurl
Ces liens ne sont liés à aucun endroit en dehors d'une connexion sécurisée. Ils sont uniquement envoyés au client par courrier électronique. Ils sont visibles publiquement, comme ils doivent l'être, mais ce n'est pas le vrai problème. Le vrai problème est que Bing les récupère et tente d'explorer les sites. Je sais comment arrêter de ramper, mais ce serait comme traiter les symptômes sans régler le problème.
Nous enregistrons le trafic et il n'y a pas de référent - ce n'est donc pas utile.
Si je modifie la valeur de chaîne de requête d'un site, Bing l'a en quelques heures. Je dois trouver d'où Bing tire les liens pour pouvoir fermer ce qui est évidemment une faille de sécurité, mais je ne sais pas comment. Des idées sur la façon de comprendre cela?
Vous ne pourrez pas savoir avec certitude comment les moteurs de recherche ont obtenu l'URL. Ils ne vous disent pas cette information. Il y a plusieurs façons possibles:
Comme Google dit :
Il est presque impossible de garder secret un serveur Web en ne publiant pas de liens. Dès que quelqu'un suit un lien de votre serveur "secret" vers un autre serveur Web, votre URL "secrète" peut apparaître dans la balise du référent et peut être stockée et publiée par l'autre serveur Web dans son journal de référent ...
Si vous souhaitez empêcher Googlebot d’analyser le contenu de votre site, vous disposez du nombre d’options , y compris de l’utilisation de robots.txt pour bloquer l’accès aux fichiers et aux répertoires de votre serveur.