Comment puis-je savoir comment un moteur de recherche trouve des pages cachées?

Question

Nous avons un système hébergeant de nombreux sites Web pour nos clients, et à l'intérieur de ce système, il existe une méthode permettant aux clients non-actifs de consulter leurs sites avant de les activer. Dites que le lien ressemble à quelque chose comme ceci: ourbigcompany.com/customer/domain=thisisanewsiteurl

Ces liens ne sont liés à aucun endroit en dehors d'une connexion sécurisée. Ils sont uniquement envoyés au client par courrier électronique. Ils sont visibles publiquement, comme ils doivent l'être, mais ce n'est pas le vrai problème. Le vrai problème est que Bing les récupère et tente d'explorer les sites. Je sais comment arrêter de ramper, mais ce serait comme traiter les symptômes sans régler le problème.

Nous enregistrons le trafic et il n'y a pas de référent - ce n'est donc pas utile.

Si je modifie la valeur de chaîne de requête d'un site, Bing l'a en quelques heures. Je dois trouver d'où Bing tire les liens pour pouvoir fermer ce qui est évidemment une faille de sécurité, mais je ne sais pas comment. Des idées sur la façon de comprendre cela?

Stephen Ostermiller · Accepted Answer

Vous ne pourrez pas savoir avec certitude comment les moteurs de recherche ont obtenu l'URL. Ils ne vous disent pas cette information. Il y a plusieurs façons possibles:

L'utilisateur partage ou publie le lien lui-même
Le site contient un lien vers un autre site. Lorsque ce lien est cliqué, l'URL secrète est envoyée en tant que référent. Certains sites publient des URL de référence à des emplacements dans lesquels les moteurs de recherche peuvent les trouver.
Certains navigateurs envoient des informations sur chaque page que vous visitez directement aux sociétés qui exécutent des moteurs de recherche. Au moins Google dit qu'ils ne s'appuient sur aucune donnée envoyée pour nourrir leur robot d'exploration. Certaines fonctionnalités du navigateur qui en dépendent sont les suivantes:
- Fonctionnalités de navigation sécurisées qui signalent les pages de programmes malveillants lorsque vous naviguez
- Barres d'outils des indicateurs de PageRank
Utilisation de boutons sociaux sur la page, tels que les boutons Google +1
Utilisation de logiciels d'analyse
Inclusion de publicités sur le site
Toute utilisation JavaScript, CSS ou d'images tierces
L'e-mail que vous envoyez avec un lien traverse un serveur de messagerie appartenant au moteur de recherche (Gmail, Hotmail). Les liens contenus dans un tel courrier électronique pourraient être récoltés pour l'exploration.

Comme Google dit :

Il est presque impossible de garder secret un serveur Web en ne publiant pas de liens. Dès que quelqu'un suit un lien de votre serveur "secret" vers un autre serveur Web, votre URL "secrète" peut apparaître dans la balise du référent et peut être stockée et publiée par l'autre serveur Web dans son journal de référent ...

Si vous souhaitez empêcher Googlebot d’analyser le contenu de votre site, vous disposez du nombre d’options , y compris de l’utilisation de robots.txt pour bloquer l’accès aux fichiers et aux répertoires de votre serveur.