web-dev-qa-db-fra.com

Pourquoi les moteurs de recherche ne peuvent pas atteindre le sombre Web?

Pourquoi ne peut-il pas rechercher les moteurs tels que Google, Yahoo et Bing Reach Web sombre et archiver son contenu pour l'afficher dans leurs résultats?

9
Petr

En supposant que vous parlez de services cachés de Tor, la réponse est ils peuvent, mais seulement indirectement. Il existe différents sites de "portail" qui fournissent une passerelle aux services cachés. Ces passerelles sont des sites Web normaux avec des domaines réguliers, mais sont en cours d'exécution TOR2WEB , qui utilise le client Tor pour relais le trafic entre les utilisateurs de non-Tor et de TOR (mais Notez qu'ils ne fournissent aucun anonymat). Ceux-ci peuvent être indexés à volonté.

Il existe plusieurs raisons pour lesquelles des services cachés ne sont pas indexés fréquemment:

  • Comme quelqu'un l'a souligné plus tôt, c'est très disjoint. Très peu de sites se lient les uns envers les autres, limitant la capacité des crawlers à trouver de nouveaux sites et de nouvelles pages. C'est comme l'Internet ouvert des années 90.
  • Il utilise son propre protocole, donc sans sites portails/passerels, ils ne pourraient pas se connecter. Essayez de vous connecter à un .onion Domaine dans un navigateur normal. Vous verrez que cela ne va même pas résoudre.
  • Il n'y a pas de nombreux services cachés là-bas. Le mythe qu'il est "vaste" est mal fondé, basé sur un malentendu de la terminologie. En réalité, c'est vraiment assez petit.
  • Certains sites sont bloqués par des sites portables/passerelles pour des raisons juridiques, ils ne peuvent donc être accessibles qu'avec le protocole Tor. Alors que les robots de recherche des moteurs ne l'utilisent pas, ils ne peuvent pas accéder aux sites.

Il n'y a pas de "base de données" unique de services cachés car il existe pour des domaines réguliers (noms de noms de racine). Un service caché est basé sur un hachage codé et tronqué de la clé publique du serveur. Le client utilise le nom de domaine du service et lève le descripteur masqué du service dans une base de données semi-publique, qui contient sa clé publique et une liste de Points d'introduction (relais choisis par le serveur). Le client sélectionne un relais aléatoire en tant que point Rendezvous Point et envoie l'ID de ce relais au service caché sur le point d'introduction. Le serveur et le client se rencontrent alors à travers le point de rendez-vous sur leurs propres circuits à trois hop.

Grâce à un protocole complexe, le client et le serveur parvient ainsi à former une connexion sans aucun d'entre eux qui devaient révéler leur véritable IP. Comme il n'existe aucune adresse IP que le domaine se résout à, un moteur de recherche régulier ne peut pas l'atteindre à l'aide de HTTP standard avec TCP/IP. Pour qu'un robotteur de moteur de recherche se connecte à ces sites, il faudrait utiliser ce protocole. Ce n'est pas très pratique pour eux.

13
forest