web-dev-qa-db-fra.com

Déterminer le domaine d'origine à partir de l'URL du CDN

Avec une URL avec un domaine CDN (par exemple a1856.g2.akamai.net ), existe-t-il un moyen de rechercher la page Web/le service d'origine demandé quand il a été livré via ce CDN?

Je surveille mon utilisation d'Internet et le logiciel de surveillance génère les URL visitées. Certaines d'entre elles sont évidentes, tandis que d'autres livrées via des CDN ne le sont pas.

par exemple.

  1. www.xkcd.com - l'utilisateur a évidemment visité le site XKCD
  2. a1856.g2.akamai.net - J'ai aucune idée, c'est ce que j'aimerais en savoir plus.
1
Islay

Réponse courte

Vous ne pouvez pas en général. De nombreux "domaines d'origine" pourraient être mappés sur le même hôte CDN. En un sens, si tout ce que vous avez, c'est l'information que vous avez mentionnée dans votre question, il n'est pas suffisant et "trop ​​tard" pour faire quoi que ce soit.

Réponse plus longue

Il y a de l'espoir si le trafic est dégagé. Le fait est qu'un CDN est souvent utilisé pour desservir un trafic "lourd", tandis qu'un trafic "léger" initiant "se fait via un domaine normal et que l'on mentionne les URL du CDN .

Par exemple, dans le cas d'activité de navigation (en clair ou déchiffrable), vous pouvez vous en tirer avec un outil qui analyse les pages Web reniflées pour extraire des liens et effectuer la corrélation. Le principe est le suivant: si ce CDN était appelé via une URL, il est probable qu'une page Web servie par le domaine d'origine mentionnait exactement cette URL. Cela ne fonctionnera pas pour les URL calculées via JavaScript, etc. si l'analyseur n'exécute pas JavaScript, mais s'il trouve une corrélation, celle-ci est très certainement correcte.

Cela peut ne pas toujours fonctionner. Par exemple, depuis au moins dix ans, certains logiciels téléchargent leurs mises à jour via un CDN. Dans ce cas, il peut ne pas y avoir de page Web antérieure pour effectuer la corrélation (bien que le logiciel puisse appeler le domaine d'origine pour obtenir l'URL du CDN, auquel cas la solution ci-dessus peut le détecter).

L'hypothèse de pages Web peut être affaiblie en cherchant simplement tout ce qui ressemble à une URL dans le trafic au lieu de supposer des pages HTML bien formées. Un certain trafic TCP qui n'est pas Web, mais toujours en clair, vous permettrait de relier l'URL du CDN au domaine d'origine.

Si le trafic est crypté, ce type d'informations est masqué. Certains outils peuvent encore trouver une corrélation plus faible, telle que "quel domaine a été demandé par le même IP client avant le domaine CDN", mais une telle corrélation ne sera pas certaine.

Globalement, vous avez besoin de plus d'informations que les "URL visitées".

Outils? Essayez Justsniffer

Je n'ai utilisé aucun outil, mais on pourrait commencer par Justniffer .

Pour le trafic http, il génère un journal de type Apache avec un champ référant (voir Exemples ). Ici, une requête sur google.com fait référence à une autre URL commençant par /csi:

192.168.2.2 - - [15/Apr/2009:17:20:18 +0200] "GET /csi?v=3&s=web&action=&tran=undefined&ei=MvvlSdjOEciRsAbY0rGpCw&e=19592,20292&rt=prt.175,xjs.557,ol.558 HTTP/1.1" 204 0 "http://www.google.it/search?q=Subversion+tagging&ie=utf-8&oe=utf-8&aq=t&rls=com.ubuntu:en-US:unofficial&client=firefox-a" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8 Gecko/2009032711 Ubuntu/8.10 (intrepid) Firefox/3.0.8)"

Donc, cet outil peut corréler entre deux requêtes. On dirait qu'il a le potentiel pour faire ce dont vous avez besoin.

De plus, Justniffer :

C'est extensible

Peut être étendu par des scripts externes. Un script python a été développé pour récupérer tous les fichiers envoyés via HTTP (images, texte, HTML, JavaScript, etc.).

Regardez justniffer-grab-http-traffic

Un exemple écrit dans python est http_parser.py. Il stocke le contenu transféré dans un répertoire de sortie séparé par domaines.

Pour moi, cela suggère fortement que, à partir d'exemples de scripts fournis avec justsniffer, il devrait être relativement facile d'écrire un script d'extension intégrant les suggestions de la "réponse plus longue" ci-dessus.

Cela répondrait probablement à votre besoin. Sinon, dans sa description, recherchez des phrases ou des mots-clés susceptibles de vous indiquer quoi taper dans un moteur de recherche pour trouver des outils similaires.

3

Quel est le problème avec la deuxième URL? C'est le https://www.akamai.com/ , service CDN bien connu. Si vous voulez vraiment déterminer l’URL du CDN, utilisez ceci service de reconnaissance cdn . Ils offrent aussi un bookmarklet

0
Evgeniy