Existe-t-il un moyen d'extraire le référent et le terme de recherche à partir d'une URL de redirection Yandex?

Question

J'ai eu quelques visites sur des pages qui sont supposées être complètement cachées de tout le monde via Yandex et j'aimerais découvrir:

quel terme de recherche les y a conduits
la page de renvoi sur mon site

Le problème est que, malgré avoir passé plus d'une heure à essayer d'utiliser les vars de l'URL, je ne parviens pas à obtenir une page de recherche légitime sur Yandex. Voici l'URL en question:

http://yandex.ru/clck/jsredir?from=yandex.ru%3Bsearch%3Bweb%3B%3B&text=&etext=1271.RJS9ZfLhVdj6nXam87qy4e0e-DG9BQd_KlyA1gFVBu1uuZOuUSRTgOEasX71Cupm.fe839c38b17c539463c0b2f7d01d86940f4b3320&uuid=&state=_BLhILn4SxNIvvL0W45KSic66uCIg23qh8iRG98qeIXmeppkgUc0YL_nDC5hqtEQ6WayFoZKRZE&data=UlNrNmk5WktYejY4cHFySjRXSWhXUFJiWDhna1NqZnBmd1YzNG43VS13RUpmdUZXdnBLOHdkMFlqUzVDamF1OVBVb2xkMmtvMUxXWUxJM1hSVW5hS2x5R1R6LVpCcGVXZFZZNkprR0JOSUVPc3d0ZnBVOXpDV295ckZDdFpqS3l4WkZSOFF3c0RmVTN2ZkhIYWIwT0JzNVQyWko5ME9vMw&b64e=2&sign=08505d8afebc7cb1b4568d3e92c11ecb&keyno=0&cst=AiuY0DBWFJ7IXge4WdYJQXbYQp9t5VF6sf_IfF4r6pdt0ojCe4cFQNegojWnJn8UToJJyLyR96RrC_bl9mqJxfCjbo3nl3EPqUjNd2ADc0Zxar8tKC1hQd4R3WTMI1AD3dVkg_IhwheNgkWXjuLnig&ref=orjY4mGPRjk5boDnW0uvlrrd71vZw9kp5uQozpMtKCXdCnh-_wii4V8gT36dWFhYdLgT8HVc5IPL1yluhUPYHlzmn9nr8Aaa3y8eC13fJRd5RgTTAPeGmg&l10n=ru&cts=1481853806438&mc=4.32492874929

J'ai pris le code après l'URL redir et essayé d'ajouter les variables var et value etext à l'URL de recherche Yandex, mais rien n'a fonctionné jusqu'à présent.

J'ai déjà téléchargé l'intégralité du site via wget tout en utilisant à la fois un navigateur et un agent de recherche Yandex (c'est ainsi que mon site distingue les bots qui masquent les connexions et le contenu spécifique à l'homme). En effectuant une recherche dans tout le contenu téléchargé, je n’ai trouvé aucune occurrence des URL en question. Le plan du site ne mentionne pas les URL en question.

Chris Rutherfurd · Answer

Essayer de vérifier le terme de recherche ne fonctionnera pas pour identifier la source du lien pour commencer. Les moteurs de recherche identifient les pages à explorer à l'aide d'autres pages déjà explorées et des liens figurant sur ces pages. En d'autres termes, si vous avez un lien sur votre page sur lequel vous cliquez pour accéder à la page protégée, le robot le saura, cela fonctionnera également si le lien est ajouté à la page à l'aide de javascript. La plupart des robots d'exploration légitimes respecteront la spécification robots.txt pour exclure les pages auxquelles vous ne voulez pas accéder, mais en cas de mauvais robots qui ne respectent pas l'exclusion robots.txt, restreignez l'accès à ces liens derrière un formulaire de connexion. La méthode la plus rapide et la plus simple consiste à utiliser .htaccess et .htpasswd pour exiger l’authentification des pages d’administrateur et les placer dans un répertoire à accès restreint.