Ennuyé par la suppression de musique par YouTube en Allemagne, j'ai créé mon propre "clone YouTube", juste pour un usage privé. Il télécharge automatiquement mes abonnements et certaines vidéos avec des mots clés spéciaux ou à partir de YouTubers spéciaux. Tout cela fonctionne bien. Et tout cela n’est pas accessible de l’extérieur (vous aurez besoin d’un nom d’utilisateur et d’un mot de passe, que je ne connais que moi).
Sur ma page de démarrage, il y a beaucoup de liens vers des vidéos qui sont dans mes abonnements, mais qui ne sont pas encore téléchargés. Lorsque je clique sur l'un de ces liens, la vidéo est incluse dans la fonctionnalité d'intégration d'origine de YouTube. Tout cela fonctionne bien.
Mais maintenant, mon problème: il y a quelques minutes, j'ai visionné une vidéo avec cette fonction d'intégration et je viens de voir cela dans mon journal Apache:
66.249.89.90 - - [20/Dec/2014:21:40:52 +0100] "GET my_youtube_clone HTTP/1.1" 200 2780 "-" "Mediapartners-Google"
J'ai déjà tous les robots bloqués via le fichier robots.txt, donc Google utilise évidemment les référents YouTube pour explorer les pages et pendant ce temps, il ignore le fichier robots.txt.
Comme je l'ai dit, Google n'a rien eu d'utile, vous avez besoin d'un mot de passe pour cela, mais je suis assez ennuyé que Google ignore le fichier robots.txt et utilise les sites de référence de YouTube comme sources d'URL d'analyse.
Est-il possible d'arrêter complètement cela?
Mediapartners-Google est l'agent d'utilisateur que Google utilise pour explorer les pages comportant des annonces AdSense. L'exploration est probablement liée aux annonces diffusées par la vidéo.
Supprimez les annonces et Google cessera d'essayer d'explorer de la sorte.
Vous pouvez utiliser des balises dans vos en-têtes (<head></head>
) pour empêcher l'exploration à partir de la plupart des moteurs de recherche:
<meta name="robots" content="noindex">
Ils précisent également que si vous souhaitez uniquement bloquer Google, vous pouvez utiliser ceci:
<meta name="googlebot" content="noindex">
Google fait la même chose: https://support.google.com/webmasters/answer/93710?hl=fr