Existe-t-il un moyen d'empêcher Google d'indexer un site?
robots.txt
User-agent: *
Disallow: /
cela bloquera tous les robots de recherche de l'indexation.
pour plus d'informations, voir: http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=40360
Je dois ajouter ma réponse ici, car la réponse acceptée ne règle pas le problème correctement. N'oubliez pas non plus qu'empêcher Google d'explorer le Web ne signifie pas que vous pouvez garder votre contenu privé.
Ma réponse est basée sur quelques sources: https://developers.google.com/webmasters/control-crawl-index/docs/getting_startedhttps://sites.google.com/site/ webmasterhelpforum/fr/faq - exploration - indexation --- classement
Le fichier robots.txt
contrôle l'analyse, mais pas l'indexation! Ces deux actions sont complètement différentes, effectuées séparément. Certaines pages peuvent être explorées mais non indexées, et d'autres peuvent même être indexées mais jamais explorées . Le lien vers une page non explorée peut exister sur d'autres sites Web, ce qui obligera Google Indexer à le suivre et à indexer.
La question concerne l'indexation qui consiste à collecter des données sur la page afin qu'elles puissent être disponibles dans les résultats de recherche. Il peut être bloqué en ajoutant une balise META:
<meta name="robots" content="noindex" />
ou en ajoutant un en-tête HTTP à la réponse:
X-Robots-Tag: noindex
Si la question concerne l'exploration, vous pouvez bien sûr créer un fichier robots.txt
et mettre les lignes suivantes:
User-agent: *
Disallow: /
L'analyse est une action effectuée pour recueillir des informations sur la structure d'un site Web spécifique. Par exemple. vous avez ajouté le site via Google Webmaster Tools. Crawler en tiendra compte et visitera votre site Web à la recherche de robots.txt
. S'il n'en trouve pas, il supposera qu'il peut tout analyser (il est également très important de disposer du fichier sitemap.xml
afin de faciliter cette opération, de spécifier les priorités et de définir les fréquences de changement). S'il trouve le fichier, il respectera les règles. Une fois l’analyse réussie, l’indexation des pages analysées est exécutée, mais vous ne pouvez pas savoir quand ...
Important: tout cela signifie que votre page peut toujours être affichée dans les résultats de recherche Google, quel que soit le robots.txt
.
J'espère qu'au moins certains utilisateurs liront cette réponse et la clarifieront, car il est essentiel de savoir ce qui se passe réellement.
Vous pouvez désactiver ce serveur en ajoutant le paramètre ci-dessous de manière globale dans Apache conf. Vous pouvez également utiliser les mêmes paramètres dans vhost pour le désactiver uniquement pour un hôte particulier.
Jeu d'en-têtes X-Robots-Tag "noindex, nofollow"
Une fois que cela est fait, vous pouvez le tester en vérifiant que les en-têtes Apache ont été renvoyés.
curl -I staging.mywebsite.com HTTP/1.1 302 Date trouvée: le samedi 26 novembre. 2016 22:36:33 Serveur GMT: Apache/2.4.18 (Ubuntu) Lieu: /pages/ X-Robots-Tag: noindex, nofollow Type de contenu: text/html; jeu de caractères = UTF-8
Il existe plusieurs moyens d'arrêter les robots d'exploration, y compris Google, pour arrêter l'analyse et l'indexation de votre site Web.
Au niveau du serveur via l'en-tête
Header set X-Robots-Tag "noindex, nofollow"
Au niveau du domaine racine via le fichier robots.txt
User-agent: *
Disallow: /
Au niveau de la page via la méta-balise robots
<meta name="robots" content="nofollow" />
Cependant, je dois dire que si votre site Web a des pages/urls obsolètes et non existantes, vous devez attendre un moment où Google désindexera automatiquement ces URL dans la prochaine analyse - read https://support.google.com/webmasters/answer/1663419 ? hl = en
utilisez une balise meta nofollow:
<meta name="robots" content="nofollow" />
Pour spécifier nofollow au niveau du lien, ajoutez l'attribut rel avec la valeur nofollow au lien:
<a href="example.html" rel="nofollow" />
J'utilise une simple page aspx pour relayer les résultats de Google à mon navigateur à l'aide d'un faux cookie 'Pref' qui obtient 100 résultats à la fois et je ne voulais pas que Google affiche cette page de relais afin que je vérifie l'adresse IP et si elle commence avec 66.249 alors je fais simplement une redirection.
Cliquez sur mon nom si vous tenez à la vie privée et souhaitez en obtenir une copie.
une autre astuce que j’utilise est d’avoir du javascript qui appelle une page pour définir un drapeau en session parce que la plupart (PAS TOUT) les web-bots n’exécutent pas le javascript afin que vous sachiez que c’est un navigateur avec javascript désactivé ou qui a plus de chances un bot.
Aussi, vous pouvez ajouter les robots méta de cette façon:
<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>
Et une autre couche supplémentaire consiste à modifier .htaccess, mais vous devez le vérifier en profondeur.
Existe-t-il un moyen d'empêcher Google d'indexer un site?
Pour empêcher Google d'explorer, ajoutez simplement la balise meta
suivante à la head
de chaque page:
<meta name="googlebot" content="noindex, nofollow">
N'oubliez pas que le robot d'exploration de Bing de Microsoft, malgré sa prétention d'obéir à robots.txt, ne le fait pas toujours.
Les statistiques de nos serveurs indiquent qu’ils ont un certain nombre d’IP exécutant des robots qui n’obéissent pas au fichier robots.txt, ainsi que plusieurs autres.