En ne vérifiant pas mon fichier robots.txt sur un site communautaire, il avait:
User-agent: *
Disallow: /
Je ne l'ai compris qu'à cause d'un message dans mon compte AdSense indiquant que cinq URL ne pouvaient pas être explorées. Seulement cinq, sur environ 600 qui sont actuellement indexés.
Même si j'avais par erreur Disallow: /
, pourquoi ces pages étaient-elles toujours indexées et obtenaient-elles du trafic?
Robots.txt indique simplement aux moteurs de recherche de ne pas explorer vos pages. Cela ne leur pas leur dit de ne pas indexer vos pages. Donc, si vos pages contiennent des liens provenant d’autres sites Web, les moteurs de recherche sauront qu’ils existent. Et parce que les facteurs hors page affectent, parfois de manière considérable, le rang de vos pages, elles peuvent bien classer les termes de recherche à longue queue sans jamais être explorées.
Pour empêcher réellement les moteurs de recherche d’indexer réellement vos pages, vous devez utiliser le x-robots-tag
.
L'utilisation de robots.txt constitue la première étape pour supprimer votre site Web des résultats de recherche Google. Vous devez utiliser l'outil "Supprimer l'URL" de votre compte Google Webmaster Tools pour indiquer à Google de supprimer vos pages ou complètement votre site Web de ses résultats de recherche.
Vous venez d'indiquer aux moteurs de recherche de ne pas explorer vos pages Web, de ne pas les désindexer. C'est pourquoi, les URL sont toujours indexées et vous obtenez le trafic qu'elles génèrent.
Robots.txt n'arrête pas l'indexation, il arrête seulement l'exploration. Ainsi, vos pages pourraient toujours être indexées et le trafic référencé avec une directive disallow : /
. Bien que Google ne puisse pas explorer votre site, vous pouvez vous attendre à ce que le trafic diminue avec le temps.
Ajoutez <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
dans la page d'index de votre site Web pour arrêter l'indexation.