Je crée un site Web personnel avec un blog sur lequel j'aimerais être indexé par les moteurs de recherche. Mais le blog renverra au CV avec des informations personnelles qui ne devraient pas être indexées.
Peut-il être réalisé de manière fiable sans publier ce contenu personnel dans un format autre que document (par exemple, image)?
S'il s'agit d'un document HTML, incluez la balise meta suivante :
<meta name="robots" content="noindex" />
Cela indiquera à Google et à tous les autres moteurs de recherche qui comprennent le tag (qui devrait être à peu près tous, puisqu'il existe depuis 1996) de ne pas indexer la page.
Pour les documents non HTML, vous pouvez configurer votre serveur Web pour qu'il envoie plutôt l'en-tête HTTP X-Robots-Tag: noindex
. Cette fonctionnalité est un peu plus récente, mais elle est au moins comprise par les principaux moteurs de recherche tels que Google , Yahoo! et Bing .
Pourtant, un autre moyen de tenir les moteurs de recherche éloignés d’une page consiste à l’interdire dans votre fichier robots.txt
. Cependant, il y a une mise en garde importante : Google, au moins, traite robots.txt
comme une interdiction d'empêcher d'extraire les interdits pages, mais pas contre l'inclusion de leurs URL dans leur index si elles sont liées à partir d'une autre page explorée. Et vous ne pouvez pas combiner efficacement robots.txt
avec les méthodes basées sur une balise méta ou un en-tête HTTP, car le fait de ne pas autoriser une page dans robots.txt
empêchera Google de voir même des balises méta ou des en-têtes HTTP.
(Cependant, si vous interdisez une page dans votre robots.txt
et que envoyez une demande de suppression à Google, ils la garderont en dehors de leurs index. Mais c’est une méthode quelque peu laborieuse et sujette aux erreurs.)