Comment fonctionne "Noindex:" dans le fichier robots.txt?

Question

J'ai rencontré cet article dans mes nouvelles sur le référencement aujourd'hui. Cela semble impliquer que vous puissiez utiliser les directives Noindex: en plus des directives standard Disallow: dans robots.txt .

Disallow: /page-one.html Noindex: /page-two.html

On dirait que cela empêcherait les moteurs de recherche d’analyser la première page et de les indexer.

Cette directive robots.txt est-elle prise en charge par Google et d'autres moteurs de recherche? Est-ce que ça marche? Est-ce documenté?

Stephen Ostermiller · Accepted Answer

Google supportait officieusement une directive Noindex dans robots.txt, mais en 2019, ils ont annoncé que la directive ne fonctionnerait plus.

Voici ce que Google dit John Mueller dit à propos de Noindex: dans robots.txt :

Nous avions l'habitude de supporter la directive no-index dans le fichier robots.txt en tant que fonctionnalité expérimentale. Mais c'est quelque chose sur lequel je ne compterais pas. Et je ne pense pas que les autres moteurs de recherche l'utilisent du tout.

Avant que Google n'annonce la suppression de la fonctionnalité, deepcrawl.com en a testé la fonctionnalité et a découvert que:

Avant 2019, cela fonctionnait toujours avec Google
Cela empêchait les URL d'apparaître dans l'index de recherche
Les URL non indexées dans le fichier robots.txt ont été marquées comme telles dans la console de recherche Google.

Étant donné que Google a abandonné cette fonctionnalité, elle ne devrait plus être utilisée.

Au lieu de cela, utilisez des balises META robots bien supportées et documentées pour empêcher l’indexation:

<meta name="robots" content="noindex" />