Sur la page d'accueil de mon site Web, j'ai quelques aperçus d'articles (avec une petite introduction) qui renvoient aux articles complets. Je souhaite interdire la page d'accueil pour éviter le contenu en double. Mais si je fais ceci (dans robots.txt
), serait-il toujours exploré?
Je veux dire, les articles complets seraient toujours atteints par le robot, même si je refusais la seule page qui les lierait?
Je ne veux pas que le webcrawler n'accède pas à la page et n'entre les liens qui s'y trouvent, mais je ne le veux tout simplement pas enregistrer l'information (qui sera répétée dans les articles complets).
C’est à quoi sert la balise méta robots: contrôle par page pour l’indexation et le suivi.
Je suis venu pour le préférer à l'aide de robots.txt car il donne un contrôle plus fin.
Pour votre page, vous voudriez noindex, suivez pour le réglage. Le robot lira la page, pas l'indexer, mais suivra tous les liens de la page.
<meta name="robots" content="noindex,follow" />