Blocage des moteurs de recherche pour explorer des parties d'un site Web?

Question

<div id="papers" NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> content -- Does this work to block search engines to crawl me? </div>

Just Jake · Accepted Answer

La norme séculaire pour la gestion des robots est / robots.txt . robots.txt demande aux robots de ne pas explorer ou indexer certaines pages de votre site. Votre question spécifique semble concerner davantage --- Robots <META> tag , qui appartient au <head> de votre document et ne peut pas être spécifié quelque part dans une balise <div> dans le corps de votre page.

Dans l’état actuel des choses, votre balisage ne sera pas interprété par les robots comme une sorte de requête et invalidera votre code HTML.

John Conde · Answer

Si vous souhaitez empêcher les moteurs de recherche d’analyser et/ou d’indexer vos pages, vous pouvez utiliser plusieurs méthodes:

1) Utilisez robots.txt

2) Utiliser les balises META

<meta name="robots" content="noindex, nofollow">

3) Utiliser les en-têtes http

Header set x-robots-tag: noindex

4) Utilisez rel = "nofollow"

<a href="http://www.example.com/sample.html" rel="nofollow">Link to page I don't want indexed</a>

5) Placez le contenu derrière une connexion. Les moteurs de recherche (en général) ne soumettent pas de formulaires et ne créent pas de comptes sur des sites Web.

6) Bloquez les robots de tous les principaux moteurs de recherche à l'aide de .htaccess, mais cela serait fastidieux et sujet aux erreurs s'ils changeaient ce que vous utiliseriez pour les identifier (adresse IP, agent utilisateur, par exemple).