Pages d'indexation Google avec la balise méta noindex

Question

J'ai reçu un message dans Google Webmaster Tools sur "Googlebot a trouvé un nombre extrêmement élevé d'URL sur votre site" avec une longue liste d'exemples d'URL.

Pour certaines des pages répertoriées, rien ne les empêchait d'être indexées. Cependant, pour certaines des URL, j'ai les balises méta "noindex, nofollow" comme suit:

<meta name="googlebot" content="noindex, follow" /> <meta name="bingbot" content="noindex, follow" /> <meta name="msnbot" content="noindex, follow" /> <meta name="Slurp" content="noindex, follow" /> <meta name="teoma" content="noindex, follow" />

J'ai lu que Google indexait parfois les pages que vous bloquez dans le fichier robots.txt s'ils trouvaient un autre lien pointant vers la page, mais qu'ils respectent apparemment les balises méta?

Simon Hayter · Accepted Answer

Il est important de noter que nofollow, noindex et même le blocage via des robots ne signifie pas nécessairement que le contenu ne sera pas exploré. En fait, ces pages peuvent toujours être indexées mais cachées plutôt des résultats de la recherche publique (oui, Google est vilain, mais vrai). Lorsque vous utilisez noindex sur la page, Google doit explorer la page pour trouver cette balise. Googlebot ne traite pas seulement une ligne à la fois, puis s'arrête lorsqu'il frappe cette balise. Il télécharge l'intégralité de la page. signalé dans Google Outils pour les webmasters.

Donc, vous pouvez voir ces pages dans Outils pour les webmasters, mais cela ne signifie pas pour autant qu'elles sont incluses dans les résultats de la recherche. Il vous suffit de faire un site:yourdomain.com dans la recherche Google pour voir si ces pages ont été trouvées, ce que je soupçonne ne pas. en quelque sorte, la balise a été ignorée.

En fait, Google recommande à la fois aux méta-noms et aux robots de bloquer le contenu mis à disposition dans les résultats de recherche publics. De plus, vous ne devriez pas avoir besoin d'utiliser botname dans la méta-nom et un simple "robots" devrait suffire.

Votre méta-nom devrait ressembler à ceci:

<meta name="robots" content="noindex, nofollow">

Et vous devriez faire un robots.txt comme si

User-agent: * Disallow: /foldername/

joshuahedlund · Answer

Cela ressemble à ce que cela devrait être correct, par instructions de Google . Quelques suggestions:

Assurez-vous que les balises META sont dans la balise <head>
Assurez-vous que les balises META indiquent réellement "noindex, nofollow" (votre code indique "noindex, follow" - vous ne savez pas si c'est juste une erreur de copie)
Utilisez la norme <meta name="robots" content="noindex, nofollow"> au lieu d'essayer de suivre les différents moteurs de recherche
Attendez que Google explore à nouveau vos pages, si vous n'avez que récemment ajouté/modifié les balises méta, ou utilisez la demande de suppression d'URL pour tenter d'accélérer la suppression de certaines URL.

Patrick · Answer

Le message Outils pour les webmasters "Googlebot a trouvé un nombre extrêmement élevé d'URL sur votre site" indique simplement que Googlebot a trouvé ces URL et les analyse. Il existe une URL chez Google qui l'explique un peu et montre des exemples comme "pages de calendrier" qui durent éternellement.

Avec votre balise META, il vous suffit de dire à Google de lire la page et de jeter le contenu noindex - mais à follow tous les liens de cette page. Si vous ne souhaitez pas que Google suive ces liens, vous devez utiliser nofollow.

Définir le paramètre interdit dans le robots.txt empêchera le bot d'accéder à votre site Web, mais ne conservera pas vos pages (liées) dans l'index de recherche.

Mattypants · Answer

N'ajoutez pas nofollow à votre noindex, car vous souhaitez que le PageRank circule entre ces pages aux autres personnes normalement; vous ne voulez simplement pas qu’ils soient indexés.

Par conséquent, sur les pages que vous ne souhaitez pas indexer, ajoutez simplement <meta name="robots" content="noindex, follow"> à la section <head>.

Assurez-vous de supprimer vos exclusions robots.txt , car avec elles, la méta ne sera pas vue et les pages ne seront pas supprimées.

ne autre méthode légèrement plus compliquée, consiste à exclure les pages de robots.txt , et utilisent l'outil de suppression de Google URL dans les outils pour les webmasters. Notez que le standard d'exclusion de robot empêchera uniquement l'indexation si vous effectuez également les suppressions d'URL à l'aide de l'outil de Google, sans les annuler. Si elles sont annulées dans votre compte Webmaster Tools, les pages peuvent être indexées à nouveau si, par exemple, elles sont découvertes à partir d'une source autre que votre site.