Je possède un site Web qui comporte principalement deux types de pages:
Google indexe certaines des pages de la liste, qui seront probablement obsolètes lorsque les utilisateurs les trouveront (le nouveau contenu est ajouté à un rythme assez rapide). Ce n'est pas souhaitable, bien sûr. En outre, les pages de liste contiennent des extraits du contenu, ce qui peut être considéré comme un contenu répété du point de vue de Google (ce qui, à mon avis, n’est pas souhaitable, je ne suis pas sûr de cela).
Le problème est qu'il existe des centaines de milliers de pages de contenu. Les pages de liste sont très pratiques pour les visiteurs et les moteurs de recherche pour explorer le site. Je ne suis pas sûr que la liste des pages de contenu liées permette aux moteurs de recherche d'explorer le site en peu de temps.
J'ai réfléchi aux options suivantes:
Disallow: /?page*
à robots.txt: les pages de listage (autres que la première) ne seront pas consultées.nofollow
aux pages de liste: comme pour la première, les pages de liste ne seront pas consultées.noindex
aux pages de listage: elles seront des accès, mais ne seront pas ajoutées à l'indexQuelles sont vos suggestions? Ajouter la méta NoIndex à la liste des pages me semble la meilleure solution, mais je n'ose pas aborder une tâche de cette ampleur sans demander au préalable :)
Y a-t-il d'autres solutions possibles auxquelles je n'ai pas pensé?
Je dirais que l’une des pratiques les plus courantes consiste à ajouter noindex
aux pages de liste, à l’exception de la première, de sorte que, comme vous l’avez dit, elles seront toujours explorées mais ne seront pas ajoutées à l’index. Je pense que cela est préférable à leur blocage dans robots.txt, car Google est toujours libre de parcourir le site et peut toujours suivre les liens figurant sur les pages.
L'ajout de nofollow ne serait pas très utile, en particulier si les pages sont déjà indexées. Elles resteront indexées et si elles ne sont pas indexées, elles seront probablement indexées dans Google si elles sont liées à un autre emplacement. Matt Cutts mentionne également que vous devriez essayer d'éviter les liens internes nofollowing Devrais-je utiliser rel = "nofollow" sur les liens internes
Il existe une autre option, proche de votre solution "let it be", qui utilise des balises rel = ”next” et rel = ”prev” html pour indiquer la relation entre les URL de composants dans une paginée. Cela aide Google à indexer avec précision votre contenu et à proposer aux utilisateurs la page la plus pertinente (généralement la première page). Une brève explication ci-dessous:
http://www.example.com/article?story=abc&page=1
http://www.example.com/article?story=abc&page=2
http://www.example.com/article?story=abc&page=3
http://www.example.com/article?story=abc&page=4
Sur la première page, http://www.example.com/article?story=abc&page=
1, vous devez inclure dans la section <head>
:
<link rel="next" href="http://www.example.com/article?story=abc&page=2" />
Sur la deuxième page, http://www.example.com/article?story=abc&page=2:
<link rel="prev" href="http://www.example.com/article?story=abc&page=1" />
<link rel="next" href="http://www.example.com/article?story=abc&page=3" />
Sur la troisième page, http://www.example.com/article?story=abc&page=3:
<link rel="prev" href="http://www.example.com/article?story=abc&page=2" />
<link rel="next" href="http://www.example.com/article?story=abc&page=4" />
Et sur la dernière page, http://www.example.com/article?story=abc&page=4:
<link rel="prev" href="http://www.example.com/article?story=abc&page=3" />
Vous trouverez plus d’informations dans les consignes de Google pagination avec rel = “next” et rel = “prev” et voici un bon guide ici Conquérir la pagination - Guide de consolidation de votre conten =