Duplicate possible:
Qu'est-ce qu'un contenu en double et comment puis-je éviter d'être pénalisé pour cela sur mon site?
J'ai lu que je devrais utiliser une balise NoIndex
pour les pages de transition telles que les pages d'index, de pagination ou de balises. Est-ce vrai? J'ai un blog Tumblr sur lequel je pense mettre NoIndex
sur les pages d'index, de recherche, de balise, de pagination et de date.
Est-ce que NoIndex
est suffisant ou existe-t-il d'autres méthodes? La page d'index d'un site doit-elle être marquée comme NoFollow
? Cela ne semble pas vraiment bien.
Quelles sont les pages sur lesquelles vous mettriez NoIndex
?
Si plusieurs URL de page produisent le même contenu, c'est exactement ce à quoi <link rel="canonical">
est destiné. C'est pour dire aux moteurs de recherche que le contenu de plusieurs URL est le même et pour utiliser celui-ci comme primaire. Cela évite les problèmes de duplication et est très simple à faire.
Non, vous ne devez pas empêcher les moteurs de recherche d'indexer des pages de pagination ou de balises. (Et absolument pas votre page d'index!) Pour les blogs ou les sites sans structure de menu claire, c'est le moyen principal pour trouver votre contenu.
Le plus souvent, les moteurs de recherche peuvent très bien travailler ces pages et découvrir votre contenu le plus important, à savoir les entrées de blog elles-mêmes.
Toutefois, si vous remarquez que ces pages de liste sont plus indexées que les articles de blog, je vous recommande de bloquer l'indexation de "configurations infinies", par exemple le tri par popularité. Ou tout ce qui contient les mêmes éléments dans différents ordres - permet d'indexer un ordre sensible et d'ignorer le reste.
Il n'y a rien qui puisse empêcher chaque robot d'araigner AUCUNE page de votre site, à moins que ce ne soit interdit de force.
Cela étant dit, vous pouvez toujours encourager le robot à suivre et à indexer ce que vous voulez/ne veut pas. Certaines de ces méthodes incluent:
robots.txt
et le placer dans votre répertoire racine.response header
correctement pour chaque ressource.sitemap.xml
avec uniquement les pages que vous voulez spider.$_GET
dans l'URL, sauf si cela crée véritablement des données uniques. (comme www.abc.com/index.php?session=21389271893219
, utilisez $_POST
pour cela à la place.404 NOT FOUND
à ces pages et 200
ou rediriger vers des utilisateurs en direct. (301
s sont discutables)Il y en a plus, mais cela fonctionne pour 99% de presque tout. L'astuce est la bonne conception initiale du répertoire d'URL.