Quelles sont les raisons courantes pour interdire l'exploration sur les pages avec un contenu unique et hiérarchisé?

Question

J'essaie de trouver la bonne stratégie pour différencier le contenu que je souhaite voir apparaître dans les résultats de recherche et le contenu que je ne trouve pas. J'ai trouvé des exemples dans lesquels un site a un contenu unique, qui a une valeur de classement, et il choisit de ne pas le mettre dans les résultats de recherche.

MOZ Open Site Explorer en est un exemple. Il s'agit d'une analyse de référencement gratuite d'un site Web. Leur page sur stackoverflow pourrait être une bonne cible pour le référencement, mais ils ont choisi de ne pas l'autoriser (via robots.txt). C'est la page elle-même: https://moz.com/researchtools/ose/links?site=stackoverflow.com&filter=&source=external&target=page&group=0&page=1&sort=page_authority&anchor_id=&anchor_type=&anchor==french=site= =

Quelles sont les bonnes raisons de prendre une telle décision du point de vue du référencement? Si vous ajoutez une page, cela signifie-t-il que d'autres pages risquent de perdre leur classement?

Stephen Ostermiller · Answer

Il y a plusieurs raisons de garder le contenu en dehors des moteurs de recherche:

Contenu sensible - Certains contenus doivent être publics, mais peuvent contenir des informations que vous ne souhaitez pas voir dans les moteurs de recherche. Un exemple pourrait être votre CV. Vous voulez que les employeurs potentiels puissent la consulter, mais vous ne voulez pas que votre adresse soit facilement repérable dans les moteurs de recherche.
Dupliquer le contenu - Il est peu probable qu'un contenu copié depuis une autre source attire les visiteurs des moteurs de recherche. En règle générale, Google souhaite simplement indexer la copie d'origine. Dans le pire des cas, votre site Web entier pourrait être pénalisé. Voir: Qu'est-ce qu'un contenu en double et comment puis-je éviter d'être pénalisé pour cela sur mon site?
Résultats de la recherche - Google ne souhaite pas indexer les pages de résultats de recherche. S'ils le faisaient, les utilisateurs pourraient cliquer sur les résultats de recherche Google pour accéder à d'autres résultats de recherche. Ce serait une mauvaise expérience utilisateur. Voir cet article de Matt Cutts sur Google: résultats de recherche dans les résultats de recherche
Contenu généré automatiquement - Un contenu qui n'est pas écrit, édité, cultivé ou collecté sans supervision éditoriale de la part d'un humain n'est généralement pas approprié pour les moteurs de recherche. Le contenu généré automatiquement par Google Index est par rapport aux instructions du Google Webmaster .
Contenu de qualité médiocre - Tout contenu qui n’est pas aussi bon que celui de vos concurrents est susceptible de faire plus de mal que de bien. Les utilisateurs qui trouvent votre site via un moteur de recherche utiliseront le bouton Précédent et cliqueront sur autre chose. Peu de choses tuent votre classement plus rapidement que les utilisateurs qui reviennent de votre site.
Contenu fin - Les pages contenant peu ou pas d'informations réelles ne sont pas bonnes à afficher pour les moteurs de recherche. Toute page qui dit quelque chose comme "Soyez le premier à donner votre avis" ne se rangera jamais bien. De nombreuses pages de ce type pourraient nuire à l'ensemble de votre site Web.

Google Panda Algorithm est utilisé pour identifier plusieurs de ces types de contenu et pénaliser des sites Web complets qui en sont dotés.

DocRoot · Answer

Leur page sur stackoverflow pourrait être une bonne cible pour seo

C'est discutable. Sur la page vers laquelle vous créez un lien, je ne vois que des chiffres et toute une série de liens. Est-ce que je chercherais vraiment sur Google pour "analyser" le site de quelqu'un ou aller directement à l'outil dédié?

Mais je pense que le principal "problème" lié à l’autorisation de Google d’explorer cette page est qu’elle résulte d’une recherche arbitraire. Il existe un nombre infini de possibilités et potentiellement un nombre infini de pages à explorer.

https://example.com/links?site=<anything>