PageRank: les liens pointant vers des pages protégées par robots.txt compteront-ils encore?

Question

Si chaque lien vers un site Web donné, www.example.com, pointe vers une page d'un sous-répertoire particulier (par exemple, www.example.com/user/[chose quelque chose]), mais que ce répertoire est hors limites conformément à robots.txt, c.-à-d.

User-agent: * Disallow: /user/

parce que je ne veux pas que ces pages apparaissent dans les résultats de recherche Google, est-ce que je me tire dans le pied en termes de pagerank? Le "link-juice" entrant compte-t-il toujours si la page cible de Google est interdite dans mon fichier robots.txt?

danlefree · Accepted Answer

En répondant à votre question - "Le" link-juice "entrant compte-t-il toujours si la page cible est interdite pour Google dans mon fichier robots.txt?" - Je dirais que le PageRank est calculé, même pour noindex/nofollow URI:

Bien que Google n'analyse pas et n'indexe pas le contenu des pages bloquées par le fichier robots.txt, il est possible que les URL soient indexées si nous les trouvons sur d'autres pages du Web. Par conséquent, l'URL de la page et, éventuellement, d'autres informations accessibles au public, telles que le texte d'ancrage dans les liens vers le site ou le titre du projet Open Directory, peuvent apparaître dans les résultats de la recherche Google.

Google Webmaster Central: bloquer ou supprimer des pages à l'aide d'un fichier robots.txt

Exemple: Mon domaine "working-model.com" comporte un fichier robots.txt exclusif, spécifié depuis aussi longtemps que je me souvienne. recherche Google sur le site working-model.com (ou un recherche Yahoo , ou un recherche Bing ) indique le classement du domaine (probablement en tant que résultat d'un lien vers un site WHOIS du domaine).

John Conde · Answer

Même si la page n'est pas indexée par Google, ces pages se verront attribuer un classement PageRank. Cela signifie qu'en créant un lien vers eux, vous "perdrez" des relations publiques, car ces relations seront simplement perdues au lieu d'être transmises à d'autres liens. Cela revient essentiellement à utiliser nofollow sur un lien. Ainsi, si vous créez un lien vers des pages internes bloquées avec le fichier robots.txt, vous diluez essentiellement la quantité de relations publiques que vous transmettez aux pages autorisées sur votre site.

Voir ce blog pour plus d'informations à ce sujet.

John Mueller · Answer

Oui, Google attribue un classement PageRank aux URL qui ont été détruites, mais non, vous ne vous tirez pas une balle dans le pied en créant de telles URL ou en vous y connectant. Le temps que vous passez à peaufiner votre flux de PageRank perçu est généralement beaucoup mieux dépensé à travailler sur votre contenu.

Si vous utilisez le fichier robots.txt, vous ne pouvez pas contrôler le contenu en double. Étant donné que les URL robotisées peuvent collecter un PageRank et que Google ne peut pas confirmer qu'il s'agit de doublons (comme cela serait le cas si elles pouvaient être analysées), il est possible que Google indexe à la fois l'URL robotisée et non analysée ainsi que la version analysable. le même contenu. Il est bien préférable d'autoriser l'exploration du contenu dupliqué et d'utiliser l'une des méthodes de canonisation habituelles (comme une redirection 301 ou un élément de lien rel = canonique).