J'utilise WordPress et j'ai ajouté des fonctionnalités de réécriture afin que certaines publications ayant normalement un lien comme:
http://example.com/category/post-name
Maintenant, ressemblez à:
http://example.com/special/path/post-name
Mais si vous visitez l'un ou l'autre lien, le même contenu est servi. Nous travaillons à résoudre ce problème, mais je suis curieux de savoir si je devrais configurer des redirections ou des canoniques.
Sur mon site Web, il n’ya absolument aucune référence au lien initial, seulement au deuxième lien. J'imagine que tant qu'il n'y a pas de liens pointant vers l'ancien lien, Google ne le sait pas et ne le trouvera pas non plus par magie, ce qui rend les 301 ou canoniques plus "au cas où".
Est-ce que ma pensée est correcte?
Vous penseriez que vous pensez est correct, mais ce n'est pas le cas.
J'ai travaillé sur de très nombreux sites et certaines URL ne contenant aucun lien physique (ou aucun dont nous étions au courant) ont toujours réussi à être indexées dans Google.
Qui sait où Google trouve les liens, mais c'est toujours le cas. C'est donc quelque chose que vous devez absolument réparer.
SI vous pouvez 301 rediriger les pages dupliquées vers une URL unique qui conviendrait le mieux, ou si vous avez besoin que l'URL dupliquée soit active, quelle qu'elle soit Pour cette raison, définissez une balise canonique sur l'URL en double faisant référence à une URL unique.
<link rel="canonical" href="http://example.com/special/path/post-name" />
Si, pour une raison quelconque, vous ne pouvez pas définir de balise canonique, vous pouvez définir la balise méta des robots sur noindex.
Dans la section d'en-tête de la page:
<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
Ou dans l'en-tête HTTP
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)
Et, en dernier recours, si vous ne parvenez pas à mettre en œuvre l'un des éléments ci-dessus, vous pouvez les bloquer dans votre fichier robots.txt , en utilisant l'une des méthodes suivantes:
Disallow: /category/
La duplication interne est rarement mauvaise pour le référencement. De nos jours, Googlebot sait très bien détecter les doublons et les gérer correctement.
Oui, Googlebot est susceptible de trouver et d'analyser les URL en double à terme. Toutefois, dans le cas où Googlebot trouve deux URL sur le même site avec le même contenu, il en choisit simplement une à indexer. Celui qu'il choisira sera soit celui qu'il a trouvé en premier, soit celui avec un PageRank plus élevé. Dans tous les cas, c'est probablement celui que vous avez lié.
Google ne donnera pas de pénalités pour la duplication interne. La pire chose qui puisse arriver est que Google indexe parfois une page sur une URL que vous ne préférez pas. Il est également possible que Googlebot utilise une grande quantité de bande passante et une analyse du budget d'exploration pour analyser les sections en double de votre site qui ne seront pas indexées.
D’autres réponses vous expliquent correctement comment résoudre le problème, mais je voulais donner une idée réaliste de la gravité de la situation.
Voir aussi: Qu'est-ce qu'un contenu en double et comment puis-je éviter d'être pénalisé pour cela sur mon site?