web-dev-qa-db-fra.com

Gérer canonique lorsque plusieurs révisions de documents sont disponibles?

Sur ma page, je mets à disposition toutes les versions du manuel de mon projet:

  • https://example.com/manual/0.10/index.html
  • https://example.com/manual/0.11/index.html
  • https://example.com/manual/0.22/index.html
  • https://example.com/manual/latest/index.html

La gestion de latest est simple car il s'agit d'un lien symbolique sur le serveur vers la dernière version 0.22 et lorsque le manuel 0.22 contient des éléments HTML comme

 <link rel="canonical" href="https://example.com/manual/0.22/index.html" />

tout devrait bien se passer pour Google et al SEO.

Mais que se passe-t-il lorsque des parties du manuel contiennent (presque) le même contenu dans différentes versions, par exemple le projet n'a pas changé sur ces lieux?

Je suppose que Google punira ces pages car elles ressemblent à du contenu dupliqué.

Alors, comment puis-je dire aux moteurs de recherche que ce contenu en double est correct dans ce cas?

(Remarque: cette solution doit être statique car je ne veux pas régénérer d'anciens manuels simplement parce que j'ajoute une nouvelle version à la liste)

2
Chris

Je suppose que Google punira ces pages car elles ressemblent à du contenu dupliqué ...

Google accorde souvent moins de poids aux pages contenant du contenu en double dans les SERP, voire choisit de ne pas les indexer. Cependant, ce mot "punir" est assez trompeur car il suggère une sorte de marque sombre ou de pénalité SEO sur votre site, qui ne pourrait pas être plus éloigné de la vérité (voir Le mythe de la pénalité pour contenu en double ).

Mais que se passe-t-il lorsque des parties du manuel contiennent (presque) le même contenu dans différentes versions, par exemple le projet n'a pas changé sur ces lieux?

Je serais surpris si Google n'a pas de règle spéciale pour trouver ce qui ressemble à des numéros de version dans la structure URL, puis en tenir compte lors de l'indexation. Je pourrais envisager de l'essayer et de voir ce qui se passe. Vous n'aurez aucun problème, comme encore, la détection du contenu en double de Google n'est qu'une règle d'indexation et ne déclenche aucune sorte de pénalité. Il est possible que l'algorithme de Google soit plus intelligent que ce que vous lui attribuez.

comment puis-je dire aux moteurs de recherche que ce contenu en double est correct dans ce cas?

La question n'est pas de savoir si le contenu en double est "bien" ou non, c'est toujours "bien" d'avoir du contenu en double sur votre site s'il sert à quelque chose. Google peut choisir de ne pas indexer vos versions manuelles précédentes, ce qui est bien. Ils peuvent choisir d'indexer les versions précédentes et actuelles, ce qui serait idéal. S'ils indexent uniquement vos anciennes versions manuelles et non votre dernière version, c'est alors que je chercherais à fournir des balises canonical.

En bref, la meilleure façon de comprendre cela est de l'essayer. Tu n'as rien à perdre.

1