J'ai un site en deux langues:
domain.com (German)
en.domain.com (English)
Le contenu est la littérature. Les deux sites sont dans leur langue respective uniquement, mais je souhaite également offrir une double vue, afin de comparer le texte de différentes langues côte à côte, comme dans cet exemple:
https://cn.nytimes.com/world/20180706/trump-germany-family-ancestry-kallstadt/dual/
Donc j'ai:
domain.com/afx9-artikel (German only)
en.domain.com/afx9-article (English only)
Et puis, en plus, ces pages à double vue pour comparer les langues:
domain.com/afx9-artikel/en (German with English)
en.domain.com/afx9-article/de (English with German)
Que dois-je faire avec ces pages à double vue?
Merci!
C'est une question intéressante!
Devrais-je les lier uniquement via rel = "nofollow"?
Non, car Google explorera toujours les URL, même si vous les liez avec nofollow et elles seront indexées.
Est-ce que je ne devrais pas les lier du tout et utiliser Javascript pour permettre aux utilisateurs d'accéder à ces pages?
Il s'agit d'une option valable. Toutefois, en fonction de votre implémentation et de l'amélioration de l'analyse de JS par Google, cela signifie qu'ils peuvent toujours être indexés.
Devrais-je utiliser rel = "canonique" sur eux?
Certains peuvent ne pas, car le contenu n'est pas identique. Cependant, j’ai vu des balises canoniques implémentées de la même manière, où seulement 50% du contenu est dupliqué à partir de la page en cours de canonisation, et ils ont très bien fonctionné.
Donc, dans cette situation, je mettrais en œuvre canonique, la surveillerais et voir comment elle se comporterait. Si les pages canonisées restent en dehors de l'index de Google, je dirais que c'est un succès. De plus, si certaines pages sont indexées, mais si vous affichez le cache Google de la page, si le contenu de la page source canonique est affiché, et non la page canonisée, je considérerais également cela comme un succès.
Si le canon ne fonctionnait pas et que toutes ces pages étaient indexées, je les empêcherais d'être indexées avec des robots noindex, tag suivi.
La raison pour laquelle j’essayais d’abord d’essayer canonique, c’est parce que toutes les valeurs de référencement externe des pages que je veux conserver, seront donc transmises aux balises canoniques, où lorsqu’elles utiliseraient la balise noindex, elles seraient en grande partie perdues.
Dois-je les bloquer via le fichier robots.txt?
Je ne les bloquais que via le fichier robots.txt, une fois que je suis passé par la route des balises noindex et que j'ai confirmé qu'ils ont été retirés du SERPS.
Si vous les avez déjà ajoutés au fichier robots.txt, les moteurs de recherche ne verront pas la balise noindex car ils ne peuvent pas explorer la page, et la page peut rester indexée si elle est uniquement bloquée dans le fichier robots.txt.
Et la raison pour laquelle je pourrais les bloquer à la fois dans la méta-balise des robots et dans le fichier robots.txt, est pour préserver le budget d'analyse. Je ne veux pas vraiment que Google explore des pages que je ne veux pas indexer, alors qu'il vaut mieux passer du temps à explorer mes pages valides. Donc, bloquer dans robos.txt arrêtera leur exploration par Google