Est-ce que `rel =" canonical "` agit comme une "redirection" pour les robots de recherche ou rien de plus qu'une suggestion pour lesdits robots?

Question

L'utilisation de rel="canonical" est souvent requise pour traiter le problème du contenu en double. En termes simples, il "indique" aux moteurs de recherche quelle est la version d'URL préférée.

Pour ce faire, l'exemple de code suivant doit être entré dans les balises <head>:

<link rel="canonical" href="https://www.example.com/product/product-name/" />

Assez simple.

Ma question est vraiment orientée sur la façon dont ce code est traité par les moteurs de recherche. Quel scénario décrit le mieux ledit traitement:

Scénario A:

Les moteurs de recherche liront l'intégralité de la page en double, puis examineront le lien rel="canonical". À la lecture du lien Canonical, il décidera ensuite si les pages sont dupliquées ou non et indexera en conséquence.

En d'autres termes, l'utilisation de rel="canonical" n'est qu'une suggestion aux moteurs de recherche, à leur seule discrétion.

Scénario B:

Lorsqu'un moteur de recherche Bot arrive sur la page, il commence à lire le code source, en commençant en haut de la page, par <!DOCTYPE html>. Il va ensuite se retrouver dans le code source. S'il rencontre l'entrée rel="canonical", il cessera de lire le code source et rampera jusqu'au lien Canonical, reprenant là où il s'est arrêté, comme pour lire le reste de la page, afin d'être indexé.

Ce scénario indique que l'entrée rel="canonical" agit comme une redirection pour les robots.

closetnoc · Accepted Answer

Ne fais pas d'erreur. Les moteurs de recherche ne traitent pas des parties d'une page, puis font soudainement autre chose.

Lorsqu'une page est découverte, elle est extraite, stockée, rendue, analysée et indexée. Si un lien est trouvé dans une page, le SE recherche dans l'index de lien pour voir s'il existe. Si oui, alors rien. Si ce n'est pas le cas, le lien est ajouté à la file d'attente de récupération où il est extrait, stocké, rendu, analysé et indexé.

Les liens canoniques sont traités de la même manière. Si l'URL cible n'existe pas, elle est ajoutée à la file d'attente de récupération où elle est extraite, stockée, rendue, analysée et indexée.

Obtenez où je vais?

Il y a pas mal de critères pour déterminer le contenu original. Ce n'est pas facile à faire et parfois échoue. C'est pourquoi les liens canoniques sont importants. Cependant, du point de vue de la programmation, les liens canoniques peuvent ne pas exister ou même être corrects. Pensez-y de cette façon, je suis un spammeur. Je vole du contenu, le copie sur 100 sites, crée 99 liens canoniques vers une page de courrier indésirable. Qui peut donc dire que 99 liens canoniques ont de la valeur lorsque le contenu d'origine ne fait pas partie des 100 pages? En tant que programmeur, comment déterminez-vous le contenu original et deuxièmement, si un lien canonique est valide? Google n'a pas abandonné ses algorithmes d'origine car ils sont essentiels pour déterminer si un lien canonique est valide. Cependant, même les algorithmes d'origine peuvent être erronés. Sur le Web, il existe un trou géant dans la construction où une date de création de pages ne peut pas être interrogée à partir du serveur Web, mais uniquement la date de modification. La date de création est aussi proche que possible. C'est la date à laquelle une page a été extraite pour la première fois. Cela peut être un problème lorsqu'une copie non autorisée est trouvée avant l'original. Heureusement, certaines astuces permettent de déterminer le contenu d'origine. Par exemple, la date modifiée peut être utilisée. En effet, une date de modification des pages correspondra à la date de création si elle n'est pas modifiée.

Les liens canoniques sont des signaux. S'ils peuvent être jugés corrects, ils ont une valeur et peuvent promouvoir le contenu original. Là où ils peuvent être suspects, ils peuvent être complètement ignorés.

Votre utilisation du terme suggestion est parfaite. C'est le terme utilisé par Google pour de tels scénarios.

DocRoot · Answer

Il est plus proche de votre scénario A - la balise canonique est une "suggestion".

Toutefois, le contenu dupliqué (c.-à-d. Deux URL renvoyant un contenu similaire/identique) est toujours indexé . Sauf que Google essayera de ne renvoyer qu'une ou plusieurs des URL du SERPS (sinon, cela est généralement considéré comme une mauvaise expérience utilisateur). Sans la balise rel="canonical", Google détermine l'URL à renvoyer. Il s'agit du "problème" de contenu en double, car il peut ne pas s'agir de la page à renvoyer dans le SERPS.

La balise rel="canonical" résout ce "problème" en remettant le développeur sous contrôle. Vous pouvez maintenant choisir l’URL (des doublons ) que vous préférez être renvoyé dans les SERP. c'est à dire. l'URL canonique .

Toutefois, si le contenu des pages n'est pas réputé être dupliqué/similaire, la balise rel="canonical" sera probablement ignorée. Les pages ne peuvent être considérées comme "dupliquées" que si elles sont déjà indexées.

Comme indiqué dans le blog Google Webmaster Central de février 2009 :

Est-ce que rel = "canonique" est une indication ou une directive?

C'est un indice que nous honorons fortement. Nous tiendrons compte de vos préférences, en conjonction avec d’autres signaux, lors du calcul de la page la plus pertinente à afficher dans les résultats de recherche.