Google indexe-t-il des parties uniques de la page et ignore-t-il le contenu dupliqué?

Question

Quand une page contient un contenu qui se trouve également sur d'autres pages du site, mais aussi un contenu unique, comment Google le gère-t-il? Est-ce que Google:

Indexer la page entière (y compris le contenu dupliqué)
Indexer uniquement le texte unique de la page
N'indexez aucune page (pas même le contenu unique)

Par souci de clarté, je parle uniquement du contenu dupliqué sur un site Web, pas du contenu copié depuis d'autres sites.

Je pose la question parce que j’ai répondu à plusieurs questions ici en supposant que Google indexera un contenu unique même s’il contient un contenu en double à proximité dans la même page. Cependant, j'ai réalisé que je n'avais aucune preuve que cela soit réellement vrai.

Ceci est un scénario de contenu dupliqué qui n’est pas abordé dans notre question de type catch all sur le contenu dupliqué: Qu'est-ce qu'un contenu dupliqué et comment puis-je éviter d'être pénalisé pour cela sur mon site?

Mike · Answer

À peu près tous les sites Web que vous visitez auront au moins un certain pourcentage de contenu dupliqué. Un exemple parfait est un logo spécifique au site Web qui apparaît sur toutes les pages de contenu pour indiquer que le contenu fait partie du site Web lui-même. Ce genre de chose est quelque chose que Google indexera dans son intégralité (à condition bien sûr que le reste du contenu soit original et unique sur le site et non copié intégralement d'un autre site). Heck, si Google n'a pas indexé cela, alors des milliers d'entreprises en ligne légitimes se plaindront en masse que leur site ne soit pas indexé.

Si, par contre, vous avez des pages composées principalement de contenu en double dont la différence entre chaque page est inférieure à quelques mots de texte, alors Google pourrait très bien traiter cela comme un contenu en double et décidera laquelle des pages en double doit être indexée. si seulement.

Ce que je suggérerais, c’est d’essayer de faire passer le niveau de duplication entre deux pages à moins de 60% (idéalement), ou au moins à moins de 80% au strict minimum.

L'utilisation d'outils tels que celui trouvé ici: http://www.webconfs.com/similar-page-checker.php peut vous donner une idée de la similitude de deux pages. Ne visez jamais à 100% avec cet outil.

Evgeniy · Answer

Je suppose que Google décide de l'indexation en mesurant le taux de duplication (ou de similarité) de certaines pages sur une base URL et indexe toutes les pages contenant moins de 100% (ou 90% ou X% - seul Google sait exactement le nombre) dupliquer ( si rien, comme noindex, l’empêche).

La recherche de contenu dupliqué n’est pas une tâche triviale et est source d’erreurs à cause du chrome de la page. C'est pourquoi je pense que Google indexerait toutes les pages et ne supprimerait sans doute que les pages dupliquées.

Une chose intéressante est que les pages ayant un contenu interne dupliqué (exigence: moins de 100%) peuvent cannibaliser le classement de leurs concurrents internes.

closetnoc · Answer

D'accord. Je vais essayer d'expliquer ce que je connais le mieux que je peux rapidement. Peut-être juste en expliquant une partie de ceci clarifiera les choses.

Dans les débuts de Google, un index de termes était en réalité une table relationnelle ou feuille qui liait les termes dans un index de termes (avant et inverse) à un document en utilisant un docID et un wordID avec d'autres métriques. Une partie de la tradition sémantique consiste à suivre la position d’un terme (Word) par rapport à des points dans le document. Lors des recherches, Google n'a maintenu qu'une métrique de position unique basée sur le début du document (0) en octets. Cela n'incluait bien sûr pas le balisage HTML, mais dans les premiers jours, incluait l'en-tête HTML, le pied de page, le contenu de la barre latérale, etc.

De cette manière, Google pourrait rechercher des modèles de termes en relation les uns avec les autres. Cela signifie que, même si un document n'a pas à être dupliqué complètement, il était assez facile de déterminer qu'un document était dupliqué dans un certain ensemble de directives métriques, que ce soit un pourcentage, un ratio ou autre.

Le problème avec cette méthode est que la réorganisation d'un document ou l'utilisation d'une visionneuse peut facilement en venir à bout.

Étant donné que la sémantique est plus impliquée que les relations entre termes à partir d'un seul point et l'utilisation d'ontologies qui associent des termes similaires, des termes pluriels, etc., le contenu dupliqué était plus facile à trouver, même s'il n'était pas encore complet s'il était pris dans un modèle comparatif relativement linéaire.

Entrez le DOM.

À l'aide du modèle DOM HTML, il est plus facile de comparer des sections de contenu répété pour en extraire des sections telles que des en-têtes, des pieds de page, des barres latérales, etc. C'est un fait acquis, car il est en place depuis longtemps et donne d'excellents résultats. Le contenu est maintenant le contenu de la page que les gens reconnaîtraient. Ces sections de contenu basées sur un modèle sont bien sûr indexées (en s’appuyant sur une faille de Google qui l’a démontré, même en 2015), mais en grande partie ignorées pour les correspondances de recherche.

Ok, nous comprenons cela. Mais qu'en est-il du contenu actuel?

Le modèle HTML DOM est toujours utilisé. Pour chaque élément DOM de contenu, principalement des balises d'en-tête, des paragraphes, des tableaux, etc., chacun d'entre eux est pondéré sémantiquement à l'aide de divers algorithmes sémantiques, certains singuliers et d'autres combinés, pour créer une matrice à laquelle vous pouvez penser. Ceci liste chaque terme avec les poids de l'algorithme. Puisque la sémantique n’est pas une comparaison directe de termes, ce qui signifie que voiture, automobile, véhicule, etc., sont identiques, avec des versions plurielles de ces termes, etc., tout algorithme peut facilement trouver du contenu qui a été filé, réorganisé, etc. etc. La clé est qu'une matrice peut couvrir différentes tailles de contenu en superposant plusieurs matrices dans une matrice de matrice.

Une matrice représentera des segments de contenu (tels que définis dans la sémantique). Pour HTML, il s’agirait d’une balise d’en-tête, les paragraphes trouvés après l’en-tête se terminant par l’en-tête suivant pris à la fois comme paragraphe singulier et comme groupe. Un segment de contenu peut également être une phrase singulière, mais nous y reviendrons dans un instant. En utilisant la position du terme depuis le début d'un en-tête, le début d'un paragraphe, le début d'un groupe de paragraphes entre les balises d'en-tête, etc., les modèles de relations de terme d'origine peuvent toujours être utilisés. Mais plus important encore, dans les matrices, les modèles peuvent également être vus assez facilement. Il ne faut pas un spécialiste des fusées pour les reconnaître. Les partitions sémantiques donnent lieu à une duplication.

Sachant qu'un segment de contenu est aussi petit qu'une phrase singulière, il se passe quelque chose de nouveau. Les segments de contenu font également l’objet d’une nouvelle façon de reconnaître le contenu créé à l’aide de variables à partir d’un langage de programmation. C'est encore assez facile à découvrir, même si, pour le moment, je suis encore en train de comprendre cela. Il est toujours basé sur la sémantique, mais la variation varie peut-être seulement pour une analyse sémantique plus granulaire. Quoi qu'il en soit, les balises d'en-tête, les paragraphes et les phrases sont analysés à partir de 2015 pour la création automatisée de contenu qui pourrait sinon échapper à une analyse de contenu en double. Le résultat de cette analyse pénalise les sites en ce moment même.

D'accord. Retour à quelle duplication est effectuée.

La première chose à garder à l'esprit est qu'une fois que Google a récupéré une page, l'intégralité du code HTML est stockée à des fins de référence. Ceci est utilisé pour construire le cache d'une page, mais vraiment pour permettre à Google de revenir en arrière et de réappliquer une analyse nouvelle ou mise à jour au contenu sans effectuer de nouvelle extraction de la page.

De toute évidence, le contenu HTML basé sur un modèle est complètement ignoré lorsqu'une requête de recherche est effectuée, bien que des exceptions extrêmement mineures semblent avoir échappé à Google jusqu'à récemment. Vous constaterez qu'il est extrêmement rare que Google associe une requête de recherche à un en-tête, un pied de page, une barre latérale, etc. Bon.

Google a déclaré que les portions de contenu répliquées sont indexées et pondérées normalement, en supposant que le spam ne soit pas un problème. En effet, pour la plupart des sites, il est presque impossible de ne pas répliquer des parties d'une page sur une autre pour un site d'une certaine taille ou plus. De plus, cela couvrirait les sections citées du contenu en guise de citation. Encore bon.

Comme indiqué, Google examine des segments de contenu plus petits pour la création de contenu à base de variables. C’est là que les choses se compliquent et que tout n’est pas encore compris. Si vous examiniez certains sites automatisés, certains seraient touchés alors que d'autres ne le seraient pas. Clairement, ces sites sont générés par programme et extrêmement similaires, mais quelle est la différence? En regardant les sites Whois à titre d'exemple, cela reste flou. Je pense que d'autres facteurs que nous connaissons tous interviennent, tels que la vitesse de création de page, la vitesse de lien, l'autorité de site et de page définie par les modèles de lien, l'engagement social, etc., continuent à jouer un rôle, mais d'une manière différente. Donc, pour un site avec une bonne réputation et des statistiques solides, on pardonnera si le contenu est alimenté en remplissant des variables où les autres seront davantage considérées comme du spam si les statistiques sont médiocres. Cela signifie que la barre de la qualité et de la valeur du contenu est davantage mesurée par les utilisateurs que le contenu lui-même, ce qui élève la barre d'acceptabilité. Un sauveur de cet effet est un contenu unique. Le site ajoute-t-il une valeur significative par rapport aux autres? La manière dont cela est mesuré n'est toujours pas claire, cependant, il semble que pour le moment, le caractère unique d'une partie du contenu dans un champ de sites comparables est une mesure, probablement inférieure à celle des autres éléments énumérés ci-dessus.

Clair comme de la boue?? Ai-je fait un bon travail ici?