Beaucoup de pages avec du contenu partiellement dupliqué dans le même domaine

Question

Ceci est une question pour les experts en référencement :-) Je m'excuse pour ma mauvaise façon d'écrire l'anglais :

Je développe une application Web (avec une sorte de CMS personnalisé). Dans mon application, il y aura une "section utilisateur", chaque utilisateur aura sa "page" liek domain.com/user/john/

Il s’avère que ces pages auront en général - (beaucoup de contenu informatif (nécésaire), mais elles changeront pour certaines choses de base (données d’utilisateur) telles que le nom, le nom, les numéros de téléphone, l’adresse, email, avatar, pays et quelques autres variables qui se répètent sur le web.

Mais ... entre un site Web d'utilisateur à utilisateur différent, si nous voulons être stricts, plus de 80% du contenu sera totalement identique - Est-ce un problème si je laisse index et follow?

Je ne pense pas qu’il soit pratique d’utiliser re-canonical pour indiquer le site Web "mère" qui contiendra ces 80% d’informations et autre chose - Pourquoi? Parce que, à mon avis, rel-canonica est destiné à IDENTIQUE pages Web dans des itinéraires URI différents mais avec un contenu identique - ce qui n'est pas le cas, bien que beaucoup de contenu soit égal, mais pas absolument.

Le contenu de la page utilisateur est très énorme, je pense que cela peut être comme des pages de 20 lettres.

Je veux savoir quelle sera la disposition optimale dans cette situation. J'aurai beaucoup d'utilisateurs dans le système. Je crains qu'une page d'utilisateur ne soit mieux placée qu'une autre ou que la "page mère", voire pire, que tout le domaine ne soit inscrit sur la liste noire ou quelque chose du genre.

Merci d'avoir lu!

WebElaine · Accepted Answer

Vous avez raison de dire que ce n'est pas un bon cas d'utilisation pour rel="canonical" - c'est-à-dire pour les doublons complets.

Je voudrais prendre du recul et déterminer s'il est possible d'avoir une "page de contact principale" avec tout le contenu que vous allez dupliquer, et dans les profils d'utilisateurs individuels, n'inclure que les informations telles que leur avatar, bio, ligne directe, etc. C'est unique. Vous pouvez facilement ajouter un lien au bas de chaque profil d'utilisateur menant aux "informations de contact de l'entreprise" ou à votre choix - la "page mère". En cliquant sur ce lien, vous éviterez le problème de duplication du contenu et vous renforcerez également Google en disposant de tous les liens vers la "page mère" qui en font une page importante de votre site Web.

80% est certainement un pourcentage trop élevé de contenu à dupliquer. Non seulement 80% du contenu consommable sur la page, vous allez également vous retrouver avec beaucoup de code source. Google examine votre code HTML global, avec probablement 95% de votre code HTML identique sur toutes ces pages et 80%. sur le contenu de la page étant le même, vous risquez certainement des maux de tête de contenu en double. En outre, vous avez mentionné qu'il y avait une tonne de contenu si vous procédiez - des pages de 20 lettres représentent probablement plus que ce que la plupart des visiteurs Web ne pourraient jamais faire défiler sur une seule page, sans parler de page après page. Si vous avez vraiment beaucoup de contacts, vous devrez peut-être même scinder la "page mère" en plusieurs sections, qu'il s'agisse de "sections" d'une page avec une table des matières en haut ou de pages Web véritablement séparées. les gens peuvent raisonnablement consommer la quantité d'informations que vous avez sur chaque page.

Sara Dehghanpoor · Answer

Les méta-robots, utilisés avec les valeurs "noindex, follow", constituent une balise méta particulièrement utile pour traiter les doublons de contenu. Communément appelé Meta Noindex, Follow et techniquement appelé content = "noindex, follow", cette balise meta robots peut être ajoutée à l'en-tête HTML de chaque page à exclure de l'index d'un moteur de recherche.

La balise meta robots permet aux moteurs de recherche d’analyser les liens d’une page, mais les empêche de les inclure dans leurs index. Il est important que la page en double puisse toujours être explorée, même si vous dites à Google de ne pas l'indexer, car Google met explicitement en garde de ne pas restreindre l'accès d'exploration au contenu en double sur votre site Web. (Les moteurs de recherche aiment pouvoir tout voir au cas où vous feriez une erreur dans votre code. Cela leur permettrait de faire un "appel du jugement" [probablement automatisé] dans des situations autrement ambiguës.)

L'utilisation de méta-robots est une solution particulièrement efficace pour les problèmes de contenu en double liés à la pagination.

Mais, une autre option pour traiter le contenu en double consiste à utiliser l'attribut rel = canonique. Cela indique aux moteurs de recherche qu’une page donnée doit être traitée comme une copie de l’URL spécifiée et que tous les liens, métriques de contenu et "pouvoir de classement" appliqués par les moteurs de recherche à cette page doivent en réalité être crédités à la page spécifiée. URL.

dans votre cas, rel = canonique est la meilleure option