Google rapporte que seulement 5% des pages de notre site sont indexées après un an.

Question

Notre sitemap contient environ 750 000 chemins d'accès à des pages discrètes et environ 30 000 seulement sont signalés par Google comme étant indexés. J'essaie de comprendre pourquoi c'est.

Le contenu de nos pages n'est pas ce que je comprends être "mince"; ils contiennent une grande quantité de texte, d'images et de liens uniques. J'espère donc que ce n'est pas un question en double . Les URL sont divisées en plusieurs fichiers XML de 30 à 50 000 URL chacun, et notre fichier robots.txt pointe sur un sitemap qui est un index de ces fichiers.

Je comprends qu’il s’agit d’une question très large, j’ai donc quelques théories:

Théorie 1: notre site est considéré comme une ferme de liens: notre site global contient environ 5 millions de pages, dont 99% contiennent des liens vers 3 domaines, "www.outbound1.com", "www.outbound2.com" et notre site lui-même. (exemple.com). Certaines de nos pages ont plus de 500 liens ou plus. Mon hypothèse est que Google voit ceci négativement et n'indexe pas nos pages en conséquence.

Théorie 2: Google n'indexe que les pages que d'autres ont recherchées. Une grande partie de nos données sont incroyablement spécifiques, nous avons des pages uniques pour un individu ou une page affichant tout le contenu lié à un sujet unique. Mon hypothèse est que les utilisateurs ne visitent tout simplement pas la majorité de nos pages et que cela est directement lié à notre faible indexation.

J'espère que quelqu'un pourra confirmer ou écarter mes hypothèses et peut-être me renseigner sur quelque chose d'évident qui me manque.

Stephen Ostermiller · Accepted Answer

Le nombre de pages uniques que Google est disposé à indexer sur un site particulier est lié à la réputation de ce site.

Lorsque vous démarrez un tout nouveau site, Google ne souhaite peut-être indexer que 1 000 pages. Un an plus tard, Google est prêt à indexer près de 40 000 pages sur votre site. Cela indique que la réputation de votre site a augmenté avec Google au cours de votre première année.

Même pour un site de très haute qualité, il faudra peut-être deux ou trois ans pour obtenir suffisamment de réputation pour que Google indexe 3/4 de million de pages. Je ne pense pas qu'il y ait une indication d'un quelconque problème autre que le fait que votre site n'est toujours pas très ancien.

Il y a deux choses que vous pouvez faire:

Améliorer la réputation de votre site

Google utilise toujours des liens en arrière comme principale indication de la réputation. Si vous souhaitez améliorer la réputation de votre site, assurez-vous de tirer parti de tous les liens entrants possibles.

Cela fait longtemps que nous avons du mal à spammer des liens vers votre site. Récemment, Google s'est même attaqué au "renforcement des liens". Si vous décidez de créer des liens, assurez-vous de le faire à partir de sites thématiques, avec un texte d'ancrage enrichi sans mot clé et d'une manière qui ne semble pas anormale aux utilisateurs.

Assurez-vous que votre meilleur contenu est indexé

Google ne peut pas tout indexer sur votre site, mais vous pouvez vous assurer qu'il indexe le contenu meilleur de votre site. Liez bien et souvent à votre contenu principal. Votre page d'accueil contient probablement le plus grand nombre de liens de toutes les pages de votre site. Utilisez-le bien. Tout contenu que vous présentez sur la page d'accueil avec un lien sera facilement indexé. À partir de ces pages de contenu, créez un lien vers votre deuxième niveau. De leur lien à un troisième niveau. Plus de trois clics de la page d'accueil risquent de ne pas être indexés.

Simon Hayter · Answer

Qu'est-ce qui peut empêcher Google d'indexer des pages?

Faible qualité (faible interaction, mince ou en double)
Robots.txt
Réponses d'en-tête incorrectes
Ressources bloquées

Il s'agit de la qualité des articles

Bien qu'un article composé de 250 à 500 mots uniques ne puisse pas être traité comme Google "mince", cela ne signifie pas nécessairement que le contenu est de haute qualité. Auparavant, la taille importait, mais maintenant, le référencement a changé et est plus axé sur la qualité que jamais. Je doute fort que vous ayez 5 millions d'articles de qualité!

Qu'est-ce qu'une page ou un article de qualité?

Une page de qualité n’est pas une page unique, mais on s'attend à ce qu’elle le trouve, une page qui reçoit peu ou pas d’interaction est une page qui sera probablement mal classée. Les sites contenant une quantité insensée de contenu avec peu d’interactions naturelles font croire à Google que le site n’est pas important et qu’ils consacrent moins de temps à l’exploration par visite.

Il s'agit de qualité et non de quantité

De nos jours, il est considéré comme un meilleur référencement de publier moins souvent et avec un contenu de meilleure qualité, le type de contenu que les gens veulent voir, car l’interaction est la clé du classement, de l’autorité et du temps d’analyse.

Allocation du temps d'analyse

Si vous avez pris la peine de lire les paragraphes précédents, vous remarquerez que j'ai déjà mentionné l'attribution de temps d'analyse, il s'agit d'un élément clé ... et probablement de la cause de vos problèmes d'index.

Vous avez un nombre de pages insensé, Google a des ressources limitées et il ne parcourra un site que pendant un certain temps avant de s'arrêter et d'accéder à un autre site. Le temps alloué à chaque site varie en fonction de l’importance que Google attache à votre site, ainsi que de vos chances. Vous devez également prendre en compte le taux de "retour", ce que les robots de Google décident de revoir votre site entre les visites.

Quels sont les effets du temps d'analyse de Google et de la fréquence à laquelle Googlebot reviendra sur le site

L’autorité du domaine et du site est un facteur déterminant pour Google. Il décide de la fréquence à laquelle il retournera sur votre site et de sa durée. Pour le mettre dans un site comme Stack Overflow, Googlebot le visitera toutes les quelques minutes par jour. peut-être même plus tôt, mais un site avec autant de contenu avec peu d'interaction et peu d'autorité le sera au mieux quelques fois par jour.

Garantir que Googlebot puisse explorer autant que possible chaque visite

Vitesse du site Web
- Non seulement Google récompense la valeur SEO des sites rapides, mais il est également possible d’avoir plus de pages explorées entre les visites. Utilisez des tests de vitesse de site Web à partir de plusieurs sites et assurez-vous que votre site Web répond rapidement à la fois à Google et à votre principale région cible. Je recommande WebpageTest , visez moins de 1,5 seconde lors de votre première visite, c'est un bon guide.
Disponibilité de la disponibilité du serveur
- Si votre DNS ou votre serveur qui ne répond pas pendant quelques secondes chaque jour peut signifier que vous avez manqué votre analyse de retour, il est donc important de surveiller votre site Web et de vous assurer de son bon fonctionnement, Pingdom , et autres. les fournisseurs peuvent fournir ce service pour vous.
Robots.txt
- Assurez-vous d'avoir un bon fichier robots.txt. La plupart des sites Web n'ont pas à s'inquiéter du fichier robots.txt, car ils ne disposent que d'un faible volume d'URL. Toutefois, les sites dotés d'un volume élevé et d'une faible autorité ne sont pas critiques. et que Googlebot, analyse, n'indexe pas d'éléments tels que les pages de connexion et les pages avec noindex empêchera uniquement Google de dépenser davantage pour les pages qu'il peut indexer. Utilisez des robots conjointement avec les réponses d'en-tête noindex.
Nettoyer les 404 avec 301 ou 410
- Google adore explorer et réexaminer les pages qui renvoient le statut 404; pour la plupart des webmasters, cela ne pose pas de problème. Cependant, étant donné que vous avez un grand volume de pages, il est essentiel de revenir au temps. Assurez-vous que votre 404 est redirigé vers les pages du sujet ou qu'il renvoie l'état 410 Gone. Google va en tirer des leçons et devrait cesser d’essayer d’explorer ces pages, ce qui vous donnera plus de temps d’index sur les pages non explorées.
Supprimer les pages en double et éviter les canoniques
- De nos jours, la plupart des webmasters avertis en matière de référencement utilisent des liens canoniques pour éviter les doublons. Pour la plupart des webmasters, cela est IMPRESSIONNANT! elle indique à Google ce qui est en double et ce qui ne l’est pas, mais le problème majeur des logiciels canoniques est qu’ils sont eux aussi une page et que cette page doit être explorée si vous avez une page accessible via www, non-www. balisez les pages et tous les autres types de pages, puis perdez simplement votre temps d’exploration qui pourrait être consacré à la découverte de nouvelles pages. Donc, quelque chose à garder à l'esprit.
Compiler des pages
- Si vous avez un grand volume de pages, il est fort probable que vous ayez des pages similaires ou des pages pouvant être fusionnées. Google aime les longues pages! De même, si vous avez des pages 1 à 5, fusionnez-les, si vous avez des pages pertinentes les unes par rapport aux autres, fusionnez-les.
Erreurs d'exploration
- Surveillez activement vos erreurs d’exploration, celles-ci utilisent le temps d’exploration et vous devez rester sur la bonne voie.
Suivi de Google
- Notez quand Google visite votre site et à quelle fréquence, gardez une trace dessus et voyez si vous pouvez l'améliorer. Faire ce qui précède vous aidera certainement.

Rob · Answer

Je parie que tout ce que vous avez dit dans votre question est le problème bien que je ne comprenne pas bien le numéro deux.

Mais voici le vrai problème. Cinq millions de pages? Votre site est-il l'autorité pour le contenu affiché sur toutes ces pages? Si non, alors c'est votre problème.

Je me demande si un site Web de cinq millions de pages place le vôtre dans la catégorie du "plus grand site Web du monde"?