Notre sitemap contient environ 750 000 chemins d'accès à des pages discrètes et environ 30 000 seulement sont signalés par Google comme étant indexés. J'essaie de comprendre pourquoi c'est.
Le contenu de nos pages n'est pas ce que je comprends être "mince"; ils contiennent une grande quantité de texte, d'images et de liens uniques. J'espère donc que ce n'est pas un question en double . Les URL sont divisées en plusieurs fichiers XML de 30 à 50 000 URL chacun, et notre fichier robots.txt pointe sur un sitemap qui est un index de ces fichiers.
Je comprends qu’il s’agit d’une question très large, j’ai donc quelques théories:
Théorie 1: notre site est considéré comme une ferme de liens: notre site global contient environ 5 millions de pages, dont 99% contiennent des liens vers 3 domaines, "www.outbound1.com", "www.outbound2.com" et notre site lui-même. (exemple.com). Certaines de nos pages ont plus de 500 liens ou plus. Mon hypothèse est que Google voit ceci négativement et n'indexe pas nos pages en conséquence.
Théorie 2: Google n'indexe que les pages que d'autres ont recherchées. Une grande partie de nos données sont incroyablement spécifiques, nous avons des pages uniques pour un individu ou une page affichant tout le contenu lié à un sujet unique. Mon hypothèse est que les utilisateurs ne visitent tout simplement pas la majorité de nos pages et que cela est directement lié à notre faible indexation.
J'espère que quelqu'un pourra confirmer ou écarter mes hypothèses et peut-être me renseigner sur quelque chose d'évident qui me manque.
Le nombre de pages uniques que Google est disposé à indexer sur un site particulier est lié à la réputation de ce site.
Lorsque vous démarrez un tout nouveau site, Google ne souhaite peut-être indexer que 1 000 pages. Un an plus tard, Google est prêt à indexer près de 40 000 pages sur votre site. Cela indique que la réputation de votre site a augmenté avec Google au cours de votre première année.
Même pour un site de très haute qualité, il faudra peut-être deux ou trois ans pour obtenir suffisamment de réputation pour que Google indexe 3/4 de million de pages. Je ne pense pas qu'il y ait une indication d'un quelconque problème autre que le fait que votre site n'est toujours pas très ancien.
Il y a deux choses que vous pouvez faire:
Google utilise toujours des liens en arrière comme principale indication de la réputation. Si vous souhaitez améliorer la réputation de votre site, assurez-vous de tirer parti de tous les liens entrants possibles.
Cela fait longtemps que nous avons du mal à spammer des liens vers votre site. Récemment, Google s'est même attaqué au "renforcement des liens". Si vous décidez de créer des liens, assurez-vous de le faire à partir de sites thématiques, avec un texte d'ancrage enrichi sans mot clé et d'une manière qui ne semble pas anormale aux utilisateurs.
Google ne peut pas tout indexer sur votre site, mais vous pouvez vous assurer qu'il indexe le contenu meilleur de votre site. Liez bien et souvent à votre contenu principal. Votre page d'accueil contient probablement le plus grand nombre de liens de toutes les pages de votre site. Utilisez-le bien. Tout contenu que vous présentez sur la page d'accueil avec un lien sera facilement indexé. À partir de ces pages de contenu, créez un lien vers votre deuxième niveau. De leur lien à un troisième niveau. Plus de trois clics de la page d'accueil risquent de ne pas être indexés.
Qu'est-ce qui peut empêcher Google d'indexer des pages?
Il s'agit de la qualité des articles
Bien qu'un article composé de 250 à 500 mots uniques ne puisse pas être traité comme Google "mince", cela ne signifie pas nécessairement que le contenu est de haute qualité. Auparavant, la taille importait, mais maintenant, le référencement a changé et est plus axé sur la qualité que jamais. Je doute fort que vous ayez 5 millions d'articles de qualité!
Qu'est-ce qu'une page ou un article de qualité?
Une page de qualité n’est pas une page unique, mais on s'attend à ce qu’elle le trouve, une page qui reçoit peu ou pas d’interaction est une page qui sera probablement mal classée. Les sites contenant une quantité insensée de contenu avec peu d’interactions naturelles font croire à Google que le site n’est pas important et qu’ils consacrent moins de temps à l’exploration par visite.
Il s'agit de qualité et non de quantité
De nos jours, il est considéré comme un meilleur référencement de publier moins souvent et avec un contenu de meilleure qualité, le type de contenu que les gens veulent voir, car l’interaction est la clé du classement, de l’autorité et du temps d’analyse.
Allocation du temps d'analyse
Si vous avez pris la peine de lire les paragraphes précédents, vous remarquerez que j'ai déjà mentionné l'attribution de temps d'analyse, il s'agit d'un élément clé ... et probablement de la cause de vos problèmes d'index.
Vous avez un nombre de pages insensé, Google a des ressources limitées et il ne parcourra un site que pendant un certain temps avant de s'arrêter et d'accéder à un autre site. Le temps alloué à chaque site varie en fonction de l’importance que Google attache à votre site, ainsi que de vos chances. Vous devez également prendre en compte le taux de "retour", ce que les robots de Google décident de revoir votre site entre les visites.
Quels sont les effets du temps d'analyse de Google et de la fréquence à laquelle Googlebot reviendra sur le site
L’autorité du domaine et du site est un facteur déterminant pour Google. Il décide de la fréquence à laquelle il retournera sur votre site et de sa durée. Pour le mettre dans un site comme Stack Overflow, Googlebot le visitera toutes les quelques minutes par jour. peut-être même plus tôt, mais un site avec autant de contenu avec peu d'interaction et peu d'autorité le sera au mieux quelques fois par jour.
Garantir que Googlebot puisse explorer autant que possible chaque visite
Je parie que tout ce que vous avez dit dans votre question est le problème bien que je ne comprenne pas bien le numéro deux.
Mais voici le vrai problème. Cinq millions de pages? Votre site est-il l'autorité pour le contenu affiché sur toutes ces pages? Si non, alors c'est votre problème.
Je me demande si un site Web de cinq millions de pages place le vôtre dans la catégorie du "plus grand site Web du monde"?