web-dev-qa-db-fra.com

Vitesse d'exploration Google - à quelle vitesse peut-il aller?

J'ai un site Web énorme avec 5 millions de pages. Actuellement, Google indexe environ 10 000 pages par jour. C'est très lent, j'ai encore beaucoup de pages que je ne peux pas indexer. Est-ce que quelqu'un sait quel est le seuil supérieur pour la vitesse d'exploration?

2
stiv

J'ai découvert qu'il était possible d'atteindre une vitesse d'analyse de 2 pages/seconde en améliorant le temps de réponse du serveur. Chaque page doit répondre le plus rapidement possible. Cela peut nécessiter un ajustement du ramasse-miettes, de la base de données et du code. Si le temps de réponse moyen est meilleur que 50 ms par seconde, alors Google indexerait à 2 pages/s, c'est un fait expérimental.

1
stiv

La vitesse maximale d'indexation est de 10 fois par seconde. C’est la vitesse de l’indexation StackOverflow par Google (read this ).

2
Zistoloen

Le taux d'analyse de Google est fonction de:

  • PageRank - Plus votre site a de réputation et de liens entrants, plus il sera analysé. Au sein de votre site, les pages les plus importantes (comme la page d’accueil) seront explorées plus souvent car elles ont un pagerank plus élevé.
  • La fréquence à laquelle vos pages changent - les pages qui changent fréquemment seront ré-explorées plus souvent que les autres.
  • Quelle est la rapidité de votre serveur - plutôt que d’avoir plusieurs pages par jour à télécharger par Googlebot, il semble que le nombre de pages consacrées à son téléchargement soit limité. Rendre les pages plus petites et augmenter la vitesse du serveur peut permettre à Googlebot d'explorer plus rapidement.

En outre, Googlebot propose plusieurs modes d'analyse différents.

  • Mode de réanalyse - il reviendra et visitera les pages qu'il a déjà visitées.
  • Mode d'analyse frais - il explorera de nombreuses nouvelles pages dans une nouvelle section d'un site. Plus le PageRank du site est élevé, plus le nombre de pages explorées est important.
  • Mode pages obsolètes - Googlebot trouve une boîte de vieux liens dans le sous-sol et les fouille juste pour "s'amuser". Ces pages sont souvent toutes des pages qui n'existent plus et sont redirigées vers d'autres pages. Ils n'ont souvent pas de pagerank et sont analysés par ordre de longueur d'URL.

Le résultat est que le meilleur moyen d’obtenir votre site analysé plus rapidement est d’obtenir des liens entrants et d’augmenter le PageRank.

2

S'ils explorent vos pages et qu'ils ne figurent pas dans les résultats de la recherche, le taux d'analyse n'est pas un problème. Cela ressemble à votre site Web est plein du contenu de basse qualité que Google fait pas veut dans son index. Est-ce contenu original? Est-ce un contenu de qualité? Google ne répertorie pas vos pages indique que ce n'est pas le cas.

1
John Conde