J'ai un fichier HTML de 10 Mo. Google explorera-t-il l'intégralité du fichier ou ne s'intéressera-t-il qu'au premier X Mo?
Le seul post que j'ai trouvé semble avoir des données de 2008. Donc, je n'aurais pas confiance en cela.
Vous devrez tester cela. Accédez à Outils pour les webmasters et cliquez sur Santé> Récupérer en tant que Google. Vous pouvez être sûr que ce qu'il va extraire sera exactement ce que le robot recherche.
En décembre 2015, Google n'a indexé que les neuf premiers chapitres de Pride and Prejudice sur le site Web de Project Gutenberg. Le chapitre 10 a raison d’environ 100 000 (1/10ème de mégaoctet).
La répétition de cette recherche en mars 2017 a toutefois montré le résultat du chapitre 10.
Si le document contient de très grandes quantités de texte, Google ne l'indexera pas en totalité. En fait, il semble que Google n'ait indexé qu'environ les 100 000 premiers en 2015, bien que cela ait été augmenté depuis au moins pour certains sites.
Je crois que Googlebot est prêt à télécharger plus de données que cela. Cela risque de ne pas indexer le texte du document après un certain point.
Cette expérience ne permet pas non plus de savoir si Google compte le balisage qui n’est pas visible par l’utilisateur pour ce 100 000 km. Je suppose que non. De nombreuses pages contiennent plus de 100 000 balises avec du texte que Google souhaiterait indexer vers le bas.
Réponse courte: Google indexera jusqu'à 2,5 Mo de fichier HTML.
Réponse longue:
Selon documentation de Google :
Tous les fichiers de plus de 30 Mo seront complètement ignorés.
Ils indexeront jusqu'à 2,5 Mo d'un fichier HTML.
Les fichiers non HTML seront convertis au format HTML. Si les fichiers dépassent 4 000 000 octets, ils seront complètement ignorés. Sinon, les 2 premiers Mo seront mis en cache.
Comme suggéré par M. Lavalamp, j’ai parcouru la documentation de Google et j’ai trouvé la même chose même après une recherche dans les différents sites. mais en parlant de Googlebots, ils sont beaucoup plus intelligents, je pense:
Googlebot ne rejettera pas une page simplement parce que sa taille est trop grande. Au lieu de cela, il explorera d'abord le titre, l'URL, les images, les en-têtes, les sous-titres et le texte d'ancrage dans l'ensemble de la page.
La taille de ce fichier sera probablement très réduite et Google trouvera la plupart des métadonnées de la page Web dans ce document. Après cela, Googlebot pourra décider si davantage de documents doivent être explorés ou non, mais la plupart des ressources de votre page Web sont pertinentes (Plus) est déjà indexé par Google! Il faut donc veiller à fragmenter leur long document en morceaux de sections à l’aide de titres et de sous-titres.