À ma connaissance, Googlebot est actuellement parfaitement capable de restituer des applications SPA complexes, ce qui est recommandé en règle générale.
Le site Web est actuellement routé côté serveur et sert de pages statiques. Il n'a aucun problème avec le référencement et présiste dans l'index Google.
Le nouveau site Web à venir a été converti en quasi-SPA optimisé par Angular, où toutes les parties significatives du référencement naturel servent toujours de pages statiques. Le routage côté client utilise PJAX. Par conséquent, toutes les pages des itinéraires SPA correspondent à celles desservies par un routeur côté serveur.
L'idée est que le site Web se dégrade gracieusement lorsque l'application Angular ne fonctionne pas (n'est pas chargée ou les scripts du navigateur sont désactivés). Tout le contenu informatif est toujours là, mais les widgets interactifs (panier, graphiques en temps réel, etc.) qui n'ont pas besoin d'être consultables sont supprimés.
Notre intention est de ne pas perturber le statu quo de Google. Par exemple, j'ai rencontré des problèmes avec <title>
dans les SPA indexées par Google (la page elle-même semblait correcte dans le navigateur de l'utilisateur).
Un autre problème est que l’initialisation des widgets lourds en données peut prendre plusieurs secondes, et je ne souhaite laisser à Googlebot aucune chance de s’arrêter avec le délai d’expiration ou de marquer le site Web comme "lent" et de baisser son rang.
Je considère donc que le site Web est gracieusement dégradé et j'aimerais que Google le voie comme ne partie de nos visiteurs - un site Web simplifié mais informatif avec le même contenu textuel. À mon avis, ce n'est certainement pas être dissimulé.
TL; DR: nous voulons compléter le site Web statique existant avec des fonctionnalités dynamiques telles que les widgets et PJAX, mais nous souhaitons également interdire la plupart des scripts JS dans le fichier robots.txt afin de conserver le même aspect dans les yeux de Googlebot afin de ne pas perturber le référencement .
Les scripts JS non autorisés dans le fichier robots.txt sont-ils acceptables pour atteindre l'objectif? Quelles sont les implications possibles du côté de Google? Peut-il considérer cela comme une dissimulation et/ou accorder une pénalité? Googlebot peut-il ignorer les directives des robots et consulter un site Web entièrement fonctionnel pour se faire une idée de ce qui se passe?
Je pense que Google a indiqué de manière relativement claire qu'il souhaitait pouvoir accéder à tout le contenu d'une page. Et, parce que le javascript peut donner lieu à des scripts très malveillants tels que les logiciels malveillants, les virus et le piratage de navigateur, si vous désactivez l'accès de Googlebot à votre fichier .js, j'imagine qu'il serait très méfiant d'envoyer du trafic sur votre page.
Imaginez ce scénario. Un site Web possède un script .js qui redirige l'utilisateur vers un site malveillant et/ou force le téléchargement d'une application virus.exe du côté client de l'utilisateur. Le site Web empêche ensuite Googlebot d’accéder à ce fichier .js. Google envoie ensuite du trafic vers la page et ses visiteurs sont infectés par des logiciels malveillants. Cela semble être une très grande faille de sécurité dont Google a presque certainement été informé.
Par conséquent, ma meilleure hypothèse est que la désactivation de l'accès de Googlebot à vos fichiers .js est une position très risquée et risque de nuire à vos pages.