Je lutte contre le bug de l'algorithme de page canonique de Google depuis un certain temps. Un conseil que j'ai reçu est de définir les paramètres d'URL GSC sur "Chaque URL", car nous utilisons un script de génération de page avec un paramètre "page", et n'utilisons pas "Laisser Googlebot décider". En définissant cela, si je clique sur "Afficher des exemples d'URL", GSC affiche quelque chose comme ceci pour les URL récemment explorées:
index.pl?page=nhcuofak
index.pl?page=mgiwznbsiwhmbh
index.pl?page=cbmtogqjbgakj
index.pl?page=kzktuwhan
index.pl?page=uxuatqqr
:
:
J'ai également joint une capture d'écran: Pour sûr, aucune de ces pages n'existe sur notre serveur Web. Pour autant que je sache, notre compte GSC n'a pas été piraté, du moins je ne vois aucune preuve que quelqu'un soumette des demandes d'indexation autre que moi. Si vous saisissez l'un de ces paramètres, notre site renvoie un 404 difficile. Pourquoi Google explorerait-il des valeurs de paramètre de page aléatoires? Et une question corollaire, cela pourrait-il affecter la sélection canonique des pages de Google?
Je poste une réponse car je pense que je sais ce qui se passe avec les rumeurs de charabia. J'ai trouvé des URL de référence pour certaines de ces analyses dans nos journaux d'accès au serveur, telles que (remplacer l'exemple par signalogic):
http://ftp.example.com/nhcuofak.html
et ceux-ci provenaient de robots de backlink/spam (évidemment Google voit ces demandes dans la nature et décide de les explorer?). Notre htaccess les laissait passer, donc notre script de page-gen cherchait le charabia et en retournait 200 avec du Nice "page introuvable" html. J'ai depuis modifié notre htaccess pour retourner 404 pour tout ce qui n'est pas http (s) suivi de rien ou www. Google les verra désormais comme 404 et, espérons-le, cessera de les afficher sur la liste récemment explorée.
Notez que cela n'a aucun effet sur les problèmes d'algorithme de page canonique de Google, qui restent en cours (un article séparé ici ).