web-dev-qa-db-fra.com

Faire en sorte que Google nous pardonne immédiatement lors de la publication accidentelle de liens incorrects (noarchive ne fonctionne pas)

Donc c'est ce qui s'est passé.

Un jour, j'ai changé de code sur mon site pour essayer de rendre les choses plus compatibles avec adsense. Quelques heures plus tard, je consulte le compte rendu des erreurs d'analyse de GSC uniquement pour voir une chaîne d'erreurs HTTP 400 (j'ai volontairement fait des demandes contenant le statut ' return 400) dans les URL du format suivant (remplacez # par un nombre réel):

http://example.com/album/gallery/('+#+');

Mais en réalité, l'URL devrait se présenter sous cette forme:

http://example.com/album/gallery/#

Dans chacune de mes pages, j'ai utilisé l'attribut noarchive comme suit:

<meta name="GOOGLEBOT" content="NOARCHIVE">
<meta name="ROBOTS" content="NOARCHIVE">

Depuis cet incident, mon taux d'exploration maximal autorisé par Google pour mon site ne s'élève plus qu'à deux requêtes par seconde. Presque tous les jours, je ne vois que quelques nouvelles entrées similaires aux liens malformés ci-dessus dans mon rapport d'erreur d'analyse de la CGC.

C'est comme si Google avait mis en cache toute la sortie HTML liée à mon site et s'appuyait uniquement sur ce code HTML comme si c'était la vérité. Il ignore également mon "noarchive", qui est censé empêcher Google de procéder à un archivage du contenu.

La seule façon pour moi de résoudre ce problème, même si les liens malformés de mon site ont été remplacés par des liens valides, a été de modifier mon fichier de configuration Apache afin d'inclure une règle de réécriture avant les règles de filtrage des caractères impairs (générant les erreurs HTTP 400). Cette règle de réécriture entraîne la redirection de toutes les URL malformées (illustrées ci-dessus) vers les URL valides.

Le problème ici est que j'ai désactivé l'utilisation de .htaccess pour des raisons de rapidité et de sécurité. Mon action a donc entraîné un redémarrage progressif d'Apache. Je déteste avoir recours à cela et je déteste réduire ma sécurité.

Ce que je veux savoir, c’est qu’il y aurait un moyen pour moi de dire explicitement à Google d’annuler la version en cache de mes pages (pardonnez-moi mon erreur accidentelle) et de tout redéfinir si j’ai fait une erreur plutôt que de la laisser reposer. sur ses propres données mises en cache pendant au moins plusieurs jours? J'ai utilisé méta-tag noarchive et cela ne semble pas fonctionner.

Si par la suite je crée accidentellement des liens défectueux sur mon site, je ne souhaite pas avoir à modifier la configuration d'Apache pour rediriger les liens et redémarrer normalement Apache et/ou réduire la sécurité de mon site.

Heck, s'il y a une URL spéciale que je peux utiliser pour réinitialiser l'analyse du robot d'exploration de mon site, je l'utilise tout de suite.

1
Mike

Il n’ya aucun moyen de dire à Googlebot d’oublier quelque chose qu’il a exploré.

Votre seul recours est de:

  1. Corrigez le problème avec votre code HTML.
  2. Redirige les URL défectueuses causées par le problème.
  3. Attendez que Googlebot ait rediffusé toutes les pages contenant du HTML défectueux et tous les liens incorrects que ces pages ont pu générer.

NOARCHIVE empêche Google d'afficher un cache de la page aux utilisateurs. Cela n'a aucun effet sur le fait qu'ils l'exploitent à nouveau, s'en souviennent en interne ou utilisent leurs liens pour explorer d'autres pages. Google explorera toujours les liens dans une page, sauf si cette page possède l'attribut NOFOLLOW. NOFOLLOW ne peut cependant pas être appliqué de manière rétroactive.

J'ai tendance à ne pas mettre beaucoup dans mes fichiers . Htaccess, mais je ne les désactive généralement pas complètement. Je trouve que les redirections sont souvent mieux implémentées dans la logique de programmation qui alimente l’application Web plutôt que dans . Htaccess. Vous pourriez envisager de déplacer vos redirections vers votre logiciel, mais cela ne sera pas une option si votre site est statique.

0