web-dev-qa-db-fra.com

Le site a été piraté il y a des mois. Comment puis-je supprimer les pages créées des listes Google

Mon site a été piraté il y a environ 4 à 6 mois et, par conséquent, de nombreuses pages ont été créées sur mon site. Ces pages n'existent plus et ont été supprimées une semaine après le piratage, mais elles existent toujours dans les résultats de recherche googles et j'ai plus de 1 000 erreurs d'analyse dans la console de recherche Google. Je pensais que Google aurait supprimé ces pages maintenant.

Les pages semblent toutes faire référence au chemin suivant:

mydomain.com/glpkvn[number here]/lity/[number here]

Où [nombre ici] est un nombre généré aléatoirement.

Quel est le meilleur moyen de les supprimer des résultats de recherche Google et de ranger ma console de recherche Google?

Merci

1
Olly

Quel est le meilleur moyen de les supprimer des résultats de recherche Google

Assurez-vous que ces pages affectées renvoient un code HTTP 410.

Vous pouvez utiliser le module Apache mod_rewrite (ou son équivalent) et écrire un script de configuration de serveur qui vérifie si un certain modèle existe dans l'URL. Si tel est le cas, l'utilisateur verra une page 410.

Si votre serveur Web est Apache, créez un fichier nommé .htaccess dans le dossier racine du document. Selon votre situation, vous pouvez ajouter l'une des lignes suivantes:

RewriteRule ^glpkvn([0-9]+)/lity/([0-9]+)$ [R=410,L]

Cette ligne (ci-dessus) vérifie si l’URL est http://example.com/glpkvn#####/lity/#### (où #### est un nombre quelconque de valeurs numériques. chiffres) et s’il existe une correspondance, le traitement de la règle s’arrête et l’utilisateur est envoyé sur une page avec un statut HTTP 410.

RewriteRule ^glpkvn(.*)$ [R=410,L]

Cette ligne vérifie si l'URL commence par http://example.com/glpkvn et, le cas échéant, renvoie la page d'état HTTP 410.

Si vous souhaitez autoriser l'insensibilité à la casse (ce qui signifie que vous souhaitez que l'URL commence par http://example.com/glpkvn ou http://example.com/GLPkvn ) puis ajoutez un NC dans les options comme ceci:

RewriteRule ^glpkvn(.*)$ [R=410,L,NC]

La raison pour laquelle vous devez utiliser le statut 410 est parce que 410 signifie "parti pour toujours" et indique à Google qu'il ne doit plus jamais tenter d'accéder à la page.

et ranger ma console de recherche google?

Suivez d'abord les étapes ci-dessus, puis lorsque vous accédez à la console de recherche, supprimez les URL incorrectes.

3
Mike

Bien que je croie fermement à une réponse d'erreur de 410 à 404, cela dépend fortement de la visite effective de Google, chaque page à la fois. Si votre site ne bénéficie pas des visites fréquentes de Googlebot car il est considéré comme un site très récent et tendance, cela signifierait que Google pourrait mettre un certain temps à rechercher chaque page avant de la supprimer.

Lorsqu'un site est piraté, il est souvent impossible que chaque URL soit supprimée à l'aide de l'option Supprimer l'URL de la console de recherche Google, bien que cela reste une option avec des limitations bien entendu. Plus sur cela plus tard.

Une option potentiellement plus rapide consiste à utiliser le fichier robots.txt.

Google visite le fichier robots.txt chaque fois qu'il visite votre site, à condition qu'il n'ait pas récupéré une copie récente du fichier robots.txt dans les 24 heures. Cela est considéré comme un compromis raisonnable pour extraire le fichier robots.txt à chaque fois que Google visite ou récupérer trop rarement le fichier robots.txt. Auparavant, il n’existait pas de norme à cet égard et il existait toujours des détracteurs, que ce soit pour lire le fichier robots.txt trop souvent ou pas assez souvent. Oui. Parfois, Google ne peut pas gagner.

Lorsque le fichier robots.txt est récupéré, il est enregistré dans l'index et appliqué à la manière de Googlebot. Cependant, il existe également un processus qui applique des règles d'expressions régulières (regex) faciles à dériver des règles trouvées dans le fichier robots.txt et supprime les URL et les pages trouvées dans l'index. Cela ne se fait pas immédiatement, ce qui éviterait probablement les erreurs à court terme du webmaster. Cependant, comme le fichier robots.txt est pris très au sérieux en tant que mécanisme de règles pivot pour les robots bien comportés, Google l'appliquera assez rapidement. Cela peut encore prendre des jours ou des semaines, mais cela se fait en vrac.

Pour cette raison, le fichier robots.txt est souvent le moyen le plus rapide de supprimer des URL, à condition qu'elles puissent être spécifiées par un modèle. Bien que tous les moteurs de recherche ne traitent pas les directives robots.txt de manière égale, heureusement, Google autorise les caractères génériques qui vous donnent un sérieux avantage.

User-agent: Googlebot
Disallow: /glpkvn*/

Selon la page: https://support.google.com/webmasters/answer/6062596?hl=fr&ref_topic=6061961 sous Règles de correspondance de modèle pour rationaliser votre code robots.txt, vous verrez un résultat similaire. Exemple.

Google ne garantit pas que les URL seront supprimées et indique qu'il faudra un certain temps pour les supprimer.

https://support.google.com/webmasters/answer/7424835?hl=fr&ref_topic=6061961#h17

https://support.google.com/webmasters/answer/7424835?hl=fr&ref_topic=6061961#h18

Toutefois, selon mon expérience, cette méthode fonctionne plus rapidement que d'attendre que Google récupère chaque page une à une.

Un avertissement. Si vous empêchez Google d'extraire ces pages via le fichier robots.txt, Google ne verra pas d'erreur 404 ou 410 pour la page. Vous devez choisir une méthode ou une autre. Google recommande d'utiliser la console de recherche Google pour supprimer les URL.

Je préfère attendre que Google supprime les pages de manière naturelle en utilisant un code 404. Une erreur de type 410 est plus rapide car chaque mot de passe 404 est soumis à un nouveau test plusieurs fois avant d'être supprimé. Cependant, étant donné que votre site a été piraté et que ces pages restent dans les résultats de la recherche, il peut être judicieux d'essayer de les supprimer en utilisant une autre méthode. J'ai personnellement enlevé des pages en vrac en utilisant cette méthode bien que ce fût il y a quelques années. Lequel vous utilisez est à vous.

2
closetnoc