web-dev-qa-db-fra.com

Demandez à Google de supprimer des milliers de pages de son index après le nettoyage d'un site piraté

J'ai piraté mon site Web. Je l'ai nettoyé et recherché sur Google site:example.com et fait une liste de tous les résultats. Suppression des liens réels qui sont OK et création d'une liste de ceux au format example.com/ad0-b1fermarte54eb17chb-1244425. J'ai soumis ces liens à Google pour les supprimer et Google a supprimé ces liens.

Le problème ici est qu'après ma recherche initiale, qui a abouti à 200 URL que nous avons supprimées, d'autres nouveaux liens sont apparus de nulle part. Ces liens ne fonctionnent plus et renvoient une page 404, mais Google les a toujours dans ses résultats.

Nous avons essayé de supprimer notre plan du site et de le soumettre à nouveau. Google l'a exploré, mais encore une fois, il n'a pas supprimé les résultats de recherche fictifs.

En regardant dans notre console Google pour les webmasters, nous avons vu que dans l'onglet de couverture, le nombre de liens indexés était passé de 230 (utilisation normale) à 10.900 liens - je suppose que ce sont tous des liens factices qui ont été infectés et maintenant nettoyés.

Une façon magique de faire supprimer automatiquement les liens morts par Google? Ou un moyen de le forcer à réexplorer l'intégralité du site Web?

17
Rad

Google supprimera automatiquement les pages qui renvoient désormais un statut 404. Ils seront supprimés 24 heures après la prochaine tentative de Googlebot de les explorer. Si vous souhaitez accélérer légèrement le processus, renvoyez à la place le statut "410 Gone" pour ces URL. Ensuite, ils seront supprimés sans la période de grâce de jour après leur prochaine exploration.

Le seul problème est que cela peut prendre des mois à Googlebot pour explorer toutes ces pages mortes. Si vous souhaitez accélérer l'exploration, vous avez deux options:

  1. Soumettez chaque URL individuellement à la Google Search Console outil de suppression d'URL .
  2. Créez un plan de site temporaire de toutes les URL mortes et ajoutez ce plan de site à Google Search Console. ( référence )

Pour obtenir une liste de toutes les URL, je suggère d'utiliser les journaux de votre serveur. Ils auront un enregistrement des URL plus complet qu'un site: recherche ou Google Search Console. J'utiliserais grep sur la ligne de commande. Si toutes les URL sont similaires à l'URL que vous avez publiée, vous pouvez créer un modèle d'expression régulière pour elles. Cette URL comporte 31 caractères avec des lettres, des tirets et des chiffres. Cela se termine par un nombre. Peut-être quelque chose comme ça. Il recherchera 15 à 30 de ces caractères suivis d'un tiret et de 4 à 10 chiffres.

grep -oE '/[0-9a-z\-]{15,30}-[0-9]{4,10}' /var/log/Apache2/example.com.log
25

Ce problème ne sera pas résolu en envoyant une requête ping à Google pour réexplorer votre site ou en soumettant à nouveau le plan du site, car il indexerait les nouvelles URL et ne supprimerait pas les anciennes/factices.

--- l'outil Webmaster utilisé pour la suppression des URL est le seul moyen de demander à Google de supprimer des liens de son index, mais il ne permet qu'un seul lien à la fois, à soumettre pour suppression.

Pour surmonter cela, vous pouvez utiliser une extension chrome pour automatiser ce processus. C'est un outil payant (environ 9 $) sur chrome extensions store mais vous pouvez l'obtenir gratuitement sur GitHub.

  1. Allez à ceci lien.
  2. Téléchargez le fichier .Zip.
  3. Extraire et importer dans les extensions chrome.

Rechargez maintenant votre onglet de suppression d'URL et vous verrez une option pour télécharger un fichier .csv ou.xls.

Téléchargez la liste des URL que vous devez supprimer de la console de recherche et téléchargez le fichier ici. (Ces liens seront exclus de votre plan du site afin que vous trouviez facilement la liste de ces URL)

Laissez l'outil faire son travail, car cela prendra du temps, selon le nombre de liens que vous avez.

2
Anuvesh