Je traite avec un site qui a été piraté il y a quelque temps. Google a indexé des milliers de pages en utilisant les résultats JAPANESE. J'ai utilisé mon fichier de robots pour tout interdire, à l'exception des pages qui existent réellement sur mon site, et j'ai utilisé htaccess pour créer des fichiers 404 pour des pages inexistantes.
Google continue d'afficher des liens de site (en japonais) vers les pages de mon site. Si je vérifie les outils pour les webmasters, il reste encore des milliers de pages indexées et les mots-clés de contenu contiennent principalement des termes JAPANAIS.
Il n'y a pas de version ou texte en japonais sur le site.
Ce qui est différent à propos de ce problème est que Google affiche le texte du lien de site en JAPONAIS et renvoie maintenant aux pages les plus existantes. Je ne peux pas refuser ces pages. J'ai également besoin de changer le fait que Google a toutes ces informations étrangères dans son index et qu'il contient encore des URL qui n'existent pas sur le site.
Les extraits servis par Google renvoient tous un 404 mais ils sont toujours dans l'index.
Comment indexent-ils encore ce contenu?
Ne les empêchez pas d'être explorés - cela ne les supprimera pas de l'index. Cela empêche seulement Googlebot de les regarder.
Normalement, le moyen le plus rapide consiste à utiliser l'outil de suppression de Search Console. Pour les chiffres dont vous parlez, cela ne semble pas possible car ils doivent être entrés un par un.
Selon mon expérience, le plus rapide serait de créer un sitemap qui mappe une langue alternative - les sitemaps sont analysés et traités très rapidement après leur envoi. Si vous indiquez à Google que chacun des mauvais URI est en chinois (rel = "substitut" hreflang = "zh-Hans"), puis placez des vrais URI comme alternatives "en" - cela les remplacera dans les moteurs de langue anglaise. Vous pouvez utiliser le même URI plusieurs fois.
Exemple:
<url>
<loc>http://www.example.com/bad-chinese-page/</loc>
<xhtml:link
rel="alternate"
hreflang="zh-Hans"
href="http://www.example.com/bad-chinese-page/"
/>
<xhtml:link
rel="alternate"
hreflang="en"
href="http://www.example.com/good-page/"
/>
</url>
Assurez-vous que chacune de ces pages renvoie une erreur 410. Cela n'indique pas simplement à Google que le serveur ne peut pas trouver le contenu - il indique catégoriquement qu'il n'est plus là. Ils seront supprimés plus rapidement de l'index.