Un jour, mon site a été piraté. Quelqu'un a inséré des pages de spam sur mon site. J'ai résolu le problème, nettoyé la base de données, protégé zone de connexion, etc. Mais ces liens sont toujours présents dans tous les moteurs de recherche, y compris Google et ils conduisent à 404 pages.
J'ai un plan Sitemap XML comportant 8 pages valides pour mon site. Ce plan de site est présent dans la page Webmasters et a été mis à jour le 23 août 2015 avec seulement 8 pages. Mais les moteurs de recherche ne suppriment pas ces liens de spam.
J'ai aussi essayé l'outil de suppression de liens dans Google Websmasters Tool, il a été utile pendant environ un mois et maintenant, ils ont expiré et ces liens sont à nouveau présents. Alors, comment puis-je supprimer ces liens de spam des moteurs de recherche?
Il y a certaines différences de comportement dont vous devriez être conscient et qui peuvent vous aider.
Après une relance de mon site et après une période de 301 redirections vers de nouvelles pages, j'ai décidé de générer des erreurs 404 tout en récupérant le trafic qui aurait pu être perdu avec le code HTML personnalisé. La page 404 a fonctionné comme prévu. Toutefois, lorsque j'ai abandonné le code HTML 404 personnalisé, j'ai trouvé que 2 de mes pages renvoyaient un code 404 mais renvoyaient également du contenu HTML (logiciel) et restaient indexées. Si ces pages renvoyaient simplement un 404 sans HTML (dur), Google en prendrait note.
Il y a en effet 2 soft 404 pages. L’une consiste à émettre le code 404 en code et l’autre à créer une page personnalisée que le serveur Web émet. À l'aide de code, même si l'en-tête 404 peut être émis correctement, si vous utilisez du code HTML, Google ne le prendra peut-être pas trop au sérieux. Cela peut être langue par langue. Oui. Vous obtenez un 404, mais il semble que Google puisse le traiter différemment. Dans la mesure du possible, il est de loin préférable de laisser le serveur Web, et non un CMS, émettre le 404.
Il semble y avoir une différence dans la façon dont 404 est traité dans la manière dont Google traite le 404. Je n'ai pas encore corrigé ces deux pages et je reçois toujours les résultats de recherche de Google et pourtant, je donne une réponse 404 appropriée. C'est sur ma liste à régler bien sûr - je suis juste un peu lent.
Lorsqu'une page n'existe pas, la solution la plus simple consiste à lui permettre de 404 utiliser naturellement le serveur Web sans HTML. C'est la valeur par défaut pour tout serveur Web. Cependant, certains CMS sont configurés pour donner une version logicielle 404. La raison en est de récupérer le trafic qui, autrement, serait perdu. Google n'aime pas les soft 404 pour une raison quelconque, mais comprend qu'ils ont une valeur. Google préfère un disque dur 404.
Il est techniquement correct de proposer un 410 pour chaque page disparue. Google traite un 404 et 410 différemment. Toute page renvoyant un 410 est immédiatement retirée de la liste de l'index et n'est plus demandée (généralement), alors qu'un 404 est considéré comme un scénario temporaire et que Google réessayera la page plusieurs fois avant de le retirer de la liste.
Gardez à l'esprit, tant qu'il existe des liens, ces pages peuvent être retentées périodiquement. Cela aurait du sens, bien sûr, mais c’est ainsi que cela fonctionne. Si Google suit un lien et supprime la page de l'index car il n'y est pas, Google le marque comme un lien mort (son terme est suspendu). En règle générale, Google ne réessayera pas le lien après un certain nombre d'erreurs 410 ou 404. Toutefois, si un nouveau lien apparaît, Google recommence le processus pour le nouveau lien.
Tant que vous renvoyez un code 410 ou 404 et aucun code HTML, tout ira bien. Cependant, si vous pouvez émettre un 410 pour la page, alors ce serait mieux. Ce serait certainement moins ennuyeux et aiderait à supprimer ces pages plus rapidement.