Je travaille avec un site qui a été piraté il y a quelques mois et qui envoyait une tonne de spam. Le problème semblait avoir commencé avec un blog WordPress en sommeil qui faisait partie du site (le site n'est donc pas WordPress lui-même, mais le blog). Comme cela n'était plus utilisé, j'ai supprimé le blog, sa base de données et trouvé des fichiers infectés dans le dossier images et dans un fichier javascript sur le site principal. Cela a considérablement diminué 404 erreurs. Puis ils ont recommencé à augmenter. J'ai essayé d'utiliser mon fichier . Htacess pour bloquer les sites qui relieraient soi-disant ce site avec les liens Viagra. Encore une fois, les erreurs d’exploration ont considérablement diminué et ont maintenant repris. Je ne peux pas comprendre ce qui se passe ici. J'ai supprimé tout code étrange (qui cherchait principalement la base decode64) et bloqué les renvois provenant de sites de spam. Les erreurs d'analyse ne devraient-elles pas être en train de tomber et rester en panne, du moins de ces sites de spam?
Le blocage par référent n’aidera pas: Googlebot n’envoie pas d’en-tête de référent lors de l’exploration, il ne verra donc jamais votre blocage.
Voici ce que John Mueller de Google (qui travaille sur les outils pour les webmasters et les sitemaps) doit dire environ 404 erreurs qui apparaissent dans les outils pour les webmasters :
HELP! MON SITE A 939 ERREURS DE CRAWL !! 1
Je vois ce genre de question plusieurs fois par semaine; vous n'êtes pas seul - de nombreux sites Web contiennent des erreurs d'analyse.
- Les erreurs 404 sur des URL non valides ne nuisent en aucune façon à l’indexation ou au classement de votre site . Peu importe qu’il y en ait 100 ou 10 millions, ils ne nuisent pas au classement de votre site. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
- Dans certains cas, les erreurs d'analyse peuvent provenir d'un problème structurel légitime sur votre site Web ou votre CMS. Comment vous dites Vérifiez l’origine de l’erreur d’analyse. S'il existe un lien brisé sur votre site, dans le code HTML statique de votre page, cela vaut toujours la peine de le corriger. (merci + Martino Mosna )
- Qu'en est-il des URL funky qui sont "clairement cassées?" Lorsque nos algorithmes aiment votre site, ils peuvent essayer de trouver du contenu de qualité supérieure, par exemple en essayant de découvrir de nouvelles URL en JavaScript. Si nous essayons ces "URL" et trouvons un 404, c’est génial et attendu. Nous ne voulons simplement rien rater d’important (insérez ici le mot Googlebot trop lié). http://support.google.com/webmasters/bin/answer.py?answer=1154698
- Vous n'avez pas besoin de corriger les erreurs d'analyse dans les Outils pour les webmasters. La fonctionnalité "marquer comme fixe" est uniquement destinée à vous aider si vous souhaitez suivre vos progrès là-bas; cela ne change rien à notre pipeline de recherche Web, alors n'hésitez pas à l'ignorer si vous n'en avez pas besoin. http://support.google.com/webmasters/bin/answer.py?answer=24674
- Nous répertorions les erreurs d'analyse dans les outils pour les webmasters par priorité, en fonction de plusieurs facteurs. Si la première page d’erreurs d’analyse n’est manifestement pas pertinente, vous ne trouverez probablement pas d’erreurs d’analyse importantes dans les pages suivantes. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
- Il n’est pas nécessaire de "réparer" les erreurs d’analyse sur votre site Web. Trouver 404 est normal et attendu d’un site Web sain et bien configuré. Si vous avez une nouvelle URL équivalente, il est recommandé d’y rediriger. Sinon, vous ne devriez pas créer de faux contenu, vous ne devriez pas rediriger vers votre page d'accueil, vous ne devriez pas non plus robots.txt interdire ces URL - toutes ces choses rendent plus difficile pour nous de reconnaître la structure de votre site et de la traiter correctement. Nous appelons ces erreurs "soft 404". http://support.google.com/webmasters/bin/answer.py?answer=181708
- Évidemment, si ces erreurs d’exploration apparaissent pour les URL qui vous intéressent, par exemple les URL de votre fichier Sitemap, vous devez agir immédiatement. Si Googlebot ne parvient pas à analyser vos URL importantes, elles risquent alors d’être supprimées de nos résultats de recherche et les utilisateurs risquent de ne pas pouvoir y accéder.
Les 404 erreurs signalées par Google sont à votre avantage. S'il ne s'agit pas réellement de problèmes à corriger, vous n'avez rien à faire.