Mon compte Google Outils pour les webmasters montre que j'ai des erreurs d'analyse causées par des liens vers des pages inexistantes (404 introuvables).
Mais quand je regarde les pages sources qui sont accusées d'avoir ces liens brisés, il n'y en a pas.
À l'heure actuelle, j'ai 6 404 erreurs dans les sitemaps et 28 dans le reste de mon site.
Par exemple. l'adresse http://www.webdesk.co.il/articles.php?id=1 n'existe pas, mais Google indique que j'ai 3 pages qui pointent vers cette adresse:
http://www.webdesk.co.il/sitemapgen.php
http://www.webdesk.co.il/articles.php?t=css
http://www.webdesk.co.il/articles.php?id=17 //this address dont even exist
Si vous ouvrez chacune de ces pages, vous verrez qu'elles ne contiennent pas ces liens.
Je pensais que c'était peut-être le résultat d'une ancienne exploration qui n'avait pas encore été mise à jour, mais ces pages n'existaient pas depuis plus de 6 mois et Google indique que tous les résultats de l'analyse sont à jour (22 déc 2012).
Pourquoi je continue à avoir ces erreurs 404 de Google?
Google semble accrocher ses anciennes adresses pour une très longue période, je suppose que: -
Ces liens existent sur un autre site en raison d'une faute de frappe ou d'une autre erreur.
Le contenu existait il y a très longtemps, peut-être une ancienne version du site créée par un ancien propriétaire du domaine, par exemple.
Un ancien lien qui ressemble à un nouveau lien en raison de la redirection htaccess, par exemple. un de mes sites reçoit toujours des liens vers son adresse IP nue, mais ceux-ci apparaissent dans les journaux en tant que domaine en raison des paramètres de redirection d'URL (il a fallu un temps considérable pour le repérer).
Le lien existe dans le contenu html mais pas dans la partie visible de la page - cela se produit le plus souvent à cause d'erreurs dans les éditeurs visuels HTML ou dans le contenu commenté.
Le mieux est que votre serveur réponde aux demandes concernant ces URL avec un code d'état 41 , sinon Google continuera à les rechercher.
410 Gone Indique que la ressource demandée n'est plus disponible et ne sera plus disponible. Cela devrait être utilisé lorsqu'une ressource a été supprimée intentionnellement et qu'elle doit être purgée. À la réception d'un code d'état 410, le client ne doit plus demander la ressource à l'avenir. Les clients tels que les moteurs de recherche doivent supprimer la ressource de leurs index. Dans la plupart des cas d'utilisation, les clients et les moteurs de recherche ne sont pas tenus de purger la ressource. Vous pouvez également utiliser "404 Introuvables".
Voici ce que John Mueller de Google (qui travaille sur les outils pour les webmasters et les sitemaps) doit dire environ 404 erreurs qui apparaissent dans les outils pour les webmasters :
HELP! MON SITE A 939 ERREURS DE CRAWL !! 1
Je vois ce genre de question plusieurs fois par semaine; vous n'êtes pas seul - de nombreux sites Web contiennent des erreurs d'analyse.
- Les erreurs 404 sur des URL non valides ne nuisent en aucune façon à l’indexation ou au classement de votre site . Peu importe qu’il y en ait 100 ou 10 millions, ils ne nuisent pas au classement de votre site. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
- Dans certains cas, les erreurs d'analyse peuvent provenir d'un problème structurel légitime sur votre site Web ou votre CMS. Comment vous dites Vérifiez l’origine de l’erreur d’analyse. S'il existe un lien brisé sur votre site, dans le code HTML statique de votre page, cela vaut toujours la peine de le corriger. (merci + Martino Mosna )
- Qu'en est-il des URL funky qui sont "clairement cassées?" Lorsque nos algorithmes aiment votre site, ils peuvent essayer de trouver du contenu de qualité supérieure, par exemple en essayant de découvrir de nouvelles URL en JavaScript. Si nous essayons ces "URL" et trouvons un 404, c’est génial et attendu. Nous ne voulons simplement rien rater d’important (insérez ici le mot Googlebot trop lié). http://support.google.com/webmasters/bin/answer.py?answer=1154698
- Vous n'avez pas besoin de corriger les erreurs d'analyse dans les Outils pour les webmasters. La fonctionnalité "marquer comme fixe" est uniquement destinée à vous aider si vous souhaitez suivre vos progrès là-bas; cela ne change rien à notre pipeline de recherche Web, alors n'hésitez pas à l'ignorer si vous n'en avez pas besoin. http://support.google.com/webmasters/bin/answer.py?answer=24674
- Nous répertorions les erreurs d'analyse dans les outils pour les webmasters par priorité, en fonction de plusieurs facteurs. Si la première page d’erreurs d’analyse n’est manifestement pas pertinente, vous ne trouverez probablement pas d’erreurs d’analyse importantes dans les pages suivantes. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
- Il n’est pas nécessaire de "réparer" les erreurs d’analyse sur votre site Web. Trouver 404 est normal et attendu d’un site Web sain et bien configuré. Si vous avez une nouvelle URL équivalente, il est recommandé d’y rediriger. Sinon, vous ne devriez pas créer de faux contenu, vous ne devriez pas rediriger vers votre page d'accueil, vous ne devriez pas non plus robots.txt interdire ces URL - toutes ces choses rendent plus difficile pour nous de reconnaître la structure de votre site et de la traiter correctement. Nous appelons ces erreurs "soft 404". http://support.google.com/webmasters/bin/answer.py?answer=181708
- Évidemment, si ces erreurs d’exploration apparaissent pour les URL qui vous intéressent, par exemple les URL de votre fichier Sitemap, vous devez agir immédiatement. Si Googlebot ne parvient pas à analyser vos URL importantes, elles risquent alors d’être supprimées de nos résultats de recherche et les utilisateurs risquent de ne pas pouvoir y accéder.