J'ai un gros problème dans Google Webmaster Tools. Le nombre de pages 404 dans le rapport d'erreurs augmente tellement rapidement que j'en ai maintenant plus de 1 000. Lorsque je vérifie les erreurs, je constate que pour chaque page, Googlebot tente d'analyser les URL sans .html
. Cela crée une erreur 404 à chaque fois.
J'ai essayé de trouver la source de cette erreur. Voici un exemple: http://ermagazin.com/najgora-nuklearna-katastrofa-u-americkoj-povijesti-za-koju-nikad-niste-culi
Il a 3 sources qui sont des liens corrects. L'un d'eux est http://ermagazin.com/najgora-nuklearna-katastrofa-u-americkoj-povijesti-za-koju-nikad-niste-culi.html qui correspond à l'URL correcte à utiliser par Googlebot. explore plutôt le premier sans .html
.
Vérifiez la capture d'écran:
Puis-je ajouter quelque chose dans robots.txt pour empêcher Googlebot d’analyser les URL sans .html
?
Mon fichier robots.txt est:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
Disallow: /readme.html
Sitemap: http://ermagazin.com/sitemap_index.xml
http://ermagazin.com/post-sitemap.xml 2016-02-11 08:57
http://ermagazin.com/page-sitemap.xml 2016-01-14 14:45
http://ermagazin.com/category-sitemap.xml 2016-02-11 08:57
http://ermagazin.com/post_tag-sitemap1.xml 2016-02-11 08:57
http://ermagazin.com/post_tag-sitemap2.xml 2016-02-11 08:57
Lorsque Googlebot explore un si grand nombre d'URL incorrectes, c'est presque toujours parce que votre site est mal configuré et que vous créez un lien incorrect vers les URL quelque part.
Dans votre cas, il s'agit du lien "Afficher tous les articles". Par exemple sur cette page je vois ceci dans le code source HTML:
<a href="http://ermagazin.com/zakopao-zivu-djevojku-8-mjeseci-zbog-vjerovanja-da-ce-to-donijeti-bogatstvo-tanzanija-u-soku" class="more-articles-button">show all articles</a>
Il semble que lorsque je clique sur ce bouton dans un navigateur, je ne parviens pas à la page 404. Vous devez avoir du JavaScript qui intercepte le clic et force les navigateurs à autre chose. Cependant, Googlebot analyse le code source HTML et trouve ce lien. Lorsqu'il tente de le suivre, il obtient une version 404 de chaque article de votre site.
Vous devez réparer ce lien et chercher d’autres semblables.
Une autre chose que vous pouvez faire est de rediriger les demandes pour les URL sans .html
vers les versions correctes. Puisque vous utilisez WordPress, vous pouvez utiliser un plugin WorpPress 404 qui vous permet de surveiller et de rediriger les erreurs 404. J'avais l'habitude d'utiliser une "True Google 404" qui a couru les mots dans les URL non trouvées via la recherche sur le site et redirige automatiquement vers la page appropriée. Malheureusement, ce plugin semble ne plus être disponible. J'ai fait une recherche rapide mais je n'ai trouvé aucun plugin permettant les redirections à partir de modèles de WordPress 404.