web-dev-qa-db-fra.com

Pourquoi AhrefsBot demande-t-il une page qui a été supprimée de mon site Web?

Je passais en revue les journaux de mon site Web (WordPress) et j'ai vu une ligne comme celle-ci:

myWebsite:80 5.10.83.28 - - [17/Jan/2014:09:05:53 +0000] "GET myUrl == HTTP/1.1" 404 5716 "-" "Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)"

Ainsi, un robot appelé AhrefsBot visitait myUrl.

Le problème est que j'ai supprimé la page myUrl il y a quelques semaines. Alors, pourquoi ce bot me le demande-t-il toujours?

Comment a-t-il trouvé l'URL myUrl, surtout quand je suis sûr qu'il n'y a pas de pages qui y sont liées? Et comment puis-je éviter ce genre de 404 pages?

4
4m1nh4j1

Il existe plusieurs raisons pour lesquelles un bot essaierait de visiter une page supprimée:

  1. Le bot a suivi un lien vers cette page depuis un autre site Web. Les bots omettent souvent le parrain, il est donc difficile de dire si c'est le cas. Étant donné que le bot en question a un "vérificateur de backlink" dans son slogan, cela semble être une cause probable.
  2. Le bot avait visité la page alors qu'elle existait et se remettait à jour à partir de sa propre base de données plutôt que d'une découverte récente. C'est encore assez commun. Quand il rencontre un 404, il devrait le supprimer de sa base de données.
  3. Il existe encore un lien quelque part sur votre site et vous venez juste de le manquer.
  4. Le bot a commis une erreur lors de l'analyse des liens. La plupart des robots utilisent diverses méthodes heuristiques pour trouver des URL en JavaScript, etc. Celles-ci tendent à donner un bon nombre de faux positifs et peuvent amener les robots à explorer des pages qui n'ont jamais existé. Vous ne dites pas ce que "myUrl" est, il est donc difficile de juger si c'est le cas ici.

Le comportement des robots dépend généralement de facteurs que vous ne pouvez pas voir et qui, par conséquent, ne vous apparaîtront souvent pas comme étant tout à fait rationnels. Il n'y a aucun moyen de les empêcher absolument de déclencher des 404.

4
Kris

Il y a 2 raisons possibles:

  1. Votre sitemap.xml contient toujours cette URL. Trouvez-le et retirez-le.
  2. Certaines pages de votre site contiennent cette URL sous forme de lien. Analysez votre site avec un robot Web afin de trouver le lien, puis supprimez-le.
1
Oleg