Pourquoi BingBot provoque-t-il autant d'erreurs 404 en supprimant des lettres dans les URL?

Question

Depuis que le problème ForceRecrawl a disparu, Bing est revenu avec de nouvelles tendances.

Je vois beaucoup d'URL manquant la dernière lettre, ou quelques lettres, et quelques autres URL de devinette câblées. Il semble également que je ne suis pas le n seul .

Je ne reçois ces URL d'aucun autre bot, et je lance régulièrement un vérificateur de liens sur mon site pour vérifier les liens morts, afin qu'ils ne proviennent pas de mes pages. Je souhaite que Bing (et peut-être tous les bots) inclue au moins un référent dans l'en-tête de la requête pour nous faire savoir d'où provient le lien (je sais qu'ils peuvent avoir plus d'une référence, mais en avoir une est un bon début).

J'ai également du mal à comprendre la stratégie d'indexation de Bing: ils indexent environ 25% du nombre de pages indexées par Google, puis ils en rejettent soudainement la moitié et recommencent lentement.

Bing essaie-t-il de modifier l'URL et de voir s'il peut accéder aux pages en "devinant" les URL au lieu de les récolter à l'aide du mécanisme de navigation normal? Peut-être qu'ils ne peuvent pas maîtriser l'analyse du menu Javascript? Je ne sais pas, mais ils font quelque chose de fou!

Un peu hors sujet, mais une théorie du complot sympa: Il existe un autre bot appelé "Ezooms/1.0" qui fait quelque chose de similaire: il ajoute des espaces derrière les tirets trouvés dans les URL. (Je pense que c'est toujours après le premier tiret de l'URL). En comparant les modèles, je penserais presque que ces deux robots ont été écrits par le même développeur (bien que le mystérieux Ezooms ait une adresse Gmail ajoutée dans la chaîne de l'agent utilisateur).

Zhaph - Ben Duguid · Answer

Avez-vous regardé le Bing Webmaster Tools ?

Vous pouvez vous y inscrire et le processus de réclamation de vos domaines est identique à celui de Google Webmasters Tools.

Ceux-ci peuvent alors vous donner une liste complète de statistiques d'exploration, y compris des liens menant à 404.

Notez que si vous avez supprimé du contenu, le lien 0 s'affiche, car ce n'est pas lui qui demande les pages qu'il connaissait auparavant.

Une autre possibilité est que ces liens proviennent de scripts sur la page: j'ai eu un problème sur un site où nous construisions un lien pour un appel à une annonce dans le code JavaScript dont certains ont été rendus au niveau du serveur. Les robots trouveraient cette URL partielle dans la source et tenteraient de la suivre.