Empêcher bing d'explorer des milliers de pages essentiellement identiques?

Question

J'ai une page Web avec une douzaine de tableaux de données, chacun avec une demi-douzaine de colonnes. Chaque table peut être triée par colonne en cliquant sur l'en-tête correspondant, qui est ensuite ajouté à la chaîne de requête.

par exemple. une page avec trois tableaux triés par colonnes 4, 6 et 3 décroissants:

page.html?s1=4&s2=6&s3=-3

etc.

J'ai des liens nofollow sur les en-têtes de colonne, et

<link rel="canonical" href="page.html">

sur la page.

Mais Bing continue à parcourir des milliers de combinaisons. 5772 d'entre eux hier!

J'ai marqué s1/s2/s3/s4 ... comme paramètres à ignorer (il y a longtemps), mais cela ne m'a pas aidé.

Comment puis-je l'empêcher de faire cela? C'est une charge de serveur inutile sans gain.

Marco Tolk · Answer

Vous pouvez indiquer à Bing et aux autres Webcrawlers ce qu’il faut spider et ce qu’il faut ignorer en utilisant un fichier appelé robots.txt à la racine de votre site Web.

Vous pouvez indiquer à certains ou à tous les robots d’ignorer des URL spécifiques.

dans ton cas

User-Agent: * Disallow: /*?s1=*&s2=*&s3=*

vous devrez peut-être apporter de petites modifications à la ligne interdire en fonction des paramètres utilisés sur votre site.

Plus sur les fichiers robots.txt ici