Utilisation de robots.txt
J'essaie d'arrêter l'analyse de toutes les URL de recherche.
Disallow: /rest_of_url/search&tour*
Ci-dessus est ce que j'utilise. Notre URL ressemble à ceci pour tous les résultats de recherche. Cependant, tout ce qui suit search&tour
peut être différent, par exemple:
https://www.example.com.au/rest_of_url/search&tour-sdfs=the-palce+lcation+&tour-duration=1/
Le code Disallow
ci-dessus empêchera-t-il les robots d'explorer toutes mes pages de résultats de recherche?
Le code d'interdiction ci-dessus empêchera-t-il les robots d'explorer toutes mes pages de résultats de recherche?
Oui, cela arrêtera les (bons) robots qui obéissent au fichier robots.txt "standard".
Cependant, vous n'avez pas besoin de la fin *
. robots.txt
est correspondance du préfixe, le "caractère générique" *
à la fin peut simplement être omis. (Les correspondances de type caractère générique sont de toute façon une extension du standard d'origine.)
Et vous avez évidemment besoin de la directive User-agent
qui précède cette règle, si vous ne l'avez pas déjà:
User-agent: *
Disallow: /rest_of_url/search&tour
Interdire définit les fichiers ou les dossiers qui ne sont pas autorisés à être analysés.
En outre, vous pouvez empêcher une page d'apparaître dans la recherche Google en incluant une balise méta noindex dans le code HTML de la page. Lors de la prochaine exploration de Googlebot sur cette page, Googlebot verra la balise méta noindex et supprimera cette page entièrement des résultats de la recherche Google, que d'autres sites y soient liés ou non.