J'ai un seul hébergeur avec plusieurs autres domaines/sites dans des sous-répertoires, comme ceci:
example.com
est le site principal et le répertoire racine de l'hébergement Web.
example.com/www.example2.com
est l'un des sites parqués, mais il ne s'agit que d'un sous-dossier du site principal.
www.example2.com
et www.example.com/www.example2.com
sont accessibles sous le même contenu, mais je souhaite bloquer l'accès à ce dernier tout en permettant l'accès au contenu précédent.
n fichier robots.txt sur le site principal qui interdit www. * Autorise-t-il l'exploration de www.example2.com
??
Je suppose que ce que vous recherchez est une entrée robots.txt comme ceci:
User-agent: *
Disallow: /www.example2.com
Supposons que vous ayez plus de 100 URL exampleNR.com 'parquées', mais que vous ne voulez pas écrire une ligne pour chacune d'entre elles ... utilisez ceci:
User-agent: *
Disallow: /www.example
Le problème est qu’il n’est pas officiellement pris en charge , mais de nombreux robots comme Googlebot sont capables de comprendre ces caractères génériques simples. Les RegEx ne sont définitivement pas supportés. pour information supplémentaire
UPDATE
Suppression de l'astérisque de fin puisque robots.txt utilise quand même une correspondance de préfixe simple. Merci de votre attention, w3dk