Comment robots.txt fonctionne-t-il avec les sites des sous-dossiers?

Question

J'ai un seul hébergeur avec plusieurs autres domaines/sites dans des sous-répertoires, comme ceci:

example.com est le site principal et le répertoire racine de l'hébergement Web.

example.com/www.example2.com est l'un des sites parqués, mais il ne s'agit que d'un sous-dossier du site principal.

www.example2.com et www.example.com/www.example2.com sont accessibles sous le même contenu, mais je souhaite bloquer l'accès à ce dernier tout en permettant l'accès au contenu précédent.

n fichier robots.txt sur le site principal qui interdit www. * Autorise-t-il l'exploration de www.example2.com??

Hello Fishy · Accepted Answer

Je suppose que ce que vous recherchez est une entrée robots.txt comme ceci:

User-agent: * Disallow: /www.example2.com

Supposons que vous ayez plus de 100 URL exampleNR.com 'parquées', mais que vous ne voulez pas écrire une ligne pour chacune d'entre elles ... utilisez ceci:

User-agent: * Disallow: /www.example

Le problème est qu’il n’est pas officiellement pris en charge , mais de nombreux robots comme Googlebot sont capables de comprendre ces caractères génériques simples. Les RegEx ne sont définitivement pas supportés. pour information supplémentaire

UPDATE

Suppression de l'astérisque de fin puisque robots.txt utilise quand même une correspondance de préfixe simple. Merci de votre attention, w3dk