Plan du site dans différents domaines et exploration robots.txt

Question

J'ai les sous-domaines suivants:

www.example.com
api.example.com

Le sous-domaine api.example.com est censé être invisible pour Google. Son robots.txt avait une directive Disallow /. Mais je ne veux pas du tout que le traitement du serveur continue à www.example.com.

Le site principalwww.example.com/robots.txt pointe sur api.example.com/sitemap.xml (le plan du site nécessite un traitement).

Le problème est que la console de recherche de Google se plaint que le fichier sitemap.xml soit bloqué par le fichier robots.txt ... Je suppose qu'il lit les robots sur api.domain.com. J'ai donc essayé de pointer les robots de www vers www.domain.com/sitemap.xml et d'y placer une redirection. Pas de chance.

Il semble donc que je sois obligé de mettre un Allow /sitemap.xml sur le robots.txt de l'api. Google va-t-il s'embrouiller? Est-ce qu'il va essayer d'indexer les URL du sitemap (le sitemap est composé d'URL absolues à 100% pointant vers www.example.com) et de diluer d'une certaine manière l'autorité entre les deux domaines? api.example.com n'est pas enregistré en tant que propriété sur la console de recherche.

Tony Hsieh · Answer

Tout d'abord, vous devez enregistrer api.domain.com dans la console de recherche Google (GSC). Cela vous permettra de voir combien de pages de ce sous-domaine sont indexées par Google.

Vous pouvez également utiliser GSC pour bloquer complètement api.domain.com auprès de Google si vous le souhaitez. (en fonction de la situation, cela n'est pas recommandé)

Si vous ne voulez pas qu'api.domain.com soit indexé, il ne devrait pas y avoir de sitemap pour commencer. En outre, vous ne devriez inclure aucun des sites api.domain.com dans le site www. plan du site de la version.

En d'autres termes, Google va être dérouté parce que vous dites à Google de ne pas accéder à l'API. site, tout en fournissant un plan Sitemap qui est censé aider Google à indexer le site.