Sur un site sur lequel je travaille, nous utilisons le modèle de redirection HTTP 303 (voir cet article pour l’arrière-plan ) afin de distinguer les ressources d’information des autres ressources. Ainsi, certaines URL sous _/id
_ sont redirigées vers des pages créées dynamiquement sous _/doc
_. Ces pages dynamiques sont créées à partir d'une base de données et contiennent des liens vers d'autres ressources _/doc/
_. Par conséquent, nous ne souhaitons généralement pas qu'elles soient explorées. Notre fichier robots.txt contient:
_Disallow: /doc
_
Cependant, nous souhaitons que les pages non redirigées sous _/id
_ soient indexées par Google et autres:
_Allow: /id
_
Donc, la question que j’ai à laquelle je ne trouve pas de réponse à ce jour est la suivante: si une page autorisée _/id
_ redirige vers une page _/doc
_, sera-t-elle toujours bloquée par robots.txt ?
Si c'est le cas, tout va bien, mais sinon, je vais interdire toutes les ressources _/id
_ du fichier robots, car avoir le robot d'exploration la db serait pire que de perdre l'indexation de la recherche pour les pages _/id
_. .
Donc, la question que j’ai à laquelle je ne trouve pas de réponse à ce jour est la suivante: si une page autorisée _
/id
_ redirige vers une page _/doc
_, sera-t-elle toujours bloquée par robots.txt ?
À partir d'un robot ou d'un moteur de recherche qui obéit à un fichier robots.txt : Oui.
Si je mets un lien vers _your.com/id
_ ou _your.com/doc
_ sur mon propre site Web, Google l'explore, suit la redirection, lit votre robot.txt et interdit son indexation.