Redirection HTTP 303 et robots.txt

Question

Sur un site sur lequel je travaille, nous utilisons le modèle de redirection HTTP 303 (voir cet article pour l’arrière-plan ) afin de distinguer les ressources d’information des autres ressources. Ainsi, certaines URL sous _/id_ sont redirigées vers des pages créées dynamiquement sous _/doc_. Ces pages dynamiques sont créées à partir d'une base de données et contiennent des liens vers d'autres ressources _/doc/_. Par conséquent, nous ne souhaitons généralement pas qu'elles soient explorées. Notre fichier robots.txt contient:

_Disallow: /doc _

Cependant, nous souhaitons que les pages non redirigées sous _/id_ soient indexées par Google et autres:

_Allow: /id _

Donc, la question que j’ai à laquelle je ne trouve pas de réponse à ce jour est la suivante: si une page autorisée _/id_ redirige vers une page _/doc_, sera-t-elle toujours bloquée par robots.txt ?

Si c'est le cas, tout va bien, mais sinon, je vais interdire toutes les ressources _/id_ du fichier robots, car avoir le robot d'exploration la db serait pire que de perdre l'indexation de la recherche pour les pages _/id_. .

Anthony Hatzopoulos · Answer

Donc, la question que j’ai à laquelle je ne trouve pas de réponse à ce jour est la suivante: si une page autorisée _/id_ redirige vers une page _/doc_, sera-t-elle toujours bloquée par robots.txt ?

À partir d'un robot ou d'un moteur de recherche qui obéit à un fichier robots.txt : Oui.

Si je mets un lien vers _your.com/id_ ou _your.com/doc_ sur mon propre site Web, Google l'explore, suit la redirection, lit votre robot.txt et interdit son indexation.