Comment Google a-t-il réussi à explorer mes 403 pages?

Question

J'ai eu quelques fichiers privés dans un répertoire sur mon dossier de l'école. Vous pouvez voir que les fichiers existaient en allant dans myschool.edu/myusername/myfolder, mais en essayant d'accéder aux fichiers eux-mêmes via myschool.edu/myusername/myfolder/myfile.html, nous renvoyons une erreur 403.

Et pourtant, Google a réussi à récupérer le contenu de ces fichiers privés et à les stocker dans son cache! Comment est-ce possible? [J'ai depuis supprimé ces fichiers, alors je suis curieux de savoir comment Google a réussi à faire cela.]

Vergil Penkov · Answer

La raison la plus probable est que les pages ne renverront pas d'en-tête 403.

Vous pouvez vérifier cela en utilisant la barre d'outils Web Developer dans Firefox ou Chrome. L'outil se trouve sous "Information" -> "Afficher les en-têtes de réponse".

En outre, la façon dont je crée mes pages d'erreur est la suivante:

Je crée une page d'erreur factice. Disons 403.php.
Je crée une page d'erreur réelle. Par exemple error403.php.
Sur la page d'erreur factice, j'ai mis le code suivant: <?php header("Location: /error403.php",TRUE,301); ?>
Dans mon .htaccess, je mets ce qui suit:

Options -Indexes

ErrorDocument 403 /403.php

Cela ajoute toutes les redirections de manière appropriée et m'assure que mes pages d'erreur contiennent du jus.

Cela peut en fait être étendu de manière extrêmement intéressante si votre site Web dispose d'un moteur de recherche utilisant les requêtes GET.