Je sais que l'en-tête de réponse du serveur approprié doit être 503 Service Unavailable
pour que les robots de recherche sachent qu'ils ne doivent pas indexer les pages comme Mise à jour en cours et Maintenance du serveur =. Mais quel est le contenu approprié pour le robots.txt sur ces pages?
Dans ma configuration, la page de maintenance n'est pas une sous-page d'un site. J'ai la page de maintenance en tant que site Web dédié dans la configuration du serveur. J'y ajoute des liaisons lorsque je mets hors ligne le site d'origine. Recommanderiez-vous un fichier robots.txt, User-agent: * Disallow: /
ou le même fichier robots.txt que le site Web d'origine?
vous configurez la page 503 avec la configuration de votre serveur (Apache → htaccess), comme
RewriteRule .* http://example.com/maintenance.html [R=503,L]
ou
ErrorDocument 503 /maintenance.html
La page http://example.com/maintenance.html
doit être définie sur noindex
car, dans le cas contraire, elle apparaît dans l'index. Mais il devrait rester explorable - pas d’exclusion rampante avec
disallow: /maintenance.html
,
car, dans ce cas, Google n'a pas pu lire la règle noindex.
robots.txt est conçu pour empêcher les moteurs de recherche d'accéder aux pages, mais pour les pages de maintenance de serveur, si le temps de maintenance est court (moins de quelques heures, par exemple), je ne m'inquiéterais pas de la modification du fichier robots.txt. continuer avec la maintenance.
Les sociétés de moteur de recherche ne sont intéressées que par l'indexation des URL qui renvoient un code d'état 200 (ce qui signifie que la page est bonne et qu'elle contient du contenu que les gens veulent voir). Si vos pages continuent à afficher le statut 503, il est probable qu'elles ne seront plus indexées.
Je suggérerais seulement de forcer une noindex
sur des pages qui n'offrent jamais de valeur au public.