web-dev-qa-db-fra.com

Contenu approprié pour le fichier robots.txt sur la page de maintenance du serveur?

Je sais que l'en-tête de réponse du serveur approprié doit être 503 Service Unavailable pour que les robots de recherche sachent qu'ils ne doivent pas indexer les pages comme Mise à jour en cours et Maintenance du serveur =. Mais quel est le contenu approprié pour le robots.txt sur ces pages?

Dans ma configuration, la page de maintenance n'est pas une sous-page d'un site. J'ai la page de maintenance en tant que site Web dédié dans la configuration du serveur. J'y ajoute des liaisons lorsque je mets hors ligne le site d'origine. Recommanderiez-vous un fichier robots.txt, User-agent: * Disallow: / ou le même fichier robots.txt que le site Web d'origine?

1
Alph.Dev

vous configurez la page 503 avec la configuration de votre serveur (Apache → htaccess), comme

RewriteRule .* http://example.com/maintenance.html [R=503,L]

ou

ErrorDocument 503 /maintenance.html

La page http://example.com/maintenance.html doit être définie sur noindex car, dans le cas contraire, elle apparaît dans l'index. Mais il devrait rester explorable - pas d’exclusion rampante avec

disallow: /maintenance.html,

car, dans ce cas, Google n'a pas pu lire la règle noindex.

1
Evgeniy

robots.txt est conçu pour empêcher les moteurs de recherche d'accéder aux pages, mais pour les pages de maintenance de serveur, si le temps de maintenance est court (moins de quelques heures, par exemple), je ne m'inquiéterais pas de la modification du fichier robots.txt. continuer avec la maintenance.

Les sociétés de moteur de recherche ne sont intéressées que par l'indexation des URL qui renvoient un code d'état 200 (ce qui signifie que la page est bonne et qu'elle contient du contenu que les gens veulent voir). Si vos pages continuent à afficher le statut 503, il est probable qu'elles ne seront plus indexées.

Je suggérerais seulement de forcer une noindex sur des pages qui n'offrent jamais de valeur au public.

1
Mike