Plutôt bêtement, j'ai développé mon site sur un serveur en direct (avec VCS, ne vous inquiétez pas), en quelque sorte en l’utilisant comme un portfolio/élément de démonstration. C'est loin d'être fini.
Récemment, j'ai remarqué que Google commençait à l'utiliser, y compris certaines des données de débogage accessibles sur le site car elles étaient en mode "débogage". Je ne suis pas sûr des effets à venir sur mon site lors de sa publication définitive, en particulier parce que certaines pages sont erronées pendant mon développement et que des données gobbledygook/dummy/blank sont présentes sur quelques pages.
En ce qui concerne le référencement, quelles sont les meilleures mesures à prendre pour ne pas encourir de pénalité Google actuelle ou future? Une chose à laquelle je pensais était de ne pas autoriser le spider dans le fichier robots.txt, d’afficher une page de garde, puis de créer un sitemap décent lorsque le site redeviendrait actif.
Quoi qu'il en soit, je vais configurer un domaine de développement quelque part, mais j'aimerais connaître le moyen le plus sûr de le migrer.
Je ferais deux choses:
Vérifiez votre site dans Google Webmaster Tools et demandez la suppression de votre site complet. N'oubliez pas de l'annuler lorsque vous êtes prêt :-). N'oubliez pas que cela ne durera que 90 jours. Il vous faudra donc peut-être redemander le retrait du site à ce moment-là.
Renvoyez 403 (utilisez l'authentification HTTP) pour toutes les URL de votre site de développement, y compris le fichier robots.txt. Le renvoi de 403 pour le fichier robots.txt empêchera l'exploration du site. Vous n'avez donc pas besoin de le bloquer dans le fichier robots.txt (utilisez le fichier normal robots.txt que vous utiliseriez pour rendre le site public). .
L'utilisation de l'authentification HTTP sur un fichier robots.txt interdit est notamment motivée par le blocage du site par tous les autres visiteurs et par la difficulté accrue à la publication accidentelle d'un fichier robots.txt avec une interdiction complète :). Ce dernier est arrivé trop souvent, même à de très grands sites.
Tout d’abord, comme conseil général, je suggère de placer tous les fichiers dans un sous-dossier que vous seul saurez connaître. Par exemple, si vous avez le domaine example.com
mettez tout votre fichier dans example.com/private
. Si Google commence à explorer votre site Web et commence à les indexer, vous paierez un peu plus tard une pénalité à cause du fait que certaines pages n'existeront plus (généralement les pages de test).
En outre, comme vous l'avez dit, il est judicieux d'utiliser le fichier robots.txt pour exclure la même (ou toutes les) pages de l'indexation. Quoi qu'il en soit, cette astuce est plus utile maintenant que si vous utilisiez le dossier privé, comme je le suggère. Gardez à l'esprit qu'un bon fichier robots.txt est un bon moyen d'exclure des pages, mais pas le meilleur. Enfait, si un "bon" robot comme Google, Yahoo, etc. respectera votre volonté, les "pervers" utiliseront ces informations pour récupérer certaines de vos données (peut-être privées).