Je développais une nouvelle version de notre site sur un sous-domaine (dev.oursite.com
) et le robots.txt avec le Disallow
a été remplacé à un moment donné, le site a donc été indexé par Google et les autres moteurs de recherche. Les résultats ne sont pas très élevés, mais le contenu est en double et je préférerais qu'il ne soit pas là.
Le sous-domaine est maintenant parti et j'ai un 301 qui redirige chaque page de dev.oursite.com/page-name
vers http://oursite.com/page-name
.
Dois-je faire quelque chose pour que le site dev ne soit plus visible dans Google? Va-t-il disparaître tout seul par la suite?
Consultez l'outil de suppression d'URL dans les outils pour les webmasters de Google. Je voudrais aussi 404 les pages au lieu de les rediriger pour les supprimer plus rapidement, à l'avenir robots.txt vous pourriez déposer dans le rel="canonical"
pour vous assurer que Google sait que le site de développement est juste une copie du site principal et ne doit pas être indexé.
Je suis toujours préoccupé par le fait que les sites de développement deviennent indexés. Je ne fais pas confiance à robots.txt ou meta noindex
, pendant que je les utilise, je protège également les sites par mot de passe si cela ne gêne pas. Mais une autre option consiste à utiliser . Htaccess et à refuser l'accès à tout le monde, à l'exception des droits de propriété intellectuelle au sein de votre entreprise, ainsi qu'à vos collègues et aux développeurs. Il suffit d'ajouter leur classe C.
En plus de la réponse correcte fournie par Joshak, je voudrais vous donner un conseil sur la façon dont cela peut être évité.
Ce que j'ai fait pour résoudre exactement le même problème est de forcer le fichier robot.txt dans la définition Apache httpd du serveur virtuel. De cette manière, il est impossible que le "refus" puisse disparaître ou être modifié par un code du site Web en développement. Mes définitions de vhost ressemblent toutes à ceci:
<VirtualHost *:80>
DocumentRoot /var/www/html/Hosting/test.example.com/newsite.com
ServerName newsite.com.test.example.com
ServerAlias *.newsite.com.test.example.com
UseCanonicalName on
RewriteEngine on
RewriteRule ^/robots.txt /var/www/no-indexing-robots.txt [NC,L]
</VirtualHost>