Comment puis-je supprimer les anciennes URL que Google a décidé de mettre en cache?
Lorsque nous avons mis en ligne notre nouveau site, nous avons déplacé l’ancien site sur legacy.example.com
afin que notre personnel puisse accéder à l’ancien site. J'imagine que robots.txt n'a pas été mis à jour et Google a donc décidé de le mettre en cache.
Notre DNS ayant une redirection générique, je pense que Google pense peut-être encore que ce site existe, car la navigation vers legacy.example.com
redirige l'utilisateur vers notre page en direct.
J'utiliserais normalement le fichier robots.txt mais legacy.example.com
n'existe plus.
Quelles sont mes options? J'ai validé la propriété legacy.example.com
dans la console de recherche Google. Dois-je modifier mon fichier robots.txt sur mon site actif pour supprimer en quelque sorte legacy.example.com
?
Si vous déplacez l'ancien contenu vers de nouvelles URL où vous ne voulez pas le trouver dans les moteurs de recherche, vous avez quelques options.
Utilisez le fichier robots.txt pour empêcher l’exploration de l’ensemble du sous-domaine. Dans legacy.example.com/robots.txt
mettez:
User-Agent: *
Disallow: /
D'autres réponses suggèrent d'utiliser des redirections 301, mais elles ne me semblent pas appropriées. Les moteurs de recherche n'en ont pas besoin car le contenu n'est pas à son emplacement d'origine. Si vous les implémentez, vous devrez le faire de manière à ce que les employés puissent voir le contenu sans être redirigés.
Je ne recommanderais pas non plus les balises canoniques. Ils pourraient fonctionner correctement s'il y a une correspondance individuelle de pages sur l'ancien site et sur le site actuel. Toutefois, dans la console de recherche, Google indique qu'il ignore les balises canoniques et choisit les URL non canoniques à indexer. Pour mes sites, cela se produit assez souvent, les balises canoniques ne sont donc pas aussi puissantes qu’elles ne l’ont été pour résoudre ce type de problème.
Afin de supprimer legacy.example.com/page des résultats de la recherche et de les afficher comme exemple.com/page, vous devez utiliser des redirections 301 ou des balises rel = canonical.
Si vous redirigez legacy.example.com/page vers example.com/page, example.com/page apparaîtra dans les résultats de la recherche une fois que Google aura exploré les pages de sous-domaine héritées.
Vous pouvez également ajouter une balise rel = canonique à toutes vos pages de sous-domaine héritées, ou à toutes les pages de votre site pointant vers l'URL sans le sous-domaine hérité à exemple.com/page. Cela indiquera à Google de classer vos pages sans le sous-domaine.
À partir de maintenant, vous devrez faire l'une ou l'autre chose, car Google verra ces pages comme du contenu en double et ne saura pas lesquelles classer. La meilleure solution consiste à utiliser l'outil 301 à moins que vous n'ayez besoin des pages de sous-domaine héritées pour une autre raison.
Si ce n'est déjà fait, vérifiez votre site avec Google Webmaster Central. Soyez sûr de très chaque version, qui comprendrait les éléments suivants: - www. - non-www. - https: // non-www (le cas échéant) - https: // www . (le cas échéant)
Maintenant choisissez quel site est votre version préférée 1. Cliquez sur la version préférée de votre site, 2. Cliquez sur les paramètres du site (l'icône ressemble à une boîte de vitesses) 3. Sélectionnez ensuite votre domaine préféré.
Cela devrait permettre d'éviter que ces URL n'apparaissent dans les moteurs de recherche, si certaines des suggestions précédentes, telles que le blocage du sous-domaine à l'aide de robots.txt, étaient implémentées.
Vous pouvez toujours utiliser un outil tel que slack, qui est gratuit, et vous pouvez garder les ressources de l'entreprise disponibles à quiconque peut en avoir besoin, difficiles à conseiller sans en savoir plus.
@StephenOstermiller Voici deux images qui prouvent qu'il est possible de vérifier le domaine et le sous-domaine séparément dans la console de recherche Google:
Sous-domaine: