Utilisation de liens canoniques pour garder un site hors des résultats de recherche Google

Question

J'ai deux copies d'un site Web, un site en direct sur www.example.com et un site de test sur dev.example.net. (Notez qu'il s'agit d'un sous-domaine d'un domaine parent différent.) Les deux sites ont exactement la même structure d'URL et le même contenu de page, mais un code HTML différent. Je ne veux pas que dev.example.net apparaisse dans les résultats de recherche.

Dans le <head> de chaque page sur dev.example.net, il y a un <link rel="canonical" href="https://www.example.com/PATH"> (c'est-à-dire un lien vers la page équivalente du site que nous voulons que les gens voient). . À mon avis, cela devrait empêcher dev.example.net de figurer dans les résultats de la recherche. Et pourtant, il apparaît constamment. (Une recherche du nom de notre société indique www.example.com en premier résultat et dev.example.net en deuxième.)

Est-ce que je comprends mal ce que je fais ici? Dois-je ajouter des balises noindex aux pages de dev.example.net?

Tim Grant · Accepted Answer

Utilisez noindex pour conserver les pages en dehors de l'index de Google.

Le seul moyen de conserver les résultats en dehors de l'index de Google consiste à utiliser noindex.

Les résultats de recherche de Google (ou de tout moteur de recherche) sont composés d'éléments ayant été indexés , au risque d'être pendants. Google honore plusieurs moyens de les informer en omettant une page de son index. Si vous n'utilisez pas ces méthodes, ne vous inquiétez pas si votre page se retrouve dans les résultats de la recherche.

Donc, la réponse courte est yes , utilisez noindex pour garder les choses en dehors de l'index. Ou mieux encore, tilisez l'en-tête HTTP X-Robots-Tag (voir ci-dessous).

Ne pas utiliser le fichier robots.txt pour cela

robots.txt empêche les pages d'être spidered , un concept lié, mais distinct, à l'indexation. De nombreuses pages non spiderées dotées de backlinks puissants peuvent bien figurer dans les résultats de recherche Google.

Vous en avez peut-être vu, ils ressemblent à l'exemple au bas de cet article de Moz.com .

Google explique :

robots.txt Disallow ne garantit pas qu'une page n'apparaîtra pas dans les résultats: Google peut toujours décider, en fonction d'informations externes comme les liens entrants, qu'elle est pertinente. Si vous souhaitez bloquer explicitement l'indexation d'une page, vous devez plutôt utiliser la méta-balise noindex robots ou l'en-tête HTTP X-Robots-Tag . Dans ce cas, , vous ne devez pas interdire la page dans le fichier robots.txt , car la page doit être explorée pour que la balise soit visible et obéie.

Les URL canoniques n'excluent rien de l'index de Google.

Les URL canoniques indiquent à Google que les pages de renvoi et de renvoi représentent le même contenu, car "consolider les signaux de lien pour le contenu dupliqué ou similaire" - c’est-à-dire qu’elles facilitent le référencement.

Mais pour vraiment générer du trafic depuis une page particulière, Google suggère :

Il est judicieux de choisir l'une de ces URL comme destination préférée (canonique) et d'utiliser les redirections 301 pour envoyer du trafic depuis les autres URL vers votre URL préférée. Une redirection côté serveur 301 est le meilleur moyen de s’assurer que les utilisateurs et les moteurs de recherche sont redirigés vers la bonne page. Le code d'état 301 signifie qu'une page a été déplacée de manière permanente vers un nouvel emplacement.

Mais cette solution 301 ne vous aidera pas, car vous avez besoin que les utilisateurs puissent voir le site dev..

Une note sur les URL canoniques et alternatives

Notez qu'il est parfaitement raisonnable que Google envoie du trafic vers des URL non canoniques. Différentes présentations du même contenu peuvent être appropriées dans différents contextes. Considérez le contenu que vous partagez sur votre site Web "www." Habituel et sur un site "m." Mobile hautement optimisé pour les téléphones. Google peut présenter une version PDF non canonique si l'utilisateur a inclus "PDF" dans son expression de recherche.

Mais pourquoi Google aime-t-il votre site "dev."?

L’algorithme de Google ne s’inquiète pas du fait que votre site dev puisse avoir un contenu non approuvé et que vos utilisateurs non plus. (Peu importe également ce que vous ou vos chefs pensons à ce sujet.)

Voici quelques éléments sur lesquels Google se préoccupe :

Google récompenses fraîcheur du conten . Si votre site de développement change beaucoup plus souvent (ce n’est pas le cas?), Cela peut constituer un signal de référencement positif.
Les internautes ont peut-être découvert votre site dev et y ont créé un lien pour une raison ou une autre.
Si votre site de développement présente des mises à niveau techniques importantes ou génère moins de trafic que votre site de production, il pourrait être plus rapide - et vitesse de Google Rewards .

Pourquoi une solution d'en-tête HTTP serait meilleure pour vous qu'une balise méta

Si vous utilisez la balise HTTP X-Robots pour renvoyer l'instruction noindex, celle-ci peut être configurée sur le serveur Web, mais pas sur vos fichiers HTTP ou autres artefacts. Vous n’avez donc pas besoin de changer quoi que ce soit pour promouvoir les fichiers sur votre site de production.

closetnoc · Answer

Un sous-domaine est un site distinct et peut être traité comme un site.

Il y a deux choses que tu peux faire.

1] Créez un fichier robots.txt à la racine du sous-domaine avec:

User-agent: * Disallow: /

Ce code interdira l'accès à l'ensemble du site.

Voici un lien qui devrait être utile pour comprendre les fichiers robots.txt:

http://www.robotstxt.org/robotstxt.html

2] Si vous le pouvez, il serait sage d’ajouter une méta-balise NoIndex avec:

<meta name="robots" content="noindex">

Ce code empêchera l'indexation de la page.

Voici un lien qui devrait vous aider à comprendre la méta-balise NoIndex:

https://en.wikipedia.org/wiki/Noindex

L'un ou l'autre devrait fonctionner, cependant, si vous pouvez faire les deux sans trop d'effort, cela peut aider. L'option 1 est la plus facile à mettre en œuvre.