web-dev-qa-db-fra.com

Comment se comportent les moteurs de recherche lorsqu'ils rencontrent noindex?

J'ai une question sur le comportement des moteurs de recherche lorsqu'ils rencontrent meta name="robots" content="noindex"

Si j'utilise le format de balise meta des robots, je sais que les moteurs de recherche n'indexeront pas le contenu de la page.

Ce que je ne sais pas, c'est si cela empêche également l'URL d'apparaître dans les résultats de recherche, ou tout simplement ce contenu particulier avec cette URL.

Je me demande également si le moteur de recherche de Google pensera qu'il ressemble à un camouflage et pénalisera en conséquence.

Quelques antécédents:

  • Nous construisons une nouvelle version d'un site que nous publions dans le cadre d'un déploiement bêta progressif.
  • Les URL seront les mêmes entre l'ancien et la version bêta. Ce que vous voyez dépend de votre choix de participer ou non à la version bêta.
  • Initialement, ce sera une version bêta privée, mais son lancement sera limité (par exemple, 20% des utilisateurs publics)
  • Les utilisateurs optent automatiquement pour le nouveau site lorsqu'ils y accèdent (avec la possibilité de revenir à l'ancien site s'ils le souhaitent)
  • Nous voulons que l'ancien site soit toujours indexé par Google, etc., mais pas le nouveau

https://support.google.com/webmasters/answer/93710?hl=en dit ceci:

Lorsque Googlebot explore cette page, Googlebot verra la balise META noindex et supprimera cette page entièrement des résultats de la recherche Google, que les autres sites y lient ou non.

J'ai lu un certain nombre de choses, mais rien qui me dit catégoriquement si le contenu ou l'URL est ignoré.

1
Dawn

Ce que je ne sais pas, c'est si cela empêche également l'URL d'apparaître dans les résultats de recherche, ou tout simplement ce contenu particulier avec cette URL.

Si vous avez une balise noindex robots, l'URL ne doit pas apparaître dans les résultats de la recherche. (Il convient toutefois de noter que si vous bloquez l'exploration de cette URL, par exemple avec le fichier robots.txt, alors Google ne pourra pas pour voir la balise meta noindex et votre page pourrait toujours apparaître dans les SERPs comme un résultat de lien uniquement. Voir ma réponse à cette question: Google indexe les pages avec une balise meta robots "noindex" robots )

... mais rien qui me dit catégoriquement si le contenu ou l'URL est ignoré.

Rien n'empêche Google de explorer la page (car elle peut toujours suivre les liens), mais elle ne sera pas indexée. Vous ne savez pas exactement comment vous différenciez l'URL et le contenu de cette URL? Si l'URL est "ignorée" dans les SERP, alors évidemment le contenu de cette page est également ignoré. Sauf si ce contenu apparaît également sur une autre URL. (?)

se demandant si le moteur de recherche de Google pensera qu'il ressemble à un camouflage et pénalisera en conséquence.

Si 80% de vos utilisateurs voient toujours le même contenu que Google voit lors de l'exploration de votre site, je pense que vous seriez d'accord.

De toute évidence, si 50% et plus de vos utilisateurs voient le contenu bêta, et Google ne le fait pas, alors l'index de Google devient très trompeur pour les utilisateurs qui recherchent, il serait donc compréhensible que vous soyez pénalisé dans ce cas.

3
MrWhite

Dans la base de données Google, la table la plus importante du schéma est la table de document qui héberge l'URL et l'ID du document. Toutes les autres tables de base de données et éléments de données en dépendent entièrement. Bien qu'il existe un identifiant de document unique (permet une taille d'index plus petite), l'URL identifie de manière unique une page car il ne peut pas y avoir deux pages sur une URL donnée. Cependant, il peut parfois y avoir deux URL pour une page donnée. Mais cela ne devrait pas être un problème si la page elle-même est marquée noindex. Aucun soucis à se faire ici.

Si vous n'indexez pas une page, l'URL n'est pas répertoriée dans le tableau du document et il n'y a aucune autre activité liée à cette page. Cela inclut le stockage de contenu.

Les liens sont une autre affaire.

Lorsqu'un lien est trouvé, l'URL cible peut potentiellement apparaître dans les SERP pendant une période. Si vous ne souhaitez pas que l'URL cible apparaisse dans les SERP, il est préférable de marquer le lien comme nofollow et noindex. Une URL cible peut apparaître dans les SERP lorsque le lien est découvert pour la première fois. Je soutiens que cela ne devrait pas se produire, mais Google soutient fermement que cela devrait se produire. Google a tout simplement tort sur celui-ci. Désolé G! Les URL résultant d'un lien pendant ne doivent pas apparaître dans les SERP si vous n'avez pas indexé le contenu de cette page. Période.

Ce qui se passe est le suivant. Une URL est découverte et entrée dans la table de documents et reçoit un identifiant de document unique. Dans la table des liens, les références sont généralement faites à la page source du lien et à la page cible à l'aide de l'ID du document. Si Google n'a pas encore indexé la page cible, la référence à la page cible est laissée vierge dans le tableau des liens. C'est ce qu'on appelle un lien pendant. Normalement, lorsque la page cible est indexée, la référence à la page cible est faite dans la table des liens. Cependant, étant donné que vous avez marqué la page noindex, l'URL des pages est supprimée de la table de document et la référence à la page cible n'est jamais créée dans la table de liens. Cependant, Google garde une trace du lien pour l'avenir.

C'est en théorie selon la façon dont Google décrit à l'origine le processus. Je soupçonne plutôt que cela a été quelque peu modifié mais reste suffisamment similaire pour que cette description en vaille la peine.

Le mieux est de marquer tout lien vers la nouvelle section de votre site comme nofollow et noindex ainsi que la page comme noindex. De cette façon, rien de ce que vous craignez ne se produit, même pendant une courte période. Mieux encore, si vous avez la possibilité de créer un processus de connexion pour le nouveau site, cela garantirait absolument que vos pages ne soient pas indexées. Je ne ferais cela que si vous avez déjà un identifiant pour vos utilisateurs, sinon, ce serait plus de travail que nécessaire.

En ce qui concerne le camouflage. Google vérifie le masquage en utilisant d'autres réseaux que le leur. Ils vont frapper une page et la comparer à ce qui a été indexé. Généralement, ces deux accès sont proches l'un de l'autre pour garantir que les pages ne sont pas modifiées et que les sites sont pénalisés innocemment.

Ce dont vous devez vous préoccuper, c'est si Google et les utilisateurs voient des pages différentes pour une URL donnée. Si tel est le cas, vous pouvez avoir des ennuis.

La plupart des sites bêta sont gérés sur un sous-domaine ou un sous-répertoire ou d'une certaine manière où l'URL est modifiée, comme un paramètre supplémentaire qui serait suffisant. Il se peut que vous deviez repenser un peu le processus. Un simple changement ou ajout de paramètres devrait suffire. Je suppose également qu'un bouton d'opt-in pourrait être déployé et un cookie ajouté ou mis à jour qui est vérifié avant de présenter la page. Cela peut également fonctionner.

1
closetnoc