Googlebot utilise-t-il hreflang pour la découverte de liens?

Question

Est-ce que quelqu'un sait si Googlebot suivra et indexera les pages Web qui ne figurent que dans la head d'une page HTML avec un élément link-hreflang?

<link hreflang="fr" rel="alternate" href="http://example.io/fr/page/webpage" />

Mike · Answer

Comme le dit closetnoc, l'activité principale de Google consiste à rechercher et à explorer des liens dans l'espoir que des pages de qualité soient renvoyées et, le cas échéant, indexées.

Par conséquent, sauf si vous indiquez explicitement à Google de ne pas indexer une page donnée, tout sera analysé. Voici quelques moyens d'empêcher Google d'indexer des pages que vous ne souhaitez pas indexer.

Supposons que la page que vous ne souhaitez pas indexer dans google soit dontindexme.php dans la racine du document.

La méthode la plus agréable pour rendre un fichier non indexable sur Google, mais une méthode qui aide les pirates à en savoir plus sur les fichiers publics sur votre site consiste à créer un fichier robots.txt (un fichier également accessible au public) dans le répertoire racine du document avec le contenu suivant:

User-agent: googlebot Disallow: /dontindexme.php

Une autre méthode consiste à modifier la configuration Apache pour ajouter des en-têtes HTTP. Vous pouvez également modifier le script pour inclure également les en-têtes HTTP. L'en-tête HTTP que vous voulez afficher lorsque le fichier demandé est:

X-Robots-Tag: noindex

Bien que cette méthode n'empêche pas Google de commencer la récupération de page, elle lui demandera de ne pas publier la page dans ses résultats de recherche.

Maintenant, si vous voulez vraiment empêcher Google d'explorer une URL particulière, vous pouvez configurer votre script ou Apache afin que le résultat renvoyé à Google n'ait pas le statut 200 OK. Cela signifie que vous pouvez retourner une page Introuvable. Mais si vous choisissez cette route, attribuez un statut 410 pour indiquer que la page est passée à Google et que Google ne l'indexera plus jamais.

Une autre chose que Google ne voudrait pas explorer sont les liens uniquement accessibles via la méthode de requête POST. Cela signifie accéder à une URL après avoir rempli un formulaire. En effet, Google ne souhaite pas être trop interactif sur votre site Web (par exemple, vous connecter ou magasiner).

Sauf si vous effectuez l'une des actions ci-dessus sur une page qui n'est pas censée être indexée, supposez simplement que Google va explorer et indexer la page.

Kohjah Breese · Answer

J'ai ajouté les attributs href-lang au site et sept jours plus tard, aucune des nouvelles pages de langue n'a été indexée. Google a parcouru 100 000 pages depuis.

Ankush Mahajan · Answer

Oui, Google Crawler indexera les pages hreflang et les comptera comme une page unique pour votre site Web.