web-dev-qa-db-fra.com

Modification du sitemap.xml et du fichier robots.txt après le passage de http à https

Je migre entièrement d'un site Web de http à https, toutes les URL http auront des redirections 301 vers leurs homologues https.

De https://support.google.com/webmasters/answer/6033049

Nous référençons nos sitemaps HTTP dans le fichier robots.txt. Devrions-nous mettre à jour le fichier robots.txt pour inclure nos nouveaux plans Sitemap HTTPS?

Nous vous recommandons de séparer les fichiers robots.txt pour HTTP et HTTPS, en pointant vers des fichiers de sitemap distincts pour HTTP et HTTPS. Nous vous recommandons également de répertorier une URL spécifique dans un seul fichier sitemap.

Quelles URLs devrait figurer dans nos sitemaps si nous avons des redirections (de HTTP à HTTPS ou inversement)?

Répertoriez toutes les URL HTTP de votre sitemap HTTP et toutes les URL HTTPS de votre sitemap HTTPS, quelles que soient les redirections effectuées lorsque l'utilisateur visitait la page. Le fait d’avoir des pages répertoriées dans votre sitemap sans tenir compte des redirections aidera les moteurs de recherche à découvrir plus rapidement les nouvelles URL.

De cela, je suppose que les éléments suivants devraient être corrects:

  1. http://example.com/robots.txt devrait exister et comporter une directive Sitemap pointant vers l'ancien sitemap.xml avec les URL http.

  2. https://example.com/robots.txt devrait exister et avoir une directive Sitemap pointant vers le nouveau sitemap.xml (appelé peut-être quelque chose comme sitemap_https.xml) avec des URLs https identiques à l'ancien ceux mais ont https au lieu de http.

Mais une lecture plus poussée des directives de Google montre une autre approche qui contredit celle-ci (ou peut-être ai-je simplement mal compris quelque chose?)

De la réponse https://support.google.com/webmasters/answer/603308 :

Mettez à jour vos fichiers robots.txt:

  • Sur le site source, supprimez toutes les directives robots.txt. Cela permet à Googlebot de découvrir toutes les redirections vers le nouveau site et de mettre à jour notre index.

  • Sur le site de destination, assurez-vous que le fichier robots.txt autorise toutes les analyses. Cela inclut l’exploration d’images, CSS, JavaScript et d’autres ressources de la page, à l’exception des URL pour lesquelles vous êtes certain de ne pas vouloir être explorées.

Sur le site de destination, soumettez les deux plans Sitemap que vous avez préparés précédemment et contenant les anciennes et les nouvelles URL. Cela aide nos robots d'exploration à découvrir les redirections des anciennes URL vers les nouvelles, et facilite le déplacement du site.

Voici comment je comprends cette approche:

  1. http robots.txt devrait exister et ne pas contenir de directives (être vide).

  2. le fichier robots.txt https doit exister et comporter deux directives Sitemap, une vers l'ancien sitemap.xml et l'autre vers le nouveau sitemap_https.xml.

Peut-être que "soumettre les deux sitemaps" signifie autre chose que de les lister dans le fichier robots.txt? Vous aimez utiliser la console de recherche ou quelque chose? Cela ne clarifie pas, il suffit de "soumettre" ...

En outre, le point 1 de cette approche est en contradiction avec le point 1 de la première approche.

3
Vilial

La première approche est la bonne. Nous avons migré avec succès un site Web à fort trafic et classements de HTTP à HTTPS. L'approche basée sur les directives de Google était la suivante:

  1. Toutes les URL HTTP effectuent une redirection 301 permanente vers HTTPS.

  2. http://www.example.com/robots.txt redirigerait vers la version HTTPS https://www.example.com/robots.txt

  3. Le nouveau plan du site doit comporter tous les liens HTTPS.

Voici un bon message de Google à ce sujet:

https://plus.google.com/+JohnMueller/posts/PY1xCWbeDVC

4
DhruvPathak

Si vous conservez HTTP et HTTPS et ne prévoyez pas de tout rediriger vers HTTPS, le conseil de Google est peut-être logique. Mais à part ça, cela me semble un conseil étrange.

Vraisemblablement, vous souhaitez éventuellement tout transférer vers HTTPS, vous devez donc utiliser les URL HTTPS dans la mesure du possible. Votre fichier robots.txt afficherait le lien de votre plan Sitemap HTTPS sur http://example.com/robots.txt et https://example.com/robots.txt. De même, pour le sitemap, les URL HTTPS des deux versions sont affichées.

C’est beaucoup plus facile d’un point de vue technique et cela va donner la priorité aux URL HTTPS dans Google.

2
DisgruntledGoat