web-dev-qa-db-fra.com

Comment HTTP 418 est-il traité par Google et d’autres, étant donné qu’il ne s’agit pas d’une erreur "réelle"?

Je me demandais si vous savez comment Google et d'autres moteurs de recherche traitent un site Web avec le code de statut HTTP 418 I'm a teapot.

Selon cet article Wikipedia , il peut être utilisé comme code d'erreur du client (4xx). Je voudrais utiliser ce code d'erreur pour un site Web Easter Egg, qui devrait néanmoins être trouvé par les moteurs de recherche.

Selon ce article de blog vieux de 4 ans , le statut 418 sera ignoré par Google. Avez-vous des informations plus récentes sur ce sujet? Comment réagissent les autres moteurs de recherche sur le statut 418 (principalement parce qu'il s'agit d'un code 4xx).

8
ssc-hrep3

Si vous utilisez l'outil "Récupérer en tant que Google" dans la console de recherche Google sur une page qui renvoie le statut "418 je suis une théière", il signale simplement une "erreur" et l'indexation ne peut pas être demandée pour cette page.

Dans la capture d'écran ci-dessous, les "erreurs" entourées résultent de la demande d'une page renvoyant un statut 418. Aucune information supplémentaire n'est disponible à ce stade.

Screenshot of Fetch as Google tool showing errors for 418 pages

Selon mon journal d'accès, Googlebot et la console de recherche ont visité cette page, mais celle-ci ne figure pas encore dans l'index.

Juste pour clarifier, ceci est une nouvelle page, non indexée auparavant. Il est lié à une page indexée, qui a également été soumise à nouveau (avec des "pages liées") pour l'indexation - comme le montre la capture d'écran ci-dessus. J'ai également soumis un sitemap XML contenant cette page (bien que le nombre "indexé" ne soit pas encore indiqué - VOIR LA MISE À JOUR CI-DESSOUS ). Pour être honnête, je n’ai pas beaucoup d’espoir - je serais surpris qu’il soit indexé. Non seulement parce que c'est un code 4xx, mais parce que c'est et non un code de succès 2xx.

Normalement, vous pouvez effectuer un test "Récupérer en tant que Google" puis demander à ce que la page soit indexée. Ceci est généralement très rapide ("instantané") pour une seule page - mais cette option n'est pas disponible sur la page ci-dessus.

Selon cet article de blog vieux de 4 ans, le statut 418 sera ignoré par Google.

Par "ignoré", ils signifient qu'il est traité comme un statut 200 OK. (Ce qui n'est pas vraiment pareil qu'être "ignoré" dans mon livre, à moins que cela ne soit littéralement ignoré et que Google ne fasse "rien"?) Le "problème" avec cet article de blog est qu'ils testent une page déjà indexée. De toute façon, renvoyer un état 4xx ne ferait pas forcément disparaître la page de l'index, du moins pas avant un temps considérable (en fonction du taux d'analyse), bien qu'ils aient apparemment attendu "quelques semaines". En outre, ils ne font aucune mention des erreurs d'analyse signalées dans Google Webmaster Tools (depuis lors, elles ont été modifiées pour la console de recherche Google).

ce n'est pas une erreur "réelle"

Ou est-ce? Cela a peut-être été implémenté comme une "blague" au début, cependant, cela indique sans doute un "état d'erreur". Je pense que ce serait plus contradictoire pour un code 4xx de ne pas être traité comme un "état d'erreur". Et c'est toujours "courant". L'original RFC 2324 de 1998 qui définissait ce code d'état avait même été mis à jour en 2014 avec RFC 7168 .

La plupart des outils verront le statut 418 comme une erreur. Ou seulement voir 200 comme un succès. "Apache Log Viewer" et "Screaming Frog SEO Spider" voient certainement le code 418 comme une erreur.

Certains serveurs Web auraient implémenté le code d'état 418:

Stack Exchange utilise même ce code de statut HTTP lors de la détection de violations CSRF:

UPDATE 2017-03-31 (plus de 2 semaines plus tard): La page qui renvoie un code de statut HTTP 418 n'est pas indexée par Google. Le rapport de sitemap XML dans GSC indique désormais que seule une des deux URL soumises dans le sitemap est indexée (une URL renvoie 200 et est indexée, l'autre 418 et n'est pas indexée).

Incidemment, il a fallu près de deux semaines à GSC pour rendre compte de l’état d’index des URL du sitemap, mais cela n’a aucune incidence sur le moment où les pages ont été effectivement indexées. Par exemple, une page était déjà indexée au moment de la soumission du plan Sitemap. Toutefois, si l’on regarde le rapport de plan Sitemap seul, il semble que la page n’a été indexée que 13 jours après la soumission du plan Sitemap.

L'URL qui renvoie un 418 est maintenant signalée comme une "erreur d'analyse" sous Explorer> Erreurs d'analyse. L'icône 418 est indiquée comme code de réponse. Selon le rapport, cela a été "détecté" le 2017-03-16 (le lendemain de la soumission de la demande d'index ci-dessus), toutefois, c'était peu de temps avant que cela soit signalé dans les CSS.

8
MrWhite