Pourquoi Google signale-t-il que les fichiers CSV sont "soft 404"?

Question

J'ai quelques centaines d'erreurs soft 404 signalées dans la console de recherche Google. Ils sont presque tous destinés à des fichiers CSV contenant des données. Par exemple, voici la réponse HTTP pour l'un d'entre eux:

HTTP/1.1 200 Content-Disposition: attachment; filename="fewer-bank-failures.csv" Content-Length: 116 Content-Type: text/csv; name="fewer-bank-failures.csv";charset=UTF-8 Date: Thu, 01 Feb 2018 11:32:56 GMT Server: Apache Connection: keep-alive "",Bank Failures 2000,2 2001,4 2002,11 2003,3 2004,4 2005,0 2006,0 2007,3 2008,25 2009,140 2010,157 2011,92 2012,51

Pourquoi Google indique-t-il qu'il s'agit d'un 404 logiciel? J'ai généralement vu soft 404 parce que:

Vous avez le statut "200 OK" mais dites "introuvable" dans la page
Vous redirigez vers la page d'accueil
La page est vide

Je n'arrive pas à comprendre pourquoi Google penserait que ce fichier CSV indiquerait une erreur introuvable.

Je comprends d'autres raisons pour lesquelles Google pourrait ne pas vouloir indexer ce contenu:

C'est une pièce jointe de téléchargement plutôt qu'une page
CSV ne serait pas la meilleure expérience de page de destination
Le contenu est en double - nous avons une page HTML avec les mêmes données, y compris un graphique.

Je m'attendrais à ce que Google choisisse de ne pas indexer la page pour l'une de ces raisons, mais je suis complètement surpris qu'ils l'appellent un "soft 404".

Que puis-je faire pour dire à Google que la page est réelle? L'utilisation d'un en-tête HTTP Link: <https://example.com/fewer-bank-failures.html>; rel="canonical" vous serait-elle utile?

DocRoot · Answer

Eh bien, cela tombe dans les domaines de définition de Google d'un soft 404 (soulignant le mien):

Un soft 404 signifie qu'une URL sur votre site renvoie une page indiquant à l'utilisateur que la page n'existe pas ainsi qu'un code de niveau 200 (succès) au navigateur. (Dans certains cas, au lieu d'une page "introuvable", il peut s'agir d'une page avec peu ou pas de contenu utilisable - par exemple, page remplie ou vide.)

Donc, à partir de cette "définition", vous ne pouvez pas vraiment dire que ce n'est pas un soft 404.

Que puis-je faire pour dire à Google que la page est réelle?

Mais le fichier .csv est-il une "vraie page"? C'est un fichier qui est disponible au téléchargement à partir de la "page réelle". Vous pouvez essayer de définir un en-tête de réponse HTTP rel="canonical" Link: (comme vous le suggérez), mais il peut simplement être ignoré, car ce n'est pas dupliquer ni indexé (c'est ce que la balise rel="canonical" est généralement utilisée pour résoudre). Cependant, il n'y aurait aucun mal à le faire.

Étant donné que Google considère déjà ces fichiers "soft-404", ils ne seront de toute façon pas indexés. Vous pouvez simplement bloquer l'analyse avec robots.txt (comme @closetnoc le suggère dans les commentaires) pour gagner du temps et supprimer l'avertissement.

Vous pouvez également envoyer un en-tête de réponse HTTP X-Robots-Tag: noindex pour bloquer simplement l'indexation (tout en permettant à la ressource d'être analysée).

À la fin de la journée, l'avertissement "soft-404" est simplement une info de Google. Si Google considère qu'il n'y a "pas de contenu utilisable", il ne sera pas indexé, que Google vous le dise ou non. Vous ne pouvez donc rien faire d'autre que supprimer l'avertissement dans GSC.

Michael d · Answer

Il semble que cela relève de la description liée par Google d'un 404 logiciel par @Docroot. Je pense que dans une situation comme celle-ci, même si nous savons que ces fichiers CSV ne valent pas la peine d'être indexés, nous ne voulons peut-être pas empêcher Google de les analyser, car nous ne voulons pas masquer le contenu de Google afin que Google ne le fasse pas. Je pense qu'il y a quelque chose de trompeur sur le site.

Je ne suis pas sûr de trouver une solution à ce problème, mais voici quelques solutions possibles:

Peut-être que l'utilisateur télécharge les fichiers csv via Javascript plutôt que par un lien suivi. Google sera moins susceptible d'explorer les URL Javascript et sera plus susceptible de voir ces URL sous forme de requêtes de serveur plutôt que de pages de destination réelles. Bien qu'il soit judicieux d'autoriser Google à analyser ces fichiers CSV, il n'est également pas utile de leur transmettre du jus de liaison. Javascript pourrait remédier à cela.
Vous pouvez peut-être utiliser un autre statut d'en-tête, mais je ne suis pas sûr que ce soit possible.
Je ne pense pas qu'il soit possible de définir un statut NOINDEX NOFOLLOW dans un fichier csv, mais c'est quelque chose à penser. S'il existe un moyen de dire à Google de ne pas indexer ces pages, ce serait mieux que d'interpréter tous ces liens en tant que soft 404.