Il y a quelques semaines, nous avons découvert que Google avait indexé certaines informations que nous préférerions garder confidentielles, sous la forme de fichiers PDF individuels. Notre hypothèse était qu'il s'agissait d'un problème avec notre fichier robots.txt que nous avions négligé. Même si nous ne savons pas si c'est le cas ou non, nous sommes certains que le fichier robots.txt est dans un format valide et qu'il bloque les fichiers, selon les outils pour les webmasters de Google.
Cependant, même après cet ajustement effectué il y a quelques semaines, Google a toujours les fichiers PDF indexés, mais nous indique que des informations supplémentaires ne peuvent pas être fournies en raison de la présence du fichier robots.txt. Comme vous pouvez l'espérer, il s'agit d'un comportement indésirable en raison de la nature des documents. Je suis conscient du fait qu'une page de demande est fournie par Google à cette fin, mais il existe un lot de fichiers. Existe-t-il un moyen plus simple d’obliger Google à supprimer tous les fichiers de son moteur de recherche? Sinon, y a-t-il autre chose que vous puissiez nous conseiller de faire, à part demander manuellement à Google de supprimer chaque page?
Comme mentionné dans les commentaires, robots.txt ne bloque que l’exploration de fichiers, il ne les supprimera pas des SERP.
Pour supprimer les fichiers PDF des SERP, ajoutez un X-Robots-Tag: noindex dans l'en-tête HTTP utilisé pour servir le fichier. Ils disparaîtront avec le temps si vous utilisez X-Robot-Tag avec la directive noindex ou, comme indiqué, vous pouvez accélérer le processus processus de suppression dans GWT . Cependant, si vous supprimez GWT, vous n'avez pas besoin d'ajouter le X-Robots-Tag s'ils sont déjà bloqués dans le fichier robots.txt.
Vous pouvez inclure une balise méta, à savoir pas d’index, pas de suivi ou bien vous pouvez exclure avec interdire avec les robots. SMS.