J'essaie d'analyser le fichier . Htaccess d'un site Web, en particulier le code suivant:
<FilesMatch ".pdf$">
<IfModule mod_headers.c>
Header set X-Robots-Tag "noindex, noarchive, nosnippet"
</IfModule>
</FilesMatch>
Il est censé noindex tous les PDF du site Web.
Cependant, les fichiers PDF sont toujours là et fonctionnent, et j'en suis sûr car:
Comment est-ce possible? Mon hypothèse est qu'il y a un conflit dans le code . Htaccess .
Le robots.txt
fichier:
User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /web_service/
Disallow: /wp-admin/
Disallow: /xmlrpc.php
Sitemap: https://www.example.com/sitemap.xml
Votre en-tête ne parvient pas à vos documents. J'ai essayé curl --head 'https://www.aurigaspa.com/wp-content/uploads/Top-Banking-Trends-for-2019-and-How-Banks-Need-to-Prepare-White-Paper-Auriga.pdf'
curl est un programme en ligne de commande. Vous pouvez l'exécuter vous-même après SSHing sur votre serveur, ou vous pouvez le télécharger et l'installer sur votre ordinateur personnel.
Je suppose que mod_headers
n'est pas installé ou n'est pas activé. Vous avez la condition <IfModule mod_headers.c>
dans vos règles. Cela entraînera le silence de votre directive si mod_headers n'est pas installé ou activé.
Je suggère de changer votre .htaccess en:
<FilesMatch ".pdf$">
Header set X-Robots-Tag "noindex, noarchive, nosnippet"
</FilesMatch>
Cela pourrait rendre votre site Web indisponible. Si cela se produit, vous savez que vous devez installer ou activer mod_headers
. Voir Comment installer mod_headers sur ServerFault.