Mon site WordPress, pas beaucoup de contenu énorme. Problème récent de la bande passante CPU élevée. En quelques secondes, il devient 100% et le serveur tombe en panne. Après une énorme analyse, j'ai trouvé dans la console de recherche Google leur statut indexé d'environ 2,64,023. Et les paramètres d'URL où les URL surveillaient plus de 24 981 662 paramètres individuels. C'est fou. Option de filtrage utilisée. Après avoir découvert le problème noindex
ceux du plug-in Yoast, éditez les paramètres. Mais pas de changement dans le statut de l'index. Cela augmente de jour en jour. Donc, je veux no-index
ces paramètres de manière permanente à partir de Google Search Console et je souhaite également le supprimer. Comment puis-je le faire via un fichier .htaccess? Cela diminuera sûrement le nombre total indexé à partir de Google Search Console.
Voici les paramètres d'URL indexés de la console de recherche Google:
Il semble que vous devriez probablement bloquer ces URL (avec leurs paramètres) dans votre fichier robots.txt
, afin d'empêcher les robots des moteurs de recherche (Googlebot) d'explorer ces URL en premier lieu. Par exemple, pour bloquer toutes les URL contenant des chaînes de requête:
User-agent: *
Disallow: /*?
Dans Google Search Console (anciennement Webmaster Tools), vous pouvez également indiquer explicitement à Google comment gérer chaque paramètre d'URL. Sous Explorer> Paramètres d'URL. Par exemple, votre paramètre filter_display
peut être défini comme suit:
Comment puis-je le faire via un fichier .htaccess?
Vous avez mentionné dans des commentaires que ces paramètres d'URL ne sont "pas importants". Cependant, ils semblent fournir certaines fonctionnalités utilisateur (par exemple, filtrage, tri, ...)? Dans ce cas, vous ne souhaiterez probablement pas utiliser .htaccess
. En utilisant .htaccess
vous pouvez canoniser l'URL et rediriger les URL avec ces paramètres d'URL. Cela supprimerait complètement ces paramètres d'URL de votre site - ce qui pourrait même casser les fonctionnalités de votre site?
PDATE: Votre fichier robots.txt
(copié des commentaires):
User-agent: * Disallow: /*? User-agent: * Disallow: / User-agent: Googlebot Disallow: User-agent: * Allow: /wp-content/uploads/ Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/ Disallow: /images/ Disallow: /wp-content/ Disallow: /index.php Disallow: /wp-login.php
Cela ne fonctionnerait pas comme prévu. Vous avez des groupes en conflit. c'est à dire. Trois groupes qui correspondent tous à User-agent: *
. Les robots ne traitent qu'un seul bloc de règles. Le bloc qui correspond est celui qui correspond au "plus spécifique" User-agent
. Le bloc User-agent: *
correspond à tous les robots qui ne correspondent à aucun autre bloc. À partir de ces règles, Googlebot va simplement explorer tout (sans restriction), y compris tous vos paramètres d'URL - si cela pose des problèmes à votre serveur (comme vous le suggérez), Ce n'est pas ce que tu veux. Et à partir de ces règles, je devinerais que tous les autres robots correspondront au premier User-agent: *
(Mais, même si vous adoptiez un raisonnement différent et supposiez que plusieurs blocs pourraient être traités, cela n'aurait aucun sens ...?)
Selon vos besoins, ceci devrait être écrit quelque chose comme:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /wp-content/uploads/
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
Disallow: /images/
Disallow: /wp-content/
Disallow: /index.php
Disallow: /wp-login.php
Disallow: /*?
Je suppose que, s’il s’agit d’un site WordPress, vous ne voulez même pas que Googlebot explore partout ?
A partir de ces règles, tous les autres (bons) robots sont empêchés d'explorer votre site.