web-dev-qa-db-fra.com

Supprimer le site complet de l'index Google

Je souhaite supprimer le contenu de l'index Google. L'index de Google inclut dans mes sites Web un très grand nombre de pages indexées dans l'index de Google d'environ 5 000 000 pages plus tôt, mais les pages restantes sont 3 025 000.

J'ai fait les choses suivantes mais la suppression de pages est très lente.

robots.txt:

User-agent: *
Disallow: /

.htaccess:

rewriteengine on
rewritecond %{HTTP_USER_AGENT} ^.*Googlebot/2.1.*$
rewriterule .* - [F,L]

Voici le contenu renvoyé à Googlebot lorsqu'il essaie de l'explorer:

HTTP/1.1 410 Gone
Date: Sat, 05 Jan 2013 12:39:23 GMT
Server: Apache/2.2.23 (Unix) mod_ssl/2.2.23 OpenSSL/0.9.8e-fips-rhel5
        mod_fastcgi/2.4.6 mod_jk/1.2.37 mod_auth_passthrough/2.1 mod_bwlimited/
        1.4 FrontPage/5.0.2.2635 PHP/5.3.19
Content-Length: 661
Connection: close
Content-Type: text/html; charset=iso-8859-1

J'avais également utilisé la balise méta HTML noindex, aucun suivi mais aucun effet comme:

<meta name="googlebot" content="noindex,nofollow">

J'avais également soumis pour suppression de site Web, mais la vitesse de suppression du contenu est très lente. Au cours des 35 derniers jours, seules quelques pages ont été supprimées. Mon site Web est également supprimé de l'index de recherche Google, mais Google Webmasters Tools affiche toujours 3 025 000 pages et l'état de l'index. Si je soumets de nouveau le site, les pages déjà indexées s'affichent. Comment puis-je augmenter la vitesse pour supprimer des pages?

7
Vineet1982

.htaccess


  • Je viens de passer la dernière minute à cliquer sur votre site avec mon User-Agent sur Googlebot 2.1 et je n’en ai pas touché un seul. Je ne suis pas un expert en .htaccess, mais êtes-vous sûr que votre règle .htaccess fonctionne correctement à l'échelle du site?

  • F devrait produire un 403 (interdit), et non le 410 votre Fetch généré par Googlebot.

  • Pourquoi dire uniquement à Google que la page est interdite, disparue ou autre chose? Votre meta noindex vous suggèrera d’instruire des moteurs de recherche autres que Google.

Meta Noindex


Vous semblez donner des instructions à des robots spécifiques pour noindex, puis l'annuler en disant à tous les robots de index:

<meta name="googlebot" content="noindex,nofollow">
<meta name="searchbot" content="noindex,nofollow">
<meta name="baidu" content="noindex,nofollow">
<meta name="geo.country" content="IN">
<meta name="robots" content="Index, Follow">


Robots.txt


En fait, votre fichier robots.txt ne contient pas

User-Agent: *

Disallow: / 

comme vous le dites Il contient

User-agent: *
Disallow: /judgment_view
Disallow: /payment
Disallow: /include
Disallow: /search.php*
Disallow: /admin

Bien que ce ne soit pas si important, cela empêcherait seulement analyse, et ne ferait pas supprimer le contenu de l'index.

Solution


Vous n’avez pas précisé votre objectif, cela n’est pas clair non plus à propos des étapes que vous avez suivies sur votre site, mais ce qui précède devrait servir de point de départ.

4
GDav

Google n'abandonne pas les pages très rapidement, en partie parce que les pages sont classées. Si elles devaient les supprimer rapidement, les gens se plaindraient de perdre leurs pages avec une erreur non remarquée. C'est donc un peu comme une période de grâce pour écourter les choses.

Le problème avec les redirections .htaccess est que Google peut supposer que c'est une erreur dans HTACCESS et qu'il reviendra périodiquement et vérifiera à nouveau. Si vous avez beaucoup de pages, cela est un processus fastidieux.

De plus, vous devriez en faire un sur chaque page, parce que le fichier robots.txt n’est pas toujours vérifié dans les analyses. Personnellement, je n’utiliserais pas du tout .htaccess, car ils reviendraient sans cesse en supposant que c’était une erreur. NOINDEX est plus rapide que les robots et htaccess mais essayez l'outil de suppression que j'ai lié ci-dessus.

<meta name="robots" content="noindex,nofollow">

Un autre facteur est également la manière dont Google traite votre site en termes de classement et ce qu’il considère en termes de rapidité. Donc, si votre vitesse sur un VPS en augmente la vitesse, cela augmentera le nombre de pages explorées par Google, car le robot Google l'explorera pendant une quantité X de temps imparti, puis partira quand même, et vous souhaiterez autant possible.

Meilleure méthode, Hit ou Miss

Maintenant, le meilleur moyen de supprimer rapidement les URL consiste à utiliser leurs outils pour les webmasters, mais vous avez 3 millions de pages qui deviennent irréalistes, mais il existe un outil de suppression de site que beaucoup ne connaissent pas et assez drôle, l’url est presque la même.

VÉRIFIER

http://www.google.com/webmasters/tools/removals

http://www.google.com/webmasters/tools/url-removal?hl=fr&siteUrl= (Il s'agit de l'outil pour les webmasters - vous pouvez demander le retrait de sites ci-dessus)

3
Simon Hayter

L'ajout de: <meta name="robots" content="noindex,nofollow"> à la section principale des pages de votre site permettrait-il d'accélérer les choses?

2
mahnsc