La suppression d'une propriété Google Search Console supprimera-t-elle l'index du site Google?

Question

J'ai supprimé une propriété (site Web) de la Google Search Console. Le but était de supprimer le site Web des résultats des moteurs de recherche. Cela fera-t-il cela?

Chris Rogers · Answer

La suppression de votre site Web de la console de recherche ne supprimera pas votre site Web de ses index. Une fois votre site indexé, il restera indexé jusqu'à ce qu'il n'existe plus.

Retrait temporaire

Si vous souhaitez supprimer votre site Web de leurs index, utilisez outil de suppression d'URL . Mais ce n'est que temporaire.

Notes très importantes:

Une demande réussie ne dure que 90 jours environ. Après cela, vos informations peuvent apparaître dans les résultats de recherche Google (voir Rendre la suppression permanente).

L'effacement du cache ou le masquage d'une URL ne modifie pas la planification de l'analyse de Googlebot ni le comportement de mise en cache des pages. Lorsque vous demandez un blocage temporaire d'une URL, Google continuera à analyser votre URL, si elle existe et n'est pas bloquée par une autre méthode (telle qu'une balise noindex). Pour cette raison, il est possible que votre page soit à nouveau explorée et mise en cache avant de supprimer ou de protéger votre page par mot de passe, et puisse apparaître dans les résultats de recherche après l'expiration de votre interruption temporaire.

Si votre URL devient inaccessible par Googlebot, il supposera que la page a disparu et votre demande de blocage sera terminée. Toute page trouvée à cette URL plus tard sera considérée comme une nouvelle page pouvant apparaître dans les résultats de recherche Google.

Rendre le déménagement permanent

L'outil de suppression d'URL fournit uniquement une suppression temporaire. Pour supprimer définitivement du contenu ou une URL de la recherche Google, vous devez effectuer une ou plusieurs des actions supplémentaires suivantes:

Supprimez ou mettez à jour le contenu réel de votre site (images, pages, répertoires) et assurez-vous que votre serveur Web renvoie un 404 (introuvable) ou 410 (Fin) Code d'état HTTP. Les fichiers non HTML (comme les PDF) doivent être complètement supprimés de votre serveur.
Bloquer l'accès au contenu, par exemple en exigeant un mot de passe.
Indiquez que la page ne doit pas être indexée à l'aide de la méta-balise noindex .

closetnoc · Answer

La suppression d'une propriété de la console Google supprime uniquement le site Web de la console Google.

Je ne sais pas exactement quel est votre objectif, cependant, vous pouvez utiliser robots.txt pour supprimer votre site Web de Google, par exemple, en utilisant ...

User-agent: Googlebot Disallow: /

... ou tous les moteurs de recherche utilisant

User-agent: * Disallow: /

Chaque moteur de recherche a son propre nom de bot, par exemple, Bing est bingbot.

User-agent: bingbot Disallow: /

Robots.txt est un simple fichier texte à la racine de votre site Web. Il doit être disponible en tant qu'exemple.com/robots.txt ou www.example.com/robots.txt.

Vous pouvez lire sur robots.txt à robots.org

Une liste des plus gros noms de bots/araignées des moteurs de recherche peut être trouvée sur les meilleurs noms de bots des moteurs de recherche .

L'utilisation du fichier robots.txt et du nom de robot approprié est généralement le moyen le plus rapide de supprimer un site Web d'un moteur de recherche. Une fois que le moteur de recherche aura lu le fichier robots.txt, le site Web sera supprimé dans environ 2 jours, sauf si les choses ont changé récemment. Google avait l'habitude de supprimer des sites dans les 1-2 jours. Chaque moteur de recherche est différent et la réactivité de chacun peut varier. Sachez que les grands moteurs de recherche sont assez réactifs.

Pour répondre aux commentaires.

Robots.txt est en effet utilisé par les moteurs de recherche pour savoir quelles pages indexer. Ceci est bien connu et compris et est une norme de facto depuis 1994.

Comment fonctionne Google.

Google indexe les liens, les domaines, les URL et le contenu des pages entre autres données.

Le tableau des liens est utilisé pour découvrir de nouveaux sites et pages et pour classer les pages en utilisant l'algorithme PageRank qui est basé sur le modèle des réseaux de confiance.

La table URL est utilisée comme table de jointure entre les liens et les pages.

Si vous connaissez le schéma de base de données SQL,

La table des liens serait quelque chose comme: linkID linkText linkSourceUrlID linkTargetUrlID

La table de domaine serait quelque chose comme: domainID urlID domainAGE domainIP domainRegistrar domainRegistrantName ...

La table URL serait quelque chose comme: urlID urlURL

Le tableau des pages serait quelque chose comme: pageID urlID pageTitle pageDescription pageHTML

La table d'url est une table de jointure entre les domaines, les liens et les pages.

L'index de page est utilisé pour comprendre le contenu et indexer des pages individuelles. L'indexation est beaucoup plus compliquée qu'une simple table SQL, mais l'illustration est toujours valable.

Lorsque Google suit un lien, le lien est placé dans la table des liens. Si l'URL ne se trouve pas dans la table URL, elle est ajoutée à la table URL et soumise à la file d'attente d'extraction.

Lorsque Google récupère la page, Google cherche à voir si le fichier robots.txt a été lu et si oui, s'il a été lu dans les 24 heures. Si les données robots.txt mises en cache datent de plus de 24 heures, Google récupère à nouveau le fichier robots.txt. Si une page est restreinte par robots.txt, Google n'indexera pas la page ou ne supprimera pas la page de l'index si elle existe déjà.

Lorsque Google voit une restriction dans le fichier robots.txt, il est soumis à une file d'attente pour traitement. Le traitement commence tous les soirs comme un processus de style batch. Le modèle correspond à toutes les URL et toutes les pages sont supprimées du tableau des pages à l'aide de l'ID URL. L'URL est conservée pour le ménage.

Une fois la page récupérée, la page est placée dans le tableau des pages.

Tout lien dans la table des liens qui n'a pas été récupéré, ou qui est restreint par robots.txt, ou un lien rompu avec une erreur 4xx, ceux-ci sont appelés liens pendants. Et tandis que PR peut être calculé en utilisant la théorie des réseaux de confiance pour les pages cibles des liens pendants, PR ne peut pas être transmis à travers ces pages.

Il y a environ 6 ans, Google a estimé qu'il était sage d'inclure des liens pendants dans les SERPs. Cela a été fait lorsque Google a repensé son index et ses systèmes pour capturer de manière agressive l'ensemble du Web. L'idée derrière cela était de présenter des résultats de recherche valides aux utilisateurs même si la page est restreinte par le moteur de recherche.

Les URL ont très peu ou pas de valeur sémantique.

Les liens ont une certaine valeur sémantique, cependant, cette valeur reste peu car l'indexation sémantique préfère plus de texte et ne peut pas bien fonctionner en tant qu'élément autonome. Habituellement, la valeur sémantique d'un lien est mesurée avec la valeur sémantique de la page source (la page avec le lien) et la valeur sémantique de la page cible.

En conséquence, toute URL vers une page cible d'un lien suspendu ne peut pas du tout bien se classer. L'exception concerne les liens et les pages récemment découverts. En règle générale, Google aime "goûter" aux liens et pages récemment découverts dans les SERP en définissant par défaut les valeurs PR suffisamment élevées pour être trouvées et testées dans les SERP. Au fil du temps, le PR et le CTR sont mesurés et ajustés pour placer les liens et les pages là où ils devraient exister.

Voir ROBOTS.TXT DISALLOW: 20 ans d'erreurs à éviter où le classement comme je l'ai décrit est également discuté.

La liste des liens dans les SERP est erronée et beaucoup s'en sont plaints. Il pollue les SERP avec des liens rompus et des liens derrière les connexions ou les murs payants, par exemple. Google n'a pas changé cette pratique, cependant, les mécanismes de classement filtrent les liens des SERPs en les supprimant efficacement des SERPs.

N'oubliez pas que le moteur d'indexation et le moteur de requête sont deux choses différentes.

Google recommande d'utiliser noindex pour les pages, ce qui n'est pas toujours possible ou pratique. J'utilise noindex, cependant, pour les très grands sites Web utilisant l'automatisation, cela peut être impossible ou au moins lourd.

J'ai eu un site Web avec des millions de pages que j'ai supprimées de l'index Google en utilisant le fichier robots.txt en quelques jours.

Et bien que Google s'oppose à l'utilisation du fichier robots.txt et à l'utilisation de noindex à la place, c'est un processus beaucoup plus lent. Pourquoi? Parce que Google utilise une métrique de style TTL dans son index qui détermine la fréquence à laquelle Google visite cette page. Cela peut être une longue période pouvant aller jusqu'à un an ou plus.

L'utilisation de noindex ne supprime pas l'URL des SERP de la même manière que ne le fait pas robots.txt. Le résultat final reste le même. En réalité, Noindex n'est pas, en réalité, mieux que d'utiliser le fichier robots.txt. Les deux produisent le même effet tandis que le fichier robots.txt rend les résultats plus rapidement et en masse.

Et c'est en partie le but du fichier robots.txt. Il est largement admis que les gens bloqueront des sections entières de leur site Web à l'aide de robots.txt ou bloqueront complètement les robots du site. C'est une pratique plus courante que l'ajout de noindex aux pages.

Supprimer un site entier à l'aide du fichier robots.txt est toujours le moyen le plus rapide même si Google ne l'aime pas. Google n'est pas Dieu ni son site Web le Nouveau Nouveau Testament. Aussi dur que Google essaie, il ne règne toujours pas sur le monde. Merde près, mais pas encore tout à fait.

L'affirmation selon laquelle le blocage d'un moteur de recherche à l'aide de robots.txt empêche en fait le moteur de recherche de voir une balise META noindex est un non-sens absolu et défie toute logique. Vous voyez cet argument partout. Les deux mécanismes, en effet, sont exactement les mêmes, sauf qu'un est beaucoup plus rapide en raison du traitement en masse.

Gardez à l'esprit que la norme robots.txt a été adoptée en 1994 alors qu'en 1996, la balise META noindex n'avait pas encore été adoptée par Google en 1997. Au début, supprimer une page d'un moteur de recherche signifiait utiliser le robots.txt fichier et est resté ainsi pendant un certain temps. Noindex n'est qu'un complément au processus déjà existant.

Robots.txt reste le mécanisme numéro 1 pour restreindre ce qu'un moteur de recherche indexe et le fera probablement aussi longtemps que je serai en vie. (Je ferais mieux de faire attention en traversant la rue. Plus de parachutisme pour moi!)