Je construis un nouveau site, mais je crée le contenu à l'aide d'un sous-répertoire sur un site existant. Je n'ai jamais posté de lien vers ce sous-répertoire, où que ce soit, mais une recherche effectuée par Google révèle que Google a trouvé ces pages sur mon site et les a indexées.
De plus, j'ai mis à jour le site avec un fichier robots.txt que WMT indique comme étant en cours de lecture, et tester les pages bloquées à l'aide de l'outil de test WMT indique que les pages ne seront pas indexées. Apparemment, cela ne supprime pas les pages des résultats existants, bien que j'aie demandé à le faire.
Comment Google a-t-il trouvé ces pages pour commencer? Est-ce parce que j'ai utilisé un nom de sous-répertoire commun et que Google devine au niveau de sous-répertoires communs?
De nombreux systèmes de gestion de contenu, tels que WordPress, informent Google de chaque page publiée. WordPress appelle " services de mise à jour " et utilise par défaut ping-o-matic.
Google peut également utiliser les données obtenues des navigateurs pour commencer l'exploration. Si vous utilisez un navigateur avec une barre d’outils Google (ou un vérificateur de classement PageRank), Google obtient une liste de toutes les pages que vous visitez. Cependant, Google nie utiliser des données de barre d’outils à cette fin .
Google dit qu'une manière courante de découvrir des URL "secrètes" est de les lier à d'autres sites. Ces autres sites voient alors la page "secrète" dans le référent et publient parfois une liste de liens de parrainage (une caractéristique commune des blogs).
Je pense qu'en utilisant Chrome ou la barre d'outils Google, Googlebot vous suivra tout en naviguant sur votre propre site Web. Ainsi, il atteindra les pages que vous avez atteintes, indépendamment des liens pointant vers celles-ci.
À propos de la suppression du contenu de Google Index, je pense que cela prend un certain temps.
Veuillez poster ici les codes Robots.txt que vous avez utilisés pour bloquer l’accès. Google ne peut pas explorer le site Web à moins que vous n'ayez mis à jour votre fichier robots.txt après le lancement de ces pages, car Google effectue une exploration rapide et indexe l'URL avant que vous n'ayez réellement mis à jour votre fichier de robots. Si cela se produit, attendez, Google désindexera automatiquement votre URL.