Je travaille sur un projet Web qui compte près de 100 000 utilisateurs instantanés et il existe une page Web que nous utilisons pour les cas de test. Il n'y a pas de liens pointant vers d'autres pages. Il ne doit pas être indexé par Google ou tout autre moteur de recherche.
" noindex " peut être utilisé dans cette situation, je sais mais je me demande si Google (ou tout autre) indexe cette page, si je ne fais rien pour l'empêcher.
Googlebot (le robot d'exploration de Google) peut découvrir votre page de différentes manières:
Dans ce cas, la page peut être indexée. Dans la plupart des cas, Googlebot décide de l'indexer (par exemple, ce n'est pas le cas lorsque votre page contient beaucoup de contenu en double avec une autre page).
Si vous ne voulez pas que cette page soit indexée, mettez simplement cette <meta name="robots" content="noindex, nofollow">
tag dans votre page et bloquez la page avec votre robots.txt comme ceci:
User-agent: Googlebot (or * for all web crawlers)
Disallow: /the-page
Si les robots d'indexation accèdent à cette page d'une manière ou d'une autre, et si elle n'est pas marquée comme noindex
et qu'elle n'est pas bloquée dans votre robots.txt, alors oui, ils peuvent décider de indexez-le.
Vous pouvez également utiliser noarchive
pour vous assurer qu'ils n'en conservent pas de version en cache.
Non, Google n'indexe pas automatiquement vos pages, si aucun autre site n'y renvoie. Vous devez placer un fichier robots.txt dans le répertoire racine de votre serveur, ce qui peut empêcher le moteur de recherche d'indexer les pages d'un dossier spécifique.
Cela pourrait ressembler à ceci:
User-agent: *
Disallow: /