Google indexe-t-il des pages qui n'ont aucun lien avec d'autres pages?

Question

Je travaille sur un projet Web qui compte près de 100 000 utilisateurs instantanés et il existe une page Web que nous utilisons pour les cas de test. Il n'y a pas de liens pointant vers d'autres pages. Il ne doit pas être indexé par Google ou tout autre moteur de recherche.

" noindex " peut être utilisé dans cette situation, je sais mais je me demande si Google (ou tout autre) indexe cette page, si je ne fais rien pour l'empêcher.

Zistoloen · Answer

Googlebot (le robot d'exploration de Google) peut découvrir votre page de différentes manières:

s'il trouve un lien vers votre page à partir d'une page Web (à l'intérieur ou à l'extérieur de votre nom de domaine)
si vous soumettez l'URL à votre compte Google Webmaster Tools via un sitemap.xml

Dans ce cas, la page peut être indexée. Dans la plupart des cas, Googlebot décide de l'indexer (par exemple, ce n'est pas le cas lorsque votre page contient beaucoup de contenu en double avec une autre page).

Si vous ne voulez pas que cette page soit indexée, mettez simplement cette <meta name="robots" content="noindex, nofollow"> tag dans votre page et bloquez la page avec votre robots.txt comme ceci:

User-agent: Googlebot (or * for all web crawlers) Disallow: /the-page

J&#233;r&#244;me Verstrynge · Answer

Si les robots d'indexation accèdent à cette page d'une manière ou d'une autre, et si elle n'est pas marquée comme noindex et qu'elle n'est pas bloquée dans votre robots.txt, alors oui, ils peuvent décider de indexez-le.

Vous pouvez également utiliser noarchive pour vous assurer qu'ils n'en conservent pas de version en cache.

Christoph B&#252;hler · Answer

Non, Google n'indexe pas automatiquement vos pages, si aucun autre site n'y renvoie. Vous devez placer un fichier robots.txt dans le répertoire racine de votre serveur, ce qui peut empêcher le moteur de recherche d'indexer les pages d'un dossier spécifique.

Cela pourrait ressembler à ceci:

User-agent: *
Disallow: /

Cela pourrait ressembler à ceci:

User-agent: * Disallow: /