J'ai une page Web statique écrite en HTML et CSS. Je ne veux pas qu'il soit indexé par Google. J'ai donc créé un fichier robots.txt dans le répertoire parent et interdit l'URL.
Je veux savoir:
Voici ce que vous devez faire:
Pour empêcher l'indexation de votre site par Google, l'utilisation d'un fichier robots.txt ne suffit pas. De plus, vous devez mettre un <meta name="googlebot" content="noindex">
dans toutes vos pages. Tous les détails à ce sujet se trouvent dans ce page d’assistance Google .
Pour vérifier que Google n'indexe pas vos pages, vous pouvez effectuer un site:www.example.com
(remplacer www.example.com
par l'URL de votre site) dans Google Search et vérifier qu'aucun résultat ne vous est apparu.
Si vos URL sont déjà indexées par Google, exécutez le point 1., renvoyez un statut HTTP Gone-410 pour toutes vos URL et demandez-leur de supprimer les URL de votre compte Google Webmasters.
Google a un document d'aide qui répond spécifiquement à cette question:
Bien que Google n'analyse pas et n'indexe pas le contenu des pages bloquées par le fichier robots.txt, il est possible que les URL soient indexées si nous les trouvons sur d'autres pages du Web. Par conséquent, l'URL de la page et, éventuellement, d'autres informations accessibles au public, telles que le texte d'ancrage dans les liens vers le site ou le titre du projet Open Directory (www.dmoz.org), peuvent apparaître dans les résultats de recherche Google.
...
Pour empêcher complètement le contenu d'une page d'être répertorié dans l'index Web Google, même si d'autres sites y sont liés, utilisez une balise méta-balise noindex ou balise x-robots . Tant que Googlebot récupérera la page, il verra la balise méta noindex et empêchera cette page de s'afficher dans l'index Web. L'en-tête HTTP x-robots-tag est particulièrement utile si vous souhaitez limiter l'indexation de fichiers non HTML tels que des graphiques ou d'autres types de documents.