Duplicate possible:
Est-il possible pour les robots d'indexation web de voir des pages statiques sans suivre leur lien?
J'ai des URL (des fichiers pdfs et des fichiers HTML statiques) sur mon site Web que je veux que peu de personnes sachent. Ces URL ne contiennent aucun lien de pointage provenant de mon site Web ou de toute autre source.
Donc, ma question est la suivante: Google peut-il analyser une URL (par exemple, un fichier HTML statique) sans lien entrant?
Généralement non, mais vous devez être vraiment sûr que l'URL n'est présente nulle part sur le Web, dans votre sitemap si vous le publiez. Vous devez également faire attention aux statistiques d'accès au serveur Web si vous les rendez publiques.
En outre, vous pouvez toujours utiliser le fichier robot.txt
pour indiquer à Google de ne pas analyser les URL.
Mais ceci est juste une sécurité par obscurcissement, si vous voulez vraiment les protéger, utilisez un moyen approprié (authentification/autorisation)
Oui, Google le trouvera en quelque sorte!
Ils surveillent le navigateur/l'historique de recherche des internautes via les comptes/barres d'outils/réseaux sociaux Google, etc., puis utilisent ces données pour augmenter et hiérarchiser leur robot.
Ainsi, si un utilisateur visite votre page alors qu'il est connecté à un compte Google doté du suivi de l'historique de recherche, Google peut en savoir plus sur votre page. Vous ne pouvez pas non plus contrôler ce que les utilisateurs publient sur les sites de médias sociaux, etc.
Vous pouvez toutefois empêcher son inclusion dans l'index de Google. robots.txt , un simple fichier texte situé dans le répertoire racine www de votre serveur, arrêtera le GoogleBot dans ses traces.
Placez vos pages non google dans un seul répertoire et excluez-les comme ceci: -
User-agent: *
Disallow: /your-directory-name/
Comme @Matteo et @Zaph le notent, cette protection n'est pas réelle et n'arrête pas les utilisateurs déterminés de trouver votre contenu. J'utilise . htpasswd pour bloquer des zones de mes sites conjointement avec Gestionnaire d'accès au site Web de Coffee Cup , qui produit des fichiers htpasswd hachés, les télécharge sur votre site et permet la gestion multi-utilisateurs.
Tant qu'il n'y a pas de lien entrant ou quoi que ce soit qui puisse pointer Google vers le fichier (sitemap, structure des répertoires ouverts, etc.), j'estime qu'il ne devrait pas être indexé. Vous pouvez également placer les fichiers dans un dossier et le bloquer via le fichier robots.